首页 > 医疗资讯/ 正文
识别药物和靶标之间是否具有相互作用是早期药物发现中的关键环节。相比于耗时费力的实验方法,使用计算方法预测药靶关系已经成为主流。用于识别药靶相互作用的计算方法可以按是否依赖于蛋白质结构而粗略地分为两类,其中基于结构的方法不需要药靶关系的先验知识,对打分函数的精度和结合模式的质量有很高的要求,另一种方法根据已探明的药靶作用进行推测,包括基于网络推理的方法和基于矩阵分解的方法等。

近年来,以ChEMBL、PDBbind等为代表的公开数据集发展迅速,可得的药靶关系数据越来越多,不依赖结构的预测方法迎来了发展契机。不过,由于这类方法极其依赖先验数据的质量,数据巨大、难以质控的数据也常常成为这些预测方法的桎梏。目前公开数据中经过实验验证的非活性数据是稀缺的,不平衡的数据常常导致较差的预测泛化能力。
为了解决上述问题,研究人员常常采用随机配对产生新非活性样本,这却可能产生假阴性的数据而误导模型的决策。因此,京都大学的Y. Okuno团队提出了一种自训练方法进行数据增强并获得了一个泛化能力强的药物-靶标相互作用预测模型。相关工作近期发表在美国化学会出版的计算化学与化学信息学核心期刊Journal of chemical information and modeling上(J. Chem. Inf. Model. 2023, 63, 15, 4552–4559)。
本文中,研究者从ChEMBL、BioPrint、Davis和BindingDB四个数据库中广泛收集了实验验证的蛋白-配体相互作用数据,并通过随机配对的方式产生了无标签样本,模型则采用经典的自训练方法构建。自训练方法主要有两部分组成:教师模型和学生模型。教师模型首先在有标签的数据集上进行训练,然后对无标签模型进行预测,以预测值作为“软标签”加入训练集供学生模型训练,训练完成的学生模型又可以作为教师模型为新的学生模型提供新的“软标签”。迭代多轮后,我们就可以得到一个覆盖较大样本空间的模型。

图1:自训练方法的流程及模型主要架构示意图
在模型性能评价阶段,研究者分别在内部和外部测试集上都进行了测试。相比于基准模型,使用了自训练进行数据扩增的模型在G蛋白偶联受体和激酶两大类蛋白上平均ROC-AUC(受试者工作特征曲线下面积)和PR-AUC(精度-召回曲线下面积)分别从0.9139和0.9962提高到0.9336和0.9974,与其他试图解决数据不平衡问题的方法比也有明显的指标领先。在BioPrint、Davis和BindingDB这三个外部测试集上,自训练模型相比于基准模型在两个指标上也各有小幅度提升。值得注意的是,尽管自训练增加了非活性样本以平衡数据集,但模型并没有倾向于给出非活性的预测结果。然后研究者以Davis数据集在蛋白水平评估了模型的泛化能力。与其他方法获得的模型相比,自训练模型在测试集中新靶标上能够取得更高的指标,说明自训练策略能帮助模型将有效的决策边界推广到了训练集之外。

图2:各类模型在外部测试集上的性能。(A)在BioPrint数据集上的测试结果;(B)在Davis数据集上的测试结果
最后,研究者对训练集中的活性和非活性样本进行可视化以验证方法的有效性。如图3所示,自训练得到的模型本就能够获得更清晰的决策边界,而增加“软标签”标记的数据后(图3C),原数据的分布没有被破坏且决策边界更加明显,充分证明了其方法的优势。

图3:使用UMAP对训练集中的激酶类样本进行可视化展示。(A)基准模型;(B)自训练模型;(C)增加“软标签”样本的自训练模型
小编评论
该文作者开发了一个基于自训练进行数据增强的药物-靶标相互作用预测模型,是一个使用自训练的半监督学习典型案例,但小编认为其创新之处稍显不足。作为一种比较先进的训练方法,该工作的结果领先一些“传统”方法似乎是理所应当的,缺少必要的和其它先进方法比较的结果。另外,该工作虽然广泛收集了公开数据集中的药靶关系并制作了训练集和测试集,数据量上有明显的提高,但是没有对训练集进行去冗余处理,这可能导致对模型性能的高估。总体而言,该工作为我们展示了数据量较少或数据集不平衡时如何提高模型的泛化能力,对相关药物研发人员具有启发价值。
参考文献
【1】Koyama, T.; Matsumoto, S.; Iwata, H.; Kojima, R.; Okuno, Y., Improving Compound-Protein Interaction Prediction by Self-Training with Augmenting Negative Samples. J. Chem. Inf. Model. 2023, 63, 4552-4559.
- 上一篇:临床体征作为休克指标的价值
- 下一篇:人类多能干细胞治疗:正在成长中的巨人
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)