首页 > 医疗资讯/ 正文
深度学习在一系列生物任务中取得了相当大的进展。然而,对于基因组学数据来说,这一进展仅限于预测基因组中序列元素和位置的特征,如转录因子结合、DNAse-I敏感性和基于组蛋白的修饰,或序列是否作为启动子。在更高层次上进行预测,例如在一系列基因组测量的层面上,因维度的诅咒而变得复杂——高维度空间使数据稀疏,并普遍促进过度拟合。

目前解决这个问题的方法包括通过特征选择手动减少维度,通过奇异值分解、负矩阵分解和各种类型的自动编码器等维度缩小技术,或使用试图减少模型权重的稀疏网络。然而,减少数据的维度或模型的容量可能会产生次优结果。
无论单个基因组测量的特征是如何生成的,目前都会进行一个简单的聚合,如和或均值,以获得样本级向量(代表一组基因组测量)。然后,将随机林或神经网络等模型应用于这些样本向量,以执行手头的样本级机器学习任务。这个过程基本上对从给定样本中得出的集合的每个基因组测量进行同等加权,而事实上,一些特定测量可能更突出。
一种更现代的注意力策略,将基因组测量动态加权到样本级特征向量中,可以识别这些特定测量。此外,根据目前的方法,所有学习都发生在样本层面,并且不可能进行“端到端”培训,这将允许由机器学习任务驱动的基因组测量的新编码策略。
这个监督薄弱的问题,即为单个措施(实例)学习特征,而监督发生在样本级别,是多实例学习(MIL)框架。MIL最近彻底改变了计算病理学领域,允许研究人员识别癌症亚型或起源组织,或预测存活率。癌症生物学领域的其他标签可能包括癌症的存在与否,或对治疗的反应,稀疏的基因组测量可能是躯体突变、循环DNA片段、新肽、RNA/蛋白质修饰、拷贝数改变或甲基化位点。
躯体突变是一个复杂但经过充分研究的基因组测量,已经了解了大部分生物学,并有足够的数据来测试新模型。在构建体细胞突变的特征时,目前对生物学的理解可以很容易地引入,例如利用有关基因或路径的信息。然而,对于给定的任务,可能并不总是清楚已知的生物学适用什么,一些措施可能具有不确定的生物学。
在这些情况下,可以使用测量的基本属性,并允许模型通过关注特定实例和/或实例的学习表示来向我们显示哪些特征是重要的。体细胞突变的一些基本特性是其局部序列上下文,之前通过查看相邻的5′和3′核苷酸来总结,以及其基因组位置,该位置表示为1 Mb bins。
2023年11月2日发表在Nature Biomedical Engineering的文章,介绍了一个用于执行注意力MIL的工具,并演示其对体细胞突变数据的应用。本文使用这个模型来计算突变的基本属性,无论是局部序列上下文还是基因组位置。使用模拟数据,本文探索了一系列任务的各种MIL实现,并将拟议的方法与该领域的传统机器学习方法进行比较。
然后,研究人员将模型应用于肿瘤分类,并学习序列和位置的显著特征,同时超越当前方法的性能。最后,本文将模型与确定微型卫星状态的最先进技术进行比较,尽管可比工具使用特定于任务的先验知识,而拟议的方法没有,但本文的模型表现良好。
在这里,本文展示了一个具有多头注意力的弱监督端到端多实例学习模型,可以训练来编码和聚合体细胞突变的局部序列上下文或基因组位置,从而允许对样本级分类的单个措施的重要性进行建模,从而提供增强的可解释性。
研究结果显示,该模型解决了传统模型失败的合成任务,并在肿瘤类型分类和预测微卫星状态方面实现了一流的性能。通过提高需要基因组数据集汇总信息的任务的性能,多实例深度学习可能会产生生物洞察力。

实例特征载体揭示了已知的癌症生物学
综上所述,许多基因组技术生成的数据可以被认为是“大p(特征),小n(样本)”,其中每个样本的可能措施/特征数量大大超过样本数量。例如,体细胞突变可以发生在基因组的任何地方,从而为每个样本创造数不数的可能独特特征。类似的考虑也适用于循环DNA片段、CHIP-SEQ峰值、甲基化位点或RNA/蛋白质修饰。注意MIL是这些问题的自然解决方案,因为它本质上转移了问题——在提取相关特征时,大量实例数据是一种好处,而不是障碍。
原文出处
Anaya, J., Sidhom, JW., Mahmood, F. et al. Multiple-instance learning of somatic mutations for the classification of tumour type and the prediction of microsatellite status.Nat. Biomed. Eng 8, 57–67 (2024). https://doi.org/10.1038/s41551-023-01120-3
猜你喜欢
- Advanced Science | 北京大学郑瑞茂团队发现调控脂肪组织褐变新机制
- 女子为省电关空调导致碱中毒 这件常见物品能救命!
- 注射瘦腿针有哪些优势 注意事项有这些
- #年味食足#花开富贵之胡萝卜蒸牛肉的做法-家常味蒸菜谱
- 肝癌疾病的病症有哪些
- 女人生理期怎么减肥?饮食策略要学会
- JAMA 子刊:0.1%无水环孢素治疗中度至重度干眼症有效
- EASL2026丨张继明教授团队:治疗结束时HBsAb联合HBV RNA可有效预测HBsAg逆转
- NEJM:瑞德西韦治疗可预防Covid-19门诊患者病情进展
- Lancet:急性卒中伴房颤患者 4 天内启动口服抗凝药,显著降低 30% 卒中复发风险且不增出血
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)