首页 > 医疗资讯/ 正文

【论肿道麻】人工智能在癌症研究中的实用指南

来源 2025-03-14 12:08:59 医疗资讯

人工智能(AI)已经实现了商品化,从专业资源转变为癌症研究人员易于获取的工具。基于AI的工具不仅能在日常工作流程中提高研究效率,还能从现有数据中挖掘隐藏信息,推动新的科学发现。对每位癌症研究人员而言,掌握这些工具的基础知识都十分有用。以传统生物科学为重点的研究人员可以通过现成的软件使用基于AI的工具,而计算背景更强的研究人员则可开发自己的基于AI的软件流程。2024年5月,Nature Reviews Cancer上发表了一篇综述:A guide to artificial intelligence for cancer researchers,介绍了人工智能在癌症研究中的关键概念和工具,为非计算背景的癌症研究人员提供了一份实用指南,帮助我们理解和应用AI工具。

图片

人工智能(AI)是一组计算技术,旨在使机器能够执行通常由人类完成的任务。在过去的几十年里,人工智能已经从一种理论构建逐渐发展成为现实世界中的强大工具。特别是在生物医学研究领域,AI的应用已经取得了显著的成果。癌症作为威胁人类健康的重大疾病之一,其研究一直备受关注。近年来,AI在癌症研究中的应用日益增多,为癌症的预防、诊断和治疗提供了新的思路和方法。

在癌症研究中,AI技术可以帮助研究人员从海量数据中提取有用信息,发现新的科学规律,提高研究效率。AI在癌症研究中的应用主要依赖于人工神经网络(ANN)和深度学习(DL)等技术。

图片

图1.癌症研究中的AI工作流程

深度学习算法主要分为监督学习、无监督学习和强化学习三类。监督学习依赖于带标签的数据进行训练,常用于图像分类和预测。无监督学习在没有明确标签的情况下发现数据模式,常用于聚类和异常检测。强化学习通过与环境交互来学习最佳策略,常用于自动化任务。在癌症研究中,强化学习可用于个性化癌症筛查和临床试验设计等领域。

深度学习能够有效处理图像、文本等非结构化数据。在计算机视觉领域,2010年代卷积神经网络(CNNs)取得核心进展。在自然语言处理(NLP)领域,长短期记忆(LSTM)网络及其相关架构被广泛应用。2020年代出现的Transformer神经网络在图像和语言处理任务中表现出色,能捕捉长距离依赖和全局上下文信息,与自监督学习结合推动基础模型发展。

图片

图2.计算机视觉模型的发展

深度学习在癌症研究中应用广泛,可提高研究人员的工作效率。一方面,它能处理多种实验检测结果和文本数据,分析微观图像、基因组信息等复杂数据类型。另一方面,深度学习通过两种方式助力癌症研究:一是提供无需编程技能的用户友好型工具,如QuPath和ilastik,用户可通过图形界面分析显微镜图像;二是利用Python等编程语言与深度学习架构交互,实现更灵活的功能,但需要一定编程基础。在医学成像数据分析中,深度学习可精准检测肿瘤,识别遗传数据中的细微模式,助力理解癌症遗传起源。在药物研发中,深度学习通过分析计算和实验数据,高效筛选潜在化合物,加速新药研发进程。在组织病理学分析中,深度学习能准确区分良性和恶性细胞,提取临床可用的生物标志物,为癌症诊断和治疗提供重要依据。

AI在生物医学图像分析中的应用

1.1 细胞和分子成像分析:

癌症研究常涉及数字图像分析,传统手动分析效率低、易出错,尤其在处理大量图像时几乎不可行。应用AI 技术可使分析更客观、可靠、高效。例如在相差显微镜下的细胞检测中,AI能迅速准确地识别单个细胞,并将其分类为活的或死的。这类分析正被广泛应用,开源社区已经开发了数十种人工智能方法来分析显微镜图像,为研究人员提供了更多灵活性和功能。例如,QuPath 是一款通用的软件,能够处理包含数千亿像素的显微镜图像,其中单个图像文件可能包含多个千兆字节的压缩数据。QuPath 允许用户无需编程技能即可访问流行的细胞检测人工智能模型,如“星手”(StarDist)。同样,ImageJ、ImageJ2 和斐济(Fiji)是生物学领域中许多图像查看和分析任务的标准工具。这些工具支持查看多通道和多维图像,甚至能够处理更不常见的文件格式,如 CZI 或 MRXS,这得益于其集成的生物格式(Bio-Formats)功能。这些开源工具不仅扩展了显微镜图像分析的适用范围,还为研究人员提供了强大的技术支持,使其能够更高效地完成复杂的图像分析任务。对于特定应用,若缺乏现成模型或平台,研究人员可基于深度学习开发自己的软件,并通过开源许可证共享,推动研究进展。此外,一些先进的生物成像技术,例如从低分辨率或噪声数据中重建高分辨率荧光图像,如果没有人工智能,就无法有效实现。虽然 ImageJ 能够执行基本的图像重建任务(如图像拼接),但基于人工智能的方法通过学习去除噪声、提高分辨率以及从可用数据中推断缺失信息,可以显著提升重建图像的质量。

1.2 组织病理成像分析

在癌症研究中,组织学分析是诊断和评估患者或动物模型肿瘤组织的重要手段。肿瘤的组织学形态反映了其基因组、表观基因组以及环境中的多种分子过程的综合结果。因此,将组织学切片数字化为高分辨率、十亿像素级别的图像至关重要。然而,分析这些图像面临巨大挑战,主要源于其庞大的数据量和高度详细的内容。这种复杂性往往超出了标准显微镜图像分析工具(如ImageJ和Fiji)的处理能力,尤其是在处理大规模数据时。相比之下,其他软件(如QuPath)则专门优化了十亿像素图像的处理能力。研究表明,AI方法能够自动分析病理切片的形态学特征,仅通过观察常规的H&E切片即可对潜在的基因改变进行定量预测。这种方法不仅重新验证了基因型与表型之间的已知联系,还具备扩展到检测新的基因型-表型关系及其他具有未知形态表现的基因改变的潜力。具体而言,人工智能模型能够从苏木精-伊红(H&E)染色切片中预测单个基因的突变状态、DNA修复机制的缺陷(如MSI和同源重组缺陷)以及肿瘤突变负担。此外,这些模型还能够识别上皮肿瘤和间质肿瘤区域的形态学模式,甚至可以在不需要免疫组化或免疫荧光的情况下,预测乳腺癌样本中的激素受体表达状态。总之,人工智能在病理学中的应用已经证明,肿瘤的分子特性可以通过基本的H&E图像进行识别。

1.3 放射学成像分析:

临床放射学在诊断、治疗和监测治疗反应中广泛应用,包括CT、MRI和正电子发射断层扫描(PET)等技术。与组织病理学不同,放射学直接生成数字图像,因此不受数字化过程的限制。计算机视觉模型的融入显著提升了放射学的分析能力,提高了诊断准确性、推动了个性化治疗计划的制定。

在放射学领域,传统机器学习模型依赖手工制作的放射组学特征,在识别图像模式方面取得了一定成功;深度学习模型则可直接处理原始放射学数据,自动识别相关特征,在处理大量数据时表现更优。但在数据有限的情况下,深度学习模型可能出现过拟合,此时传统机器学习模型可能更可靠。因此,选择合适的方法需深入理解方法原理和数据特点。

神经网络为医学图像分析提供了强大手段,可直接处理全图像数据,避免手工绘制感兴趣区域(ROI)的繁琐过程,这种方法不仅使模型能够从肿瘤中学习模式,还能从医学扫描中捕获的其他解剖结构中提取信息。此外,与依赖预定义手工特征的传统方法不同,人工智能模型能够直接从图像数据中自动学习相关特征。这种能力在提高图像质量的同时,还能显著减少采集时间,从而在医学图像分析中发挥关键作用。近年来,通过大规模训练,AI在放射学领域取得了显著进展,现在能够从全身扫描中精确描绘出每个器官,为医学成像设定了新的标准。一些计算机辅助系统被用于增强放射学成像分析,如肺癌和乳腺癌的筛查以及脑肿瘤的诊断,相关应用在大规模前瞻性临床试验中得到验证。此外,机器学习和AI模型在识别与特定突变和治疗反应相关的细微癌症模式方面展现出巨大潜力,为精准医疗提供了新的可能性。

1.4 基础模型在生物医学图像分析中的应用

基础模型(也称为预训练模型)是AI领域的一种重要类型,它们通过自监督学习(SSL)在大型多样化数据集上进行预训练。这些模型可以处理多种数据类型,包括图像、文本或两者的结合。其目标是学习通用的特征和模式,而不是针对特定任务从头开始训练。例如,基础模型可以通过在不同条件下、使用不同显微镜(如亮场和荧光成像)获取的多样化显微镜图像进行训练。这种预训练使模型能够对数据形成广泛的理解,随后可以使用较小的标记数据集对特定任务进行微调。这种方法不仅提高了模型的泛化能力,还减少了对大规模标注数据的依赖,从而在多种应用中展现出强大的潜力。

自21世纪20年代初以来,基础模型在生物医学图像分析领域崭露头角,并随着自监督学习(SSL)的兴起而迅速发展。这些模型通常作为起点,通过使用较小的、标记的数据集进行微调,从而生成更专注、更专业化的模型。此外,类似的基础模型正在被开发用于其他医学成像模式,包括跨模态应用,展现了其在生物医学领域的广泛潜力。跨模态应用是指能够处理和整合来自不同数据类型信息的AI系统,例如将放射学图像与临床记录、病理图像或基因组数据结合起来。实现这种能力需要大量的计算资源、工程支持以及对大规模数据集的访问。理想情况下,这需要一个配备多个甚至数十个图形处理单元(GPU)的计算集群。2023年,多个研究小组和商业实体发布了开源的基础模型,使得这些强大的工具能够被更广泛地访问和应用。尽管目前利用这些模型仍需要一定的Python编程技能,但未来的发展有望进一步推动该技术的商品化,从而使编程专业知识有限甚至没有编程背景的研究人员也能够轻松使用这些工具。

AI在自然语言处理中的应用

图片

图3.癌症研究中基于文本的AI工作流程

2.1 自然语言处理与大语言模型

自然语言是一种非结构化数据,长期以来,基于计算机的分析在这一领域面临巨大挑战。然而,自21世纪20年代初以来,大型语言模型(LLMs)的出现显著提升了自然语言处理(NLP)的能力,使其成为当前处理文本数据的最先进方法。

自然语言处理(NLP)是人工智能领域的一个分支,专注于计算机与人类语言之间的交互。大语言模型(LLMs)是用于NLP任务的一种特定类型的人工智能模型,尤其是基于Transformer架构的LLMs,近年来已成为NLP应用中最流行且最有效的方法。作为生成式人工智能的一部分,LLMs不仅能够重新措辞、总结或翻译文本,还能够生成全新的文本内容。

随着LLMs的日益普及和标准化,NLP方法变得更加易于访问,使得非专家也能够使用现成的模型(如OpenAI的ChatGPT)解决NLP任务。这些模型不仅能够存储和检索知识,还能够对文本进行推理、翻译、风格转换,并从放射学报告、病理报告和医疗记录中提取结构化信息。此外,LLMs具备医学知识,例如能够根据成像报告提供医疗建议。这些能力在癌症研究中尤为重要,因为癌症研究依赖于多个层面的文本数据——从记录初始想法和实验数据,到交流见解和传播科学发现。LLMs的应用为这一领域带来了深远的影响。

LLMs在癌症研究中的应用预计将对研究方法产生深远影响,尽管由于监管和验证的挑战,其临床应用仍处于早期阶段。LLMs的出现为癌症研究开辟了众多新的应用领域,其中许多才刚刚开始被探索。研究人员现在可以利用这些现成的模型完成多种任务,例如解析和完善想法、总结实验室笔记、推理复杂概念、获取新技能、压缩文件以及更高效地传播研究成果。随着NLP技术的进一步发展,我们不断发现新的应用场景,每一个都有可能提升学术研究的效率和范围,并最终推动肿瘤学临床实践的变革。

值得注意的是,LLMs与传统机器学习方法有显著不同。经典的机器学习需要针对特定问题准备数据集,并对这些数据进行模型训练和评估。而LLMs(如OpenAI的生成式预训练Transformer模型GPT,包括ChatGPT的基础模型)是基于基础模型设计的。这些模型通过自监督学习(SSL)在涵盖广泛领域(包括医学和科学文本)的大规模文本语料库上进行训练,积累了丰富的知识库。由于训练这些模型需要大量的计算资源,研究人员通常直接以零样本(zero-shot)的方式将基础LLMs应用于研究任务。这种零样本应用方式为研究提供了极大的灵活性和效率。

2.2 LLMs在癌症研究中的应用方式

零样本应用(Zero-shot Application)

零样本应用是一种普遍使用的方法,指直接将LLM应用于任务,而无需针对特定任务进行训练。例如,研究人员可以通过输入文本提示模型,让其对非结构化笔记进行整理或总结。零样本应用的有效性依赖于提示工程(Prompt Engineering),通过有效的措辞可以显著提升结果,而无需额外的数据或算法调整。在医学领域,零样本方法已被用于总结放射学报告、病理报告或临床记录,甚至可以根据放射学图像提供治疗建议或回答医学检查问题,在简单任务中表现良好。

少样本学习(Few-shot Learning)

当零样本应用效果不佳时,研究人员可以采用少样本学习方法,为LLM提供少量示例来演示任务需求,而无需重新训练模型。少样本学习最便捷的方式是上下文学习(In-context Learning),即将示例作为提示的一部分传递给模型。例如,研究人员可以通过提供少量科学引文示例,让LLM按照特定风格格式化新的引文。然而,上下文学习受限于模型的最大输入长度,对于许多模型来说,这一限制通常不超过几十页文本。

检索增强生成(Retrieval-Augmented Generation, RAG)与微调

RAG是另一种常见的增强上下文模型的方法。这种方法通过结合外部知识库和LLM的能力,进一步提升模型在复杂任务中的表现。在RAG中,LLM可以将文档嵌入向量表示中,并在接收到提示时访问相关信息。RAG不受文档大小的限制,可以通过编程接口或面向用户的在线工具轻松实现。例如,RAG可以为LLM提供包含数百页文本的文档,并基于文档中的知识回答问题。

如果零样本应用、少样本学习和RAG等方法仍无法满足需求,最终的方法是使用自定义数据集对LLM进行微调。例如,NYUTron是一个专门针对药物的LLM,它通过在患者电子健康记录(EHR)上进行训练,能够预测临床结果。但从头开始训练LLM或微调现有LLM需要大规模数据集和大量计算资源。商业上可用的LLM(如OpenAI的GPT-4或Anthropic的Claude 3)通常是在互联网上的全部公开数据上进行训练的。NYUTron则使用了大约75万名患者的常规临床记录进行训练。因此对于大多数研究人员来说,零样本应用和少样本学习通常是更常用的方法,在实践中可以采用多种结合的优化策略,逐步提升LLM的性能。总的来说,LLM对癌症研究最重要的贡献可能并不在于其类人的文本处理能力,而在于它彻底颠覆了传统的机器学习工作流程,从僵化的“训练-测试-评估”周期转向了灵活的零样本应用。

2.3如何使用LLMs:

LLMs通常在数据中心的服务器上运行,用户可以通过Web接口、移动应用程序或应用程序编程接口(API)访问它们。例如,由OpenAI开发的GPT-4、由谷歌开发的Gemini 1.5以及由Anthropic开发的Claude 3等,都是高度先进的LLMs,通常通过Web界面进行访问,这种方式操作简便,适合普通用户。其次,用户可以利用API,这种方式提供了更高的灵活性,并允许将LLMs集成到特定项目或工作流程中。第三,用户可以使用集成LLMs的软件平台(如You.com),软件集成了搜索、数据可视化和分析等功能,为需要高级功能的用户提供更全面的工具集。

此外,LLMs的开源生态系统正在迅速发展,包括Llama、Mixtral及其许多衍生物。例如,用户可以通过Hugging Face等门户网站获取这些开源模型。这些开源LLMs可以在标准的商业硬件上本地运行,适用于生物医学文本处理等任务。这种方式使研究人员能够完全控制自己的数据,并确保数据的机密性。

人工智能的新兴应用

3.1 多模态数据融合 

多模态数据融合是深度学习的重要发展方向,旨在有效整合多种数据模态的信息。在癌症研究和临床诊断中,结合多种数据类型作为深度学习系统的输入,可提高分类和预测的准确性。例如,在组织病理学图像处理中,加入患者的诊断、年龄和性别等表格数据,能提升模型性能;在放射学图像处理中,整合临床数据与图像可增强诊断准确性;同时使用H&E染色和免疫组化染色切片作为输入,能更好地预测患者风险;将基因组数据与常规病理学数据相结合,可提供空间分辨率和分子细节。但获取大量患者的多模态数据在实际中困难较大,因此安全存储所有可用的匿名数据,以便未来用于多模态深度学习研究至关重要。

3.2 视觉大语言模型(Vision LLMs 

视觉大语言模型与多模态数据融合不同,它在包含文本和图像的大规模多样数据集上预训练,能够同时处理和生成文本与图像。与针对特定任务训练的多模态数据融合模型相比,Vision LLMs具有更通用和灵活的特点,可在多种任务中进行最小化微调。一些具有视觉能力的LLMs,如Claude 3和GPT - 4,已在癌症研究中得到应用。开源的Vision LLMs,如Llava及其医学专家模型Llava - Med,以及专为病理学家设计的聊天机器人PathChat,在生物医学图像分析中展现出良好的潜力。这些技术的快速发展表明,Vision LLMs在癌症研究和临床实践中将发挥越来越重要的作用。

3.3 基因组和蛋白质组分析

LLMs不仅在自然语言处理中表现出色,还可应用于生物序列数据。在基因组数据分析领域,虽然已有成熟的经典生物信息学流程,并且是从原始测序读数中提取科学相关或临床可操作信息的最先进方法。这些流程运行良好且易于理解,所以没有迫切需要用深度学习来取代它们。但深度学习有可能发现更细微的基因组特征,如特定的DNA损伤特征。在基因组数据分析中使用深度学习的另一个理由是为多模态模型奠定基础。除了解析基因组序列,深度学习还可用于预测感兴趣基因的抗原呈递可能性,AlphaFold模型通过深度学习预测蛋白质三维结构,解决了生物学领域的难题,为后续预测所有可能的人类单氨基酸变化的错义突变,或者分析所有已知蛋白质的相似性等应用奠定了基础。

3.4 药物发现与临床实验优化

机器学习在药物发现领域已经应用了几十年,随着大型Transformer模型的成功,AI驱动的工具成为这一领域的焦点。例如,AlphaFold等模型可高效预测蛋白质结构,有助于预测潜在药物候选物与蛋白质功能区域的结合,探索蛋白质的组合空间,发现具有治疗潜力的化合物。

此外,AI模型可以被训练来生成具有特定属性的化合物,包括小分子、RNA或蛋白质等。最近的研究表明,AI模型能够识别与抗生素活性相关的化学亚结构,从而预测新的抗生素类别和物质。这种方法已被用于评估数百万种化合物,筛选出具有潜在抗生素特性且对人类细胞低毒性的化合物。值得注意的是,在测试的化合物中,有一些显示出了对耐药细菌的有效性。同时,AI还被用于模拟不同药物之间的潜在协同效应。这些进展显示了AI在药物发现中的广泛应用和巨大潜力。

另一种方法是利用LLMs在药物研究中导航知识图谱,从而使研究人员能够更快、更高效地探索现有知识空间。知识图谱是一种结构化的信息表示方式,它捕捉了实体(如化合物、蛋白质和疾病)及其之间的关系(如药物-靶标相互作用或疾病-基因关联)。通过利用存储在这些知识图谱中的大量信息,LLMs可以帮助研究人员识别潜在的候选药物、预测药物-药物相互作用,或重新利用现有药物治疗新的适应症。

AI工具不仅影响了药物发现中的计算研究,还展示了与实验科学的结合潜力。例如,最近的一项研究表明,LLMs可以与机器人系统结合,用于自主进行化学实验。自21世纪20年代初以来,基于AI的药物研发公司发展迅速并与大型制药公司合作,凸显了这些技术的商业潜力不过其关于人工智能药物设计能力的说法或存偏差,其真正效果有待实证。

在一种候选药物被开发出来后,它需要进入临床试验阶段,但目前约90%的候选药物未能成功进入临床实施。AI工具有潜力在多个层面上改善这一问题。例如,人工智能可以通过优化合格标准、提高候选对象识别、筛选和纳入效率来改进试验招募过程。LLMs可以解析电子健康记录(EHR)数据或从病理切片中预测基因改变帮助更快地识别潜在的临床试验参与者,但目前很少有研究对此进行实证检验,这可能是因为相关技术仍然较新(如LLM GPT-4直到2023年才发布)。此外,人工智能在医学成像中的应用可以帮助识别疾病进展的早期迹象,从而比主观描述结直肠癌或肺癌等肿瘤大小的变化更有效地支持治疗决策。

为了实现并验证这些新兴的人工智能在基因组学和药物发现中的应用,独立的科学评估和严格的临床试验至关重要。如果药物发现中的AI模型能够开源,以便独立研究人员测试和改进其性能,这将是非常有益的。这种开放性和透明度将有助于推动技术的进步和临床应用的可靠性。同时AI研究人员、癌症生物学家和临床医生需紧密合作,确保工具与临床相关,满足患者和医疗服务者需求。

结论

将AI应用于癌症研究的一个关键挑战在于挖掘肿瘤学中真实世界数据(RWD)的潜力,这些数据包括电子病历(EHR)、医学图像、肿瘤样本和血液检测结果。与临床试验数据不同(临床试验数据是在易于访问的协议中预先收集的),RWD通常是非结构化、异构且分散在不同系统中的。EHR系统是真实世界中基于AI系统的一个特别有价值的数据来源。

基于AI的常规临床数据分析为个性化医疗带来了希望。精准肿瘤学的发展需要开发更准确的生物标志物来预测治疗反应,识别癌细胞中的新药物靶点,并加速药物开发平台以简化靶点与药物的匹配。在这方面,AI可以通过揭示分子图谱中的隐藏模式来推动进展。尽管AI已被广泛用于揭示与临床结果(如预后和治疗反应)相关的肿瘤分子图谱模式,但将这些发现转化为临床实践仍然面临挑战。这在一定程度上归因于癌症生物学的复杂性、患者群体的异质性,以及对AI推导的生物标志物和药物靶点进行严格验证的必要性。

为了充分发挥AI在推进精准肿瘤学中的潜力,需要解决几个关键挑战。这些挑战包括整合多种数据模式(如影像、基因组和临床数据)、开发可解释且透明的AI模型,以及建立数据共享和模型验证的标准。作为癌症研究人员需要熟悉这些工具,接受AI带来的机会。此外,应该促进AI研究人员、癌症生物学家和临床医生之间更紧密的合作,从而确保AI工具具有更强的临床相关性,通过跨学科协作,可以更好地将AI技术应用于癌症研究和临床实践,从而推动精准医疗的发展。

Tags: 【论肿道麻】人工智能在癌症研究中的实用指南  

搜索
网站分类
标签列表