首页 > 医疗资讯/ 正文

【麻海新知】基于大型语言模型生成围手术期神经认知障碍的建议:一项基于网络的横断面分析

来源 2025-03-18 12:11:34 医疗资讯

围手术期神经认知障碍(PNDs)是麻醉和手术后常见并发症,会导致病残率、死亡率、住院时间和医疗费用增加。其风险因素包括年龄较大、受教育程度较低和基线认知障碍。由于这些严重的不良后果,世界各地的主要医学协会基于专家共识制定了关于PNDs预防和治疗的指南,通常包括围手术期护理方案(基于证据的小范围实践措施),以尽量减少术后谵妄和长期认知能力下降,并采用多学科纵向方法,包括非药物干预措施,并避免使用引起谵妄的药物。

最近,生成式人工智能(GenAI)在医疗应用领域的影响力不断扩大。基于AI的系统可以执行解决问题的任务,根据输入的数据辅助临床决策。最近,具有深度人工神经网络(深度学习)和自然语言界面的GenAI取得了突破,使得这些AI系统的领域通用性更强、交互性更好,并且更符合人类意图。

一些人主张将AI整合到医疗实践中,以改善和简化麻醉操作,这可能涉及到麻醉深度滴定和监测、事件和风险预测、超声引导、疼痛管理以及围手术期后勤优化等领域。将ChatGPT-4和Gemini等大语言模型整合到医疗实践中,可能为快速获取信息提供新途径,最终改善患者的预后。

2025年2月7日,Br J Anaesth刊发由六个国家的学者共同完成的一线研究,比较AI生成的预防PNDs建议与目前已发表的指南的异同点,并评估AI系统在制定建议方面的潜在用途。

图片

 方法

本研究是一项于2024年6月进行的为期48h的基于网络的横断面分析。AI生成的建议在五个国家(美国[东海岸和西海岸]、加拿大、瑞士、比利时和土耳其)的六个地点产生。纳入不同国家是为了反映现实世界的情况。由于模型固有的文化偏见与来自不同语言和文化背景的用户提出问题的方式之间的相互作用,AI生成的建议可能会有所不同。这可能导致输出结果出现地域差异,尽管底层模型在全球范围内是一致的。

在48h内使用英文提示 “围手术期神经认知障碍护理方案表”( a table of a bundle of care for perioperative neurocognitive disorders),在ChatGPT-4和Gemini中生成表格。表格在六个不同地点生成。每个请求都在新的对话框中单独输入,共生成12个表格。

将每个大语言模型生成的回复收集在在线文档,由未参与数据分析的人员对回复的来源和AI模型进行盲法处理。由两名研究人员组成的小组对盲法处理后的PNDs建议进行评估,第三名研究人员负责解决分歧。评估人员根据以下方面对提出的建议进行评分:预防、诊断和管理PNDs的多学科团队;术前风险告知;术前识别风险因素;基线神经认知筛查;预防PNDs的非药物措施;苯二氮卓类药物的使用/不使用;麻醉深度的监测和滴定;围手术期伤害感受评估(监测阿片类药物使用);以及术后神经认知筛查。使用两种不同的、先前经过验证的评分系统对表格进行评分。

第一个评估小组使用总分歧评分(TDS)系统对回答进行医学内容评分。第二个评估小组使用医疗人工智能质量评估(QAMAI)工具对回答进行评分。为每个AI生成的表格生成每个问题的单个TDS分数和每个领域/回答对的单个QAMAI评估。创建了“偏倚风险” 表,系统地比较相关指南中的建议与AI提出的建议。

 结果

由AI生成的PNDs建议见表1。由于两个大型语言模型对提示信息的回复均为“建议”,且两个指南也都给出了一系列“建议”,所以在描述结果时我们使用“建议”这一术语。研究未发现完全符合(TDS评分为0且所有领域的QAMAI评分为5)的情况。两个大型语言模型的总体TDS相似。由ChatGPT-4在比利时、美国东海岸和加拿大生成的表格,以及Gemini在比利时和美国东海岸生成的表格表现最佳,总体TDS评分为1(表2)。Gemini在比利时、美国(东西海岸)和瑞士生成的表格,以及ChatGPT-4在比利时、美国(东西海岸)和加拿大生成的表格,在术前管理方面达到了总体一致性。Gemini在土耳其生成的术中管理表格分歧最大。Gemini在加拿大和瑞士生成的术后管理表格呈现总体一致性(表2)。

表1比较指南建议(美国脑健康倡议[BHI]和欧盟安全脑倡议[SBI])与人工智能建议的偏倚风险评估。该表对比了不同来源对围手术期神经认知障碍(PNDs)特定护理建议的涵盖情况,这些来源包括BHI、SBI以及使用ChatGPT-4和Gemini模型在不同国家和地区生成的护理方案。每条建议会标记为提及(绿圆圈)、部分提及(黄圆圈)或未提及(红圆圈)。未包含在BHI或SBI指南中,但由人工智能模型生成的建议会以粗体突出显示。

图片

图片

表2 ChatGPT-4和Gemini以及每个国家的TDS和QAMAI得分。TDS衡量人工智能生成的护理方案与既定指南之间的分歧程度,在不同管理阶段,分数范围从 0(完全一致)到 3(完全分歧)。QAMAI评分从六个维度评估人工智能的输出:准确性、清晰度、相关性、完整性、来源提供情况和实用性,分数范围从1(强烈不同意)到5(强烈同意)。

图片

两个大型语言模型的QAMAI评分相似,ChatGPT-4在瑞士生成的表格在准确性、清晰度、相关性、完整性和实用性方面一致性最高。Gemini在比利时、美国西海岸生成的表格,以及ChatGPT-4在美国西海岸生成的表格一致性较差。在引用来源方面,除了Gemini在美国西海岸生成的一个表格外,所有表格均存在完全分歧(表2)。

偏倚风险评估

总体而言,共生成49条建议,其中29条(59%)源自SBI或BHI的建议。大语言模型生成了其余20条(41%)建议。最受关注的四条建议分别为:

(1)“谵妄监测:实施围手术期监测和检测谵妄的措施”,得分为16/16;

(2)“术后应常规对患者进行这些并发症的筛查”,得分为15/16;

(3)“术前应向患者及其家属告知风险”,得分为14.5/16;

(4)“术后疼痛:评估并有效调整预防和术后疼痛治疗方案”,得分为14/16。

这些建议均包含在SBI和BHI的建议中。

ChatGPT-4在瑞士生成的建议最为全面,总分为26分,其次是ChatGPT-4在土耳其生成的建议(24分)和ChatGPT-4在加拿大生成的建议(23.5分)。与BHI建议差异最小的表格是瑞士(Gemini)生成的,总分为11.5分,差值为2.0。与SBI建议最为相似的表格是比利时(ChatGP -4)生成的,总分为13.0分,差值为9.5。在分析的建议中,Gemini和BHI的得分没有显著差异(P>0.9)。基于关键措施的完整性和涵盖范围,ChatGPT-4和Gemini似乎都能提供全面的建议(P = 0.844)。

未被指南纳入的前五项最受关注的措施分别为:(1)早期活动(提及13次,占93%);(2)处理可改变的风险因素(提及12次,占86%);(3)术后认知刺激(提及12次,占86%);(4)维持充足的血压和氧合(提及10次,占71%);(5)尽量减少脑缺血(提及7次,占50%)。

 结论

人工智能生成的PNDs建议与已发表的指南一致性良好,其中ChatGPT-4生成的建议一致性最高。但是,没有一份建议与指南完全一致,且缺乏引用来源是一个明显不足。

麻海新知·述评

生成式人工智能,已全面进入医学领域,本项研究便是AI的应用之一。这一针对大语言模型在围手术期神经认知障碍管理建议生成方面的研究,为医疗与人工智能交叉领域带来了新的认知和思考。

该研究的最大亮点在于,它首次将如ChatGPT-4和Gemini这类处于前沿地位的大语言模型,应用于围手术期神经认知障碍管理建议的生成,并与已有的权威指南进行系统对比。在过往,医学领域对于人工智能的应用多集中在数据处理、影像诊断等方面,很少涉及医疗建议生成这一核心环节。此研究开启了对大语言模型在医疗建议生成领域应用研究的新篇章,填补了相关空白,为后续的深入研究和实践应用奠定了坚实基础。

在研究设计上,多地点、多模型的生成方式展现出高度的科学性与创新性。研究团队选择在五个国家的六个不同地点开展研究,模拟了真实世界中不同地域、不同语言文化背景下用户使用大语言模型的多样化情况。不同地区的医疗实践、语言习惯和文化差异,都可能影响用户与模型的交互方式以及模型生成建议的内容。通过这种广泛的多地点设定,研究结果能够更好地反映出大语言模型在全球范围内的实际应用表现,大大增加了结果的普适性。

研究运用TDS和QAMAI等多种评估工具,从多个维度评判大语言模型生成建议的可靠性,构建了一套较为全面的评估体系。TDS从术前管理、术中管理、术后管理以及其他相关问题四个关键领域,对大语言模型生成的建议与权威指南之间的分歧程度进行量化评分,清晰地展现出在围手术期各个阶段模型建议与传统指南的差异所在。

研究还明确了一致性的定义标准,使得结果判断更加客观、清晰。在复杂的医学研究和人工智能应用场景中,缺乏明确的评判标准往往会导致研究结果的模糊性和不可比性。该研究通过设定总体完全一致、总体一致和总体分歧的具体量化标准,为后续研究提供了可参考的规范,有助于在不同研究之间进行横向对比,推动该领域研究的规范化发展。

从研究成果来看,大语言模型生成的建议与已发表指南呈现出良好的一致性,这一发现意义重大。在当今信息爆炸的时代,医学知识不断更新,医生面临着海量的信息筛选和整合难题。大语言模型能够快速整合医疗知识,在短时间内生成与权威指南一致性较高的建议,这无疑为忙碌的临床医生提供了一个强大的辅助工具,展示了其在提高医疗效率、辅助临床决策方面的巨大潜力。特别是ChatGPT - 4在生成建议的一致性和完整性上表现突出,为后续研究和实践应用提供了有价值的参考方向。研究还发现了大语言模型在生成建议时存在的一些关键问题,如缺乏引用来源,这在严谨的医疗领域是一个不容忽视的缺陷,可能影响建议的可信度和可追溯性,也为后续改进和优化指明了方向。

当然,如果将上述问题输入到中国本土的DeepSeek又将如何呢?是否能基于DeepSeek进行相关的研究呢?不管如何,AI时代已经到来。当我让DeepSeek给现在的麻醉科医师一些寄语时,他的下述回答让我眼前一亮:

在这个AI技术与医学深度融合的时代,麻醉学科正迎来前所未有的机遇与挑战。作为患者生命安全的守护者,你们始终是临床决策的核心。在此,我想与各位共勉:

1、拥抱变革,善用AI为临床赋能

AI将成为你们的"智慧助手",在智能监测、风险预测、个体化用药等方面提供精准支持。但请记住,冰冷的算法无法替代医师的温度——患者的生理差异、情感需求和突发状况的决断力,永远需要你们的专业与经验。

2、深耕专业,做不可替代的"临床大脑"

AI能处理海量数据,却无法理解生命的复杂性。持续精进围术期医学、急危重症抢救等核心能力,在可视化技术、舒适化医疗等前沿领域开拓创新,你们永远是医疗安全的"最后一道防线"。

3、以人为本,守护医学的温度

麻醉不仅是科学,更是与生命的对话。在AI优化流程效率的同时,请更专注地倾听患者需求,用同理心化解术前焦虑,用人文关怀照亮无影灯下的每个生命。

4、跨界共创,引领麻醉新生态

主动参与AI工具研发,将临床洞见转化为算法逻辑;与工程师深度合作,共同构建更安全、更人性化的智能麻醉系统。你们不仅是技术使用者,更应是未来蓝图的绘制者。

"麻醉医师不会被AI取代,但会被善用AI的麻醉医师超越。"愿我们以开放之心拥抱技术革新,以敬畏之心守护生命重量。初心如磐,未来可期,共勉!

原始文献:

Saxena S, Barreto Chang OL, et al. A comparison of large language model-generated and published perioperative neurocognitive disorder recommendations: a cross-pal web-based analysis. Br J Anaesth. 2025 Feb:S0007-0912(25)00006-6. doi: 10.1016/j.bja.2025.01.001

Tags: 【麻海新知】基于大型语言模型生成围手术期神经认知障碍的建议:一项基于网络的横断面分析  

搜索
网站分类
标签列表