首页 > 医疗资讯/ 正文

AI机器人会考试,不会看病

来源 2025-01-07 12:08:49 医疗资讯

  一项新研究发明,固然先辈的人工智能(AI)模型在专业医学测验中得分很高,但在经由过程与患者交谈从而诊断疾病方面仍然不合格。1月2日,相干研究成果揭橥于《天然-医学》。

  美国哈佛大年夜学的Pranav Rajpurkar说:“固然大年夜型说话模型在测试中的表示令人印象深刻,但在动态对话中,它们的精确性明显降低,尤其是难以进行开放式诊断推理。”

  研究人员开辟出一种办法,基于模仿医患对话评估“临床AI”模型的推理才能。这些“患者”基于2000个医疗案例。这些案例重要来自美国医学委员会的专业测验。

  同样来自哈佛大年夜学的Shreya Johri说:“模仿医患互动可以评估病史采集技能,这是临床实践的一个关键构成部分。”她表示,新的评估基准被称为CRAFT-MD,“反应了实际生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在答复特定问题时才会披露重要信息”。

  CRAFT-MD基准本身依附于AI。美国OpenAI公司的GPT-4模型在与被测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还经由过程将“临床AI”的诊断成果与每个病例的精确谜底进行比较来评分。人类医学专家对这些评估进行了复核。他们还审查了对话,以检查“患者AI”的精确性,并查看“临床AI”是否成功收集了相干的医疗信息。

  多项实验注解,4种领先的大年夜型说话模型——OpenAI的GPT-3.5和GPT-4、美国Meta公司的Llama-2-7b和法国Mistral AI公司的Mistral-v2-7b,在基于对话的基准测试中的表示远不如根据书面摘要进行诊断时的表示。

  美国斯克利普斯研究转化研究所的Eric Topol表示,模仿患者对话代表了一种比医学测验“更有效”的评估AI临床推理才能的办法。

  例如,当供给构造化的病例摘要并许可从多项谜底中作出选择时,GPT-4的诊断精确率高达82%,而没有多项选择时,其诊断精确率则降至49%以下。然而,当它不得不经由过程与模仿的患者对话进行诊断时,精确率降至26%。

  在这项研究中,平日GPT-4是表示最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。

  Rajpurkar说,即使一个AI模型最终经由过程了这一基准,可以或许根据模仿的患者对话持续作出精确诊断,也并不必定意味着它就优于人类大夫。他指出,实际世界中的医疗实践比模仿的“更纷乱”,涉及治理多名患者、与医疗团队调和、进行身材检查,以及懂得本地医疗情况中“复杂的社会和体系身分”。“AI是支撑临床工作的强大年夜对象,但不必定能代替经验丰富的大夫的整体断定。”Rajpurkar说。 (文乐乐)

  相干论文信息:

  https://doi.org/10.1038/s41591-024-03328-5

  AI模型在大年夜多半情况下未能收集完全的病史,比如GPT-4仅在71%的模仿患者对话中做到了这一点。即使AI模型收集了患者的相干病史,它们也并不老是可以或许作出精确的诊断。

  《中国科学报》 (2025-01-07 第2版 国际)

Tags: AI机器人会考试,不会看病  

搜索
网站分类
标签列表