首页 > 医疗资讯/ 正文
根据最近的两篇论文,两个人工智能 (AI) 程序——包括 ChatGPT——已经通过了美国医学许可考试 (USMLE)。
这些论文重点介绍了使用大型语言模型参加 USMLE 的不同方法,该考试由三门考试组成:Step 1、Step 2 CK 和 Step 3。
ChatGPT是一种人工智能 (AI) 搜索工具,它根据人类用户的提示模仿长篇写作。 它由 OpenAI 开发,并在几篇社交媒体帖子显示该工具在临床实践中的潜在用途后变得流行,通常结果喜忧参半。
第一篇论文于 12 月在 medRxiv上发表,调查了 ChatGPT 在考试前没有任何特殊培训或强化的情况下在 USMLE 上的表现。 根据加利福尼亚州山景城 Ansible Health 的医学博士 Victor Tseng 及其同事的说法,结果显示“新的和令人惊讶的证据”表明这种人工智能工具能够应对挑战。
Tseng 和团队指出,ChatGPT 在所有测试中的准确率都超过 50%,甚至在他们的大部分分析中都达到了 60%。 虽然 USMLE 通过阈值确实因年份而异,但作者表示大多数年份的通过率约为 60%。
“ChatGPT 在没有任何专门培训或强化的情况下,在所有三项考试中的表现都达到或接近通过门槛,”他们写道,并指出该工具能够证明“其解释具有高度的一致性和洞察力”。
“这些结果表明,大型语言模型可能有助于医学教育,并可能有助于临床决策,”他们总结道。

第二篇论文也于 12 月发表在 arXiv上,评估了另一个大型语言模型 Flan-PaLM 在 USMLE 上的表现。 AI 研究人员 Vivek Natarajan 及其同事解释说,这两种模型之间的主要区别在于,该模型经过大量修改以准备考试,使用了一组称为 MultiMedQA 的医学问答数据库。
Flan-PaLM 在回答 USMLE 问题时达到了 67.6% 的准确率,比之前使用 PubMed GPT 进行的最佳表现高出约 17 个百分点。
Natarajan 和团队得出结论,大型语言模型“为重新思考医疗人工智能的发展提供了重要机会,并使其更容易、更安全、更公平地使用。”
ChatGPT 和其他 AI 程序一直作为新研究论文的主题出现,有时还作为合著者出现,重点是测试该技术在医学上的实用性。
当然,医疗保健专业人士也对这些发展表示担忧,尤其是当 ChatGPT 被列为研究论文的作者时。 Natureopens in a new tab or window 最近发表的一篇文章强调了潜在同事和新兴技术合著者的不安。
反对在研究中使用 AI 程序的一个理由是它们是否真的能够为论文做出有意义的学术贡献,而另一个反对意见强调 AI 工具首先不能同意成为合著者。
根据《自然》杂志的文章,其中一篇论文的编辑在新标签页或窗口中打开,将 ChatGPT 列为作者,称这是一个错误,将予以纠正。 尽管如此,研究人员现在已经发表了几篇论文,称这些人工智能程序是医学教育、研究甚至临床决策的有用工具。
Natarajan 及其同事在他们的论文中得出结论,大型语言模型可以成为医学上的有益工具,但他们的第一个希望是他们的发现将“激发患者、消费者、人工智能研究人员、临床医生、社会科学家、伦理学家、政策制定者之间的进一步对话和合作 和其他感兴趣的人,以便负责任地转化这些早期研究成果,以改善医疗保健。”
事实上,现在大型语言模型可以通过各种考试。有一项研究也显示,ChatGPT能轻松通过大学的MBA考试。

当然,有人说医生有人性化,会安慰病人。
但是,谁知道再过一二十年,出现的人型智能机器人,可能比现在的医生更会讲笑话,更幽默,更有趣呢。同时,还是知识达人,无所不能。
梅斯认为,人工智能随着算法和大型语言模型的问世,人工智能迎来了拐点,从过去的积累阶段到达上升阶段,将在各个领域得到应用,并有可能深刻改变这些领域。医疗同样如此。
也许,未来医生对能力的需求,不是基础知识,而是创造力!人类的知识,温情,理性,判断力这些都容易被机器替代或取代,只有人类的智慧才难以被取代。
原始出处:
Kung TH, et al "Performance of ChatGPT on USMLE: potential for AI-assisted medical education using large language models" medRxiv 2022; DOI: 10.1101/2022.12.19.22283643.
Singhal K, et al "Large language models encode clinical knowledge" arXiv 2022; DOI: 10.48550/arXiv.2212.13138.
猜你喜欢
- Cancer Cell:北京大学白凡等构建了迄今为止最大规模泛癌脑转移高质量单细胞精度图谱
- 腰椎螺钉到底打多深?
- Arthritis Res Ther:糖皮质激素剂量与免疫抑制剂使用对狼疮患者卡氏肺孢子菌肺炎预防实施的影响
- “针灸名家”许能贵:择一“针”爱一生
- JAMA Pediatrics:裸眼三维视觉训练防控儿童近视的有效性
- 论文解读|Wang G/Fu W/Zhang Z教授团队揭示E674Q突变在家族性晚发型阿尔茨海默病中的作用
- 选择西红柿瘦身食谱 助你1月减7斤
- 急性胃炎病人吃什么好
- Brain:N-甲基-D-天冬氨酸受体调节与精神疾病中的感知推断动态失衡的关系
- “校长呼吁家长不要举报”背后,家校关系出了什么问题
- 搜索
-
- 1000℃Nutrients:真实世界数据,纤维肌痛患者的饮食与运动自适应规律
- 1000℃D-二聚体升高诊治与管理专家共识(2026)
- 1000℃专家论坛|文良志:门静脉血栓的诊断和治疗
- 1000℃首例儿童NF2驱动型胸膜间皮瘤,多方法学检测锁定NF2双等位基因失活和14/22号染色体缺失,提示与成人胸膜间皮瘤不同
- 1000℃打破误区:干扰素追求CHB功能性治愈,HBsAg为何“不降反增”?
- 1000℃迷惑性极强的肝内病灶!影像表现疑点重重,最终病理竟查出两种不同肝脏恶性肿瘤
- 1000℃指南共识|原发性肝癌分子靶向药物相关蛋白尿中西医结合诊疗专家共识
- 1000℃Diabetologia:意大利北部社区 1~100 岁人群胰岛自身抗体与乳糜泻 TGA-IgA 的年龄分布及检测方法学验证
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)