首页 > 医疗资讯/ 正文

J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性

来源 2025-05-22 12:11:38 医疗资讯

人工智能,尤其是大型语言模型(LLMs),正深刻影响医学领域。AI模型的快速发展为医学教育开辟新路径,包括智能应答咨询、医学知识整合及临床决策支持。以OpenAI(美国加州旧金山)开发的ChatGPT为例,其2022年发布的3.5版本和2023年升级的4.0版本,在医学教育个性化资源获取方面展现显著潜力,目前已有研究评估其在医学考试与临床推理中的表现。在皮肤科领域,ChatGPT可应用于患者教育、诊疗决策辅助及远程医疗,但相关循证研究仍有限。尤其缺乏土耳其语皮肤科场景下的系统性评估。

J Cosmet Dermatol最新的一篇研究报告,本研究首次通过皮肤科住院医师考题,对比分析ChatGPT-3.5/4.0与不同年资医师在诊断推理、治疗决策等方面的表现,旨在揭示AI在医学教育中的整合潜力与局限性。

研究者命定了100个问题,并将这100个问题分成四组,每组25个问题。同样的问题也被施加到ChatGPT3.5和4.0版本。研究者并根据皮肤科住院医师年资的分类:一年级住院0-12个月,二年级12-24个月,三年级24-36个月,四年级超过36个月。研究者共招募 12 名一年级、5 名二年级、5 名三年级和 3 名四年级住院医师参与这项研究。各组在标准化监考环境下完成对应年资的25道五选一测试。在2025年1月前瞻性研究中,同步评估ChatGPT-3.5/4.0土耳其语应答表现,结果与住院医师成绩对比。结果显示,ChatGPT 3.5表现不佳,尤其是与高级住院医师相比。例如,二年级(p = 0.038)、三年级(p = 0.041)和四年级(p = 0.020)住院医师的得分明显高于 ChatGPT 3.5 的得分。ChatGPT 4.0与一年级和三年级的高级住院医师相比表现相似,但与二年级(p= 0.037)和四年级高级住院医师(p = 0.029)相比表现更差。 随着资历和考试难度的增加,两个版本的得分都较低。ChatGPT 3.5通过了一年级和二年级的考试,但没有通过三年级和四年级的考试。ChatGPT 4.0通过了第一年级、二年级和三年级的考试,但在四年级的考试中失败了。这些研究结果表明,ChatGPT是不等同于高级住院医师,尤其是在需要高级知识的科目上,而 4.0 版的表现则优于 3.5 版。

综上所述,未来,随着 ChatGPT 语言支持和医学知识的提高,它可以更有效地用于教育过程。

原始出处:

Göçer Gürok N, Öztürk S. The Performance of AI in Dermatology Exams: The Exam Success and Limits of ChatGPT. J Cosmet Dermatol. 2025 May;24(5):e70244. doi: 10.1111/jocd.70244. PMID: 40387311.

Tags: J Cosmet Dermatol:人工智能在皮肤科考试中的表现: 考试成功与 ChatGPT 的局限性  

搜索
网站分类
标签列表