首页 > 医疗资讯/ 正文

J Cosmet Dermatol：人工智能在皮肤科考试中的表现：考试成功与 ChatGPT 的局限性

来源 2025-05-22 12:11:38 医疗资讯

人工智能，尤其是大型语言模型（LLMs），正深刻影响医学领域。AI模型的快速发展为医学教育开辟新路径，包括智能应答咨询、医学知识整合及临床决策支持。以OpenAI（美国加州旧金山）开发的ChatGPT为例，其2022年发布的3.5版本和2023年升级的4.0版本，在医学教育个性化资源获取方面展现显著潜力，目前已有研究评估其在医学考试与临床推理中的表现。在皮肤科领域，ChatGPT可应用于患者教育、诊疗决策辅助及远程医疗，但相关循证研究仍有限。尤其缺乏土耳其语皮肤科场景下的系统性评估。

J Cosmet Dermatol最新的一篇研究报告，本研究首次通过皮肤科住院医师考题，对比分析ChatGPT-3.5/4.0与不同年资医师在诊断推理、治疗决策等方面的表现，旨在揭示AI在医学教育中的整合潜力与局限性。

研究者命定了100个问题，并将这100个问题分成四组，每组25个问题。同样的问题也被施加到ChatGPT3.5和4.0版本。研究者并根据皮肤科住院医师年资的分类:一年级住院0-12个月，二年级12-24个月，三年级24-36个月，四年级超过36个月。研究者共招募 12 名一年级、5 名二年级、5 名三年级和 3 名四年级住院医师参与这项研究。各组在标准化监考环境下完成对应年资的25道五选一测试。在2025年1月前瞻性研究中，同步评估ChatGPT-3.5/4.0土耳其语应答表现，结果与住院医师成绩对比。结果显示，ChatGPT 3.5表现不佳，尤其是与高级住院医师相比。例如，二年级（p = 0.038）、三年级（p = 0.041）和四年级（p = 0.020）住院医师的得分明显高于 ChatGPT 3.5 的得分。ChatGPT 4.0与一年级和三年级的高级住院医师相比表现相似，但与二年级（p= 0.037）和四年级高级住院医师（p = 0.029)相比表现更差。随着资历和考试难度的增加，两个版本的得分都较低。ChatGPT 3.5通过了一年级和二年级的考试，但没有通过三年级和四年级的考试。ChatGPT 4.0通过了第一年级、二年级和三年级的考试，但在四年级的考试中失败了。这些研究结果表明，ChatGPT是不等同于高级住院医师，尤其是在需要高级知识的科目上，而 4.0 版的表现则优于 3.5 版。

综上所述，未来，随着 ChatGPT 语言支持和医学知识的提高，它可以更有效地用于教育过程。

原始出处：

Göçer Gürok N, Öztürk S. The Performance of AI in Dermatology Exams: The Exam Success and Limits of ChatGPT. J Cosmet Dermatol. 2025 May;24(5):e70244. doi: 10.1111/jocd.70244. PMID: 40387311.

Tags： J Cosmet Dermatol：人工智能在皮肤科考试中的表现：考试成功与 ChatGPT 的局限性

首页 > 医疗资讯/ 正文

J Cosmet Dermatol：人工智能在皮肤科考试中的表现： 考试成功与 ChatGPT 的局限性

猜你喜欢

J Cosmet Dermatol：人工智能在皮肤科考试中的表现：考试成功与 ChatGPT 的局限性