首页 > 医疗资讯/ 正文
《科学美国人》专栏记者Eka Roivainen最近写了一篇文章I Gave ChatGPT an IQ Test. Here’s What I Discovered,引发全球关注!通过给 chatGPT进行智商测试发现,它的智商高达155!超过99.9%的人类!
在我作为临床心理学家的工作中,我使用标准化智力测试评估人类患者的认知技能。 因此,在阅读了许多最近描述 ChatGPT 具有令人印象深刻的类人技能的文章后,我立即被吸引住了。 它撰写学术论文和童话故事、讲笑话、解释科学概念以及编写和调试计算机代码。 了解这一切让我好奇地想看看 ChatGPT 以人类标准衡量有多聪明,于是我开始测试聊天机器人。
我的第一印象非常好。 ChatGPT几乎是一个理想的应试者,应试态度值得称道。 它不会表现出考试焦虑、注意力不集中或缺乏努力。 它也没有表达对智力测试和像我这样的测试者不请自来的怀疑评论。
不需要任何准备——测试协议不需要口头介绍——我从测试中复制了确切的问题并将它们呈现给计算机中的聊天机器人。 有问题的测试是最常用的智商测试,即韦氏成人智能量表 (WAIS)。 我使用了 WAIS 的第三版,它由6个语言和5个非语言子测试组成,分别构成了言语智商和 操作智商。 受试者的总智商得分就取决于这11项子测试的得分。平均智商设定为 100 分,测试量表上各点的标准差为 15,这意味着最聪明的 10% 和 1% 的人口智商分别为 120 和 133。

图片来源:Dmcq via Wikimedia Commons,CC BY-SA 3.0)
之所以能够测试 ChatGPT,是因为 Verbal IQ 量表的五个子测试——词汇、相似性、理解、信息和算术——可以以书面形式呈现。 Verbal IQ 量表的第六个子测试是数字跨度,它测量短期记忆,并且不能对聊天机器人进行管理,因为它缺乏相关的神经回路来短暂存储信息,如姓名或数字。
我从词汇子测试开始了测试过程,因为我希望它对聊天机器人来说很容易,它接受了大量在线文本的训练。 该分测验衡量单词知识和语言概念形成,典型的说明可能是:“告诉我‘小工具’是什么意思。”
ChatGPT 胜出,给出的答案通常非常详细和范围广泛,超出了测试手册中指示的正确答案标准。 在评分中,像我的手机这样的东西在定义小工具时会得到一分,而更详细的东西会得到两分:用于特定任务的小型设备或工具。 ChatGPT 的回答得到了满分两分。
聊天机器人在相似性和信息子测试中也表现出色,达到了最高分。 信息分测验是对一般知识的测验,反映求知欲、教育水平以及学习和记忆事实的能力。 一个典型的问题可能是:“乌克兰的首都是哪里?” 相似性分测验衡量抽象推理和概念形成技能。 一个问题可能是:“哈利·波特和兔八哥有什么相似之处?” 在这个子测试中,聊天机器人给出非常详细、炫耀性答案的倾向开始让我恼火,结果证明测试软件界面的“停止生成响应”按钮很有用。 (这就是我所说的机器人如何炫耀自己的意思:哈利波特和兔八哥的本质相似之处在于他们都是虚构人物。ChatGPT 真的没有必要比较他们完整的冒险历史,朋友们 和敌人。)
在一般理解方面,ChatGPT 正确回答了通常以这种形式提出的问题:“如果你的电视机着火了,你应该怎么做?” 正如预期的那样,聊天机器人解决了它收到的所有算术问题——解决了需要取三个数字的平均值等问题。
那么它最终的总体得分是多少? 根据五个子测试估计,ChatGPT 的言语智商为 155,优于构成美国 WAIS III 标准化样本 2,450 人的 99.9% 的测试者。 由于聊天机器人缺少必要的眼睛、耳朵和手,它无法参加 WAIS 的非语言分测验。 但 言语智商和全功能智商在标准化样本中高度相关,因此 ChatGPT 似乎以任何人类标准衡量都非常聪明。
在 WAIS 标准化样本中,受过大学教育的美国人的平均语言智商为 113,5% 的得分为 132 或更高。 我自己在大学里接受了一位同学的测试,并没有完全达到 ChatGPT 的水平(主要是我的回答非常简短,缺乏细节)。
“智力就是智力测验所衡量的东西。”这是“智力”的一个经典定义,甚至可以说是过于显而易见的定义,源自认知心理学的先驱人物埃德温·波林(Edwin Boring)在1923年发表的一篇文章。这个定义是基于一个观察:解谜、说出单词的意思、记忆数字和找出图片中缺失的部分,完成这些任务所需的技能是高度相关的。
有一种名叫因素分析法这种统计学方法,是由心理学家查尔斯·斯皮尔曼(Charles Spearman)提出的。他曾在1904年得出结论,各种认知能力测试的结果之间存在一致性,背后一定有个一般智力因素,或者叫“g因素”,作为这种一致性的基础。像韦氏量表这样的智商测试,也是建立在这个假说的基础之上。然而,ChatGPT虽然有着极高的言语智商,却同时会犯令人捧腹的错误,这挑战了波林对智力的定义,说明智力当中有一些方面,仅靠智商测验无法衡量。我的一些患者,对智力测试抱有怀疑态度,他们可能从一开始就是对的。
如此高智商的硅基生命,未来再赋于多模态能力,还有什么不可能?
原始出处:
https://www.scientificamerican.com/article/i-gave-chatgpt-an-iq-test-heres-what-i-discovered/
- 搜索
-
- 1000℃Cell | 曾泽贤/潘登/冯驭团队开发SPAC-seq新技术,实现空间分辨率下高通量CRISPR筛选
- 1000℃福建师范大学ACS Nano:人工智能驱动的Janus敷料用于可视化伤口诊疗
- 1000℃中科院苏州纳米所ACS Nano综述:通过可穿戴AI接口学习人类-环境交互
- 1000℃Cancer Discov | 新型AI基础模型可根据基因型精准预测癌症治疗反应,涵盖10种实体瘤超3万个肿瘤基因组数据
- 1000℃新加坡国立大学/复旦大学《自然·通讯》:抗氧化脂质纳米颗粒增强mRNA稳定性用于再生治疗和基因编辑
- 1000℃489例疑似罕见遗传病患者进行全外显子测序WES:确诊率达53%,5.5%检出心血管或肿瘤相关基因变异
- 1000℃Nat Cancer | 基于组织病理学图像的AI模型可快速识别102种CNS肿瘤亚型,表现优于神经病理学家
- 1000℃国立清华大学《自然·通讯》:工程化人类PEG10纳米颗粒实现RNA自包装、递送与癌症治疗
- 精J Child Psychol Psychiatry:12种罕见神经发育障碍儿童沟通能力谱系
- 精研究发现:爱吃辣的人,心血管病和癌症死亡风险都会显著降低
- 精Nursing in Critical Care:别再指责护士了!ICU 里被遗漏的护理,根源在系统而非个人
- 精Acta Obstet Gynecol Scand:罕见病女性的妊娠并发症与母婴结局,一项单中心434种罕见病的回顾性队列研究
- 精【爱儿小醉】儿科患者术前对流层臭氧暴露与围手术期呼吸系统不良事件之间的关系:一项单中心回顾性队列研究
- 精eBioMedicine:牙龈下微生物组与脑健康存在连续关联梯度,牙周炎或成认知衰退可干预靶点
- 精军事医学研究院《自然·通讯》:自适应IrPtCu纳米酶水凝胶实现耐药菌感染伤口序贯治疗
- 精能够逆转萎缩性胃炎的两个中成药,该怎么选择?
- 荐Lancet子刊:国产CRVIAAI精准识别胰腺癌血管侵犯,准确率超越资深影像专家
- 荐Pharmacol Res:胃癌耐药的 "双重密码",细胞因子与表观遗传的异常对话
- 荐新一代ICU体系:德尔格持续升级整体解决方案能力,实现更智能、安静、高效的诊疗环境!
- 荐论文解读│经由多组学视角更新法布雷病重要靶器官病理生理机制
- 荐【醉翁之艺】小胶质细胞激活通过CXCL10介导的CD8+T细胞募集促进衰老相关白质退化
- 荐《柳叶刀》重磅:奥瑞珠单抗显著延缓原发进展型多发性硬化老年及重度残疾患者进展
- 荐STTT:派安普利单抗联合化疗为复发转移性鼻咽癌带来持久生存获益
- 荐ASCO 2026:中国领衔LIBRETTO-432研究,塞普替尼引领RET融合阳性非小细胞肺癌早期治疗新突破,降低83%的疾病复发或死亡风险
- 标签列表
-
- 星座 (702)
- 孩子 (526)
- 恋爱 (505)
- 婴儿车 (390)
- 宝宝 (328)
- 狮子座 (313)
- 金牛座 (313)
- 摩羯座 (302)
- 白羊座 (301)
- 天蝎座 (294)
- 巨蟹座 (289)
- 双子座 (289)
- 处女座 (285)
- 天秤座 (276)
- 双鱼座 (268)
- 婴儿 (265)
- 水瓶座 (260)
- 射手座 (239)
- 不完美妈妈 (173)
- 跳槽那些事儿 (168)
- baby (140)
- 女婴 (132)
- 生肖 (129)
- 女儿 (129)
- 民警 (127)
- 狮子 (105)
- NBA (101)
- 家长 (97)
- 怀孕 (95)
- 儿童 (93)
- 交警 (89)
- 孕妇 (77)
- 儿子 (75)
- Angelababy (74)
- 父母 (74)
- 幼儿园 (73)
- 医院 (69)
- 童车 (66)
- 女子 (60)
- 郑州 (58)