ChatGPT这门博士考试“不及格”

发布时间: 2025-01-25 09:27:30 来源：中国科学报

观看：117

解难题如探囊取物，答历史却步履维艰。在人工智能交出的“成绩单”上，历史学成了一门“短板学科”。奥地利复杂性科学中心（CSH）最新研究显示，即便是最先进的GPT-4 Turbo，在博士级历史知识测试中也仅获得46%的准确率，虽然超过25%的“蒙题”水平，但距离“及格”仍有不小差距。相关研究成果近日在加拿大温哥华举行的神经信息处理系统会议（NeurIPS）上发布。

“大语言模型，如ChatGPT，在某些领域确实成果斐然，比如已基本可以替代法律助理。但要它们判断历史社会特征，尤其是涉及北美和西欧以外地区时，能力就相当有限。”CSH社会复杂性研究小组负责人Peter Turchin说。

该研究的通讯作者、英国伦敦大学学院助理教授Maria del Rio Chanona也承认：“我原以为AI会表现得更好，但历史不仅仅是事实的堆砌，更需要理解和解释。”

为系统评估AI的历史理解能力，来自CSH、牛津大学等机构的研究团队设计了一套基于全球历史数据库（Seshat）的测试体系。该数据库收录了全球600个社会的历史资料，包含超过36000个数据点和2700多个学术参考文献。研究第一作者、CSH驻站科学家Jakob Hauser表示：“我们不只考察AI能否识别正确事实，还要测试它们是否能理解历史证据的推断过程。”研究团队据此对Gemini、OpenAI和Llama三大系列的七个模型展开测试。

研究发现，AI在理解历史方面存在多个维度的局限性。具体而言，在时间跨度上，AI在远古史（公元前8000年至前3000年）的把握较为准确，但在理解近代史（公元1500年至今）时表现却明显下滑。在地域分布上，AI对拉美和北美地区的历史把握较准，但对非洲和大洋洲的历史理解明显不足，这表明AI模型的训练数据可能存在地域偏差。

研究还发现，AI在不同类型的历史问题上表现迥异。比如，当分析古代法律制度的演变或社会组织的复杂程度时，AI能给出相对准确的答案。但一旦问题触及历史上的阶级差异，或者社会阶层流动性等深层社会议题时，AI的表现就大打折扣。这反映出AI对于较为具体、制度性的历史知识掌握得更好，但在需要深入理解人类社会复杂关系的议题上还有很大提升空间。

“这项研究的主要发现是，尽管大语言模型令人印象深刻，但在处理高级历史问题时仍缺乏足够深度的理解能力。”del Rio Chanona说，“它们在基本事实方面表现不错，但在涉及更细微的博士级历史研究时，还达不到要求。”在七个受测模型中，GPT-4 Turbo表现最佳，准确率为46%，而Llama-3.1-8B的表现最差，仅为33.6%。

研究团队已开始着手完善这一测试体系，他们计划通过增加来自欠发达地区的数据，以及纳入更复杂的历史问题来完善这一基准测试。Hauser表示，这些发现对历史学家和AI开发者都具有重要价值，既有助于指导历史研究中AI的应用，也为改进AI模型提供了方向。

相关论文信息：

https://csh.ac.at/news/can-chatgpt-pass-a-phd-level-history-test/

人类蛋白质KRAS（蓝色）与其伴侣之一RAF1（黄色）相互作用的三维图。图片来源：西班牙巴塞罗那基因组调控中心科技日报北京12 科技日报北京12月18日电（记者张佳欣）美国威斯康星大学麦迪逊分校工程师使用超音速冷喷涂技术，生产出一种新的核聚变“ 关于2022年度福建省科学技术奖评审结果的公示 2022年度福建省科学技术奖评审工作已经结束，评审结果将报省政府批准。现 12月19日，山东先进制造业人力资源服务供需对接活动在济南举办，活动由山东省人力资源和社会保障厅、山东产业技术研究 12月17日，记者从北京协和医院获悉，由该院儿科主编的《儿童风湿免疫病标准数据集》（以下简称数据集）正式发布。专家表示，作为教育、科技、人才三者相互促进、相辅相成。建设人才强国是实现建设教育强国和科技强国战略目标的关键条件。那么，一个重。

本文链接：ChatGPT这门博士考试“不及格”http://www.sushuapos.com/show-11-16770-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：科学家从蛋白质动态层面解答早期胚胎发育失败原因

下一篇：河南省国际科技合作项目拟立项公示

ChatGPT这门博士考试“不及格”

热门资讯

推荐资讯

科学最热文章