解难题如探囊取物,答历史却步履维艰。在人工智能交出的“成绩单”上,历史学成了一门“短板学科”。奥地利复杂性科学中心(CSH)最新研究显示,即便是最先进的GPT-4 Turbo,在博士级历史知识测试中也仅获得46%的准确率,虽然超过25%的“蒙题”水平,但距离“及格”仍有不小差距。相关研究成果近日在加拿大温哥华举行的神经信息处理系统会议(NeurIPS)上发布。
“大语言模型,如ChatGPT,在某些领域确实成果斐然,比如已基本可以替代法律助理。但要它们判断历史社会特征,尤其是涉及北美和西欧以外地区时,能力就相当有限。”CSH社会复杂性研究小组负责人Peter Turchin说。
该研究的通讯作者、英国伦敦大学学院助理教授Maria del Rio Chanona也承认:“我原以为AI会表现得更好,但历史不仅仅是事实的堆砌,更需要理解和解释。”
为系统评估AI的历史理解能力,来自CSH、牛津大学等机构的研究团队设计了一套基于全球历史数据库(Seshat)的测试体系。该数据库收录了全球600个社会的历史资料,包含超过36000个数据点和2700多个学术参考文献。研究第一作者、CSH驻站科学家Jakob Hauser表示:“我们不只考察AI能否识别正确事实,还要测试它们是否能理解历史证据的推断过程。”研究团队据此对Gemini、OpenAI和Llama三大系列的七个模型展开测试。
研究发现,AI在理解历史方面存在多个维度的局限性。具体而言,在时间跨度上,AI在远古史(公元前8000年至前3000年)的把握较为准确,但在理解近代史(公元1500年至今)时表现却明显下滑。在地域分布上,AI对拉美和北美地区的历史把握较准,但对非洲和大洋洲的历史理解明显不足,这表明AI模型的训练数据可能存在地域偏差。
研究还发现,AI在不同类型的历史问题上表现迥异。比如,当分析古代法律制度的演变或社会组织的复杂程度时,AI能给出相对准确的答案。但一旦问题触及历史上的阶级差异,或者社会阶层流动性等深层社会议题时,AI的表现就大打折扣。这反映出AI对于较为具体、制度性的历史知识掌握得更好,但在需要深入理解人类社会复杂关系的议题上还有很大提升空间。
“这项研究的主要发现是,尽管大语言模型令人印象深刻,但在处理高级历史问题时仍缺乏足够深度的理解能力。”del Rio Chanona说,“它们在基本事实方面表现不错,但在涉及更细微的博士级历史研究时,还达不到要求。”在七个受测模型中,GPT-4 Turbo表现最佳,准确率为46%,而Llama-3.1-8B的表现最差,仅为33.6%。
研究团队已开始着手完善这一测试体系,他们计划通过增加来自欠发达地区的数据,以及纳入更复杂的历史问题来完善这一基准测试。Hauser表示,这些发现对历史学家和AI开发者都具有重要价值,既有助于指导历史研究中AI的应用,也为改进AI模型提供了方向。
相关论文信息:
https://csh.ac.at/news/can-chatgpt-pass-a-phd-level-history-test/
面对以大模型通用人工智能为代表的新技术,以及由此带来的工业界、产业界的新发展新模式,MBA人才教育何去何从? 12月1日,在清 科技日报北京12月18日电 (记者刘霞)据美国趣味科学网站17日报道,美国科学家近日利用水下扬声器与一头名叫吐温的座头鲸 编者按 世界在变,变化中不断积蓄着突破的力量。局势纵横看似山重水复,历史规律昭示未来终将柳暗花明。2023年与我们挥 中新社北京1月1日电 (记者 阮煜琳)中国自然资源部海啸预警中心消息,日本本州西岸近海海域1月1日发生7.4级地震已引发 科技日报讯 (记者张梦然)日本大阪都立大学科学家设计了一种高效、无创、无痛的方法,从尿液样本中重新编程犬类干细胞,使 文 | 《中国科学报》记者 张双虎 1月19日,“国家工程师奖”表彰大会在人民大会堂举行,81名个人被授予“国家卓越工程师” 。本文链接:ChatGPT这门博士考试“不及格”http://www.sushuapos.com/show-11-16770-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
下一篇: 河南省国际科技合作项目拟立项公示