汉语语言产生数据库发表

发布时间: 2024-02-27 14:14:14 来源：中国科学报

观看：294

说话，看似毫不费力，但其实是人类最复杂的认知活动之一。在过去几十年里，研究人员试图澄清言语表达（又称为“语言产生”）背后的认知架构和动态加工过程。近日，中国科学院心理研究所助理研究员冯臣、研究员屈青青与合作者在Nature旗下的《科学数据》（Scientific Data）发表汉语语言产生数据库。

已有的研究显示，世界上大约有7000种语言，不同语言的词汇、语音、字形系统大相径庭。现有的实证研究与理论框架主要基于印欧语系。与印欧语言不同，汉语有独特之处。

首先，汉语属于汉藏语系，是一种声调语言，同一个音节的不同音调表示不同的词汇与意义，大多数印欧语言则不使用声调来区分词义。其次，印欧语言采用字母拼写系统，而汉语采用非字母书写系统。另外，汉语的语音与字形的对应关系较为复杂，例如，声音“shu”可以对应“书”“梳”“树”或“薯”等多个不同的字形。因此，汉语研究对回答跨语言普遍性和特异性具有独特价值和贡献。

虽然一些研究已经表明，音位是印欧语言语音编码的主要加工单元，而音节是汉语语音编码的主要加工单元，但目前大部分关于语言产生的研究侧重于印欧语言，而对于汉语这一非印欧语言的研究则相对有限。

冯臣和屈青青等人发现，这些研究主要关注于口语产生过程，对于书写等字形产生的关注则明显不足。同时，许多研究依赖于较小的样本量和有限的实验刺激，这可能导致统计效力不足和研究结果的可重复性问题。构建汉语语言产生数据库的需求与日俱增。

此次发表的汉语语言产生数据库记录了667名被试在7种不同语言产生任务中的约20万个试次的反应时间，以及实验材料的多个语言学变量，如词频、字频、音节频率、习得年龄等。

据介绍，该数据库为研究汉语口语和书写产生的语言加工提供了丰富数据资源，为探索汉语产生的普遍性与特异性提供了数据基础。此外，该数据库对于开发汉语语言产生的人工智能模型具有独特价值与贡献，有望推动语言认知科学与人工智能领域的交叉与共同进步。

相关论文信息：https://doi.org/10.1038/s41597-024-03022-8

欧洲空间局公布了“欧几里德”空间望远镜拍摄的首批彩色图像，有助于揭示暗物质和暗能量等宇宙奥秘。图为马头星云的 ? ? 距离地球“只有”大约2200万光年的超新星SN 2023ixf发生了爆炸，也许它不是浩渺宇宙中最独特的星体，但其爆炸却对地球上的中新网伦敦1月2日电 (彭欣怡)当地1月2日，英国气象局发布数据指出，2023年是英国自1884年有气象记录以来第二热的一年，仅据哈尔滨工业大学机电工程学院消息，中国共产党党员，哈尔滨工业大学液压传动与控制专业的创始人、机电学院教授刘庆和同关于发布《中国博士后科学基金资助指南（2024年度）》的通知中博基字〔2024〕2号各省、自治区、直辖市及新疆生产。

本文链接：汉语语言产生数据库发表http://www.sushuapos.com/show-11-3286-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：科学家发现肠道菌群衍生的新型促血栓物质

下一篇：我国首次完成近海底动态高分辨率重力测量试验

汉语语言产生数据库发表

热门资讯

推荐资讯

科学最热文章