说话,看似毫不费力,但其实是人类最复杂的认知活动之一。在过去几十年里,研究人员试图澄清言语表达(又称为“语言产生”)背后的认知架构和动态加工过程。近日,中国科学院心理研究所助理研究员冯臣、研究员屈青青与合作者在Nature旗下的《科学数据》(Scientific Data)发表汉语语言产生数据库。
已有的研究显示,世界上大约有7000种语言,不同语言的词汇、语音、字形系统大相径庭。现有的实证研究与理论框架主要基于印欧语系。与印欧语言不同,汉语有独特之处。
首先,汉语属于汉藏语系,是一种声调语言,同一个音节的不同音调表示不同的词汇与意义,大多数印欧语言则不使用声调来区分词义。其次,印欧语言采用字母拼写系统,而汉语采用非字母书写系统。另外,汉语的语音与字形的对应关系较为复杂,例如,声音“shu”可以对应“书”“梳”“树”或“薯”等多个不同的字形。因此,汉语研究对回答跨语言普遍性和特异性具有独特价值和贡献。
虽然一些研究已经表明,音位是印欧语言语音编码的主要加工单元,而音节是汉语语音编码的主要加工单元,但目前大部分关于语言产生的研究侧重于印欧语言,而对于汉语这一非印欧语言的研究则相对有限。
冯臣和屈青青等人发现,这些研究主要关注于口语产生过程,对于书写等字形产生的关注则明显不足。同时,许多研究依赖于较小的样本量和有限的实验刺激,这可能导致统计效力不足和研究结果的可重复性问题。构建汉语语言产生数据库的需求与日俱增。
此次发表的汉语语言产生数据库记录了667名被试在7种不同语言产生任务中的约20万个试次的反应时间,以及实验材料的多个语言学变量,如词频、字频、音节频率、习得年龄等。
据介绍,该数据库为研究汉语口语和书写产生的语言加工提供了丰富数据资源,为探索汉语产生的普遍性与特异性提供了数据基础。此外,该数据库对于开发汉语语言产生的人工智能模型具有独特价值与贡献,有望推动语言认知科学与人工智能领域的交叉与共同进步。
相关论文信息:https://doi.org/10.1038/s41597-024-03022-8
广东省科学院生态环境与土壤研究所研究员刘芳华团队在电能微生物和水铁矿促进产氢机制方面取得新进展。近日,相关成果先 这些年,我们为什么越来越频繁提到创新?因为只有在原始创新上持续发力,在基础理论方法上有所突破,我们才能摆脱对国外的 面对以大模型通用人工智能为代表的新技术,以及由此带来的工业界、产业界的新发展新模式,MBA人才教育何去何从? 12月1日,在清 堆叠、扭曲铜酸盐超导体的示意图。图片来源:物理学家组织网 几十年来,超导体一直是物理学界研究的热点。但这些允许 编者按 世界在变,变化中不断积蓄着突破的力量。局势纵横看似山重水复,历史规律昭示未来终将柳暗花明。2023年与我们挥 编者按 近两年,中国有一小部分年轻学子正在涌入Gap year文化的潮流,有些人甚至选择延毕去体验这种间隔年。Gap year兴起于 。本文链接:汉语语言产生数据库发表http://www.sushuapos.com/show-11-3286-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 科学家发现肠道菌群衍生的新型促血栓物质