设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型发展提速 中文语料够“吃”吗

发布时间: 来源: 中国科技网

继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里研究院5月发布的《大模型训练数据白皮书》(以下简称《白皮书》)显示,互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占 1.3%。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同样,语料的质量会显著影响大模型的性能。在大模型领域,输入低质量数据,必然会输出低质量结果。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在近日举办的第六届北京智源大会上,中国互联网协会理事长尚冰指出,高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何获取规模化高质量中文数据?建设高质量中文数据集的难点和堵点是什么?加速数据流通,推动中国特色大模型创新发展与应用的意义何在?对此,科技日报记者进行了采访。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量中文语料供给严重匮乏OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。商汤科技大装置事业群高级总监张行程告诉记者,中文高质量语料相对缺乏是国内外大模型面临的共同问题。中文语料库不仅规模较小,且其电子化和网络化程度明显不足。此外,受版权、隐私等限制,许多优质中文语料库也无法公开获取。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,有一类型的中文语料极为重要,但又非常短缺——中式价值观类语料。《白皮书》主要编写成员、阿里研究院数据经济研究中心副主任王峥解释说,为了更好理解客观世界和掌握客观规律,大模型需要学习大量知识和价值观层面的数据,这些数据深受人类主观意志的影响。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在王峥看来,文言文、古汉语、电子书等反映优秀传统文化的内容,以及主流媒体发布的反映本土价值观的内容,都可视为具有中式价值观的高质量语料。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“训练中融入更多这类中式价值观语料,有助于大模型深入理解和反映中文使用者的文化背景和价值取向,从而在全球化背景下保持中国文化的独特性。”王峥说,“更重要的是,能更好地服务中国本土用户,满足行业发展的需要。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但目前面临的实际困难是,这类语料开放共享与开发利用的程度远远不够,且无法通过机器翻译弥补其短缺问题。《白皮书》指出,中文语料量的短缺尚有可解决方案,但中式价值观类语料的短缺,则会成为制约我国大模型发展的短板。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量中文语料的供给是中国大模型本土化的关键。“我们希望行业能加强企业间合作以及产业上下游协同,共同推动高质量中文数据集的共享、开放,鼓励数据提供方将高质量中文语料库在一定范围内公开,为各行各业大模型技术创新和应用奠定坚实的基础,形成中国特色的AI大模型创新路径,不断提高国际竞争力。”张行程说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

供需双方合作机制尚待完善OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。因此,探索数据供需双方合作模式是关键。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,要推动数据供需双方建立合作并非易事。“拦路虎”到底是什么?OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,大模型数据获取主要有合理爬取、版权采购等途径。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

张行程透露,商汤目前的解决方案是联合各机构尽量挖取、寻找现存的中文高质量语料,比如精心编校过的书本、论文等,以及向供应商购买版权语料。“虽然购买数量有限,但质量很高。”张行程说。这是以前置协商付费方式来获取版权类语料的传统商业模式。阿里巴巴“通义千问”大模型也采取了类似做法。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

王铮还提到第二种潜在的方式,即与版权方协商,以训练后的模型为版权方提供服务的方式进行对价。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,关于版权类语料使用,数据提供者和大模型厂商持有不同见解。王峥认为,大模型对版权类训练语料的使用属于转换性使用,而非复制式拷贝,应构成“合理使用”或“法定许可”。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

上海世纪出版集团数字出版部副主任刘寅春对此持有保留意见。她指出,大模型的深度学习机制与人类学习有相似之处,使用版权类数据进行训练,类似于人类阅读文献后撰写论文而不标注参考文献。“从学术规范上来说,这种做法很难说没有瑕疵。”她说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,大模型厂商训练大模型的最终目的是商用,这与“合理使用”的初衷和前提并不相符。“法定许可”需要满足一定条件,包括说明作品的出处、作者姓名,并支付报酬。如果这些条件无法满足,那么在显性法律释义下,这种行为很难构成“法定许可”。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在人工智能时代,高质量数据集是出版行业的核心资产。刘寅春认为,在有利于行业健康、可持续发展的前提下,切实保障知识产权,对高质量数据集进行有效开发和高质量转化,是出版行业的核心。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“出版行业为大模型提供语料,相应地,大模型的技术进步、功能提升,也应惠及包括出版行业在内的更广泛群体。”刘寅春提倡以合作共赢的方式与大模型厂商开展数据交易,通过订立授权协议,明确授权范围和条件,实现共同发展。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“如何将出版物进一步加工为数据要素并有效、有序流通,是摆在出版人面前的新问题。”中国出版传媒股份有限公司副总经理张纪臣说,“但我认为这同样是新机遇,因为我国出版行业一直强调知识服务这一理念。将出版物作为语料使用,从而提供产品和服务能力,正是出版知识服务的产品化体现。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据开源分享动力不足OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,我国可供大模型训练的优质数据资源呈碎片化、分散状态。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“特别是语料和科研成果等中文高质量数据集开放程度低,企业在训练大模型时使用的语料来源不透明、权属不明确,开源后存在合规风险,这导致企业更倾向于自行采集和使用数据,大模型数据流通机制尚未形成。”王峥说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京理工大学管理学院副研究员尹西明认为,需要构建一个市场化、互利共赢的数据共享机制,以促进高质量中文数据的积累和有效利用。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“确立清晰的数据要素市场制度对于激发高质量数据集构建至关重要。”在复旦大学教授、上海市数据科学重点实验室主任肖仰华看来,只有当市场机制能够确保数据贡献者获得合理回报时,才能吸引更多的数据流入市场,充分挖掘并实现数据共享的巨大潜力与价值。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2023年12月31日,国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026年)》,强调坚持需求牵引、注重实效,试点先行、重点突破,有效市场、有为政府,开放融合、安全有序4方面基本原则。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该行动计划进一步明确,要提升数据供给水平,在科研、文化、交通运输等领域,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,作为数据流通领域中最大的“富矿”,公共数据开放的步伐正不断加快。《全国数据资源调查报告》显示,2023年,我国公共数据开放量同比增长16%;省一级政府的开放数据量同比增长了18.5%,北京、浙江等15地数据管理部门开始探索公共数据授权运营机制。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年初开始实施“数据入表”政策。张纪臣认为,随着“数据入表”政策的实施,出版企业的数字资源经过确权、评估、标准化后入表,成为出版企业的数据资产。在此基础上构建大模型训练使用方与出版企业共赢的商业模式,能发挥中国价值核心数据在人工智能时代的智能服务话语权。“这样一来,‘数据入表’可能成为加速数据有效流动、共享并实现共赢的关键一步。”他说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据流通环节问题突出OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

算法、算力、数据和场景是大模型发展的4个核心要素。当前,我国大模型算力算法能力显著提升,高质量发展取决于数据和场景,应构建“供得出、流得通、用得好”的高质量数据集。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尹西明表示,大模型变强用好,前提是建立以场景驱动创新的思维,引领高质量数据持续在各种应用场景中发挥价值。那么,解决数据“供得出”难题后,应重点确保高质量数据“流得通”,真正面向场景释放数据乘数效应和大模型对新质生产力的引擎价值。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据要素在生产中的地位愈发重要,数据要素流动带来的开放性与动态性问题,为传统数据理论与相应技术带来新挑战和新要求。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“其中之一便是数据确权。”肖仰华表示,相比其他生产要素,数据要素在流通过程中主体更加多样,涉及数据生产者、采集者、加工者、使用者、运营者和其他产权人,权属界定复杂。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京智源人工智能研究院理事长、中国互联网协会人工智能工作委员会主任委员黄铁军指出:“当前普遍存在一种误解,即将数据视为传统意义上的物理资产。其实,数据并非物理资产,作为数字形态产品,它可以被无限次使用,且不会导致数据损耗。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他提倡在确保使用合规的前提下,大模型训练阶段可以免费获取数据资源。如果使用数据的过程中并未产生商业利益,则无需支付任何费用;反之,一旦通过数据使用获得了商业收益,便应按照既定比例支付相应的数据使用费用。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“虽然这一模式背后还涉及到数据确权、费率设定、监管机制等复杂问题,这些还有待深入探讨和解决,但‘先使用后收益’更有利于大模型的健康发展。”黄铁军说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

王峥则认为,确保数据流通需政府与企业、开源或非盈利组织、学界、多类型机构等社会力量协同推进。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他建议,在政府侧,对可用于模型训练的公共数据鼓励“应开尽开”,避免在数据开放过程中因为预设特定场景限制了应用范围;在社会力量侧,应坚持“应试尽试”原则,通过不断迭代,探索数据的有效搭配,寻找发挥最大价值的“配方”。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

标注专业化、规模化提上日程OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从2022年《关于构建数据基础制度更好发挥数据要素作用的意见》出台以来,数据要素建设和市场改革正稳步推进。今年5月,国家数据局提出建设国家级数据标注基地,这一举措对人工智能发展至关重要。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国信息通信研究院人工智能研究所高级工程师、中国人工智能产业发展联盟数据委员会主任李荪表示,数据标注是推动人工智能进步的核心环节,它能够提升数据质量,挖掘数据核心价值,形成高质量数据集,持续为AI提供数据支持。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,在一定程度解决数据供给、促进数据共享和打通流通机制后,如何让大模型学习到高质量数据,是接下来各界面临的另一个新挑战。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据标注的专业性和规模化也被提上日程。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

李荪指出,当前国内数据标注产业还比较初级,大部分标注工作以人工为主,劳动密集型特点比较突出。但是,在通用人工智能时代,传统手工标注或简单自动化标注方法无法满足大模型对大规模、高质量、多样化数据的需求,特别是具备模型训练知识、行业领域知识的专业化数据标注人才也相对匮乏。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“大模型训练数据标注人员的学历要求比以前更高,很多是本科毕业。”王峥表示,行业大模型数据标注凸显了专业知识的重要性。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

机器在对语言水平这一抽象概念进行评估时,必须依赖预先设定的人类价值判断和标准。电子科技大学智能语言学习与测评实验室与字节跳动合作开发了一款语言水平考试产品。实验室负责人陈大建说,在研发阶段,实验室负责对自行收集的用户音频数据进行标注,其标注内容主要是基于音频所体现的英语能力水平进行分类和标记。标注人员由学校四五十名大学英语教师组成,且均为应用语言学专业的硕博士。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“吃”得好、“吃”得香,还要“吃”得够。只有最终实现了规模化高质量标注,才能切实提升大模型理解中文、传递中国传统文化价值的能力。中国大模型的蓬勃发展也将助力中华优秀传统文化海外传播,架起一座连接古今、沟通中外的桥梁。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国出版集团中国图书进出口总公司下属中图科信数智技术(北京)有限公司总经理李沄沨认为,从正式出版物如文献、学术专著等入手,依托先进的提取工具和解析技术,将出版物语料化、碎片化、标准化,加工成高质量的语料数据,有别于一般的数据加工。“我们已经实现了大规模和批量开展数据语料化的技术和工具软件,能够更深层次地解析数据,并形成独立的图片、表格、公式数据集,为大模型人工智能服务提供价值更高、标准程度更好的语料供给,使出版数据在人工智能时代焕发出新活力。”他说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在数字经济大潮中,数据要素的放大、叠加、倍增作用日益显著,成为推动相关产业高质量发展的必然要求。张纪臣认为:“我们正站在新一轮产业科技革命的门口。这是一个不进则退的时代。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

继去年“百模大战”之后,今年国内大模型产业应用进入爆发元年。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,大模型产业发展如火如荼的同时,其训练数据规模的增长速度跟不上、语料质量参差不齐,尤其是高质量中文语料短缺的问题日益凸显,成为各方关注焦点。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里研究院5月发布的《大模型训练数据白皮书》(以下简称《白皮书》)显示,互联网上中文语料和英文语料占比存在显著差异:在全球网站中,英文占比高达59.8%,而中文仅占 1.3%。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同样,语料的质量会显著影响大模型的性能。在大模型领域,输入低质量数据,必然会输出低质量结果。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在近日举办的第六届北京智源大会上,中国互联网协会理事长尚冰指出,高质量数据的生成速度远低于AI大模型训练数据需求量的增长速度,数据短缺问题已初现端倪。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何获取规模化高质量中文数据?建设高质量中文数据集的难点和堵点是什么?加速数据流通,推动中国特色大模型创新发展与应用的意义何在?对此,科技日报记者进行了采访。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量中文语料供给严重匮乏OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

语料即大模型训练所需数据,是大模型训练的基础,也是决定大模型性能和专业性的关键因素。商汤科技大装置事业群高级总监张行程告诉记者,中文高质量语料相对缺乏是国内外大模型面临的共同问题。中文语料库不仅规模较小,且其电子化和网络化程度明显不足。此外,受版权、隐私等限制,许多优质中文语料库也无法公开获取。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,有一类型的中文语料极为重要,但又非常短缺——中式价值观类语料。《白皮书》主要编写成员、阿里研究院数据经济研究中心副主任王峥解释说,为了更好理解客观世界和掌握客观规律,大模型需要学习大量知识和价值观层面的数据,这些数据深受人类主观意志的影响。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在王峥看来,文言文、古汉语、电子书等反映优秀传统文化的内容,以及主流媒体发布的反映本土价值观的内容,都可视为具有中式价值观的高质量语料。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“训练中融入更多这类中式价值观语料,有助于大模型深入理解和反映中文使用者的文化背景和价值取向,从而在全球化背景下保持中国文化的独特性。”王峥说,“更重要的是,能更好地服务中国本土用户,满足行业发展的需要。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但目前面临的实际困难是,这类语料开放共享与开发利用的程度远远不够,且无法通过机器翻译弥补其短缺问题。《白皮书》指出,中文语料量的短缺尚有可解决方案,但中式价值观类语料的短缺,则会成为制约我国大模型发展的短板。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量中文语料的供给是中国大模型本土化的关键。“我们希望行业能加强企业间合作以及产业上下游协同,共同推动高质量中文数据集的共享、开放,鼓励数据提供方将高质量中文语料库在一定范围内公开,为各行各业大模型技术创新和应用奠定坚实的基础,形成中国特色的AI大模型创新路径,不断提高国际竞争力。”张行程说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

供需双方合作机制尚待完善OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一方面,大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。因此,探索数据供需双方合作模式是关键。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,要推动数据供需双方建立合作并非易事。“拦路虎”到底是什么?OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前,大模型数据获取主要有合理爬取、版权采购等途径。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

张行程透露,商汤目前的解决方案是联合各机构尽量挖取、寻找现存的中文高质量语料,比如精心编校过的书本、论文等,以及向供应商购买版权语料。“虽然购买数量有限,但质量很高。”张行程说。这是以前置协商付费方式来获取版权类语料的传统商业模式。阿里巴巴“通义千问”大模型也采取了类似做法。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

王铮还提到第二种潜在的方式,即与版权方协商,以训练后的模型为版权方提供服务的方式进行对价。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,关于版权类语料使用,数据提供者和大模型厂商持有不同见解。王峥认为,大模型对版权类训练语料的使用属于转换性使用,而非复制式拷贝,应构成“合理使用”或“法定许可”。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

上海世纪出版集团数字出版部副主任刘寅春对此持有保留意见。她指出,大模型的深度学习机制与人类学习有相似之处,使用版权类数据进行训练,类似于人类阅读文献后撰写论文而不标注参考文献。“从学术规范上来说,这种做法很难说没有瑕疵。”她说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,大模型厂商训练大模型的最终目的是商用,这与“合理使用”的初衷和前提并不相符。“法定许可”需要满足一定条件,包括说明作品的出处、作者姓名,并支付报酬。如果这些条件无法满足,那么在显性法律释义下,这种行为很难构成“法定许可”。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在人工智能时代,高质量数据集是出版行业的核心资产。刘寅春认为,在有利于行业健康、可持续发展的前提下,切实保障知识产权,对高质量数据集进行有效开发和高质量转化,是出版行业的核心。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“出版行业为大模型提供语料,相应地,大模型的技术进步、功能提升,也应惠及包括出版行业在内的更广泛群体。”刘寅春提倡以合作共赢的方式与大模型厂商开展数据交易,通过订立授权协议,明确授权范围和条件,实现共同发展。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“如何将出版物进一步加工为数据要素并有效、有序流通,是摆在出版人面前的新问题。”中国出版传媒股份有限公司副总经理张纪臣说,“但我认为这同样是新机遇,因为我国出版行业一直强调知识服务这一理念。将出版物作为语料使用,从而提供产品和服务能力,正是出版知识服务的产品化体现。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据开源分享动力不足OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,我国可供大模型训练的优质数据资源呈碎片化、分散状态。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“特别是语料和科研成果等中文高质量数据集开放程度低,企业在训练大模型时使用的语料来源不透明、权属不明确,开源后存在合规风险,这导致企业更倾向于自行采集和使用数据,大模型数据流通机制尚未形成。”王峥说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京理工大学管理学院副研究员尹西明认为,需要构建一个市场化、互利共赢的数据共享机制,以促进高质量中文数据的积累和有效利用。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“确立清晰的数据要素市场制度对于激发高质量数据集构建至关重要。”在复旦大学教授、上海市数据科学重点实验室主任肖仰华看来,只有当市场机制能够确保数据贡献者获得合理回报时,才能吸引更多的数据流入市场,充分挖掘并实现数据共享的巨大潜力与价值。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2023年12月31日,国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026年)》,强调坚持需求牵引、注重实效,试点先行、重点突破,有效市场、有为政府,开放融合、安全有序4方面基本原则。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该行动计划进一步明确,要提升数据供给水平,在科研、文化、交通运输等领域,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,作为数据流通领域中最大的“富矿”,公共数据开放的步伐正不断加快。《全国数据资源调查报告》显示,2023年,我国公共数据开放量同比增长16%;省一级政府的开放数据量同比增长了18.5%,北京、浙江等15地数据管理部门开始探索公共数据授权运营机制。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年初开始实施“数据入表”政策。张纪臣认为,随着“数据入表”政策的实施,出版企业的数字资源经过确权、评估、标准化后入表,成为出版企业的数据资产。在此基础上构建大模型训练使用方与出版企业共赢的商业模式,能发挥中国价值核心数据在人工智能时代的智能服务话语权。“这样一来,‘数据入表’可能成为加速数据有效流动、共享并实现共赢的关键一步。”他说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据流通环节问题突出OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

算法、算力、数据和场景是大模型发展的4个核心要素。当前,我国大模型算力算法能力显著提升,高质量发展取决于数据和场景,应构建“供得出、流得通、用得好”的高质量数据集。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尹西明表示,大模型变强用好,前提是建立以场景驱动创新的思维,引领高质量数据持续在各种应用场景中发挥价值。那么,解决数据“供得出”难题后,应重点确保高质量数据“流得通”,真正面向场景释放数据乘数效应和大模型对新质生产力的引擎价值。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据要素在生产中的地位愈发重要,数据要素流动带来的开放性与动态性问题,为传统数据理论与相应技术带来新挑战和新要求。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“其中之一便是数据确权。”肖仰华表示,相比其他生产要素,数据要素在流通过程中主体更加多样,涉及数据生产者、采集者、加工者、使用者、运营者和其他产权人,权属界定复杂。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京智源人工智能研究院理事长、中国互联网协会人工智能工作委员会主任委员黄铁军指出:“当前普遍存在一种误解,即将数据视为传统意义上的物理资产。其实,数据并非物理资产,作为数字形态产品,它可以被无限次使用,且不会导致数据损耗。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他提倡在确保使用合规的前提下,大模型训练阶段可以免费获取数据资源。如果使用数据的过程中并未产生商业利益,则无需支付任何费用;反之,一旦通过数据使用获得了商业收益,便应按照既定比例支付相应的数据使用费用。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“虽然这一模式背后还涉及到数据确权、费率设定、监管机制等复杂问题,这些还有待深入探讨和解决,但‘先使用后收益’更有利于大模型的健康发展。”黄铁军说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

王峥则认为,确保数据流通需政府与企业、开源或非盈利组织、学界、多类型机构等社会力量协同推进。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他建议,在政府侧,对可用于模型训练的公共数据鼓励“应开尽开”,避免在数据开放过程中因为预设特定场景限制了应用范围;在社会力量侧,应坚持“应试尽试”原则,通过不断迭代,探索数据的有效搭配,寻找发挥最大价值的“配方”。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

标注专业化、规模化提上日程OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从2022年《关于构建数据基础制度更好发挥数据要素作用的意见》出台以来,数据要素建设和市场改革正稳步推进。今年5月,国家数据局提出建设国家级数据标注基地,这一举措对人工智能发展至关重要。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国信息通信研究院人工智能研究所高级工程师、中国人工智能产业发展联盟数据委员会主任李荪表示,数据标注是推动人工智能进步的核心环节,它能够提升数据质量,挖掘数据核心价值,形成高质量数据集,持续为AI提供数据支持。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,在一定程度解决数据供给、促进数据共享和打通流通机制后,如何让大模型学习到高质量数据,是接下来各界面临的另一个新挑战。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据标注的专业性和规模化也被提上日程。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

李荪指出,当前国内数据标注产业还比较初级,大部分标注工作以人工为主,劳动密集型特点比较突出。但是,在通用人工智能时代,传统手工标注或简单自动化标注方法无法满足大模型对大规模、高质量、多样化数据的需求,特别是具备模型训练知识、行业领域知识的专业化数据标注人才也相对匮乏。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“大模型训练数据标注人员的学历要求比以前更高,很多是本科毕业。”王峥表示,行业大模型数据标注凸显了专业知识的重要性。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

机器在对语言水平这一抽象概念进行评估时,必须依赖预先设定的人类价值判断和标准。电子科技大学智能语言学习与测评实验室与字节跳动合作开发了一款语言水平考试产品。实验室负责人陈大建说,在研发阶段,实验室负责对自行收集的用户音频数据进行标注,其标注内容主要是基于音频所体现的英语能力水平进行分类和标记。标注人员由学校四五十名大学英语教师组成,且均为应用语言学专业的硕博士。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“吃”得好、“吃”得香,还要“吃”得够。只有最终实现了规模化高质量标注,才能切实提升大模型理解中文、传递中国传统文化价值的能力。中国大模型的蓬勃发展也将助力中华优秀传统文化海外传播,架起一座连接古今、沟通中外的桥梁。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国出版集团中国图书进出口总公司下属中图科信数智技术(北京)有限公司总经理李沄沨认为,从正式出版物如文献、学术专著等入手,依托先进的提取工具和解析技术,将出版物语料化、碎片化、标准化,加工成高质量的语料数据,有别于一般的数据加工。“我们已经实现了大规模和批量开展数据语料化的技术和工具软件,能够更深层次地解析数据,并形成独立的图片、表格、公式数据集,为大模型人工智能服务提供价值更高、标准程度更好的语料供给,使出版数据在人工智能时代焕发出新活力。”他说。OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在数字经济大潮中,数据要素的放大、叠加、倍增作用日益显著,成为推动相关产业高质量发展的必然要求。张纪臣认为:“我们正站在新一轮产业科技革命的门口。这是一个不进则退的时代。”OHf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣耀CEO赵明表示,人工智能大模型时代,他们的AI战 英国“我超爱科学”网站1月1日刊登题为《什么是“时空连续体”?》的文章,作者是斯蒂芬·伦茨,内容编译如下:“时空连续体”(space-time continuum)是源自于大多数人听说过却未必完全了解的 21世纪经济报道记者 蔡姝越 上海报道舆论高度关注的游族网络(002174.SZ)投毒案,幕后主使许垚如何量刑有了最新进展。3月22日,上海市第一中级人民法院(以下简称上海一中院)宣判被告人许垚故 联合国机构3月20日发布的《全球电子垃圾监测》报告显示,2022年全球范围内共产生6200万吨电子垃圾,其中仅有不到四分之一被回收利用。报告显示,2022年全球电子垃圾的产生量相比2010年增长了82%。 记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测,该技术理论上可将图像信噪比提升 3月22日,中国互联网络信息中心(CNNIC)发布第53次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网 。

本文链接:大模型发展提速 中文语料够“吃”吗http://www.sushuapos.com/show-2-7246-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 弘扬科学家精神丨郑万钧:当党和人民需要的真专家

下一篇: 广东版“数据二十条”:强化数据要素赋能实体经济,打造数据要素市场“湾区模式”

热门资讯

  • 让肺部磁共振成像从“不可看”到“看得清”

    患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情

  • 我国首个适应高寒气候肉羊品种通过鉴定

    记者19日从兰州大学获悉,天华肉羊通过国家畜禽遗传资源委员会审定鉴定,成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发

  • 感染新冠会“导致智商下降”吗?

    据英国《泰晤士报》网站3月15日报道,2020年1月,英国帝国理工学院的亚当·汉普希尔与英国广播公司合作,对8万人进行了30分钟的测试,目的是揭示生

  • 科研人员在大别山区发现植物新物种

    据中国科学院武汉植物园消息,我国科研人员在大别山区开展植物多样性科学考察时,发现了天门冬科天门冬属新物种,并将其命名为大别山天门冬。相关研究成

  • 研究:“16:8”间歇性禁食可能与心脏病死亡风险上升相关

    据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行

  • 云海二号02组卫星发射成功

    记者从中国航天科技集团获悉,3月21日13时27分,长征二号丁运载火箭/远征三号上面级在酒泉卫星发射中心起飞,随后将云海二号02组卫星送入预定轨道,发射任

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • “AI钢铁侠”黄仁勋,又进化了英伟达

      “AI钢铁侠”黄仁勋,又进化了英伟达  作 者丨倪雨晴  2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。  北京

  • 2999元!xiaomiCivi 4 Pro供不应求:春野绿配色好多门店缺货

    3月22日消息,xiaomi集团的许斐在微博上表示,xiaomiCivi 4 Pro的预售业绩远超预期,尤其是春野绿配色,许多门店都出现了缺货情况。据了解,xiaomiCivi 4 Pro的

  • 首款骁龙8 Gen3折叠屏!vivo X Fold3图赏

    3月23日消息,vivo X Fold3系列将于3月26日正式发布,成为全球首款骁龙8 Gen3折叠屏电话。现在这款新机外观已经解禁,下面为大家带来图赏。vivo X Fold3提供

  • 京东与OPPO重磅合作:销售额3年翻倍!

    3月23日消息,京东与OPPO战略合作协议签约仪式举行,双方签订未来三年OPPO在京东全渠道实现销售额同比增长100%的目标。在签约仪式上,OPPO高级副CEO、首席产

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

推荐资讯

  • “封关百日,有大企业主动谈合作”

      中新经纬3月27日电 (薛宇飞)“封关100天,我们有三批货物享受了加工增值内销免关税政策,节税8%。”27日,正大(海南)兴隆咖啡产业开发有限公司(下称正大兴隆)总经理叶剑对中

  • 商务部:2025年居民数字消费规模同比增长8.7%

      中新经纬3月27日电 据商务部网站27日消息,2025年居民数字消费规模达25.3万亿元。  2025年,我国居民数字消费规模达25.3万亿元,同比增长8.7%,其中数字服务消费增长12.5%,成

  • 深证成指收涨1.13%,锂电池概念持续走强

      中新经纬3月27日电 27日,A股三大指数低开高走,深证成指领涨。截至收盘,上证指数涨0.63%,报3913.72点;深证成指涨1.13%,报13760.37点;创业板指涨0.71%,报3295.88点。  Wind截图

  • 1元一包的干脆面,一年卖了近5亿!

      中新经纬3月27日电 (闫淑鑫)近日,康师傅控股(下称康师傅)发布2025年年报,实现收入790.68亿元(人民币,下同),同比下滑2.0%;实现股东应占溢利45亿元,同比增长20.5%;毛利率同比增

  • 两面针2025年净利降超八成,一独董反对出售土地使用权

      中新经纬3月26日电 两面针26日披露《2025年年度报告》称,2025年营业收入为10.63亿元,同比增长0.90%;归属于上市公司股东的净利润984.61万元,同比下降87.86%。  两面针《20

  • 中芯国际2025年净利同比增36.3%,不分红

      中新经纬3月26日电 中芯国际26日披露《2025年年度报告》称,2025年营业收入为673.23亿元,同比增长16.5%;归属于上市公司股东的净利润50.41亿元,同比增长36.3%。  中芯国际

  • 吉比特2025年净利增近九成 拟每10股派70元

      中新经纬3月26日电 26日,吉比特披露2025年年度报告。  报告期内,公司营业收入约62.04亿元,同比增长67.89%;归母净利润约17.94亿元,同比增长89.82%。  分红方面,吉比特拟向

  • 商务部:进口更多国外优质商品、技术和服务

      中新经纬3月26日电 商务部新闻发言人何咏前26日表示,商务部将充分发挥平台作用,办好进博会等重要展会,扩大“出口中国”品牌影响力,强化精准对接,发挥各方优势,进口更多国外优

  • 财政部就2026年中央预算公开答记者问

      中新经纬3月26日电 据财政部网站消息,3月26日,2026年中央部门预算集中向社会公开。就此,财政部有关负责人回答了记者的提问。  一、请介绍一下近年来中央预算公开进展情

  • 英唐智控澄清:正推进收购光隆集成、奥简微电子股权

      中新经纬3月26日电 25日晚,深圳市英唐智能控制股份有限公司(简称“英唐智控”)发布《关于市场不实传闻的澄清公告》。  公告显示,2026年3月25日,公司关注到东方财富网股

  • 报告:AI研发岗位供给偏紧,超2万元月薪暂未弥补人才稀缺

      中新经纬3月24日电 《2026年春招市场行情周报(第四期)》(简称报告)指出,新质领域技术岗位面临人才缺口,AI工程师需供比3:1。  2026春招市场,招聘求职双活跃  智联招聘

  • 券商首席谈A股本轮调整:压力释放而非趋势逆转

      中新经纬3月24日电 针对A股近期调整,粤开证券首席经济学家罗志恒、粤开证券首席金融分析师原野发布研报称,实为压力释放而非趋势逆转。  研报提到,2026年3月23日亚太交易

  • 日榜
  • 周榜
  • 月榜