设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI训练数据荒下,合成数据成为“开源”新解法?

2024-05-30 17:17:32 来源:

21世纪经济报道记者 冯恋阁 福州报道tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

生成式人工智能技术不断发展,训练数据来源成为人们最关注的问题之一。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年11月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日, 第七届数字中国建设峰会首发研究成果新闻发布会在福州举行。会议现场发布了多份由数字中国研究院(福建)、同济大学、阿里、高德等单位联合编制的多本数据要素行业白皮书。其中,《大模型训练数据白皮书》(以下简称“《白皮书》”)分析了当前大模型研发面临的标准制定、质量评估、总量不足等问题,并尝试提出建议。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们期望通过推动数据要素市场建设解决大模型研发面临的数据瓶颈,继而发挥大模型对于数据的处理和分析能力,创造更大的生产力。”数字中国研究院(福建)副院长邬群勇在发布会现场指出。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量数据难题待解

在生成式人工智能时代,大模型表现与训练数据质量息息相关。高质量数据模型训练和应用过程中有着不可替代的重要性。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量数据并非用之不竭的资源。一项来自EpochAlResearch团队的研究就表明,高质量的语言数据存量将在2026年耗尽。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要解困,首先需要明白什么是高质量数据。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由于技术更迭节奏、产业发展速度都很快,人们对大模型表现和功能的预期也在不断变化。《白皮书》指出,当前数据质量高低的判定标准主要取决于模型的应用目的,数据类型会根据模型的发展阶段“因时而动”、根据技术人员的理解判断“因人而异”、根据模型的训练效果“因效而定”。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,对质量的比较只能在同类型语料中展开。《白皮书》指出,这类比较往往需要从质量、规模、多样性三个维度出发。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

质量方面,被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选。比如新闻、论文数据等会经由专业标准筛选,社交媒体上的内容则可能由用户互动积极性筛选。如果不确定来源,则可以通过少量样本人工评价判断其可读性、帮助性、安全性等指标的质量。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据规模算是比较老生常谈的问题。在Scaling laws(规模法则,也称标度律)还相当有说服力的当下,当模型的参数或计算量按比例扩大时,模型性能也与之成比例提升。“不单纯是语料规模越大越好,而是高信息密度的语料规模越大越好。”《白皮书》中进一步提示。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同类型语料中的多样性也是值得关注的问题。《白皮书》认为,保证多样性将有效减小模型可能表现出的偏见或系统性不平等。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

判断标准确定,“数据从哪来”是下一步要面对的问题。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“首先是数据开放程度有待进一步加强。虽然数据开放共享的理念得到推广,但实际可用的开放数据与市场需求仍然存在较大缺口。”邬群勇在接受21世纪经济报道记者采访时指出,虽然一些公共平台开放了数据获取的API,但其数据服务伴随严格的限制,比如限制访问量,附加收费等。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,受限于价值评估、质量判断等配套规则、标准并未完善,数据价值被确认,进而走向流通利用之路也面临一定挑战。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对高质量数据供给难题,现行方案侧重于进一步构建行之有效的数据开放机制,鼓励行业数据、公共数据等充分流转应用。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据或成新路径

事实上,建立数据开放机制,在训练过程中引入合成数据或许也是一条“开源”的路径。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据是通过算法和数学模型创建的数据。通过建模真实数据的分布,然后在该分布上进行采样,创建出新数据集,能够让合成数据模拟出真实数据中的统计模式和关系。在大模型训练中,合成数据能够发挥补充或替代真实数据的作用。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据媒体报道,OpenAI、Anthropic、DeepMind等公司都曾表态将探索在训练中引入合成数据的可能性。《白皮书》也提到,OpenAI的Sora就用到了大量由游戏引擎合成的视频数据作为训练集。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《白皮书》认为,合成数据解决了部分类型的真实世界数据难以观测的问题,拓展了训练数据的多样性。比如,一些“边缘情况”(如极端天气、罕见病)或者真实世界中的“潜在隐患”(如金融诈骗等安全风险)数据的生成可以弥补因样本分布不均衡导致的客观限制。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

邬群勇认为,合成数据可以提高模型训练的效率。一方面,合成数据可以根据特定的需求进行设计,比真实数据集更广泛,可确保满足特定的数据质量标准。另一方面,这类数据可以快速生成,几乎不需要人类标注,且不需要进行繁琐的数据清洗和预处理工作,可提高数据获取效率。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据生成过程可能存在偏差或噪声,有观点认为数据的质量和真实性无法完全模拟客观世界。但在邬群勇看来,部分噪声数据对模型训练来说是必需的,有助于提高模型的鲁棒性。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于饱受质疑的隐私安全顾虑,《白皮书》提到,合成数据可以替代个人特征数据,有助于用户隐私保护,解决数据获取合规性的问题。当前,类似 “猜你喜欢”功能的实现往往需要大量用户数据的参与。大模型理解力逐渐提高的当下,一方面,可以用合成数据替代用户数据训练模型;另一方面,用户的需求也可以通过与模型的自然语言交流被系统理解。“整个过程在提升推荐匹配度的同时,还可以降低推荐模型对个人特征数据的依赖。”《白皮书》指出。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在可及的未来,合成数据将有望在几大场景发挥作用。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,合成数据可应用于多模态数据的生成。利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AIforScience等场景的训练。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次是高价值领域知识的生成。合成数据能通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用。例如工业制造领域,利用合成数据,可以把生产、制造等工艺流程相关的原始数据,结合行业知识图谱,转化为可供大模型学习的工业语料,以缓解行业语料短缺的问题。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据咨询公司Gartner预测,到2030年,合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。美国AI研究机构Cognilytica数据显示,2021年合成数据市场规模大概在1.1亿美元,到2027年将达到11.5亿美元。tv2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:AI训练数据荒下,合成数据成为“开源”新解法?http://www.sushuapos.com/show-2-6410-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 【经纬晚班车】英伟达大幅削减H20芯片价格;罗森中国回应退市对门店影响

下一篇: 美国5岁断臂男孩安装3D打印手臂:红金配色 宛如“钢铁侠”

热门资讯

  • 数字化管理已在故宫广泛应用

    在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月1

  • 多功能金纳米花颗粒 可促进感染性组织修复

    3月17日,记者从海南大学获悉,该校化学化工学院副教授李萌婷与相关研究团队合作,合成了多功能复合金纳米花颗粒。该颗粒配合温和光热、光动力、药物控

  • 我科学家发现的两种新矿物获国际认定

    记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学

  • Sora将如何影响科学与社会

    英国《自然》周刊网站3月12日刊登题为《OpenAI的文生视频工具Sora会如何改变科学——以及社会》的文章,作者为乔纳森·奥卡拉汉,内

  • “95后”的无人机“造像师”

    “当时是怎样选中低空经济这个领域,并且来深圳发展的?”面对这个关乎事业发展的问题,“95后”台青张晏纶坦言,“这是一场面试带来的惊喜。”张晏纶来自

  • 腾讯发布GiiNEX游戏AI引擎 用AIGC助力游戏研发运营

    3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰

  • 女性比男性更易失眠?什么原因导致?专家分析

    造成女性更容易睡不好的原因是多方面的,包括更年期等生理周期等,而女性长期的失眠除了会导致内分泌进一步失调,还会诱发心脏病、高血压、糖尿病、免疫

  • 探索土卫二的蛇形机器人问世

    美国加州理工学院喷气推进实验室的一个机器人专家团队,与卡内基梅隆大学机器人研究所科学家合作,开发出一种蛇形机器人,用于调查土星第六大卫星土卫二

  • AI芯片巨头低调赚钱

      AI芯片巨头低调赚钱  骆轶琪  在过去一年半导体行业下行周期中,除了英伟达以GPU霸主身份实现业绩快速成长之外,另一些主营虽非GPU,但是立足于AI定制芯片市场的半导体巨

  • 2999元!卢伟冰:xiaomiCivi 4 Pro可能是2024年最轻薄的电话

    3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

  • 人工智能大模型赋能企业科技创新研讨会召开

    3月21日,人工智能大模型赋能企业科技创新研讨会在广州召开。中国知网在会议期间发布了专利大数据智能应用产品“AI Pat+”。据中国知网相关负责人介

推荐资讯

  • 日榜
  • 周榜
  • 月榜