设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI训练数据荒下,合成数据成为“开源”新解法?

发布时间: 来源:

21世纪经济报道记者 冯恋阁 福州报道Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

生成式人工智能技术不断发展,训练数据来源成为人们最关注的问题之一。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年11月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日, 第七届数字中国建设峰会首发研究成果新闻发布会在福州举行。会议现场发布了多份由数字中国研究院(福建)、同济大学、阿里、高德等单位联合编制的多本数据要素行业白皮书。其中,《大模型训练数据白皮书》(以下简称“《白皮书》”)分析了当前大模型研发面临的标准制定、质量评估、总量不足等问题,并尝试提出建议。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们期望通过推动数据要素市场建设解决大模型研发面临的数据瓶颈,继而发挥大模型对于数据的处理和分析能力,创造更大的生产力。”数字中国研究院(福建)副院长邬群勇在发布会现场指出。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量数据难题待解

在生成式人工智能时代,大模型表现与训练数据质量息息相关。高质量数据模型训练和应用过程中有着不可替代的重要性。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

高质量数据并非用之不竭的资源。一项来自EpochAlResearch团队的研究就表明,高质量的语言数据存量将在2026年耗尽。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要解困,首先需要明白什么是高质量数据。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由于技术更迭节奏、产业发展速度都很快,人们对大模型表现和功能的预期也在不断变化。《白皮书》指出,当前数据质量高低的判定标准主要取决于模型的应用目的,数据类型会根据模型的发展阶段“因时而动”、根据技术人员的理解判断“因人而异”、根据模型的训练效果“因效而定”。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,对质量的比较只能在同类型语料中展开。《白皮书》指出,这类比较往往需要从质量、规模、多样性三个维度出发。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

质量方面,被视为“高质量”通常是因为其信息已经通过了有用性或质量筛选。比如新闻、论文数据等会经由专业标准筛选,社交媒体上的内容则可能由用户互动积极性筛选。如果不确定来源,则可以通过少量样本人工评价判断其可读性、帮助性、安全性等指标的质量。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据规模算是比较老生常谈的问题。在Scaling laws(规模法则,也称标度律)还相当有说服力的当下,当模型的参数或计算量按比例扩大时,模型性能也与之成比例提升。“不单纯是语料规模越大越好,而是高信息密度的语料规模越大越好。”《白皮书》中进一步提示。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同类型语料中的多样性也是值得关注的问题。《白皮书》认为,保证多样性将有效减小模型可能表现出的偏见或系统性不平等。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

判断标准确定,“数据从哪来”是下一步要面对的问题。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“首先是数据开放程度有待进一步加强。虽然数据开放共享的理念得到推广,但实际可用的开放数据与市场需求仍然存在较大缺口。”邬群勇在接受21世纪经济报道记者采访时指出,虽然一些公共平台开放了数据获取的API,但其数据服务伴随严格的限制,比如限制访问量,附加收费等。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,受限于价值评估、质量判断等配套规则、标准并未完善,数据价值被确认,进而走向流通利用之路也面临一定挑战。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对高质量数据供给难题,现行方案侧重于进一步构建行之有效的数据开放机制,鼓励行业数据、公共数据等充分流转应用。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据或成新路径

事实上,建立数据开放机制,在训练过程中引入合成数据或许也是一条“开源”的路径。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据是通过算法和数学模型创建的数据。通过建模真实数据的分布,然后在该分布上进行采样,创建出新数据集,能够让合成数据模拟出真实数据中的统计模式和关系。在大模型训练中,合成数据能够发挥补充或替代真实数据的作用。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据媒体报道,OpenAI、Anthropic、DeepMind等公司都曾表态将探索在训练中引入合成数据的可能性。《白皮书》也提到,OpenAI的Sora就用到了大量由游戏引擎合成的视频数据作为训练集。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《白皮书》认为,合成数据解决了部分类型的真实世界数据难以观测的问题,拓展了训练数据的多样性。比如,一些“边缘情况”(如极端天气、罕见病)或者真实世界中的“潜在隐患”(如金融诈骗等安全风险)数据的生成可以弥补因样本分布不均衡导致的客观限制。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

邬群勇认为,合成数据可以提高模型训练的效率。一方面,合成数据可以根据特定的需求进行设计,比真实数据集更广泛,可确保满足特定的数据质量标准。另一方面,这类数据可以快速生成,几乎不需要人类标注,且不需要进行繁琐的数据清洗和预处理工作,可提高数据获取效率。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合成数据生成过程可能存在偏差或噪声,有观点认为数据的质量和真实性无法完全模拟客观世界。但在邬群勇看来,部分噪声数据对模型训练来说是必需的,有助于提高模型的鲁棒性。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于饱受质疑的隐私安全顾虑,《白皮书》提到,合成数据可以替代个人特征数据,有助于用户隐私保护,解决数据获取合规性的问题。当前,类似 “猜你喜欢”功能的实现往往需要大量用户数据的参与。大模型理解力逐渐提高的当下,一方面,可以用合成数据替代用户数据训练模型;另一方面,用户的需求也可以通过与模型的自然语言交流被系统理解。“整个过程在提升推荐匹配度的同时,还可以降低推荐模型对个人特征数据的依赖。”《白皮书》指出。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在可及的未来,合成数据将有望在几大场景发挥作用。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,合成数据可应用于多模态数据的生成。利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AIforScience等场景的训练。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次是高价值领域知识的生成。合成数据能通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用。例如工业制造领域,利用合成数据,可以把生产、制造等工艺流程相关的原始数据,结合行业知识图谱,转化为可供大模型学习的工业语料,以缓解行业语料短缺的问题。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据咨询公司Gartner预测,到2030年,合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。美国AI研究机构Cognilytica数据显示,2021年合成数据市场规模大概在1.1亿美元,到2027年将达到11.5亿美元。Wef速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务中各项服务流程融合起来。该研究全面梳理了 据法新社3月18日报道,周一,美国半导体巨头英伟达公司发布了其最新型号的电子芯片,这些芯片旨在支持人工智能(AI)革命,英伟达正努力巩固其作为人工智能领域关键供应商的地位。“我们需要更加强大的 3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。火箭飞行24分钟后,星箭分离,将鹊桥二号中继星直接送入近地点高度200公里、远地点高度42 记者3月20日从西安交通大学第二附属医院获悉,该院皮肤病院夏育民教授科研团队研究设计了一种靶向抗双链抗体的D型模拟肽(D-ALW多肽)纳米微粒,成功应用于MRL/lpr红斑狼疮小鼠模型的治疗,为目前红斑 3月23日消息,据最新爆料,vivo X100s Pro已经获得3C认证,估计 会在5月份前后发布。该机可以看做是vivo X100 Pro的小迭代机型,属于半代升级款,与去年X90s类似。新机从此前的天玑9300升级为天玑9300+,处 为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科学技术协会(以下简称“北京市科协”)在北京科 。

本文链接:AI训练数据荒下,合成数据成为“开源”新解法?http://www.sushuapos.com/show-2-6410-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 【经纬晚班车】英伟达大幅削减H20芯片价格;罗森中国回应退市对门店影响

下一篇: 美国5岁断臂男孩安装3D打印手臂:红金配色 宛如“钢铁侠”

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 我研究人员提出 老年人防跌倒健康服务新视角

    3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务

  • 肺癌蛋白质致命弱点发现

    肺癌是全球死亡率最高的恶性肿瘤。其中非小细胞肺癌(NSCLC)占比达到85%。表皮生长因子受体(EGFR)是NSCLC最常见的驱动突变基因。现在,一个国际科学家团

  • 我国首个制氢加氢一体站团体标准发布

    我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉,为推动我国氢能交通产业发展,中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加

  • 我国建立“天-空-地-深”一体化铀矿勘查技术体系

    记者3月21日从核工业北京地质研究院(以下简称核地研院)获悉,该院自1959年成立以来,在天然铀保障、高放废物地质处置、核遥感技术与应用、分析测试等领

  • 腾讯发布GiiNEX游戏AI引擎 用AIGC助力游戏研发运营

    3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰

  • 探索土卫二的蛇形机器人问世

    美国加州理工学院喷气推进实验室的一个机器人专家团队,与卡内基梅隆大学机器人研究所科学家合作,开发出一种蛇形机器人,用于调查土星第六大卫星土卫二

  • 首发第三代骁龙7+!一加Ace 3V图赏

    3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙

  • 中国气象局发布下一代大气数值模式

    中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和

  • 1799元!红米狙击一加Ace3V 简直就是来捣乱的

    一加Ace 3V刚发布,就被红米砍了一刀!随着昨天一加Ace 3V的发布,新一轮中端机的内卷终于拉开了序幕。 而且这电话售价居然还不增反降,直接1999起步。 先来回

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜