涉17万个视频!英伟达等巨头被曝违规使用YouTube数据训练模型
澎湃新闻记者 胡含嫣
科技巨头被曝使用未经授权的YouTube内容训练AI(人工智能)模型。
当地时间7月16日,据外媒报道,包括苹果、英伟达、Salesforce和Anthrophic在内的一些大型科技公司,被曝在训练AI模型时使用了来自谷歌旗下视频网站YouTube的未授权数据。这些公司使用了一个由第三方提供的数据集,其中包含从YouTube上抓取的大量视频字幕文本,违反了YouTube禁止从平台上未经许可抓取内容的规定。
报道指出,这些科技公司在训练AI模型时都使用了一个名为“YouTube Subtitles(YouTube字幕)”的数据集,大小为5.7GB,包含4.89亿个单词,来自Youtube上超过4.8万个频道中的17.35万个视频。该数据集由视频字幕的纯文本组成,包括视频博主上传的部分和Youtube自动转录的文本,除了英语外,通常还附带日语、德语和阿拉伯语等语言的翻译。
非营利性组织EleutherAI是争议数据集的创作者,公司尚未对此事作出回应。根据官网介绍,EleutherAI的目标是“降低AI开发的门槛,通过训练和发布模型,让大家接触到尖端的AI技术”。此前,EleutherAI发布了名为“Pile”的数据汇编,其中的大部分数据集都是对公众开放的,包括YouTube Subtitles。
资料显示,在苹果于今年4月发布端侧小模型OpenELM模型的几周之前,公司就使用了Pile进行训练。不过,值得注意的是,苹果自己并没有下载这些数据。因此,从技术层面来说,是EleutherAI违反了YouTube的使用条款。
AI初创公司Anthropic的一位发言人证实,Pile数据集已被用于训练公司的生成式AI助手Claude,而YouTube的相关条款仅涉及“直接使用其平台”,建议与Pile的原作者讨论任何违反YouTube服务条款的行为。苹果、英伟达、Salesforce等其他公司尚未对此事作出回应。
此次事件影响到的创作者包括Marques Brownlee、MrBeast和PewDiePie等知名博主,以及《纽约时报》、英国广播公司(BBC)和美国ABC News等大型新闻出版商。另外,数据集中的一些材料宣传了“地平说”等阴谋论,甚至还包含了已被删除的视频的内容。现在,Pile已从官方下载网站上下架,但仍可通过文件共享服务访问。
对此,知名科技博主Marques Brownlee在X(原推特)平台上表示:“苹果从几家公司获取了他们AI所需的数据,其中一家从YouTube视频中抓取了大量数据/转录文本,包括我的视频。从技术上来说苹果没有‘犯错’,他们没有主动抓取数据。但这将是一个长期存在的问题。”
虽然苹果和其他公司或许是使用了公开的数据集,并没有违规行为,但此次事件让人们又一次关注到AI训练背后的数据问题。今年年初,YouTube的母公司谷歌被曝利用该平台的视频来训练旗下模型,谷歌当时回应称,这种行为没有违反平台与创作者的协议。
今年3月,OpenAI首席技术官米拉・穆拉蒂(Mira Murati)在接受采访时还曾对文生视频模型Sora的训练数据来源含糊其词。4月,YouTube首席执行官尼尔・莫汉(Neal Mohan)在采访中表示,他并没有直接证据能够证明OpenAI确实使用了YouTube的视频来完善其文生视频AI工具Sora,如果真的使用了,那就“明显违反”了YouTube平台的使用条款。
3月17日,记者从陆军军医大学西南医院获悉,该院消化内科教授陈磊团队联合陆军军医大学教授张定林首次提出,活性氧响应性纳米材料能够把程序性死亡配体-1蛋白精准传递到肠道炎症部位,有效缓解肠炎 英国“我超爱科学”网站1月1日刊登题为《什么是“时空连续体”?》的文章,作者是斯蒂芬·伦茨,内容编译如下:“时空连续体”(space-time continuum)是源自于大多数人听说过却未必完全了解的 记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)联合研发出全流程智慧育种平台,实现了育种数 “AI钢铁侠”黄仁勋,又进化了英伟达 作 者丨倪雨晴 2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。 北京时间3月19日凌晨,GTC终于拉开大幕。英伟达创 回望一加去年的整体节奏,如果要用一个词来总结其数字系列和Ace系列的概况,那就是“卷”!从外观质感、内存性能到整机体验,与友商的相互竞争中,一加表现的都比较强势,搭配清晰的产品定位策略和稳扎稳打 据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出租车在2030年广泛使用铺平道路。尽管在最初 。本文链接:涉17万个视频!英伟达等巨头被曝违规使用YouTube数据训练模型http://www.sushuapos.com/show-2-7656-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: Shift Up上市背后:灵魂人物金亨泰与“伯乐”腾讯
下一篇: AI眼中的中国|今日大暑,万物盛极