设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键

发布时间: 来源:

21世纪经济报道 记者郑雪 北京报道uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

海量数据、算力和算法,使得生成式人工智能侃侃而谈、无所不知。数据来源方面,不少企业的数据源于公开网络抓取,也因此产生了相关纠纷,如OpenAI因数据抓取引发多起纠纷。纠纷背后,涉及网络抓取合法性问题,即通过网络抓取数据训练而成的生成式人工智能模型,是否具有法律依据?uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年1月,英国ICO(theUK Information Commissioner's Office,英国信息专员办公室)宣布启动生成式人工智能系列研究,探讨数据保护法如何适用于生成式人工智能模型的开发和使用。通过网络抓取数据训练而成的生成式人工智能模型是否存在法律依据?首次研究便回应了这一问题。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于人工智能企业而言,何以训练数据如此重要?uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据,尤其是高质量的数据,成为人工智能发展关键。生成式人工智能模型开发的第一步,便是收集和预处理训练数据,通过数据训练模型,结合微调,以便在特定环境中部署。如GPT-3的数据量为45TB。同时,数据又是稀缺的,根据Epoch的研究预测,数据耗尽最早可能出现于 2026 年。此外,AIGC厂商数据来源大致分为三个面向,公开渠道爬取的数据便是其中之一。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

生成式人工智能的训练数据来自何处?uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO指出,大多数生成式人工智能开发人员都通过可公开访问的来源获取数据,或直接从网络抓取,或间接从拥有数据的第三方获取,或两者结合。从互联网中抓取的信息包括个人数据,还包括泄露的信息等。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于网络抓取数据训练而成的生成式人工智能的合法基础如何判定?uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO指出,公开抓取数据训练而成的生成人工智能模型,合法利益可以成为其法律依据,但前提是模型开发者通过三部分测试(three-part test):uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一是,目的测试,即是否存在有效利益。开发者的利益涉及商业利益以及更广泛的社会利益,需要对模型的使用进行适当控制。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

二是,必要性测试,即鉴于目的,网络抓取是否必要。ICO理解,目前大多数生成式人工智能,只能使用通过大规模抓取获得的数据量进行训练。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

三是,平衡测试,即评估对个人的影响,并确定是否侵犯了个人的利益、权利和自由(此处重点关注对个人的潜在影响)。通过网络抓取收集数据是一种“隐形处理”活动,在此情况下,公众可能会失去对个人数据处理的控制权,或者无法行使法律所授予的相关权利。ICO指出,隐形处理和人工智能相关处理都被视为高风险活动,需要在其指导下进行DPIA(数据保护影响评估)。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以看到,生成式人工智能模型正逐渐引发风险和危害,可能是因为收集的训练数据,也可能和模型使用相关。相关风险又该如何缓解?uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO列明三种情况:uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

初始开发人员部署的生成式AI模型:部署在自己的平台时,期望能够完全控制模型的生成和使用uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由第三方通过API部署的生成式AI模型:在此情况下,初始开发者可以部署特定技术(例如输出过滤器等)或通过组织予以解决。如对API接口的限制查询、对模型使用进行监控、通过合同予以限制等。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提供给第三方的生成式人工智能模型:这种情况下,初始开发者会将底层模型副本或大量细节(如模型权重、起始代码等)提供第三方,客户选择运行自己研发的生成人工智能模型。ICO指出,合同控制措施可以减轻这种风险,但仍需实践证明上述措施可行uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,此次是ICO关于生成式人工智能开发和使用的新想法,不应将其解释为数据处理需要符合的法律规定。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据抓取从来都不是一个新问题,数据抓取及合法性边界是权益衡量的结果,同时需要具体分析(case by case),对于新兴的人工智能企业来说亦如此。uGt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日,中国经济信息社(以下简称中经社)垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上,锚定建设“国家级经济信息旗舰”的目标,中经社推出了八大数字化应用系统。中经社此次发布的行 据法新社巴黎3月15日报道,15日发布的一项新的重要分析称,影响神经系统的疾病——如中风、偏头痛和痴呆症——已经超过心脏病,成为全球范围内导致人们健康损害的主要原因。 据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新方法。美国约翰斯·霍普金斯大学的研 3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12月新增网民2480万人,互联网普及率达77.5%。截 回望一加去年的整体节奏,如果要用一个词来总结其数字系列和Ace系列的概况,那就是“卷”!从外观质感、内存性能到整机体验,与友商的相互竞争中,一加表现的都比较强势,搭配清晰的产品定位策略和稳扎稳打 3月25日消息,按照惯例,iPhone会在6月份的WWDC上发布iOS 18、watchOS 11、visionOS 2等全新系统。其中iOS 18比较受关注,被许多爆料者称为iOS史上最大升级。据名记Mark Gurman最新消息, iOS 18将支持 。

本文链接:网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键http://www.sushuapos.com/show-2-2370-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 首届“群体协同与自主”创新发展论坛在京举行

下一篇: 长三角两会|发展“新质生产力”要开放开窍,张燕生对浙江的六个观察

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜