设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键

2024-01-25 16:18:52 来源:

21世纪经济报道 记者郑雪 北京报道jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

海量数据、算力和算法,使得生成式人工智能侃侃而谈、无所不知。数据来源方面,不少企业的数据源于公开网络抓取,也因此产生了相关纠纷,如OpenAI因数据抓取引发多起纠纷。纠纷背后,涉及网络抓取合法性问题,即通过网络抓取数据训练而成的生成式人工智能模型,是否具有法律依据?jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年1月,英国ICO(theUK Information Commissioner's Office,英国信息专员办公室)宣布启动生成式人工智能系列研究,探讨数据保护法如何适用于生成式人工智能模型的开发和使用。通过网络抓取数据训练而成的生成式人工智能模型是否存在法律依据?首次研究便回应了这一问题。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于人工智能企业而言,何以训练数据如此重要?jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据,尤其是高质量的数据,成为人工智能发展关键。生成式人工智能模型开发的第一步,便是收集和预处理训练数据,通过数据训练模型,结合微调,以便在特定环境中部署。如GPT-3的数据量为45TB。同时,数据又是稀缺的,根据Epoch的研究预测,数据耗尽最早可能出现于 2026 年。此外,AIGC厂商数据来源大致分为三个面向,公开渠道爬取的数据便是其中之一。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

生成式人工智能的训练数据来自何处?jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO指出,大多数生成式人工智能开发人员都通过可公开访问的来源获取数据,或直接从网络抓取,或间接从拥有数据的第三方获取,或两者结合。从互联网中抓取的信息包括个人数据,还包括泄露的信息等。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于网络抓取数据训练而成的生成式人工智能的合法基础如何判定?jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO指出,公开抓取数据训练而成的生成人工智能模型,合法利益可以成为其法律依据,但前提是模型开发者通过三部分测试(three-part test):jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一是,目的测试,即是否存在有效利益。开发者的利益涉及商业利益以及更广泛的社会利益,需要对模型的使用进行适当控制。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

二是,必要性测试,即鉴于目的,网络抓取是否必要。ICO理解,目前大多数生成式人工智能,只能使用通过大规模抓取获得的数据量进行训练。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

三是,平衡测试,即评估对个人的影响,并确定是否侵犯了个人的利益、权利和自由(此处重点关注对个人的潜在影响)。通过网络抓取收集数据是一种“隐形处理”活动,在此情况下,公众可能会失去对个人数据处理的控制权,或者无法行使法律所授予的相关权利。ICO指出,隐形处理和人工智能相关处理都被视为高风险活动,需要在其指导下进行DPIA(数据保护影响评估)。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以看到,生成式人工智能模型正逐渐引发风险和危害,可能是因为收集的训练数据,也可能和模型使用相关。相关风险又该如何缓解?jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO列明三种情况:jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

初始开发人员部署的生成式AI模型:部署在自己的平台时,期望能够完全控制模型的生成和使用jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由第三方通过API部署的生成式AI模型:在此情况下,初始开发者可以部署特定技术(例如输出过滤器等)或通过组织予以解决。如对API接口的限制查询、对模型使用进行监控、通过合同予以限制等。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提供给第三方的生成式人工智能模型:这种情况下,初始开发者会将底层模型副本或大量细节(如模型权重、起始代码等)提供第三方,客户选择运行自己研发的生成人工智能模型。ICO指出,合同控制措施可以减轻这种风险,但仍需实践证明上述措施可行jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,此次是ICO关于生成式人工智能开发和使用的新想法,不应将其解释为数据处理需要符合的法律规定。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据抓取从来都不是一个新问题,数据抓取及合法性边界是权益衡量的结果,同时需要具体分析(case by case),对于新兴的人工智能企业来说亦如此。jc3速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键http://www.sushuapos.com/show-2-2370-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 首届“群体协同与自主”创新发展论坛在京举行

下一篇: 长三角两会|发展“新质生产力”要开放开窍,张燕生对浙江的六个观察

热门资讯

  • 诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要

      诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要  中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力?  “做研究保

  • 新AI系统可提供足球制胜战术

    未来的足球场,人工智能(AI)当“大脑”?《自然·通讯》19日发表一项来自谷歌深度思维的最新成果,研究团队报告了一个名为“TacticAI”的系统,能在足

  • 量子计算机能更好解决组合优化问题

    旅行推销员问题是一个经典的数学问题,也是一个组合优化问题。德国柏林弗雷大学和亥姆霍兹柏林能源与材料研究中心(HZB)科学家开展的一项新研究证明,量

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • “类脑”无线网络可处理数千微芯片数据

    美国布朗大学研究团队在最新一期《自然·电子学》上描述了一种无线通信网络。它可有效地传输、接收和解码来自数千个微电子芯片的数据。研究

  • 12项首创技术助力高速公路改扩建

    记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育

  • 培生2023年财报业绩超出预期,持续加码数字产品

    21世纪经济报道记者王峰北京报道 近日,全球教育集团培生(NYSE:PSO)公布2023财年财报。2023财年,培生的销售额为36.74亿英镑(下同),同比下降4%,但基

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • AI伴侣能否带来亲密关系

    自2023年以来,人工智能的“触角”已延伸到生活的方方面面。其中,“人工智能+情感”的赛道正悄然崛起。目前,国内外已经出现了多款较为成熟的AI伴侣应

  • 多层人造皮肤18天内长成

    美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤

  • 探索土卫二的蛇形机器人问世

    美国加州理工学院喷气推进实验室的一个机器人专家团队,与卡内基梅隆大学机器人研究所科学家合作,开发出一种蛇形机器人,用于调查土星第六大卫星土卫二

推荐资讯

  • 日榜
  • 周榜
  • 月榜