设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键

发布时间: 来源:

21世纪经济报道 记者郑雪 北京报道b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

海量数据、算力和算法,使得生成式人工智能侃侃而谈、无所不知。数据来源方面,不少企业的数据源于公开网络抓取,也因此产生了相关纠纷,如OpenAI因数据抓取引发多起纠纷。纠纷背后,涉及网络抓取合法性问题,即通过网络抓取数据训练而成的生成式人工智能模型,是否具有法律依据?b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年1月,英国ICO(theUK Information Commissioner's Office,英国信息专员办公室)宣布启动生成式人工智能系列研究,探讨数据保护法如何适用于生成式人工智能模型的开发和使用。通过网络抓取数据训练而成的生成式人工智能模型是否存在法律依据?首次研究便回应了这一问题。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于人工智能企业而言,何以训练数据如此重要?b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据,尤其是高质量的数据,成为人工智能发展关键。生成式人工智能模型开发的第一步,便是收集和预处理训练数据,通过数据训练模型,结合微调,以便在特定环境中部署。如GPT-3的数据量为45TB。同时,数据又是稀缺的,根据Epoch的研究预测,数据耗尽最早可能出现于 2026 年。此外,AIGC厂商数据来源大致分为三个面向,公开渠道爬取的数据便是其中之一。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

生成式人工智能的训练数据来自何处?b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO指出,大多数生成式人工智能开发人员都通过可公开访问的来源获取数据,或直接从网络抓取,或间接从拥有数据的第三方获取,或两者结合。从互联网中抓取的信息包括个人数据,还包括泄露的信息等。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于网络抓取数据训练而成的生成式人工智能的合法基础如何判定?b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO指出,公开抓取数据训练而成的生成人工智能模型,合法利益可以成为其法律依据,但前提是模型开发者通过三部分测试(three-part test):b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一是,目的测试,即是否存在有效利益。开发者的利益涉及商业利益以及更广泛的社会利益,需要对模型的使用进行适当控制。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

二是,必要性测试,即鉴于目的,网络抓取是否必要。ICO理解,目前大多数生成式人工智能,只能使用通过大规模抓取获得的数据量进行训练。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

三是,平衡测试,即评估对个人的影响,并确定是否侵犯了个人的利益、权利和自由(此处重点关注对个人的潜在影响)。通过网络抓取收集数据是一种“隐形处理”活动,在此情况下,公众可能会失去对个人数据处理的控制权,或者无法行使法律所授予的相关权利。ICO指出,隐形处理和人工智能相关处理都被视为高风险活动,需要在其指导下进行DPIA(数据保护影响评估)。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以看到,生成式人工智能模型正逐渐引发风险和危害,可能是因为收集的训练数据,也可能和模型使用相关。相关风险又该如何缓解?b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ICO列明三种情况:b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

初始开发人员部署的生成式AI模型:部署在自己的平台时,期望能够完全控制模型的生成和使用b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由第三方通过API部署的生成式AI模型:在此情况下,初始开发者可以部署特定技术(例如输出过滤器等)或通过组织予以解决。如对API接口的限制查询、对模型使用进行监控、通过合同予以限制等。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提供给第三方的生成式人工智能模型:这种情况下,初始开发者会将底层模型副本或大量细节(如模型权重、起始代码等)提供第三方,客户选择运行自己研发的生成人工智能模型。ICO指出,合同控制措施可以减轻这种风险,但仍需实践证明上述措施可行b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得注意的是,此次是ICO关于生成式人工智能开发和使用的新想法,不应将其解释为数据处理需要符合的法律规定。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据抓取从来都不是一个新问题,数据抓取及合法性边界是权益衡量的结果,同时需要具体分析(case by case),对于新兴的人工智能企业来说亦如此。b6A速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人体免疫系统中的小过滤器淋巴结有了新妙用。近日,浙江大学药学院、金华研究院教授顾臻团队联合多位科研人员,在国际上首次提出利用冷冻干燥的淋巴结组织提升抗肿瘤药物疗效的方法。相关论文发   马斯克开源3140亿参数的Grok,大模型争相开源所为何求?  作者:刘晓洁  特斯拉CEO埃隆・马斯克(Elon Musk)给大模型领域投下一枚重磅炸弹。  北京时间3月18日凌晨,马斯克旗下大模型公司 xAI 在官网宣布开源 3140 据阿根廷布宜诺斯艾利斯经济新闻网报道,一项国际研究发现,阿尔茨海默病的早期症状可能表现在视力上。研究显示,即便眼科检查结果正常,但阅读、估计距离和触及物体的困难都是可能揭示阿尔茨海默病 据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一些很难被攻击的药物标靶,但这些抗体距离临床 3月22日消息,美国司法部对iPhone提起诉讼,声称其苹果生态系统构成垄断。司法部表示,iPhone将苹果生态系统视为一种垄断,以牺牲消费者、开发者和竞争对手的利益为代价,推动公司估值的飙升。司法部还指 今天(23日)是第64个世界气象日,今年世界气象日的主题是“气候行动最前线”。地球是人类赖以生存和发展的家园,气候变化给人类造成的影响广泛而深远,关乎当下,更关乎未来。世界气象组织确认2023年全 。

本文链接:网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键http://www.sushuapos.com/show-2-2370-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 首届“群体协同与自主”创新发展论坛在京举行

下一篇: 长三角两会|发展“新质生产力”要开放开窍,张燕生对浙江的六个观察

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜