21世纪经济报道 记者郑雪 北京报道
海量数据、算力和算法,使得生成式人工智能侃侃而谈、无所不知。数据来源方面,不少企业的数据源于公开网络抓取,也因此产生了相关纠纷,如OpenAI因数据抓取引发多起纠纷。纠纷背后,涉及网络抓取合法性问题,即通过网络抓取数据训练而成的生成式人工智能模型,是否具有法律依据?
今年1月,英国ICO(theUK Information Commissioner's Office,英国信息专员办公室)宣布启动生成式人工智能系列研究,探讨数据保护法如何适用于生成式人工智能模型的开发和使用。通过网络抓取数据训练而成的生成式人工智能模型是否存在法律依据?首次研究便回应了这一问题。
对于人工智能企业而言,何以训练数据如此重要?
数据,尤其是高质量的数据,成为人工智能发展关键。生成式人工智能模型开发的第一步,便是收集和预处理训练数据,通过数据训练模型,结合微调,以便在特定环境中部署。如GPT-3的数据量为45TB。同时,数据又是稀缺的,根据Epoch的研究预测,数据耗尽最早可能出现于 2026 年。此外,AIGC厂商数据来源大致分为三个面向,公开渠道爬取的数据便是其中之一。
生成式人工智能的训练数据来自何处?
ICO指出,大多数生成式人工智能开发人员都通过可公开访问的来源获取数据,或直接从网络抓取,或间接从拥有数据的第三方获取,或两者结合。从互联网中抓取的信息包括个人数据,还包括泄露的信息等。
基于网络抓取数据训练而成的生成式人工智能的合法基础如何判定?
ICO指出,公开抓取数据训练而成的生成人工智能模型,合法利益可以成为其法律依据,但前提是模型开发者通过三部分测试(three-part test):
一是,目的测试,即是否存在有效利益。开发者的利益涉及商业利益以及更广泛的社会利益,需要对模型的使用进行适当控制。
二是,必要性测试,即鉴于目的,网络抓取是否必要。ICO理解,目前大多数生成式人工智能,只能使用通过大规模抓取获得的数据量进行训练。
三是,平衡测试,即评估对个人的影响,并确定是否侵犯了个人的利益、权利和自由(此处重点关注对个人的潜在影响)。通过网络抓取收集数据是一种“隐形处理”活动,在此情况下,公众可能会失去对个人数据处理的控制权,或者无法行使法律所授予的相关权利。ICO指出,隐形处理和人工智能相关处理都被视为高风险活动,需要在其指导下进行DPIA(数据保护影响评估)。
可以看到,生成式人工智能模型正逐渐引发风险和危害,可能是因为收集的训练数据,也可能和模型使用相关。相关风险又该如何缓解?
ICO列明三种情况:
初始开发人员部署的生成式AI模型:部署在自己的平台时,期望能够完全控制模型的生成和使用。
由第三方通过API部署的生成式AI模型:在此情况下,初始开发者可以部署特定技术(例如输出过滤器等)或通过组织予以解决。如对API接口的限制查询、对模型使用进行监控、通过合同予以限制等。
提供给第三方的生成式人工智能模型:这种情况下,初始开发者会将底层模型副本或大量细节(如模型权重、起始代码等)提供第三方,客户选择运行自己研发的生成人工智能模型。ICO指出,合同控制措施可以减轻这种风险,但仍需实践证明上述措施可行。
值得注意的是,此次是ICO关于生成式人工智能开发和使用的新想法,不应将其解释为数据处理需要符合的法律规定。
数据抓取从来都不是一个新问题,数据抓取及合法性边界是权益衡量的结果,同时需要具体分析(case by case),对于新兴的人工智能企业来说亦如此。
国际天文学家团队绘制了迄今最大的三维宇宙地图,记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞的强大工具。发表在最新一期《天体物理学杂 据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新方法。美国约翰斯·霍普金斯大学的研 据阿根廷布宜诺斯艾利斯经济新闻网报道,一项国际研究发现,阿尔茨海默病的早期症状可能表现在视力上。研究显示,即便眼科检查结果正常,但阅读、估计距离和触及物体的困难都是可能揭示阿尔茨海默病 荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈该病带来新希望。相关研究论文将提交于4月27 美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤治疗方法。相关研究发表于新一期《先进功能 “AI钢铁侠”黄仁勋,又进化了英伟达 作 者丨倪雨晴 2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。 北京时间3月19日凌晨,GTC终于拉开大幕。英伟达创 。本文链接:网络抓取数据用于生成式AI训练?英国ICO:合法利益是可行关键http://www.sushuapos.com/show-2-2370-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。