设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

“投喂”大模型如何规范授权

2024-02-10 23:49:55 来源: 科技日报

近日,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责。今年1月,OpenAI对此做出辩诉,称其训练是合理使用,且它们已提供了退出的选择。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况,如何对大模型使用数据进行有效治理?2月初,记者采访了相关专家。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练数据面临较高法律风险Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型的训练数据究竟是哪儿来的?Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年,OpenAI首席执行官萨姆·奥尔特曼接受采访时表示,他们花费了大量的精力整合不同来源的数据,包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节,OpenAI尚未公开发布。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京交通大学法学院副院长郑飞告诉记者,生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中,外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等,来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郑飞指出,使用外界生产的数据通常面临着较高的法律风险。目前,OpenAI已经被多次指控侵犯著作权。早在去年9月,美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼,指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

外界生产的数据中,还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险?Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“开源通常意味着免费,但免费不意味着可以随意使用。”在郑飞看来,开源数据并不意味着可以完全规避风险。“许多开源数据虽然不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题。以开源软件为例,所有的开源许可证均要求保留版权声明,在版权声明中列明开源软件的名称、作者或版权所有者的姓名或名称,以表明其身份。”郑飞说。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郑飞进一步解释,按照我国著作权法的相关条款,如果使用者在使用开源软件时不保留版权声明,不表明作者身份,违反许可证要求,就可能侵犯开源软件权利人的署名权。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示:“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

侵权认定存在难点Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对生成式人工智能带来的法律风险,各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中,明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;对于其中涉及知识产权的,不得侵害他人依法享有的知识产权。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释:“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形,以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款,从司法实践和法条解释的角度来说,也缺乏判例和法理依据支持。因此,目前不侵害知识产权获取数据的方式仅有授权,包括单独授权、集体授权、开放授权等。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前大语言模型的训练数据规模已达千亿甚至万亿级别,但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示,大模型是新生事物,针对大模型的侵权认定仍存在较多难点。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的,本身并不具有直接公开性。因此,版权人如何发现自己的原创内容可能被大模型训练所使用,是首要问题。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为,具有一定的隐蔽性。对于版权人来说,难点是如何找到有力的证据,证明自己的原创内容被运用于训练AI。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后是比例。相比于大模型训练数据侵犯知识产权,人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中,无一例外提到了抄袭内容比例。因此,对大模型侵权的认定,同样也需要证明两者之间的相似程度。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《纽约时报》诉OpenAI侵权案中,列出了多达100个证据,证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此,这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

利益平衡是关键Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

面对生成式人工智能带来的种种侵权风险,如何借助法律进行有效治理?专家认为,有几种常见的治理途径。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一是制定新的侵权责任法律。近年来,人工智能侵权责任立法不断被提及。事实上,不只人工智能冲击着现有侵权责任法,区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长,难以配适日新月异的数字技术发展速度。”郑飞说。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

二是创设单行监管条例。郑飞介绍,国家网信办自创设以来,就承担着监管职能,并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例,为互联网行业合规经营设置了主要依据。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其他方式还包括,在已有的侵权责任法律体系中添加关于人工智能责任的相关条款,为人工智能设计者和提供者添加特殊的条款来进行强调和补足;对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言,采取‘传统法律修正’模式是一种可行的方式。”郑飞说。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

需要注意的是,对于新兴技术,法律治理的目的并不在于“禁止”,而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出,我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,需要采取开放包容的规范原则。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型想要更“聪明”,就必须通过大量数据来强化学习。因此,如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说:“人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则,在利益分成时容易产生分歧。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郑飞提出,版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题,也可以通过知识共享许可协议搭建开源数据库,为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务,推动出版行业升级。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,大模型方正在与出版行业积极寻求合作。有消息称,OpenAI正在与数十家出版商洽谈内容授权协议。去年12月,OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议,OpenAI将付费使用施普林格旗下出版物的内容,施普林格将提供其媒体品牌的内容,作为OpenAI大型语言模型的训练数据。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,美国媒体《纽约时报》把OpenAI及其投资方微软公司告上法庭,指控二者未经授权就使用该媒体的数百万篇文章来训练人工智能大模型,要求被告销毁相关数据并对媒体损失负责。今年1月,OpenAI对此做出辩诉,称其训练是合理使用,且它们已提供了退出的选择。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一争端引发了公众对于大模型训练数据版权的关注。我国法律如何看待大模型训练数据的版权情况,如何对大模型使用数据进行有效治理?2月初,记者采访了相关专家。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

训练数据面临较高法律风险Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型的训练数据究竟是哪儿来的?Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年,OpenAI首席执行官萨姆·奥尔特曼接受采访时表示,他们花费了大量的精力整合不同来源的数据,包括开源信息数据库、通过合作获得的数据以及互联网数据。但对于具体数据集的来源和细节,OpenAI尚未公开发布。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京交通大学法学院副院长郑飞告诉记者,生成式人工智能的数据来源可以分为外界生产数据和自生产数据。其中,外界生产数据来源包括公共数据、数字图书馆、信息库、网络信息等,来源方式包括自行收集、公共下载、第三方购买、爬取、模拟生产等。自生产数据则来源于生成式人工智能应用时产生的相关数据。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郑飞指出,使用外界生产的数据通常面临着较高的法律风险。目前,OpenAI已经被多次指控侵犯著作权。早在去年9月,美国作家协会就组织包括电视剧《权力的游戏》原著作者在内的17位作家向法院提起诉讼,指控OpenAI在未经许可的情况下批量复制了他们受版权保护的作品。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

外界生产的数据中,还有一类是开源数据。那么使用开源数据是否意味着可以规避法律风险?Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“开源通常意味着免费,但免费不意味着可以随意使用。”在郑飞看来,开源数据并不意味着可以完全规避风险。“许多开源数据虽然不存在著作权财产权保护问题,但会涉及署名权、修改权等人身权问题。以开源软件为例,所有的开源许可证均要求保留版权声明,在版权声明中列明开源软件的名称、作者或版权所有者的姓名或名称,以表明其身份。”郑飞说。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郑飞进一步解释,按照我国著作权法的相关条款,如果使用者在使用开源软件时不保留版权声明,不表明作者身份,违反许可证要求,就可能侵犯开源软件权利人的署名权。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

北京智源人工智能研究院副院长兼总工程师林咏华也曾表示:“用于AI大模型训练的开源数据必须是合法地从公开或可公开获得的资源中收集的数据。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

侵权认定存在难点Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

针对生成式人工智能带来的法律风险,各国都在陆续出台、完善相关的政策法规。我国在去年7月公布的《生成式人工智能服务管理暂行办法》中,明确提到生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;对于其中涉及知识产权的,不得侵害他人依法享有的知识产权。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与之配套的是我国关于知识产权的相关法律法规。郑飞以著作权法为例向记者解释:“当前我国著作权法第24条以列举形式规定了合理使用的12种具体情形,以及‘其他情形’的兜底条款。生成式人工智能数据训练难以归属为12种具体列明的合理使用情形。至于兜底条款,从司法实践和法条解释的角度来说,也缺乏判例和法理依据支持。因此,目前不侵害知识产权获取数据的方式仅有授权,包括单独授权、集体授权、开放授权等。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当前大语言模型的训练数据规模已达千亿甚至万亿级别,但针对大模型训练数据侵犯知识产权的判例却寥寥无几。郑飞表示,大模型是新生事物,针对大模型的侵权认定仍存在较多难点。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先是发现。生成式人工智能的侵权不同于传统的网络侵权。它生成的内容是向特定用户提供的,本身并不具有直接公开性。因此,版权人如何发现自己的原创内容可能被大模型训练所使用,是首要问题。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次是举证。大模型输出的内容是经过深度学习后输出的内容。这是机器内部的行为,具有一定的隐蔽性。对于版权人来说,难点是如何找到有力的证据,证明自己的原创内容被运用于训练AI。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后是比例。相比于大模型训练数据侵犯知识产权,人们更为熟知的是一些小说作者抄袭其他书籍的案例。这些案例中,无一例外提到了抄袭内容比例。因此,对大模型侵权的认定,同样也需要证明两者之间的相似程度。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《纽约时报》诉OpenAI侵权案中,列出了多达100个证据,证明ChatGPT输出内容与《纽约时报》新闻内容高度相似。因此,这也被一些人认为是“迄今为止指控生成式人工智能构成侵权的最佳案例”。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

利益平衡是关键Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

面对生成式人工智能带来的种种侵权风险,如何借助法律进行有效治理?专家认为,有几种常见的治理途径。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一是制定新的侵权责任法律。近年来,人工智能侵权责任立法不断被提及。事实上,不只人工智能冲击着现有侵权责任法,区块链、元宇宙也普遍面临新的侵权责任问题。“这一解决途径也存在问题。因为专门立法周期较长,难以配适日新月异的数字技术发展速度。”郑飞说。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

二是创设单行监管条例。郑飞介绍,国家网信办自创设以来,就承担着监管职能,并不断根据技术发展动向及时进行单行条例立法。“特别是近年来在互联网算法、深度合成、推荐算法等方面都发布了不同程度的监管条例,为互联网行业合规经营设置了主要依据。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其他方式还包括,在已有的侵权责任法律体系中添加关于人工智能责任的相关条款,为人工智能设计者和提供者添加特殊的条款来进行强调和补足;对现在已有的条款进行解释等。“就AI技术的发展水平及其当下立法技术成熟度而言,采取‘传统法律修正’模式是一种可行的方式。”郑飞说。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

需要注意的是,对于新兴技术,法律治理的目的并不在于“禁止”,而是在于推动技术的合规发展、合法使用。北京大学法学院教授张平曾指出,我国目前的生成式人工智能技术创新还处在初级阶段,法律法规的制定应当给科技创新留有一定的发展空间,需要采取开放包容的规范原则。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型想要更“聪明”,就必须通过大量数据来强化学习。因此,如何平衡各方利益、寻求合作共赢是关键。正如郑飞所说:“人工智能训练数据合法性问题,本质上是个人利益与公共利益冲突的体现。如果缺少利益平衡原则,在利益分成时容易产生分歧。”Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郑飞提出,版权集团或版权的集体管理组织可以通过集体授权的方式有效解决训练数据的权利许可问题,也可以通过知识共享许可协议搭建开源数据库,为大模型训练方提供权利许可便利。大模型训练方则可以为版权方提供更加优质、低费用的生成式人工智能接入服务,推动出版行业升级。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,大模型方正在与出版行业积极寻求合作。有消息称,OpenAI正在与数十家出版商洽谈内容授权协议。去年12月,OpenAI宣布与德国媒体巨头阿克塞尔·施普林格达成了“里程碑式”合作。根据协议,OpenAI将付费使用施普林格旗下出版物的内容,施普林格将提供其媒体品牌的内容,作为OpenAI大型语言模型的训练数据。Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 Snh速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:“投喂”大模型如何规范授权http://www.sushuapos.com/show-2-2861-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 以科技筑起安全“防火墙”

下一篇: 黑洞成恒星诞生与星系形成助推器

热门资讯

  • 全国首个煤炭行业能源智算中心在山西建成

    3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 凌晨重磅!英伟达官宣最强AI芯片

    北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正

  • 培育一批专利产业化样板企业

    近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知

  • 海龟深潜时一分钟心跳只有两次

    据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 女性比男性更易失眠?什么原因导致?专家分析

    造成女性更容易睡不好的原因是多方面的,包括更年期等生理周期等,而女性长期的失眠除了会导致内分泌进一步失调,还会诱发心脏病、高血压、糖尿病、免疫

  • 全球首列氢能源市域列车完成满载运行试验

    3月21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行了时速160公里满载运行试验。当日试验过程中,车以160公里/

  • 旗舰效果下放!OPPO一加新品千元机曝光:IP68防水+超大电池

    3月22日消息,今天,数码博主“数码闲聊站”曝光了一部新款千元机的部分配置。该博主表示,欧加(OPPO/一加)有个5500mAh超大电池的千元曲屏机,正在测试IP68级防

  • GPU持续升级 如何应对算力“贫富差距”

    英伟达的GPU又升级了。3月19日,英伟达CEO黄仁勋发布了最新的B200算力芯片GPU,FP8精度下的训练性能是上一代的2.5倍,FP4精度下的推理性能更是达到了上

  • 中国气象局发布下一代大气数值模式

    中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和

  • 1799元!红米狙击一加Ace3V 简直就是来捣乱的

    一加Ace 3V刚发布,就被红米砍了一刀!随着昨天一加Ace 3V的发布,新一轮中端机的内卷终于拉开了序幕。 而且这电话售价居然还不增反降,直接1999起步。 先来回

推荐资讯

  • 日榜
  • 周榜
  • 月榜