一天打两场官司,现在麻烦大了。
原因都与数据有关。
首先,16人匿名起诉微软,认为其未经许可使用和泄露个人隐私数据,赔偿金额高达30亿美元。
紧接着,两位全职作者提出,他们的小说训练未经许可被使用,构成侵权。
而且,双方原告均表示,从互联网上抓取的数据太多,违规使用数据的人也不少。
网上有很多讨论,有人说作家应该维护自己的权利并获得适当的报酬。
但也有人认为,生成式AI学习互联网数据就像学生参观一件艺术品,应该选择开放。
这两起诉讼现已在加利福尼亚州旧金山联邦法院审理。
被告尚未做出公开回应。
16人索赔30亿
我们先从第一起诉讼开始。
6月28日,16名匿名人士对微软提起诉讼,他们认为基于人工智能的产品在未告知或征得他们同意的情况下收集和披露了他们的个人信息。
这种行为违反了AI模型数据相关的法律政策,没有报酬。
他们从互联网、书籍、文章、网站和帖子中窃取了 3000 亿字,其中包括未经许可获取的个人信息。
这包括帐户信息、姓名、联系方式、电子邮件、付款信息、交易历史记录、浏览器数据、社交媒体信息、聊天数据等。
这使得个人信息可以嵌入到他们的人工智能产品中,这些信息可以反映个人的爱好、观点、工作经历甚至家庭照片。
原告辩称,未能充分过滤这些敏感信息使数百万人面临信息泄露的风险。
他们声称数据抓取是“秘密”进行的,没有按照适用法律的要求注册为数据经纪人。
牵头起诉的律师事务所此前曾处理过有关数据泄露和虚假广告等问题的大型集体诉讼。
但能否打赢官司还存在很大的不确定性。
知识产权律师凯瑟琳·加德纳( )表示,当用户将内容上传到社交平台或其他网站时,他们就给予平台使用其内容的广泛许可。
因此,对于普通用户来说,获得AI模型数据获取的补偿是相当具有挑战性的。
并且有人发现,在这起长达157页的诉讼中,引用了大量媒体和学术界对人工智能伦理道德的讨论和警告,但造成实际影响的具体案例并不多。
另一方面,两名美国作家也在当天提起诉讼,称其作品被用于培训。
具体证据是,他们能够为自己的书籍生成“非常准确”的摘要,这足以证明将其纳入数据库是合理的。
保罗·特伦布莱 (Paul ) 和莫娜·阿瓦德 (Mona Awad) 表示,未经许可从数千本书中复制数据侵犯了作者的版权。
起诉书估计,谷歌的训练数据至少包含30万本书,其中许多来自侵权网站。
例如,在公开GPT-3训练数据时,其表示包含两个互联网图书语料库,占比约15%。 诉讼作者认为,这些数据来自影子图书馆网站,如Sci-Hub等。
2018 年,他们透露,他们向 GPT-1 提供的数据包含 7000 多本小说。 检察官认为这些书是研究人员在未经作者同意或授权的情况下从盗版网站复制的。
目前尚未有公开回应。
事实上,自生成式AI大火以来,AI公司遭受版权和数据隐私诉讼的情况确实屡见不鲜。
已深度卷入数据风暴
早在去年11月,代码助手就与程序员一起推出,并被程序员起诉。
原告认为许多原创代码作者的版权受到侵犯,同时用户隐私也被泄露,因此向法院提起诉讼,索赔90亿美元。
但截至目前,案件尚未最终审理。
AI绘画方面,AI等也卷入诉讼。
艺术家凯利·麦肯南 (Kelly ) 发现只需输入自己的名字,就可以生成个人的绘画风格后,与另外两位创作者一起提起诉讼。
法律团队与上述被诉团队相同。
而网站平台也不愿意被数据出卖。
并不是马斯克最近限制了推特的流量,给出的理由是“我不想让AI白白使用数据”。 目前的限制仍然有效,目前尚不清楚未来会发生什么变化。
它说自家平台上的数据非常有价值,所以推出了付费API,而且价格也不低。 此操作导致许多第三方应用程序被强制关闭。
总之,人工智能在互联网上捕获大规模数据训练后,隐私安全问题和版权问题相继出现,并且涉及的人越来越多。
不过,目前版权问题如何计算,业界尚未形成明确的标准。
只有日本报道称,不会对用于训练AI的数据实施版权保护,因为这可以加速AI的发展。
参考链接: