因用“盗版书”训练AI模型 美国技术巨头成被告

2023-10-20

美国阿肯色州前州长迈克·赫卡比与一些书籍作者联合起诉微软和“元”等美国技术企业,认为后者未经允许用他们的著作训练人工智能(AI)大语言模型,应给予赔偿。

据美国《华盛顿邮报》18日报道,赫卡比等人17日向纽约一家联邦法院递交诉状,指认美国微软、“元”和彭博新闻社三家被告在训练各自的大语言模型时,所用互联网数据未经原告许可。非营利组织“厄琉忒耳AI”也被列为本案被告。

原告指出,三家企业被告使用了盗版书数据集“书3”,该数据集被纳入“厄琉忒耳AI”编纂的免费开源数据集“堆”。小规模企业可经由“堆”获取训练AI模型的数据。

原告在要求赔偿的同时,还申请禁止被告企业继续使用他们的著作。

据报道,训练大语言模型通常需要数以十亿计的互联网文本语句,这些文本语句大多来自新闻报道、网络百科和社交媒体评论等。开放人工智能研究中心(OpenAI)、谷歌和微软等企业没有披露使用哪些数据集,但对AI持批评态度的人一直质疑,数据集包含盗版书数据。

类似的诉讼还有多起。创作者一方认为,企业不能未经允许或不支付报酬就从互联网获取数据,用来训练其获利颇丰的AI模型。企业一方则认为,数据如果与其原始来源存在实质性区别,依据版权法规可免费从公共网络获取。