大模型

Anthropic天价赔款?大模型「盗版」的100000种花样

当那些充满争议的盗版“野路子”被一条条堵死,一个更加昂贵的AI时代,已经来了。

AI大模型的秘密配方是什么?答案可能很简单:海量的“盗版内容”。

这几乎是行业内公开的秘密。2023年,《纽约时报》一纸诉状将OpenAI和微软告上法庭,正式拉开了这场战争的序幕。很快,战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼;Anthropic同样因其模型Claude的训练数据而被告,一时间,几乎所有头部玩家都被推上了被告席。

这场大模型与版权方的核心争议是:在未经授权的情况下,将海量的受版权保护作品用作AI训练数据,究竟是合法的“变革性使用”,还是“侵权盗用”?

在众多悬而未决的案件中,进展最快是Anthropic案,在2025年6月的里程碑式裁决中,法院给出了一个极其重要的参考信号:模型训练这一行为本身,因其能够创造出功能完全不同的新事物,具有高度的“变革性”,可能不构成侵权;然而,获取训练数据的方式,如果涉及盗版网站或未经授权的复制,则几乎无法被“合理使用”原则所豁免。

根据计算,Anthropic或将因此面临着7500亿美元的天价诉讼赔款。这个信号,让所有AI公司都捏了一把汗。大模型厂商们“先污染,后治理”的野蛮生长,或许要到头了。

1

大模型的N种数据“盗取”路径

为了满足无止境的数据需求,各大模型厂商各自走出了一条充满争议甚至堪称“脑洞大开”的野路子,每一种都游走在法律边缘。

一、从公开抓取到蓄意“清洗”

这是AI数据积累最原始、最普遍的方式。AI公司利用强大的网络爬虫,像撒下一张覆盖全球互联网的巨网,不加区分地将新闻网

违法和不良信息举报电话:010-64158500-8113,18610056652    举报邮箱:infoweb@zero2ipo.com.cn    举报网上不良信息