Anthropic天价赔款？大模型「盗版」的100000种花样_大模型话题

AI大模型的秘密配方是什么？答案可能很简单：海量的“盗版内容”。

这几乎是行业内公开的秘密。2023年，《纽约时报》一纸诉状将OpenAI和微软告上法庭，正式拉开了这场战争的序幕。很快，战火烧遍了整个硅谷。Meta因其Llama模型涉嫌使用盗版书籍而面临集体诉讼；Anthropic同样因其模型Claude的训练数据而被告，一时间，几乎所有头部玩家都被推上了被告席。

这场大模型与版权方的核心争议是：在未经授权的情况下，将海量的受版权保护作品用作AI训练数据，究竟是合法的“变革性使用”，还是“侵权盗用”？

在众多悬而未决的案件中，进展最快是Anthropic案，在2025年6月的里程碑式裁决中，法院给出了一个极其重要的参考信号：模型训练这一行为本身，因其能够创造出功能完全不同的新事物，具有高度的“变革性”，可能不构成侵权；然而，获取训练数据的方式，如果涉及盗版网站或未经授权的复制，则几乎无法被“合理使用”原则所豁免。

根据计算，Anthropic或将因此面临着7500亿美元的天价诉讼赔款。这个信号，让所有AI公司都捏了一把汗。大模型厂商们“先污染，后治理”的野蛮生长，或许要到头了。

大模型的N种数据“盗取”路径

为了满足无止境的数据需求，各大模型厂商各自走出了一条充满争议甚至堪称“脑洞大开”的野路子，每一种都游走在法律边缘。

一、从公开抓取到蓄意“清洗”

这是AI数据积累最原始、最普遍的方式。AI公司利用强大的网络爬虫，像撒下一张覆盖全球互联网的巨网，不加区分地将新闻网

查看原文