大模型真的在吞噬人类的一切数据吗？_数据话题

在弗兰克·赫伯特的《沙丘》中，沙漠星球厄拉科斯的沙丘下隐藏着一种无价之宝：香料。

这种神秘物质使太空旅行成为可能，能延长寿命，并具有扩展意识的效果，是宇宙中最宝贵的财富。“谁控制了香料，谁就控制了宇宙”。正如香料在《沙丘》宇宙中占据着至关重要的地位一样，在当今的生成式人工智能时代，数据也承载着类似角色。

就像《沙丘》中对香料的争夺，现实世界里各方势力也在为数据资源展开激烈角逐。海量的数据如同埋藏在数字世界沙丘下的“香料”，蕴藏着难以估量的价值。而那些能够高效采集、管理和利用数据的企业，就像小说中控制香料的势力，在这场数据争夺战中占据着优势地位。

如同香料在《沙丘》宇宙中的供应并不是无限的如果开采过度或生态系统受到破坏，香料的产量可能会大幅减少甚至耗尽，数据也可能被耗尽。根据非营利研究机构Epoch AI的最新论文，大语言模型会在2028年耗尽互联网文本数据。

大模型真的在吞噬人类的一切数据吗？我们是否正处在一个看似无尽的数字香料狂潮中，不断地向这些饥渴的大模型提供养分？

人类生成的数据量有限，一旦这些文本数据被耗尽，可能会成为约束语言模型继续扩展的主要瓶颈。相关论文认为，语言模型将在2026年到2032年之间利用完这些数据，但如果考虑到利润最大化，过度训练数据可能会导致数据在2025年就被用完。

月之暗面创始人杨植麟也在近期表达了类似观点，他认为大模型通向AGI最大的挑战是数据。杨植麟表示，“假设你想最后做一个比人类更好的AI，但可能根本不存在这样的数据，因为现在所有的数据都是人产生的。所以最大的问题是怎么解决这些比较稀缺、甚至一些不存在的数据。”

根据Epoch研究员Pablo Villalobos的观点，OpenAI在训练GPT-4时使用了大约1200万个token，G

数据