在弗兰克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隐藏着一种无价之宝:香料。
这种神秘物质使太空旅行成为可能,能延长寿命,并具有扩展意识的效果,是宇宙中最宝贵的财富。“谁控制了香料,谁就控制了宇宙”。正如香料在《沙丘》宇宙中占据着至关重要的地位一样,在当今的生成式人工智能时代,数据也承载着类似角色。
就像《沙丘》中对香料的争夺,现实世界里各方势力也在为数据资源展开激烈角逐。海量的数据如同埋藏在数字世界沙丘下的“香料”,蕴藏着难以估量的价值。而那些能够高效采集、管理和利用数据的企业,就像小说中控制香料的势力,在这场数据争夺战中占据着优势地位。
如同香料在《沙丘》宇宙中的供应并不是无限的如果开采过度或生态系统受到破坏,香料的产量可能会大幅减少甚至耗尽,数据也可能被耗尽。根据非营利研究机构Epoch AI的最新论文,大语言模型会在2028年耗尽互联网文本数据。
大模型真的在吞噬人类的一切数据吗?我们是否正处在一个看似无尽的数字香料狂潮中,不断地向这些饥渴的大模型提供养分?
人类生成的数据量有限,一旦这些文本数据被耗尽,可能会成为约束语言模型继续扩展的主要瓶颈。相关论文认为,语言模型将在2026年到2032年之间利用完这些数据,但如果考虑到利润最大化,过度训练数据可能会导致数据在2025年就被用完。
月之暗面创始人杨植麟也在近期表达了类似观点,他认为大模型通向AGI最大的挑战是数据。杨植麟表示,“假设你想最后做一个比人类更好的AI,但可能根本不存在这样的数据,因为现在所有的数据都是人产生的。所以最大的问题是怎么解决这些比较稀缺、甚至一些不存在的数据。”
根据Epoch研究员Pablo Villalobos的观点,OpenAI在训练GPT-4时使用了大约1200万个token,G










