训练AI语言模型的数据，或在2026年耗尽？ -

导读：大型语言模型是目前人工智能研究中最热门的领域之一，各公司竞相发布 GPT-3 一类的模型，他们可以写出令人印象深刻的连贯文章，甚至是计算机代码。但根据一个人工智能预测团队的说法，一个严峻的问题即将出现：我们未来可能没有足够的数据来训练他们。大型…

大型语言模型是目前人工智能研究中最热门的领域之一，各公司竞相发布 GPT-3 一类的模型，他们可以写出令人印象深刻的连贯文章，甚至是计算机代码。

但根据一个人工智能预测团队的说法，一个严峻的问题即将出现：我们未来可能没有足够的数据来训练他们。

大型语言模型是使用维基百科、新闻文章、科学论文和书籍等文本内容进行训练的。

近年来，相关研究的趋势是利用越来越多的数据来训练这些模型，以期望它们更准确、更通用。

问题是，最适合用于训练语言模型的数据类型可能在不久的将来耗荆人工智能研究和预测组织 Epoch 在一篇未经同行评审的论文中指出，数据耗尽最早可能出现于 2026 年。

这个问题源于这样一个事实，即随着研究人员建立更强大、能力更多样的模型，他们必须找到更多的文本来训练他们。

“大型语言模型研究人员越来越担心他们会耗尽这类数据，”人工智能公司 Hugging Face 的研究员泰文斯考（Teven Le Scao）表示。他没有参与 Epoch 的工作。

另一个可能导致问题的事实是，语言人工智能研究人员将他们用于训练模型的数据为两类：高质量和低质量。

但论文的第一作者，Epoch 研究员巴勃罗维拉洛博斯（Pablo Villalobos）指出，这两种类型之间的界限是十分模糊的。

高质量的文本内容通常是由专业作家撰写的，因此被认为写得更好。而被归为低质量的数据包括社交媒体上的帖子或 4chan 等网站上的评论，这些低质量文本的数量远远超过了那些被认为是高质量的数据。

研究人员通常只使用高质量的数据来训练模型，因为这是他们希望模型学习和效仿的语言类型。

这种方法已经在 GPT-3 之类的大型语言模型上实现了一些令人印象深刻的成果。

据南加州大学专门研究数据集质量的教授斯瓦巴斯瓦扬迪普塔（Swabha Swayamdipta）表示，克服这些数据限制的一种方法是重新评估何为“高质量”文本，何为“低质量”文本。

斯瓦扬迪普塔认为，如果数据短缺迫使人工智能研究人员将更多样化的数据集纳入到训练过程中，这对语言模型而言是一个“积极因素”。

研究人员还可以努力找到延长语言模型训练数据的使用寿命的方法。目前，由于性能和成本的限制，这些模型只在相同的数据上训练一次。

但斯瓦扬迪普塔表示，使用相同的数据多次训练一个模型也可能是可行的。

一些研究人员认为，对于语言模型来说，更大可能并不意味着更好。斯坦福大学的计算机科学教授珀西梁（Percy Liang）说，有证据表明，提高模型的效率可以提高他们的能力，而不仅仅是增加他们的规模。

他解释说：“我们已经看到，在高质量数据上训练的小模型，其性能足以超过在低质量数据上训练的大模型。”

支持：Ren

原文：

https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/

训练AI语言模型的数据，或在2026年耗尽？