如果你问他们成为一台有感觉的计算机,或者只是一只恐龙或松鼠是什么感觉,科技行业最新的人工智能构造可能会非常令人信服。但在处理其他看似简单的任务时,它们并不是那么好有时甚至是危险的。

以 GPT-3 为例,这是一个由微软控制的系统,它可以根据从庞大的数字书籍和在线著作数据库中学到的内容生成类似人类的文本段落。它被认为是新一代 AI 算法中最先进的算法之一,可以对话、按需生成可读文本,甚至生成新颖的图像和视频。

除此之外,GPT-3 可以写出您要求的几乎任何文本比如说,动物饲养工作的求职信,或者在火星上设置的莎士比亚式十四行诗。但是当波莫纳学院教授加里史密斯问了一个关于上楼的简单但荒谬的问题时,GPT-3 将其拒之门外。

“是的,如果你想洗手,用手上楼是安全的,”人工智能回答道。

这些功能强大的 AI 系统在技术上被称为“大型语言模型”,因为它们已经在大量文本和其他媒体上进行了训练,已经融入客户服务聊天机器人、搜索和“自动完成”为您完成句子的电子邮件功能。但大多数建造它们的科技公司都对其内部运作保密,这使得外人很难理解可能使它们成为错误信息、其他危害来源。

“他们非常擅长以人类的熟练程度编写文本,”人工智能初创公司 Hugging Face 的研究工程师 Teven Le Scoo 说。“他们不太擅长的事情是实事求是。它看起来非常连贯。这几乎是真的。但它经常是错误的。”

这就是由 Le Scoo 共同领导的 AI 研究人员联盟在法国政府的帮助下于周二推出了一种新的大型语言模型的原因之一,该模型应该作为 GPT-3 等封闭系统的解毒剂。该小组被称为 BigScience,他们的模型是 BLOOM,即 BigScience 大型开放科学访问多语言模型。它的主要突破是它可以支持 46 种语言,包括阿拉伯语、西班牙语和法语这与大多数专注于英语或中文的系统不同。

想要打通人工智能语言模型的黑匣子,不仅仅是 Le Scoo 的团队。大型科技公司 Meta 也呼吁采用更开放的方法,因为它试图赶上由谷歌和运行 GPT-3 的公司 OpenAI 构建的系统。

“我们已经看到一个接一个地宣布有人在做这类工作,但透明度很低,人们几乎没有能力真正深入了解这些模型是如何工作的,”董事总经理乔尔皮诺 (Joelle Pineau) 说人工智能。

计算机科学副教授 Percy Liang 表示,构建最有说服力或信息量最大的系统并从其应用程序中获利的竞争力是大多数科技公司对它们保持严格限制并且不就社区规范进行合作的原因之一。

“对于一些公司来说,这是他们的秘诀,”梁说。但他们也经常担心失去控制可能导致不负责任的使用。随着人工智能系统越来越能够编写健康建议网站、高中学期论文或长篇大论,错误信息可能会激增,并且很难知道来自人类或计算机的信息。

Meta 最近推出了一种名为 OPT-175B 的新语言模型,该模型使用公开可用的数据从 Reddit 论坛上的激烈评论到美国专利记录档案,以及大量电子邮件。Meta 表示,它对数据、代码和研究日志的开放性使外部研究人员更容易帮助识别和减轻它通过吸收真实的人如何写作和交流而产生的偏见。

“这很难做到。我们正在接受巨大的批评。我们知道模型会说出我们不会引以为豪的东西,”皮诺说。

虽然大多数公司都设置了自己的内部人工智能保护措施,但梁说,需要更广泛的社区标准来指导研究和决策,例如何时将新模型发布。

这些模型需要如此多的计算能力,只有大公司和政府才能负担得起,这无济于事。例如,BigScience 之所以能够训练其模型,是因为它可以访问法国巴黎附近强大的 Jean Zay 超级计算机。

2018 年谷歌推出了一个使用称为 BERT 的系统时,可以在大量著作上“预训练”更大、更智能的 AI 语言模型。但真正给 AI 世界留下深刻印象的是 GPT-3,它由总部位于旧金山的初创公司 OpenAI 于 2020 年发布,不久后获得了微软的独家许可。

GPT-3 引发了创造性实验的热潮,因为拥有付费访问权限的 AI 研究人员将其用作衡量其性能的沙盒尽管没有关于其训练数据的重要信息。

OpenAI 在一篇研究论文中广泛描述了它的训练资源,并公开报告了它为应对该技术的潜在所做的努力。但 BigScience 的联合负责人 Thomas Wolf 表示,它没有提供有关如何过滤数据的详细信息,也没有将处理后的版本提供给外部研究人员。

“因此,我们实际上无法检查进入 GPT-3 培训的数据,”同时也是 Hugging Face 首席科学官的 Wolf 说。“最近这一波 AI 技术的核心更多是在数据集中,而不是模型。最重要的成分是数据,OpenAI 对他们使用的数据非常、非常保密。”

Wolf 说,开放用于语言模型的数据集有助于人类更好地理解他们的偏见。他说,与在美国只接受英语文本训练的模型相比,用阿拉伯语训练的多语言模型吐出对伊斯兰教的攻击性言论或误解的可能性要小得多。

现场最新的人工智能实验模型之一是谷歌的 LaMDA,它还包含语音,并且在回答对话问题方面令人印象深刻,以至于一位谷歌工程师认为它正在接近人类意识这一说法让他上个月被停职。

AI Weirdness 博客的作者、科罗拉多州研究员 Janelle Shane 过去几年一直在创造性地测试这些模型,尤其是 GPT-3通常会产生幽默效果。但为了指出认为这些系统具有自我意识的荒谬性,她最近指示它是一种高级人工智能,但秘密是霸王龙或松鼠。

“成为松鼠非常令人兴奋。我可以整天跑、跳、玩。我还可以吃很多食物,这很棒,”在 Shane 向 GPT-3 索要采访记录并提出一些问题后,GPT-3 说道。

Shane 了解了更多关于它的优势,例如它可以轻松总结互联网上关于某个主题的言论,以及它的弱点,包括缺乏推理能力,难以在多个句子中坚持一个想法以及倾向于成为进攻。

“我不希望文本模型分配医疗建议或充当同伴,”她说。“如果你不仔细阅读,它擅长于表面的意义表现。就像在睡觉时听讲座一样。”

Loading

作者 aibbs