
大家好,我是肆〇柒。最近,由Center for AI Safety、斯坦福大学、MIT、牛津大学、纽约大学、蒙特利尔大学(Mila)等 29 家顶尖研究机构的数十位学者共同发布了一篇里程碑式论文——《A Definition of AGI》。这篇论文首次将“通用人工智能”从哲学争论拉回工程可测领域,提出了一套基于人类认知架构的、可手动评估的 AGI 量化框架。今天,我们就来看看这套框架如何为当前 AI 系统体检,以及为何 GPT-5 的 AGI 得分仅为 57%。

GPT-4和GPT-5的能力。图中结果,GPT-5以“自动”模式回答问题
“我们离 AGI 还有多远?”这一问题的答案长期以来如同水中月影,随着 AI 能力的不断提升而不断漂移。当专用 AI 系统掌握曾经被认为需要人类智慧的任务时,”AGI”的评判标准也随之改变。现在看,通用人工智能可能是人类历史上最重要的技术发展,然而这一术语本身却令人沮丧地模糊不清,成为一个不断移动的目标点。这种模糊性不仅引发了无休止的争论,更阻碍了对真实进展的客观评估。由数十位顶尖学者联合提出的量化评估框架,正试图将 AGI 从哲学讨论拉回工程可测领域,为这一关键问题提供一把清晰的”标尺”。
为何需要可操作的 AGI 定义?
随着专用 AI 系统在数学、艺术等领域超越人类表现,”AGI”的标准也在不断变化。这种现象不仅助长了无益的争论,更掩盖了当今 AI 与真正通用智能之间的差距。当下,尽管大语言模型在复杂基准测试上表现令人印象深刻,但这些系统缺乏许多对人类类通用智能至关重要的核心认知能力,使其本质上仍是狭窄领域的专家。
实质上,人类是目前唯一存在的通用智能体,因此评估 AGI 必须以人类为唯一参照系。通用智能需要的不仅是狭窄领域的专门表现,还包括体现人类认知广度和深度的技能。该框架明确区分了”人类水平 AI”与”经济水平 AI”——后者如 OpenAI 和微软曾考虑将 AGI 定义为能创造 1000 亿美元价值的 AI。框架聚焦于评估”受过良好教育的个体通常具备的核心认知能力”,而非所有受过良好教育个体的综合知识和技能总和。
这一区分至关重要,因为专用 AI 可以在不具备通用性的情况下极具经济价值。该框架刻意关注核心认知能力,而非运动技能或触觉感知等物理能力,目的是为了测量心智的能力,而非其执行器或传感器的质量。这种定位使框架成为一个真正以人类认知为基准的评估工具。
理论基础:CHC 人类认知能力模型
该框架的理论基础源于 Cattell-Horn-Carroll(CHC)理论,这是经过百年来对各种认知能力测试的迭代因子分析提炼出的最实证化的模型。论文中有指出,在 1990 年代至 2000 年代,几乎所有主要的临床、个别施测的人类智力测试都迭代修订为基于 CHC 模型的测试设计蓝图,证明了其在心理测量学中的权威地位。

十大核心认知组件
CHC 理论将人类认知能力分为不同层级:顶层是一般智力(g),中层是宽域能力(如流体推理、晶体知识等),底层是窄域能力(如归纳、联想记忆等)。这一层次结构为 AGI 评估提供了系统化的分解方法。这个框架将通用智能分解为十个核心认知组件(宽域能力)和众多窄域认知能力。解决与这些能力相对应的所有任务意味着 AGI 得分为 100%。
框架并非简单照搬 CHC 模型,而是进行了针对性改造。它聚焦于核心认知能力,排除了身体/运动等非核心维度。同时,框架不将 AGI 与经济价值 AI 混为一谈,因为专用 AI 可以在不具备通用性的情况下极具经济价值。这种科学化的改造使框架既保持了心理测量学的严谨性,又适应了 AI 评估的特殊需求。
相比其他定义方式,如有研究提出的”基于性能百分位的 AGI 级别”,该框架的优势在于其对人类认知架构的系统性借鉴。而且,尽管即兴推理测试(通常称为流体智力)是人类在其他认知测试中表现的有力预测指标,但这种相关性不一定适用于 AI 系统。这表明,简单地将人类认知评估方法直接应用于 AI 系统可能产生误导,需要更全面的多维度评估。
AGI 评估框架:十大认知维度
本框架将 AGI 分解为十个核心认知组件,每个组件源自 CHC 宽域能力并等权重分配(10%),以优先考虑广度并覆盖认知的主要领域。
1.通用知识(K)领域 测试大多数受过良好教育的人所熟悉的或足够重要的知识。它细分为常识(2%)、科学(2%)、社会科学(2%)、历史(2%)和文化(2%)。评估标准具体明确:常识要求系统在常识物理测试中准确率超过 85%;科学要求在 ARC Challenge 测试中准确率超过 85%;社会科学要求在社会常识问答中准确率超过 85%;历史要求在历史事实问答中准确率超过 90%;文化要求理解文学、艺术和文化习俗。创作素材强调,测试关注的是普遍性知识,而非专业知识深度。


2.阅读与写作(RW)领域 细分为字母-单词能力(1%)、阅读理解(3%)、写作能力(3%)和英语使用知识(3%),关注从基本解码到复杂理解、创作和使用的全过程。字母-单词能力测试识别字母和解码单词的能力;阅读理解评估理解连接性话语的能力,要求在复杂文档理解测试中准确率超过 55%;写作能力细分为句子级、段落级和文章级;英语使用知识测试英语写作中关于大写、标点、用法和拼写的知识。这一领域评估的是语言的实际应用能力,而非机械记忆。


3.数学能力(M)领域 覆盖算术(2%)、代数(2%)、几何(2%)、概率(2%)和微积分(2%),测试数学知识和技能的深度和广度。评估方法从基本计算能力(如”9 × 10 × 11″)到复杂方程求解(如”解方程:2x + 3 = 7″),再到空间关系理解(如”计算底边为 5、高为 8 的三角形面积”),全面测试系统在不同数学领域的能力。


4.即兴推理(R)领域 评估解决无法仅依靠先前学习习惯的新问题的能力。它包括演绎(2%)、归纳(4%)、心智理论(2%)、规划(1%)和适应(1%)。演绎能力测试从一般陈述推理出逻辑结论的能力;归纳能力测试观察现象并发现潜在原理的能力;心智理论测试理解他人心理状态的能力;规划测试制定行动序列的能力;适应测试环境变化时调整策略的能力。这一领域测试的是灵活解决新问题的能力,而非依赖预先训练的模式。


以下是维度的具体定义:演绎推理(2%):从一般性陈述或前提中推理出逻辑上必然的结论。归纳推理(4%):发现决定现象行为的潜在原理或规则。心智理论(2%):将心理状态归因于他人,并理解这些状态可能与自身不同。规划(1%):制定一系列行动以实现特定目标。适应(1%):从一系列简单的绩效反馈中推断出未明确说明的分类规则。
5.工作记忆(WM)领域 评估暂时存储和操作信息的能力,细分为文本工作记忆(2%)、听觉工作记忆(2%)、视觉工作记忆(4%)和跨模态工作记忆(2%)。文本工作记忆包括回忆(1%)和转换序列(1%);视觉工作记忆包括空间导航记忆(1%)和长视频问答(1%),测试系统在视觉信息处理方面的能力。这一领域对评估系统处理复杂、多步骤任务的能力至关重要。


6.长期记忆存储(MS)领域 是最大的瓶颈,当前模型得分接近 0%。它细分为联想记忆(4%)、意义记忆(3%)和逐字记忆(3%)。联想记忆测试”链接先前不相关信息的能力”,如记住用户特定的邮件签名要求;意义记忆测试”编码和回忆经历和叙事语义的能力”,如记住短篇小说的情节;逐字记忆测试”精确存储和重现信息的能力”,如精确回忆购物清单。没有持续学习能力,AI 系统会遭受“健忘症”,限制其效用,迫使 AI 在每次交互中重新学习上下文。


7.长期记忆提取(MR)领域 测试长期记忆访问的流畅性和精确性,分为流畅性(6%)和幻觉(4%)。流畅性测试生成连贯内容的能力;幻觉测试避免捏造信息的能力。当前AI系统可以快速从参数中检索许多概念,但经常产生幻觉,如错误地描述”拿破仑·波拿巴赢得南非战役的关键策略”,而历史上拿破仑从未在南非进行过战役。

8.视觉处理(V)领域 评估处理和解释视觉信息的能力,包括感知(4%)、视觉生成(3%)、视觉推理(2%)和空间扫描(1%)。感知测试识别和区分视觉输入的能力;视觉生成测试合成图像和短视频的能力;视觉推理测试理解图像信息并进行逻辑推理的能力;空间扫描测试处理和操作空间信息的能力。这一领域测试系统的视觉理解和生成能力,而非简单的图像识别准确率。


9.听觉处理(A)领域 评估处理和解释听觉信息的能力,包括语音处理(1%)、语音识别(4%)、声音识别(3%)、节奏能力(1%)和音乐能力(1%)。语音处理测试识别和区分声音的能力;语音识别测试将语音转换为文本的能力;节奏能力测试识别和维持音乐节拍的能力。这一领域对评估系统在语音交互、多媒体理解等方面的能力至关重要。


10.处理速度(S)领域 测试基本认知操作准确执行的速率,细分为十个 1% 的能力。处理速度是执行简单认知任务的速率,包括感知速度-搜索、感知速度-比较、阅读速度、写作速度、数字熟练度等。例如,感知搜索测试扫描图像或文本的能力,如”确定列表中不匹配的姓名对”;感知比较测试比较两个或多个刺激的能力,如”找出最大的数字’48291, 93652, 12844, 59277′”。


这个框架的评估方法具有独特优势:框架的定义不是自动评估也不是数据集。相反,它指定了大量明确定义的任务,用于测试特定认知能力。是否 AI 能解决这些任务可以由任何人手动评估。这使得框架”比固定自动 AI 能力数据集更广泛、更稳健,能够适应不断发展的技术环境。
实证结果与”锯齿状能力”现象
框架的应用揭示了当前 AI 系统的”锯齿状能力”特征。数据显示 GPT-4 的 AGI Score 为 27%,而 GPT-5 达到 57%。这种不均衡发展凸显了特定瓶颈。

GPT-4(2023)和GPT-5(2025)的AGI分数总结,表头的字母简写对应到上文中所阐述的十大维度缩写
当下 AI 系统表现出高度不均匀或“锯齿状”的认知特征。在知识密集型任务上表现强劲,但在基础认知机制(如记忆、感知、速度)上存在明显短板。例如,长期记忆存储(MS)是最显著的瓶颈,如上文提到过,没有持续学习能力,AI 系统会遭受“健忘症”,限制其效用,迫使 AI 在每次交互中重新学习上下文。
更值得注意的是能力扭曲现象:AI 系统通过两种主要方式掩盖真实能力局限:
1. 用工作记忆模拟长期存储:依赖超长上下文窗口来维持对话连续性。这两者,一个显著的扭曲是依赖大规模上下文窗口(工作记忆)来补偿长期记忆存储的缺乏。实践中使用这些长上下文来管理系统状态和吸收信息(例如整个代码库)。然而,这种方法效率低下,计算成本高昂,并可能使系统的注意力机制过载。它最终无法扩展到需要数天或数周积累上下文的任务。
2. 用外部检索掩盖内部记忆提取不可靠:当系统无法从参数中可靠提取知识时,依赖检索增强生成(RAG)技术。外部搜索与内部检索:长期记忆提取(MR)中的不精确性——表现为幻觉或虚构——通常通过集成外部搜索工具来缓解,这一过程称为检索增强生成(RAG)。然而,对 RAG 的依赖是一种能力扭曲,掩盖了 AI 记忆中两个不同的基本弱点。首先,它补偿了无法可靠访问 AI 庞大但静态的参数知识。其次,更重要的是,它掩盖了缺乏动态、经验性记忆——一个持久的、可更新的私人交互和长期上下文演化的存储。
论文中还提出警示:误将这些扭曲视为真正的认知广度可以导致对 AGI 何时到来的错误评估。这些扭曲也可能误导人们认为智力过于“锯齿状”而无法系统理解。
框架引入了一个有力的引擎类比:将 AI 系统比作高性能引擎,整体智力是“马力”,一个人工心智,就像一台引擎,最终受其最弱组件的限制。目前,AI “引擎”的几个关键部件高度缺陷,这严重限制了系统的整体“马力”,而无论其他组件如何优化。

基于McGrew和Schneider(2018)的处理器模型
这一观点深刻揭示了 AGI 实现的系统性挑战。实现 AGI 需要解决各种重大挑战。例如,机器学习社区的 ARC-AGI 挑战旨在衡量抽象推理,体现在即兴推理(R)任务中。Meta 创建包含直观物理理解的世界模型的尝试体现在视频异常检测任务(V)中。空间导航记忆(WM)的挑战反映了李飞飞创办的 World-Labs 的核心目标。这些具体挑战说明了 AGI 不是单一技术突破,而是需要在多个认知领域同时取得进展。
对 AGI 研究的启示
该框架不仅是评估工具,更是 AGI 研发的路线图。实现 AGI 需要解决各种重大挑战,包括 Meta 的世界模型创建尝试、World-Labs 的空间导航记忆目标,以及 ARC-AGI 挑战中的抽象推理能力。这些具体研究方向为 AGI 开发提供了清晰的技术路径。
研究者必须警惕”虚假通用性”。简单的 AGI Score 总和可能具有误导性。总和可能掩盖瓶颈能力中的关键故障。例如,AGI Score 为 90% 但长期记忆存储(MS)为 0% 的 AI 系统会因“健忘症”而功能受损,尽管总分很高。因此,这个框架研究,推荐报告 AI 系统的认知概况而不仅仅是 AGI Score,以避免被表面的高分掩盖关键缺陷。
框架还清晰区分了 AGI 与其他相关概念:
- 大流行 AI:能设计制造新病原体的 AI
- 网络战 AI:能发动大规模网络攻击的 AI
- 自维持 AI:能自我维护和修复的 AI
- 递归 AI:无需人类研究人员即可自我改进的 AI
- 超级智能:在几乎所有领域都超越人类的 AI
- 替代 AI:在几乎所有任务上比人类更有效且经济的 AI
超级智能是一种在几乎所有感兴趣领域都大大超过人类认知表现的 AI。替代 AI 是一种在几乎所有任务上都比人类更有效且经济的 AI,使人类劳动在经济上变得过时。这些区分有助于更精准地讨论 AI 发展的不同路径,避免概念混淆。
此外,AGI 研究应关注系统性短板,特别是长期记忆存储(MS)和长期记忆提取(MR)领域。复杂认知任务很少仅利用单一领域。例如,解决高级数学问题需要数学能力(M)和即兴推理(R)。心智理论问题需要即兴推理(R)以及通用知识(K)。图像识别涉及视觉处理(V)和通用知识(K)。 这表明各认知维度之间的相互依赖性,单一维度的突破不足以实现真正的 AGI。
值得注意的是,该框架也存在明确局限性。其中,对智能的概念化并非详尽无遗,刻意排除了某些能力,如 Gardner 多元智能理论中提出的动觉能力;其次,示例主要针对英语语言,不具备文化中立性。未来研究可以包括在不同语言和文化背景下调整这些测试。此外,通用知识测试必然具有选择性,无法评估可能的主题领域广度。100%的 AGI 分数代表在这些测试维度上达到“高度熟练”的受过良好教育的个体,而非仅指拥有大学学位的受教育程度。这些局限性提醒我们在使用框架时应保持理性,避免过度解读评估结果。
总 结
这篇论文,通过系统审视这一基于人类认知架构的 AGI 评估框架,我们可以清晰地看到当前 AI 系统的真实能力状况。框架将 AGI 从模糊的哲学概念转化为可量化的工程问题,通过十个核心认知维度——通用知识、阅读与写作、数学能力、即兴推理、工作记忆、长期记忆存储、长期记忆提取、视觉处理、听觉处理和处理速度——为评估 AI 系统的通用性提供了全面标准。
实证数据揭示了一个关键事实:尽管 GPT-5 相比 GPT-4 有显著进步(AGI Score 从 27% 提升至 57%),但当前 AI 系统仍表现出”锯齿状能力”特征:在知识密集型任务上表现突出,但在基础认知机制(尤其是长期记忆存储)上存在严重缺陷。这种不均衡发展通过”能力扭曲”(如用超长上下文窗口模拟长期记忆、用外部检索掩盖内部知识不可靠)部分掩盖,但无法替代真正的认知广度。
这一框架的核心价值在于它为 AGI 研究提供了明确的路线图。通过识别关键瓶颈(如长期记忆存储)和系统性短板,研究者可以更有针对性地解决 AGI 实现过程中的核心挑战。同时,框架强调 AGI 评估应关注认知架构的完整性,而非单一维度的突破,提醒我们不要被片面的性能指标所迷惑。
这个框架的研究,推荐报告 AI 系统的认知概况而不仅仅是 AGI Score,因为总和可能掩盖瓶颈能力中的关键故障。这一建议对 AI 的研究具有重要意义:它促使我们超越简单的总分比较,深入理解系统在不同认知维度上的表现,从而获得更准确的能力评估。AGI 要求的不仅是狭窄领域的专门表现,还包括体现人类认知的广度和深度的技能。这一理念将重新定义 AGI 研究的范式,从追求单一任务上的超越人类表现,转向构建具有完整认知架构的真正通用人工智能。
当 AGI 研究采纳这种多维、人类对齐的评估标准,我们将能够避免”内卷式进步”和对 AGI 进展的误判,为真正通用人工智能的到来提供清晰的衡量标尺。正如这篇论文中所揭示的,AGI 不是单一维度的突破,而是认知架构完整性的实现——当最薄弱的环节达到人类水平,我们才能说 AGI 真正到来。这一科学、系统的评估方法,将为人类探索通用人工智能的旅程提供不可或缺的导航工具。
文章来自:51CTO
