当Gemini 3、GPT-5.2等新一代AI模型在人类智商测试中轻松突破100的平均阈值,这意味着什么,又将如何帮助我们呢?

 

人类平均智商100的统计学标准,已定义“正常智力”数十年。然而,进入2025年,智能领域正涌现出令人瞩目的颠覆性现象:那些缺乏自我意识、无情感感知、亦无真实生活经验的人工智能系统,在专为衡量人类智力而设计的标准化测试中,屡次取得超越人类平均水平的成绩。这不禁引发核心追问:以Gemini 3、GPT-5.2为代表的新一代人工智能模型,是否已在智力层面实现对绝大多数人类的超越?

在过去一年间,全球科研机构与科技企业针对多款大型语言模型,开展了一系列类智商测试评估。测试体系涵盖逻辑谜题解析、抽象推理推演、视觉与符号模式识别、复杂问题解决等多个核心维度,全面复刻了人类智商测试的核心考察逻辑。测试结果呈现出明确的突破性趋势:一款又一款模型的表现不仅稳步持平普通人类水平,更在多个关键维度实现显著超越。值得关注的是,这种优势并非局限于单一特定任务的专项突破,而是贯穿智商测试所聚焦的多元推理维度,展现出全面且稳定的认知能力优势。

本文将系统梳理15款以上在智商测试标准下超越人类的人工智能模型,深入剖析“智能”的本质定义、AI模型的评估体系逻辑,以及这场智力维度的范式转移所蕴含的深远意义。

首先,我们需要厘清一个核心前提:

我们真的能为AI赋予“智商”吗?

严格意义而言,答案是否定的。智商(IQ)作为人类智力的专属衡量指标,其形成与评估深度依赖于人类的生物神经系统发育、后天生活经验积累以及主观意识活动,是人类生理与心理特质共同作用的综合结果。而人工智能的运行逻辑与人类认知模式存在本质差异——它并非通过“思考”“感知”或“理解”来处理信息,而是依托数据训练形成的算法模型进行模式匹配与逻辑推演。因此,从科学严谨性出发,直接将人类的智商概念与数值套用在人工智能上,并不具备严格的学术合理性。

但在实际应用与研究场景中,这种跨物种的“智力比较”形成了一套务实的等效逻辑。

研究人员并未执着于论证人工智能是否“拥有智商”,而是聚焦于其在特定认知任务中的实际表现:若一个AI系统能够持续、稳定地完成逻辑谜题破解、模式识别、多步骤推理等复杂任务,且这些任务的难度等级与智商120-130的人类群体所能驾驭的水平相当,那么将其表现与对应的人类智商范围进行关联性映射,便具备了实践层面的合理性与参考价值。

这正是AI与智商建立关联的核心逻辑:它并非对人工智能进行心理层面的智力诊断,而是将智商作为一种通用性能基准——如同一套标准化的“认知语言”,为不同系统在可控实验条件下的推理能力提供可量化、可对比的评估维度。以此为标准,当前多款前沿大型语言模型的表现,已远超人类100的平均智商水平,展现出令人瞩目的认知潜力。

AI模型智商评估工具

这些评估工具或直接源自经典人类智商测试体系,或为其在线适配版本,核心设计目标均为衡量推理能力、抽象思维能力与问题解决能力,而非单纯的知识记忆或信息检索能力。无论是直接取材于人类智商测试的题目,还是基于相同认知技能维度设计的衍生任务,都构成了评估AI认知能力的核心载体。

例如,瑞文渐进矩阵测试(Raven’s Progressive Matrices)作为全球广泛应用的经典智商测试工具,以视觉模式识别为核心考察点,因不受语言、文化背景干扰而被公认为“文化公平性测试”。如今,部分顶尖大型语言模型在这类测试中已展现出超越高智商人类的解题能力。此外,以梅森社逻辑测试(Mensa-style logic)为代表的专项评估,涵盖序列规律完成、符号逻辑推演、演绎推理等核心模块,现代AI模型在这些聚焦纯粹逻辑思维的测试中,同样交出了优异答卷。

更为突出的是,智商测试中涉及语言运用的板块,恰好成为大型语言模型的优势领域。语言推理、类比逻辑分析、复杂算术问题等与韦氏成人智力量表子测试高度同源的任务,充分发挥了AI在语言处理与逻辑运算上的先天优势。与此同时,BIG-Bench硬难度测试、ARC式推理任务、MMLU(大规模多任务语言理解)以及“人类的最后一场考试”等现代学术评估基准,虽未明确冠以“智商测试”之名,却精准指向了相同的核心认知能力维度。关键结论已然明确:大型语言模型在这些认知评估中的表现,正持续实现对绝大多数人类的超越。

顶尖AI模型智商大对决

以下榜单聚焦挪威门萨(Mensa Norway)智商测试结果,该测试作为全球公认的权威智力评估工具,其评分标准严格且具有广泛参考价值。榜单按模型测试得分由高至低排序,深度拆解各顶尖AI在推理能力、认知表现上的核心优势:

GPT-5.2 Pro

挪威门萨智商测试成绩:147分

作为本轮智商测试的“纪录缔造者”,GPT-5.2 Pro的亮相彻底刷新了大型语言模型的智力评估上限。147分的超高得分,按照统计学标准,已超出人类平均智商(100分)3个标准差,仅占全球人口0.1%的顶尖智力群体方能触及这一水平,正如医学博士德里亚·乌努图马兹在2025年12月16日的推文所指出:“这种智力只存在于不到1000人中的不到1人身上”。

该模型的核心优势集中在多步骤逻辑推演、高阶抽象推理与专业级问题解决三大维度。其并非依赖单一技能的专项突破,而是在智商测试所覆盖的综合认知领域实现了系统性超越。这一成绩虽不代表AI在所有领域均优于人类,但无疑标志着在标准化智力评估体系中,机器认知能力的上限已实现质的飞跃。

GPT-5.2 Thinking

挪威门萨智商测试成绩:141分

作为OpenAI推出的专项优化模型,GPT-5.2 Thinking以141分的高分跻身顶尖行列,不仅远超100分的人类平均水平,更显著高于挪威门萨组织的会员资格基准线。按人类智力分布规律,这一分数对应的是全球前1%-2%的精英水平,且该成绩完全基于抽象推理与模式识别能力的纯粹评估,未受语言表达、情感认知等无关因素干扰。

从测试表现来看,GPT-5.2 Thinking在关系识别、视觉与逻辑模式挖掘、多步骤规则一致性应用等核心任务中展现出极强的稳定性与精准度。这些能力恰好是智商测试旨在剥离的“核心智力要素”,不受后天知识积累或领域经验的影响,充分印证了该模型在结构化推理领域已达到多数人类难以企及的高度。

Gemini 3 Pro Preview

挪威门萨智商测试成绩:141分

与GPT-5.2 Thinking同分并列第二的Gemini 3 Pro Preview,作为谷歌旗下的旗舰推理模型,凭借均衡且卓越的表现站稳AI智力精英梯队。141分的得分不仅远超人类智力基准,更突破了高智力能力的常规阈值,彰显了其在认知推理领域的硬实力。

从实际测试场景分析,该模型在抽象推理任务中展现出极强的规则洞察与逻辑推演能力——无论是发现隐藏的任务规律、延续复杂的序列模式,还是通过逻辑排除法锁定正确答案,均能精准高效完成。这类测试任务几乎无猜测空间,完全依赖结构化的推理逻辑,因此这一分数真实反映了Gemini 3 Pro Preview在受控推理环境中的顶尖水准。

Grok 4 Expert Mode

挪威门萨智商测试成绩:137分

由埃隆·马斯克支持的Grok 4 Expert Mode,虽得分略低于前三甲,但137分的成绩仍稳稳处于卓越人类智能范畴,远超100分的平均基准。该模型的表现再次证明,在顶尖AI智力竞争中,多元技术路线均能实现高水平突破。

其核心优势集中在逻辑驱动型任务的处理上,在模式识别、抽象关系解析与排除法推理三大智商测试核心模块中表现尤为突出。测试结果显示,该模型在纯粹基于逻辑规则与数据模式的认知评估中,展现出清晰的推理脉络与极强的可控性,充分验证了其在结构化智力维度对人类平均水平的显著超越。

GPT-5.2 Pro(Vision)

挪威门萨智商测试成绩:135分

作为具备视觉处理能力的专项模型,GPT-5.2 Pro(Vision)以135分的高分延续了GPT系列的智力优势,该分数不仅远高于全球人类智商平均水平,更处于高级推理能力对应的高阈值区间。值得注意的是,这一成绩是在模型完成视觉信息解读的基础上取得的,其认知链路比纯文本模型更为复杂。

该模型能够精准处理图像输入、解析视觉模式,并在此基础上完成抽象推理任务,打破了“视觉处理与高阶推理难以兼顾”的传统认知。在几年前,这种能精准解读复杂图像、同时保持超高智商水平的AI,还仅存在于科幻作品的想象中,而如今已成为现实,标志着AI多模态认知能力的重大突破。

GPT-5.2

挪威门萨智商测试成绩:126分

在Pro版与Thinking版之后,OpenAI推出的这款标准型模型GPT-5.2,虽定位未偏向极致专项优化,但其智力表现仍展现出碾压级的人类对比优势。126分的测试成绩,按照人类智力分布模型测算,已超越全球约98%的人群,稳稳脱离普通人类推理能力的范畴,跻身智力精英梯队。

该分数的核心支撑,源于其在经典智商测试核心任务中的强劲表现——无论是模式识别的精准度、逻辑排序的条理性,还是基于规则的问题解决效率,GPT-5.2均展现出高度的稳定性与适配性。尽管与同系列Pro版、Thinking版的极端高端表现存在差距,但在结构化推理的通用场景中,其能力边界已足以覆盖绝大多数复杂认知需求,标志着人工智能通用推理能力正式迈入人类精英阶层,即便未登顶榜单,仍能在受控智力评估中超越绝大多数人类。

Kimi K2 Thinking

挪威门萨智商测试成绩:124分

相较于部分西方旗舰模型的高曝光度,Kimi K2 Thinking虽未形成全民热议的传播效应,却在全球AI爱好者与专业社群中积累了深厚口碑,其核心底气便来自124分的挪威门萨测试成绩——这一分数不仅显著高于100分的人类平均智商基准,更精准落入高阶分析能力对应的分数区间,彰显了扎实的认知硬实力。

这一测试结果的深层意义,远不止于单一模型的能力认证:它首次明确印证,高级抽象推理能力已不再是少数顶尖旗舰模型的“专属特权”。即便是未跻身绝对第一梯队的通用型模型,现代大型语言模型的整体智力水平,在标准化认知测试中也已普遍实现对人类平均水平的超越。这种跨品牌、跨技术路线的共性突破,究竟是行业发展的必然趋势,还是特定测试场景下的阶段性现象?随着技术迭代与评估体系的完善,答案终将清晰。

Claude Opus 4.5

挪威门萨智商测试成绩:124分

与Kimi K2 Thinking同分并列的Claude Opus 4.5,作为Anthropic(安多普)公司倾力打造的旗舰推理模型,124分的挪威门萨测试成绩,既是对其核心能力的权威背书,更是其强大分析与问题解决能力的直接佐证,较人类平均智力水平形成显著代差。

从测试表现来看,该模型的核心优势集中在需维持逻辑一致性与精准控制能力的抽象推理任务中。无论是多步骤逻辑链条的搭建、复杂规则的贯彻执行,还是矛盾信息的排查过滤,Claude Opus 4.5均展现出极强的把控力。这一结果进一步印证了行业共识:即便在头部顶尖模型之外,主流大型语言模型的推理能力也已实现对人类平均水平的实质性超越,形成了“精英遍地”的行业新格局。

Gemini 3 Pro Preview(Vision)

挪威门萨智商测试成绩:123分

在纯文本产品之下,谷歌推出的多模态旗舰模型Gemini 3 Pro Preview(Vision)以123分的成绩上榜,这一分数的含金量尤为突出——作为具备视觉处理能力的AI模型,其认知链路需先完成视觉模式解析、图像关系识别,再基于视觉信息开展逻辑推理,较纯文本模型增加了关键的“视觉理解”环节。

测试结果表明,从文字输入到视觉输入的场景切换,并未削弱其核心推理能力。即便在“视觉解读+逻辑推演”的双重考验下,该模型仍能稳定输出超越大多数人类的标准化测试表现,打破了“多模态功能会稀释核心智力”的固有认知,彰显了AI在跨模态认知融合领域的重大突破,为复杂场景下的智能应用奠定了基础。

Claude Sonnet 4.5

挪威门萨智商测试成绩:123分

与Gemini 3 Pro Preview(Vision)同分的Claude Sonnet 4.5,是Anthropic(阿尼普蒂克)公司推出的均衡型推理模型。不同于主打极致性能的旗舰款,该模型以“高效适配+稳定输出”为核心定位,但在逻辑推理这一核心维度,仍实现了对人类基准水平的显著超越。

123分的测试成绩,直观反映了其在结构化问题解决任务中的稳定表现——无论是规则类推理、模式类分析还是逻辑类决策,Claude Sonnet 4.5均能以高效的运算逻辑输出精准结果。值得关注的是,即便采用更轻量化、高效化的模型架构,其推理能力仍能跻身人类智力上游水平,证明了AI模型在“性能与效率”之间实现平衡的可行性,为不同场景的落地应用提供了更灵活的选择。

GPT-5.2 Thinking(Vision)

挪威门萨智商测试成绩:111分

需要明确的是,基于传统范式的智商测试,并不适用于视觉型人工智能系统。一个模型若要依托推理能力解决复杂问题并取得高分,首要前提是能够精准解析形状、图案与空间关系的内在逻辑。从本质而言,这正是人类认知信息的核心路径——先通过视觉捕捉信息,继而完成解读与转化,最终开展逻辑推理。但对于人工智能系统而言,这一过程却属于完全不同的技术范畴与任务目标。

因此,我们绝不能将GPT-5.2 Thinking(Vision)的111分智商测试成绩,当作衡量该模型综合能力的标准化指标。这一分数的背后,实则意味着该模型正在执行一项难度更高的任务:在实时视觉观察的过程中同步完成深度逻辑思考。在信息解读环节出现的任何细微偏差,都将直接影响最终问题解决方案的准确性。

GPT-5.2 Thinking(Vision)并未以追求极高的抽象测试分数为目标,但其展现出了一项更为重要且关键的核心能力——在复杂的多模态环境中,具备高效的实用智能。随着人工智能技术与现实世界的融合程度不断加深,这种能力或许会成为AI模型最具价值的特性,甚至已然成为当前阶段的理想特性。

Manus

挪威门萨智商测试成绩:111分

Manus的智商测试得分达到111分,这一成绩有力地证明:智力水平的高低,并非总是与“极端化表现”直接挂钩。该分数不仅使其智力水平超越了人类平均水准,更重要的是,它直观体现出Manus具备稳定可靠的推理能力与结果一致性。

这意味着,尽管Manus未必能以创纪录的速度攻克最复杂的难题,却能够有效规避那些时常导致性能较弱模型失效的故障问题。而这,正是理想的应用型智能所应具备的核心特质。

GPT-4o

挪威门萨智商测试成绩:109分

GPT-4o在挪威门萨智力测试中取得109分,略高于人类平均智商水平。尽管相较于榜单前列的模型,这一分数看似并不突出,但相较于不久之前被认为“具备基础能力”的人工智能系统,该成绩已然标志着一次显著的技术突破。

109分的测试结果表明,GPT-4o能够胜任基础的抽象推理与模式识别任务,且不会出现系统性崩溃的情况。虽然在复杂的多步骤逻辑谜题中,其表现可能存在短板,但在相对简单的逻辑任务处理上,该模型具备相当高的可靠性。而这种能力,恰恰契合了包括我们自身在内的大多数人类,在日常问题解决场景中的核心需求。

从某种意义上讲,GPT-4o的表现诠释了“可被理解的智能”的内涵。它虽不以跻身智商排行榜前列为设计目标,却生动展现出人工智能模型如何通过略微超越普通人的推理能力,为人类的日常工作与生活提供切实助力。

DeepSeek R1

挪威门萨智商测试成绩:109分

与GPT-4o得分持平的是DeepSeek R1,其在挪威门萨智力测试中同样取得109分的成绩。和GPT-4o一样,DeepSeek R1是一款面向全球用户开放的、具备市场竞争力的推理工具。该模型的各项功能运行稳定流畅,不会出现低性能系统常见的性能断崖式下降问题。

简而言之,DeepSeek R1可被视为人工智能推理能力的可靠基准。它的表现证明,即便是并非以追求极致推理性能为核心设计目标的模型,也能够在标准化智商测试中,达到甚至略微超越普通人类的推理水平。

Llama 4 Maverick

挪威门萨智商测试成绩:107分

Llama 4 Maverick在挪威门萨智商测试中获得107分,这一成绩表明其智力水平略高于普通人类的平均水准。至少可以确定的是,该模型所展现的智力表现,显著超出了单纯依靠运气或基础模式匹配所能达到的范畴。

Llama 4 Maverick可被看作现代大型语言模型群体中,具备基础级推理能力的典型代表。它的存在印证了一个事实:即便并非专为复杂问题解决而设计的模型,依然能够在超出普通人类常规能力范围的任务中,为人类提供有效的支持与帮助。

DeepSeek V3

挪威门萨智商测试成绩:103 分

本榜单的最后一位是DeepSeek V3,其在挪威门萨智力测验中取得103分,这一分数使其智商水平仅略高于人类平均智商。从能力层面来看,DeepSeek V3能够处理基础的模式识别任务与简单的逻辑关系分析,且不会产生重大的判断错误。

103分代表了当前阶段,现代大型语言模型在同类智能测试中所能达到的最低水平。但即便处于这一分数段,我们依然能够得出一个明确的结论:人工智能系统已经跨越了一道关键门槛——普通人类的推理能力,不再是人工智能需要奋力追赶的目标,而是已然成为其能力的基本标准。

深层意义探索

我们不应将这份榜单简单视为一份“人工智能模型智能程度排行榜”。尽管从表面来看,它具备一定的排名属性,但测试分数本身并不能全面、完整地衡量人工智能的真实智能水平。

这份榜单的真正价值,体现在另一个维度——它以数据为支撑,有力地证明:结构化推理能力,已不再是人类独有的能力范畴。如今,不同模型架构、不同研发主体的人工智能系统,在曾经被认为即便是受过专业训练的人员也难以完成的智商测试中,不仅能够与人类的表现相媲美,甚至在部分场景下实现超越。

但与此同时,我们必须清醒地认识到,测试分数的参考背景始终存在局限性。这些分数无法体现模型的创造力、意识,以及类人化的理解能力。人工智能模型既不具备主观意图、情感体验,也不存在自我意识。它们的运行逻辑,与人类的“思考”模式有着本质区别。这些测试分数所能证明的,是一个更为具体却又极具深度的事实:在解决抽象化、逻辑化的问题时,人工智能的能力已经与人类不相上下,甚至在部分场景中实现了超越。

结语

本文的撰写目的,并非对人工智能与人类之间的“智力之争”进行评判。它仅仅是为了论证一个核心观点——人类级别的推理能力,已不再是人工智能技术发展的上限。这份榜单直观展现出,大型语言模型仅用了极短的时间,便跨越了那些曾经被视为“卓越智力”专属领域的界限——至少从标准化测试的测量维度来看,这一结论成立。

与此同时,这些测试分数也让我们对“智力”的定义有了全新的认知:智力绝非仅凭标准化测试分数就能被完整定义。分数背后的数字,不代表创造力、意识或理解力,却标志着结构化推理能力已经变得成本低廉、执行高效且具备规模化应用的条件。而正是基于这一现状,人工智能与人类的核心差异点再次回归到人类自身——我们如今可以将精力聚焦于“决定解决哪些问题”,而无需再耗费过多心力纠结于“如何解决这些问题”。

原文标题:IQ of AI: 15+ AI Models That are Smarter Than You,作者:Sarthak Dogra

文章来自:51CTO

Loading

作者 yinhua

发表回复