Gemma 4 31B 是 2026 年上半年参数效率最高的开源稠密推理模型之一——用 310 亿全激活参数,在数学和综合知识类评测上基本追平同级别最强开源竞品,但在复杂知识推理(HLE)和 Agent 任务上仍有明显差距,选择时需根据实际用途判断。
从 Gemma 3 到 Gemma 4:这次是真代际跳跃
对比同系列上代模型 Gemma 3 27B,Gemma 4 31B 的提升幅度远超正常迭代节奏,不像是渐进优化,更像是更换了核心技术路线。
GPQA Diamond(博士级专业知识推理)从 42.40 跳至 84.30,涨幅超过 40 个百分点;LiveCodeBench(实时编程能力)从 29.70 升至 80.00,几乎翻了近三倍;MMLU Pro(系统性多学科知识)从 67.50 升至 85.20。这种幅度在同一系列的相邻两代之间非常罕见。
Google DeepMind 官方说明该模型基于 Gemini 3 同源技术构建,同时默认开启思维链推理(thinking mode),这两点共同解释了代际跳跃的来源——本质上,Gemma 4 31B 引入的是一个新的能力底座,而不是在旧基础上做参数扩充。
值得注意的是,页面上 Gemma 4 31B 的所有评测分数,均来自思考模式(thinking mode 开启),而 Gemma 3 27B 的数据是常规模式。这意味着两代的对比并非完全对等的推理架构对比,实际差距的一部分由思维链推理贡献。这是读数据时需要保持清醒的地方。
竞品横向:在哪里赢、在哪里输
目前 DataLearner 收录了 Gemma 4 31B 与 GLM-5、Kimi K2.5、Qwen3.5-27B 在 6 项评测上的可比数据,以下是逐项判断。
数学推理(AIME 2026):接近同级最强,但尚未第一
Gemma 4 31B 在 AIME 2026 上得分 89.20,在当前 DataLearner 收录的 10 个有数据的模型中排名第 9,是极少数能在这个评测上进入 90 分附近的开源模型。对比来看,GLM-5 为 92.70,Kimi K2.5 为 92.50,均高于 Gemma 4 31B。数学推理上,Gemma 4 31B 是强竞争者,但不是第一。
综合知识与推理(MMLU Pro):与 Qwen3.5-27B 基本持平
Gemma 4 31B 的 MMLU Pro 为 85.20,Qwen3.5-27B 为 86.10,差距不到 1 个百分点,在误差范围内可视为相当。Kimi K2.5 在这项上为 78.50,略低一个台阶。MMLU Pro 这一项,Gemma 4 31B 表现稳健。
博士级推理(GPQA Diamond):三家竞品均略高
Gemma 4 31B 得分 84.30,GLM-5 86.00、Kimi K2.5 87.60、Qwen3.5-27B 85.50,三家对比模型均高于 Gemma 4 31B,差距在 1.2 到 3.3 个百分点之间。这个差距实际,但不构成压倒性劣势。
编程(LiveCodeBench):落后 Kimi K2.5 约 5 分
Gemma 4 31B 得分 80.00,Kimi K2.5 为 85.00,Qwen3.5-27B 为 80.70。编程能力上,Kimi K2.5 有明显优势;Gemma 4 31B 与 Qwen3.5-27B 基本同档。
复杂知识推理(HLE):这是最大的短板
HLE(Humanity's Last Exam)是当前区分顶级模型最有效的评测之一。Gemma 4 31B 在无工具条件下得分仅 19.50,加上工具和联网后提升到 26.50,但 GLM-5 在 thinking+工具模式下达到 50.40,Qwen3.5-27B 带工具为 48.50。
这个差距相当大,接近翻倍。HLE 考察的是极端复杂问题的推理深度,这里的差距说明 Gemma 4 31B 在超出常规知识边界的问题上,推理链的有效深度不及 GLM-5 和 Qwen3.5-27B。
Agent 能力(τ²-Bench):中等偏上,但 GLM-5 遥遥领先
τ²-Bench 是衡量模型在多轮工具调用和任务完成上的综合 Agent 能力。Gemma 4 31B 得分 76.90,Qwen3.5-27B 为 79.00,而 GLM-5 达到 89.70——后者几乎高出一个量级,差距显著。如果 Agent 工作流是核心用途,GLM-5 当前是更具竞争力的选择。
综合判断:哪些场景值得用 Gemma 4 31B
适合的场景:
- 本地/私有部署推理任务:31B 全激活参数在 bfloat16 下可跑在单张 80GB H100,量化后进一步降低门槛,Apache 2.0 允许商用,这是其最清晰的差异化优势——GLM-5 和 Kimi K2.5 目前没有可本地部署的开源权重。
- 数学和编程辅助:AIME 2026 接近 90、LiveCodeBench 达到 80,对于代码生成和数学推理场景,Gemma 4 31B 的能力已足够实用。
- 多模态输入场景:原生支持图像和视频输入,这在同参数量的开源模型中属于少数,对需要处理非纯文本内容的应用有实际价值。
- 多语言需求(非中文为主):支持 140 多种语言,在多语言应用场景中覆盖范围广。注意该模型在 DataLearner 页面标注"不支持中文",中文为主的场景需谨慎评估实际表现。
不适合的场景:
- 复杂知识边界推理:HLE 差距大,对需要处理超出训练知识边界的高难度推理场景,当前数据显示 GLM-5 和 Qwen3.5-27B 更有竞争力。
- 复杂 Agent 工作流:τ²-Bench 差距明显,GLM-5 当前是这一方向更强的选择。
参数效率:这才是 Gemma 4 31B 的核心叙事
Google 官方在发布时强调"以 1/30 的参数量媲美 600B 级别模型",DataLearner 的评测排名数据在一定程度上支持这一说法——MMLU Pro 全榜排名 16/116,LiveCodeBench 21/109,在 31B 参数量级内均属顶尖位置。
但这里有一个结构性背景需要说明:Gemma 4 31B 的这些成绩来自思考模式(thinking mode 默认开启),而部分竞品的常规模式分数会更低。思维链推理本身有推理时延和 token 消耗的成本,在实际部署时,推理速度和单次对话 token 成本与常规模式有差异,应用时需纳入考量。
数据说明
本页评测数据均来自 DataLearner 持续收录的公开基准测试结果,数据来源链接见页面底部。模型对比中各方所用的推理模式(思考/常规/联网)已在表格内标注,不同模式间的分数不建议直接等量对比。随着更多评测数据入库,排名和对比结论可能随时更新。