Gemma 4 31B 是 2026 年上半年参数效率最高的开源稠密推理模型之一——用 310 亿全激活参数，在数学和综合知识类评测上基本追平同级别最强开源竞品，但在复杂知识推理（HLE）和 Agent 任务上仍有明显差距，选择时需根据实际用途判断。

从 Gemma 3 到 Gemma 4：这次是真代际跳跃

对比同系列上代模型 Gemma 3 27B，Gemma 4 31B 的提升幅度远超正常迭代节奏，不像是渐进优化，更像是更换了核心技术路线。

GPQA Diamond（博士级专业知识推理）从 42.40 跳至 84.30，涨幅超过 40 个百分点；LiveCodeBench（实时编程能力）从 29.70 升至 80.00，几乎翻了近三倍；MMLU Pro（系统性多学科知识）从 67.50 升至 85.20。这种幅度在同一系列的相邻两代之间非常罕见。

Google DeepMind 官方说明该模型基于 Gemini 3 同源技术构建，同时默认开启思维链推理（thinking mode），这两点共同解释了代际跳跃的来源——本质上，Gemma 4 31B 引入的是一个新的能力底座，而不是在旧基础上做参数扩充。

值得注意的是，页面上 Gemma 4 31B 的所有评测分数，均来自思考模式（thinking mode 开启），而 Gemma 3 27B 的数据是常规模式。这意味着两代的对比并非完全对等的推理架构对比，实际差距的一部分由思维链推理贡献。这是读数据时需要保持清醒的地方。

竞品横向：在哪里赢、在哪里输

目前 DataLearner 收录了 Gemma 4 31B 与 GLM-5、Kimi K2.5、Qwen3.5-27B 在 6 项评测上的可比数据，以下是逐项判断。

数学推理（AIME 2026）：接近同级最强，但尚未第一

Gemma 4 31B 在 AIME 2026 上得分 89.20，在当前 DataLearner 收录的 10 个有数据的模型中排名第 9，是极少数能在这个评测上进入 90 分附近的开源模型。对比来看，GLM-5 为 92.70，Kimi K2.5 为 92.50，均高于 Gemma 4 31B。数学推理上，Gemma 4 31B 是强竞争者，但不是第一。

综合知识与推理（MMLU Pro）：与 Qwen3.5-27B 基本持平

Gemma 4 31B 的 MMLU Pro 为 85.20，Qwen3.5-27B 为 86.10，差距不到 1 个百分点，在误差范围内可视为相当。Kimi K2.5 在这项上为 78.50，略低一个台阶。MMLU Pro 这一项，Gemma 4 31B 表现稳健。

博士级推理（GPQA Diamond）：三家竞品均略高

Gemma 4 31B 得分 84.30，GLM-5 86.00、Kimi K2.5 87.60、Qwen3.5-27B 85.50，三家对比模型均高于 Gemma 4 31B，差距在 1.2 到 3.3 个百分点之间。这个差距实际，但不构成压倒性劣势。

编程（LiveCodeBench）：落后 Kimi K2.5 约 5 分

Gemma 4 31B 得分 80.00，Kimi K2.5 为 85.00，Qwen3.5-27B 为 80.70。编程能力上，Kimi K2.5 有明显优势；Gemma 4 31B 与 Qwen3.5-27B 基本同档。

复杂知识推理（HLE）：这是最大的短板

HLE（Humanity's Last Exam）是当前区分顶级模型最有效的评测之一。Gemma 4 31B 在无工具条件下得分仅 19.50，加上工具和联网后提升到 26.50，但 GLM-5 在 thinking+工具模式下达到 50.40，Qwen3.5-27B 带工具为 48.50。

这个差距相当大，接近翻倍。HLE 考察的是极端复杂问题的推理深度，这里的差距说明 Gemma 4 31B 在超出常规知识边界的问题上，推理链的有效深度不及 GLM-5 和 Qwen3.5-27B。

Agent 能力（τ²-Bench）：中等偏上，但 GLM-5 遥遥领先

τ²-Bench 是衡量模型在多轮工具调用和任务完成上的综合 Agent 能力。Gemma 4 31B 得分 76.90，Qwen3.5-27B 为 79.00，而 GLM-5 达到 89.70——后者几乎高出一个量级，差距显著。如果 Agent 工作流是核心用途，GLM-5 当前是更具竞争力的选择。

综合判断：哪些场景值得用 Gemma 4 31B

适合的场景：

本地/私有部署推理任务：31B 全激活参数在 bfloat16 下可跑在单张 80GB H100，量化后进一步降低门槛，Apache 2.0 允许商用，这是其最清晰的差异化优势——GLM-5 和 Kimi K2.5 目前没有可本地部署的开源权重。
数学和编程辅助：AIME 2026 接近 90、LiveCodeBench 达到 80，对于代码生成和数学推理场景，Gemma 4 31B 的能力已足够实用。
多模态输入场景：原生支持图像和视频输入，这在同参数量的开源模型中属于少数，对需要处理非纯文本内容的应用有实际价值。
多语言需求（非中文为主）：支持 140 多种语言，在多语言应用场景中覆盖范围广。注意该模型在 DataLearner 页面标注"不支持中文"，中文为主的场景需谨慎评估实际表现。

不适合的场景：

复杂知识边界推理：HLE 差距大，对需要处理超出训练知识边界的高难度推理场景，当前数据显示 GLM-5 和 Qwen3.5-27B 更有竞争力。
复杂 Agent 工作流：τ²-Bench 差距明显，GLM-5 当前是这一方向更强的选择。

参数效率：这才是 Gemma 4 31B 的核心叙事

Google 官方在发布时强调"以 1/30 的参数量媲美 600B 级别模型"，DataLearner 的评测排名数据在一定程度上支持这一说法——MMLU Pro 全榜排名 16/116，LiveCodeBench 21/109，在 31B 参数量级内均属顶尖位置。

但这里有一个结构性背景需要说明：Gemma 4 31B 的这些成绩来自思考模式（thinking mode 默认开启），而部分竞品的常规模式分数会更低。思维链推理本身有推理时延和 token 消耗的成本，在实际部署时，推理速度和单次对话 token 成本与常规模式有差异，应用时需纳入考量。

数据说明

本页评测数据均来自 DataLearner 持续收录的公开基准测试结果，数据来源链接见页面底部。模型对比中各方所用的推理模式（思考/常规/联网）已在表格内标注，不同模式间的分数不建议直接等量对比。随着更多评测数据入库，排名和对比结论可能随时更新。

评测项	Gemma 4 31B当前	GLM-5	Kimi K2.5	Qwen3.5-27B
GPQA Diamond 综合评估	84.30开启思考	86.00开启思考	87.60开启思考	85.50开启思考
HLE 综合评估	26.50开启思考｜工具	50.40开启思考｜工具	50.20开启思考｜工具	48.50开启思考｜工具
MMLU Pro 综合评估	85.20开启思考	--	78.50开启思考	86.10开启思考
LiveCodeBench 编程与软件工程	80.00开启思考	--	85.00开启思考	80.70开启思考｜工具
τ²-Bench Agent能力评测	76.90开启思考｜工具	89.70开启思考｜工具	--	79.00开启思考｜工具
AIME 2026 数学推理	89.20开启思考	92.70开启思考	92.50开启思考	--

模型	供应商	标准输入	标准输出	标准价适用于
GLM-5	智谱AI	$1 / 1M tokens	$3.2 / 1M tokens	—
Kimi K2.5	—	0.6 美元/100 万tokens	3 美元/100 万tokens	—

评测项	Gemma 4 31B当前	Gemma 3 - 27B (IT)	Gemma2-27B
GPQA Diamond 综合评估	84.30开启思考	42.40常规模式	--
MMLU Pro 综合评估	85.20开启思考	67.50常规模式	56.54常规模式
LiveCodeBench 编程与软件工程	80.00开启思考	29.70常规模式	--

Gemma 4 31B 评测深度分析

从 Gemma 3 到 Gemma 4：这次是真代际跳跃

竞品横向：在哪里赢、在哪里输

综合判断：哪些场景值得用 Gemma 4 31B

参数效率：这才是 Gemma 4 31B 的核心叙事

数据说明

评测结果

评测结果

综合评估

编程与软件工程

Agent能力评测

数学推理

竞品对比

评测得分对比

Gemma 4 31B 与同类模型的标准 API 价格对比

历代版本对比

评测得分对比

单评测历史趋势图

Gemma 4 31B 所在系列的标准 API 价格对比

数据来源