GLM 5.1 评测深度分析

GLM 5.1 是智谱AI于2026年4月发布的旗舰开源大语言模型，在数学推理（AIME 2026得分95.3，全球第2）和软件工程（SWE-Bench Pro得分58.4，开源模型第一）方向表现较强。本页提供GLM 5.1在9项主流基准上的完整评测数据，以及与Kimi K2.6、DeepSeek-V4-Pro等同类模型的横向对比、GLM系列历代版本的纵向对比，并附有API定价信息和能力分析。

GLM 5.1 目前收录了 9 项评测数据，覆盖综合评估、数学推理、软件工程和 AI Agent 四个方向，但各方向收录的基准数量差异较大，且并非所有竞品模型都参与了相同的基准测试，因此跨方向的横向比较需谨慎。

理解这些数据有一个关键前提：GLM 5.1 的所有成绩均来自思考模式（reasoning mode），部分基准还额外开启了工具调用或联网能力。以 HLE 为例，无工具条件下得分 31.0（全球第 61），开启工具后上升至 52.3（全球第 9），两个条件下的排名相差超过 50 位。这说明 GLM 5.1 的工具调用能力对其整体表现有显著影响，评估时需区分"模型本身的推理能力"与"模型在有工具支撑下的任务完成能力"。

与同类模型的横向比较

将 GLM 5.1 与 Kimi K2.6、MiniMax-M2.7、DeepSeek-V4-Pro 对比，各模型取最佳得分：

评测基准	GLM 5.1	Kimi K2.6	MiniMax-M2.7	DeepSeek-V4-Pro
GPQA Diamond	86.2	90.5	87.0	90.1
HLE（含工具）	52.3	54.0	28.0	48.2
SWE-Bench Pro	58.4	58.6	56.2	55.4
BrowseComp	79.3	83.2	—	83.4
Terminal Bench 2.0	63.5	66.7	—	67.9
Tool Decathlon	40.7	50.0	—	—
AIME 2026	95.3	96.4	—	—
IMO-AnswerBench	83.8	86.0	—	89.8

加粗为各行最高分。

在对比的 8 项基准中，GLM 5.1 没有在任何一项取得最高分。与 Kimi K2.6 相比，GLM 5.1 在软件工程方向差距最小（SWE-Bench Pro 仅差 0.2 分），在工具使用编排方向差距最大（Tool Decathlon 落后约 9 分）。DeepSeek-V4-Pro 在联网信息收集和终端工具执行上略优于 GLM 5.1，但在含工具的综合评估（HLE）上低于 GLM 5.1。MiniMax-M2.7 由于数据缺失较多，难以全面对比。

总体来看，GLM 5.1 与 Kimi K2.6 属于当前开源模型的同一梯队，两者在多数基准上差距较小，但 Kimi K2.6 在目前有数据的项目中均不低于 GLM 5.1。

历代版本的改进趋势

评测基准	GLM-4.6	GLM-4.7	GLM-5	GLM 5.1
GPQA Diamond	82.9	85.7	86.0	86.2
HLE（含工具）	30.4	42.8	50.4	52.3
BrowseComp	45.1	52.0	75.9	79.3
Terminal Bench 2.0	—	41.0	61.1	63.5
SWE-Bench Pro	—	40.6	—	58.4
AIME 2026	—	92.9	92.7	95.3

从趋势来看，HLE 和 BrowseComp 在 GLM-4.7 到 GLM-5 之间提升幅度最大，说明这一阶段是综合推理和 Agent 能力的主要突破期。GLM-5 到 GLM 5.1 的提升幅度整体收窄，更像是定向增强而非全面代际跃升，重点集中在软件工程和长程任务方向。GPQA Diamond 历代变化不足 4 分，改进相对有限。

几个值得关注的问题

长程任务能力的验证程度有限

智谱 AI 官方声称 GLM 5.1 支持单次任务持续自主工作 8 小时，目前主要通过官方 demo 展示，包括复刻 macOS 桌面界面、构建 Linux 系统等场景。这类演示能够说明模型在特定条件下的能力上限，但尚无独立第三方在标准化基准上对小时级任务的系统性评测。Terminal Bench 2.0（63.5）可部分反映其长程工具执行能力，但该基准并非专门针对小时级任务设计。用户在实际场景中的表现会因任务类型和复杂度不同而存在差异。

工具依赖性较强

如前所述，GLM 5.1 在有无工具环境下的表现差异较大。这意味着它在有完整工具链支撑的工程环境中更能发挥优势，而在纯文本推理或工具受限的场景下，竞争力相对减弱。

价格随版本迭代明显上涨

GLM 5.1 相较于 GLM-5，输入价格从 $1.00 上涨至 $1.40（+40%），输出价格从 $3.20 上涨至 $4.40（+37.5%）。在对比模型中，GLM 5.1 的输出价格是最高的。对于输出量较大的使用场景，这一成本变化需要纳入选型考量。

小结

GLM 5.1 在数学推理和软件工程方向有较强表现，在开源模型中属于前列。其主要适用场景是有工具环境支撑的工程类任务，Agent 工具调用能力是其发挥优势的重要前提。

与竞品相比，GLM 5.1 与 Kimi K2.6 处于相近水平，两者在多数基准上差距不大，但目前可对比的数据中 Kimi K2.6 整体略优。官方重点宣传的长程任务能力目前缺乏系统性第三方验证，是否适合具体场景需用户自行评估。价格方面相较前代有明显提升，选型时需结合实际用量综合判断。

评测结果

GLM 5.1

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考模式

86.20

39 / 175

HLE

思考模式

62 / 149

HLE

思考模式工具

52.30

9 / 149

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

思考模式工具

58.40

5 / 36

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考模式工具联网

79.30

11 / 43

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

63.50

11 / 43

Tool Decathlon

思考模式工具

40.70

3 / 7

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

思考模式

95.30

2 / 14

IMO-AnswerBench

思考模式

83.80

9 / 17

与其他模型对比

竞品对比

GLM 5.1 与同类主流模型的评测得分对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

8 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。

评测项	GLM 5.1当前	Kimi K2.6	MiniMax-M2.7	DeepSeek-V4-Pro
GPQA Diamond 综合评估	86.20开启思考	90.50开启思考	87.00开启思考	90.10思考水平·高
HLE 综合评估	52.30开启思考｜工具	54.00开启思考｜工具	28.00开启思考	48.20思考水平·极高｜工具
SWE-Bench Pro - Public 编程与软件工程	58.40开启思考｜工具	58.60开启思考｜工具	56.20开启思考｜工具	55.40思考水平·极高｜工具
BrowseComp AI Agent - 信息收集	79.30开启思考｜工具	83.20开启思考｜工具	--	83.40思考水平·极高｜工具
Terminal Bench 2.0 AI Agent - 工具使用	63.50开启思考｜工具	66.70开启思考｜工具	--	67.90思考水平·极高｜工具
Tool Decathlon AI Agent - 工具使用	40.70开启思考｜工具	50.00开启思考｜工具	--	--
AIME 2026 数学推理	95.30开启思考	96.40开启思考	--	--
IMO-AnswerBench 数学推理	83.80开启思考	86.00开启思考	--	89.80思考水平·高

GLM 5.1 与同类模型的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
GLM 5.1	智谱AI	$1.4 / 1M tokens	$4.4 / 1M tokens	—
Kimi K2.6	Facebook AI研究实验室	$0.95 / 1M tokens	$4 / 1M tokens	—
MiniMax-M2.7	MiniMaxAI	$0.3 / 1M tokens	$1.2 / 1M tokens	—
DeepSeek-V4-Pro	DeepSeek-AI	$1.74 / 1M tokens	$3.48 / 1M tokens	—

历代版本对比

GLM 5.1 系列各版本的评测成绩纵向对比

评测类别:

柱状图按当前筛选范围内每个模型在各评测中的最高分展示；具体模式明细请看下方表格。

评测得分对比

7 项可对比评测得分汇总。每个模型展示最佳得分，模式在分数下方标注。· 点击任意行可切换下方趋势图。

评测项	GLM 5.1当前	GLM-5	GLM-4.7	GLM-4.6
GPQA Diamond 综合评估	86.20开启思考	86.00开启思考	85.70开启思考	82.90开启思考｜工具
HLE 综合评估	52.30开启思考｜工具	50.40开启思考｜工具	42.80开启思考｜工具	30.40开启思考｜工具
SWE-Bench Pro - Public 编程与软件工程	58.40开启思考｜工具	--	40.60开启思考｜工具	--
BrowseComp AI Agent - 信息收集	79.30开启思考｜工具	75.90开启思考｜工具	52.00开启思考｜工具	45.10开启思考｜工具
Terminal Bench 2.0 AI Agent - 工具使用	63.50开启思考｜工具	61.10开启思考｜工具	41.00开启思考｜工具	--
AIME 2026 数学推理	95.30开启思考	92.70开启思考	92.90开启思考	--
IMO-AnswerBench 数学推理	83.80开启思考	82.50开启思考	--	--

单评测历史趋势图

当前查看：GPQA Diamond · 综合评估

选择评测

常规常规 + 工具推理推理 + 工具深度推理深度推理 + 工具

横轴为模型与发布时间，纵轴为分数；同一模式会用实线串起版本变化，同代不同模式继续用虚线辅助对齐。

GLM 5.1 所在系列的标准 API 价格对比

按模型并排展示标准文本输入价与输出价；若存在超长上下文加价，仅保留阈值内标准价，并在下方说明适用范围。

数据来源：DataLearnerAI，展示默认供应商的标准文本价格。 · USD / 1M tokens

模型	供应商	标准输入	标准输出	标准价适用于
GLM 5.1	智谱AI	$1.4 / 1M tokens	$4.4 / 1M tokens	—
GLM-5	智谱AI	$1 / 1M tokens	$3.2 / 1M tokens	—
GLM-4.7	—	0.6 美元/100万 tokens	2.2 美元/100万 tokens	—
GLM-4.6	—	0.6 美元/ 100 万 tokens	2.2 美元/ 100 万 tokens	—