GLM 5.1

Name: GLM 5.1
Price: 1.4 USD
Availability: InStock
Author: 智谱AI

推理大模型

GLM 5.1

发布时间: 2026-03-27更新于: 2026-04-25 14:56:58.6094,769

在线体验 GitHub Hugging Face Compare

模型参数

754亿

上下文长度

200K

中文支持

支持

推理能力

GLM 5.1 是由智谱AI 发布的 AI 模型，发布时间为 2026-03-27，定位为推理大模型，参数规模约为 754.0B，上下文长度为 200K，模型文件大小约 1.51TB，采用 MIT License 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

GLM 5.1

模型基本信息

推理过程

支持

思考模式

思考模式 (默认)常规模式

上下文长度

200K tokens

最大输出长度

128000 tokens

模型类型

推理大模型

发布时间

2026-03-27

模型文件大小

1.51TB

MoE架构

是

总参数 / 激活参数

754 亿 / 40 亿

知识截止

暂无数据

GLM 5.1

开源和体验地址

代码开源状态

MIT License

预训练权重开源

MIT License- 免费商用授权

GitHub 源码

https://github.com/zai-org/GLM-5.1

Hugging Face

https://huggingface.co/zai-org/GLM-5.1

在线体验

https://docs.z.ai/guides/llm/glm-5.1

GLM 5.1

官方介绍与博客

官方论文

GLM-5.1: Towards Long-Horizon Tasks

DataLearnerAI博客

暂无介绍博客

GLM 5.1

API接口信息

接口速度

3/5

💡默认单位：$/100万 tokens。若计费单位不同，则以供应商公开的原始标注为准。

了解不同定价模式详解

标准模式

类型	适用条件	输入	输出
文本	-	$1.40/ 1M	$4.40/ 1M

缓存定价Prompt缓存

类型	有效期	写入	读取
文本	5m	$0.260/ 1M	$4.40/ 1M

GLM 5.1

评测结果

GLM 5.1 当前已收录的代表性评测结果包括 HLE（9 / 149，得分 52.30）、SWE-Bench Pro - Public（5 / 36，得分 58.40）、AIME 2026（2 / 14，得分 95.30）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

思考模式

86.20

39 / 175

HLE

思考模式

62 / 149

HLE

思考模式工具

52.30

9 / 149

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

思考模式工具

58.40

5 / 36

AI Agent - 信息收集

共 1 项评测

评测名称 / 模式

得分

排名/总数

BrowseComp

思考模式工具联网

79.30

11 / 43

AI Agent - 工具使用

共 2 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

思考模式工具

63.50

11 / 43

Tool Decathlon

思考模式工具

40.70

3 / 7

数学推理

共 2 项评测

评测名称 / 模式

得分

排名/总数

AIME 2026

思考模式

95.30

2 / 14

IMO-AnswerBench

思考模式

83.80

9 / 17

查看评测深度分析与其他模型对比

和其他模型对比

想自定义其他组合？打开对比工具

GLM 5.1

发布机构

智谱AI

查看发布机构详情

GLM 5.1

模型解读

2026 年 4 月 8 日，智谱 AI 正式开源 GLM-5.1，距离其前代模型 GLM-5 发布仅约两个月。但从定位上看，5.1 并不是常规的小版本补丁——它代表着智谱对「大模型能做什么」这个问题的一次重新回答。

GLM-5 的核心叙事是 Agentic Engineering（智能体工程），即让模型能够完成比单轮对话更复杂的软件工程任务。GLM-5.1 在此基础上进一步聚焦，提出了 Long Horizon Task（长程任务）的概念，并将「模型能持续工作多久」作为新的能力衡量尺度。

这个叙事转变值得仔细理解：从「能写出好代码」到「能独立工作数小时并交付完整成果」，这是两个量级的差距，不仅要求模型推理能力强，还要求其在上千步执行链路中保持目标一致性、主动纠错、自主切换策略。

二、技术规格：一个极度不对称的 MoE

GLM-5.1 的参数规格延续了 GLM-5 的路线：754B 总参数、40B 激活参数，是一个高度稀疏的 MoE（混合专家）架构。这个「不对称比」（总参数/激活参数 ≈ 18:1）意味着：

推理成本接近 40B 密集模型，而非 750B 级别，具备实际部署可行性；
模型容量接近 700B+ 密集模型，知识存储量远超同等推理成本的模型；
但 MoE 架构天然存在路由稳定性挑战，尤其在超长上下文任务中，专家路由的漂移可能导致输出质量不一致。

上下文窗口为 200K tokens，最大输出长度 128K tokens，这对于长程工程任务是必要条件，但 200K 并非该量级模型中的领先水平（部分模型已达 1M+）。

训练层面，智谱沿用了其自研的 Slime 异步强化学习框架，该框架专为长链条推理任务设计，支持更细粒度的后训练迭代，是 GLM-5 系列在 Agent 能力上实现快速跃升的关键基础设施。

三、评测解读：成绩单背后的真实含义

数学推理：AIME 2026 全球第一（95.3 分）

这是 GLM-5.1 目前最亮眼的单项成绩，在收录的 11 个模型中排名第一。AIME 是美国数学邀请赛题库，对纯数学推理能力要求极高。

值得注意的是：这一成绩是在开启思维（Thinking）模式下取得的，且 AIME 题库样本数量有限，排行榜尚在早期（仅 11 个模型）。在 IMO-AnswerBench 上，GLM-5.1 得分 83.8，排名第 4/8，更接近真实数学能力的中高水平，而非绝对第一。两项成绩结合来看，GLM-5.1 的数学推理能力已处于顶尖开源模型行列，但「全球最强」的说法需要更大样本的基准加以验证。

软件工程：SWE-Bench Pro 全球第二（58.4 分）

SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug，是目前最接近真实开发工作的编程评测之一。GLM-5.1 以 58.4 分排名第 2/24，官方宣称在该基准上超越 Claude Opus 4.6 和 GPT-5.4，在开源模型中取得第一。

这一成绩的含义是实质性的：SWE-Bench Pro 不可以靠记忆题库刷分，它考验的是模型真正的工程问题定位与修复能力。三项代码综合基准（SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo）平均分达到全球第三、开源第一，说明 GLM-5.1 的编程能力已构成系统性优势，而非某一单项的偶然超越。

Agent 能力：多项进入全球前六

评测基准得分全球排名

BrowseComp（联网信息检索）79.36 / 35

Terminal Bench 2.063.56 / 31

Tool Decathlon（工具综合）40.72 / 5

HLE（含工具）52.36 / 128

BrowseComp 和 Terminal Bench 的前六名次说明 GLM-5.1 在实际 Agent 场景中有真实竞争力。但 Tool Decathlon 目前仅 5 个参与模型，参考价值有限，不宜过度解读。

综合推理：GPQA Diamond 86.2 分（第 31 / 166）

这是 GLM-5.1 相对较弱的一环。在收录 166 个模型的榜单中排名第 31，说明其综合科学推理能力并未达到同等工程能力的水平。对于以工程和代码为核心定位的模型，这一取舍在预期之内。

四、「8 小时持续工作」能力：概念还是现实？

智谱官方将「8 小时持续工作」作为 GLM-5.1 的核心卖点，并配合 Demo 展示了模型在 8 小时内从零构建完整 Linux 桌面系统（执行 1200+ 步）、自主完成 655 轮迭代使向量数据库吞吐提升 6.9 倍等案例。

这些 Demo 的意义在于：模型能够形成「实验—分析—优化」的自主闭环，而不只是一次性生成代码等待人工验证。在 KernelBench Level 3 上，GLM-5.1 完成千轮工具调用后实现 3.6 倍几何平均加速比，远高于 torch.compile max-autotune 模式的 1.49 倍，这是有量化依据的性能提升。

需要保持理性的是：8 小时持续工作的能力在官方 Demo 之外的真实工况中尚未经过充分独立验证。社区用户反馈也指出，在超长上下文积累到一定程度后，模型存在幻觉爆炸风险，且有将大量代码塞入单一文件的倾向，会进一步加速后续的上下文质量下降。这些是当前 MoE 长程推理模型的普遍局限，并非 GLM-5.1 独有问题。

五、开源与定价：一个有趣的矛盾信号

GLM-5.1 采用 MIT License 完全开源，权重可免费商用，这对企业私有化部署、二次微调具有重要价值。与此同时，智谱在发布时再度提价 10%，API 标准定价为：

输入：$1.40 / 1M tokens
输出：$4.40 / 1M tokens

这个定价策略本身就是一个信号：智谱正在用开源建立开发者生态，用提价重塑其商业模式。一年前国产大模型还在打价格战，今天 GLM-5.1 的 API 价格已逼近 Claude Sonnet 4.6 的水平。这标志着中国头部 AI 厂商在高端推理模型领域的竞争策略，正在从「低价争量」转向「质价对齐」。

对于使用者而言，选择路径清晰：有 GPU 资源的企业和研究者可以自行部署开源权重，敏感数据不出域；云端 API 用户则按需付费，以 $1.40/$4.40 的价格换取推理基础设施。

六、局限性与尚待验证的问题

以下是目前有据可查的客观局限，使用者在评估时应予以考量：

技术层面：

超长上下文（尤其是多轮工程任务积累后）存在幻觉风险，社区建议遇到连续两轮无法修复的问题时重开上下文
架构设计能力分布不均匀，在未额外提示的情况下倾向于将代码集中在单一文件
作为推理模型，中等复杂请求的响应延迟通常在 30–60 秒，高峰期（北京时间下午 2–6 点）有限流

评测层面：

多数顶尖成绩来自开启 Thinking 模式 + 使用工具的条件，与日常轻量使用场景存在差距
部分榜单（如 Tool Decathlon）参与模型数量少，排名参考价值有限
GPQA Diamond 排名第 31，说明通用科学推理并非强项

定位层面：

GLM-5.1 明确对 Agentic Coding 场景（Claude Code、OpenClaw 类工具链）做了针对性优化，在纯文本生成、创意写作等领域的优势不如编程场景显著

七、适用场景与选型建议

最适合 GLM-5.1 的场景：

长程软件工程任务：多阶段代码生成、大型项目重构、跨文件系统级调试
自主 Agent 工作流：需要模型主动运行测试、定位瓶颈、迭代优化的场景
性能优化类任务：模型在数值计算、机器学习 Kernel 优化上有实测数据支撑
需要私有化部署的企业：MIT 协议使其成为高参数开源模型中商用限制最少的选项之一

可能不是最优选的场景：

高频轻量对话或简单 QA，推理延迟和成本都偏高
对通用科学推理（物理、化学、生物）要求较高的学术场景
对响应速度极度敏感的实时应用

八、结语：开源模型的边界正在重写

GLM-5.1 最重要的意义，不只是评测分数，而是它代表的一个趋势确认：开源模型在专业工程能力上已经能够与全球顶尖闭源模型正面竞争。

这件事在两年前几乎是不可想象的。当时的开源模型最好的结果，也不过是「接近 GPT-3.5」。今天，GLM-5.1 在 SWE-Bench Pro 上声称超越 Claude Opus 4.6，这一成绩即便存在测试条件的差异，也已说明两者处于同一竞争维度。

当然，评测和真实工程之间永远存在距离。GLM-5.1 是否能在开发者社区大规模落地、是否能经受住多样化真实任务的考验，仍需要时间验证。但方向已经清晰：大模型的战场，正在从「聊天」迁移到「做事」，而开源模型已经买到了入场券。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送