GLM 5.1
GLM 5.1 是由 智谱AI 发布的 AI 模型,发布时间为 2026-03-27,定位为 推理大模型,参数规模约为 754.0B,上下文长度为 200K,模型文件大小约 1.51TB,采用 MIT License 许可。
数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法
GLM 5.1 当前已收录的代表性评测结果包括 HLE(9 / 149,得分 52.30)、SWE-Bench Pro - Public(5 / 36,得分 58.40)、AIME 2026(2 / 14,得分 95.30)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。
2026 年 4 月 8 日,智谱 AI 正式开源 GLM-5.1,距离其前代模型 GLM-5 发布仅约两个月。但从定位上看,5.1 并不是常规的小版本补丁——它代表着智谱对「大模型能做什么」这个问题的一次重新回答。
GLM-5 的核心叙事是 Agentic Engineering(智能体工程),即让模型能够完成比单轮对话更复杂的软件工程任务。GLM-5.1 在此基础上进一步聚焦,提出了 Long Horizon Task(长程任务)的概念,并将「模型能持续工作多久」作为新的能力衡量尺度。
这个叙事转变值得仔细理解:从「能写出好代码」到「能独立工作数小时并交付完整成果」,这是两个量级的差距,不仅要求模型推理能力强,还要求其在上千步执行链路中保持目标一致性、主动纠错、自主切换策略。
GLM-5.1 的参数规格延续了 GLM-5 的路线:754B 总参数、40B 激活参数,是一个高度稀疏的 MoE(混合专家)架构。这个「不对称比」(总参数/激活参数 ≈ 18:1)意味着:
上下文窗口为 200K tokens,最大输出长度 128K tokens,这对于长程工程任务是必要条件,但 200K 并非该量级模型中的领先水平(部分模型已达 1M+)。
训练层面,智谱沿用了其自研的 Slime 异步强化学习框架,该框架专为长链条推理任务设计,支持更细粒度的后训练迭代,是 GLM-5 系列在 Agent 能力上实现快速跃升的关键基础设施。
这是 GLM-5.1 目前最亮眼的单项成绩,在收录的 11 个模型中排名第一。AIME 是美国数学邀请赛题库,对纯数学推理能力要求极高。
值得注意的是:这一成绩是在开启思维(Thinking)模式下取得的,且 AIME 题库样本数量有限,排行榜尚在早期(仅 11 个模型)。在 IMO-AnswerBench 上,GLM-5.1 得分 83.8,排名第 4/8,更接近真实数学能力的中高水平,而非绝对第一。两项成绩结合来看,GLM-5.1 的数学推理能力已处于顶尖开源模型行列,但「全球最强」的说法需要更大样本的基准加以验证。
SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是目前最接近真实开发工作的编程评测之一。GLM-5.1 以 58.4 分排名第 2/24,官方宣称在该基准上超越 Claude Opus 4.6 和 GPT-5.4,在开源模型中取得第一。
这一成绩的含义是实质性的:SWE-Bench Pro 不可以靠记忆题库刷分,它考验的是模型真正的工程问题定位与修复能力。三项代码综合基准(SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo)平均分达到全球第三、开源第一,说明 GLM-5.1 的编程能力已构成系统性优势,而非某一单项的偶然超越。
评测基准得分全球排名
BrowseComp(联网信息检索)79.36 / 35
Terminal Bench 2.063.56 / 31
Tool Decathlon(工具综合)40.72 / 5
HLE(含工具)52.36 / 128
BrowseComp 和 Terminal Bench 的前六名次说明 GLM-5.1 在实际 Agent 场景中有真实竞争力。但 Tool Decathlon 目前仅 5 个参与模型,参考价值有限,不宜过度解读。
这是 GLM-5.1 相对较弱的一环。在收录 166 个模型的榜单中排名第 31,说明其综合科学推理能力并未达到同等工程能力的水平。对于以工程和代码为核心定位的模型,这一取舍在预期之内。
智谱官方将「8 小时持续工作」作为 GLM-5.1 的核心卖点,并配合 Demo 展示了模型在 8 小时内从零构建完整 Linux 桌面系统(执行 1200+ 步)、自主完成 655 轮迭代使向量数据库吞吐提升 6.9 倍等案例。
这些 Demo 的意义在于:模型能够形成「实验—分析—优化」的自主闭环,而不只是一次性生成代码等待人工验证。在 KernelBench Level 3 上,GLM-5.1 完成千轮工具调用后实现 3.6 倍几何平均加速比,远高于 torch.compile max-autotune 模式的 1.49 倍,这是有量化依据的性能提升。
需要保持理性的是:8 小时持续工作的能力在官方 Demo 之外的真实工况中尚未经过充分独立验证。社区用户反馈也指出,在超长上下文积累到一定程度后,模型存在幻觉爆炸风险,且有将大量代码塞入单一文件的倾向,会进一步加速后续的上下文质量下降。这些是当前 MoE 长程推理模型的普遍局限,并非 GLM-5.1 独有问题。
GLM-5.1 采用 MIT License 完全开源,权重可免费商用,这对企业私有化部署、二次微调具有重要价值。与此同时,智谱在发布时再度提价 10%,API 标准定价为:
这个定价策略本身就是一个信号:智谱正在用开源建立开发者生态,用提价重塑其商业模式。一年前国产大模型还在打价格战,今天 GLM-5.1 的 API 价格已逼近 Claude Sonnet 4.6 的水平。这标志着中国头部 AI 厂商在高端推理模型领域的竞争策略,正在从「低价争量」转向「质价对齐」。
对于使用者而言,选择路径清晰:有 GPU 资源的企业和研究者可以自行部署开源权重,敏感数据不出域;云端 API 用户则按需付费,以 $1.40/$4.40 的价格换取推理基础设施。
以下是目前有据可查的客观局限,使用者在评估时应予以考量:
技术层面:
评测层面:
定位层面:
最适合 GLM-5.1 的场景:
可能不是最优选的场景:
GLM-5.1 最重要的意义,不只是评测分数,而是它代表的一个趋势确认:开源模型在专业工程能力上已经能够与全球顶尖闭源模型正面竞争。
这件事在两年前几乎是不可想象的。当时的开源模型最好的结果,也不过是「接近 GPT-3.5」。今天,GLM-5.1 在 SWE-Bench Pro 上声称超越 Claude Opus 4.6,这一成绩即便存在测试条件的差异,也已说明两者处于同一竞争维度。
当然,评测和真实工程之间永远存在距离。GLM-5.1 是否能在开发者社区大规模落地、是否能经受住多样化真实任务的考验,仍需要时间验证。但方向已经清晰:大模型的战场,正在从「聊天」迁移到「做事」,而开源模型已经买到了入场券。
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

| 类型 | 有效期 | 写入 | 读取 |
|---|---|---|---|
| 文本 | 5m | $0.260/ 1M | $4.40/ 1M |