DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
目录
大模型列表GLM 5.1
GL

GLM 5.1

推理大模型

GLM 5.1

发布时间: 2026-03-27更新于: 2026-04-25 14:56:58.6094,743
在线体验GitHubHugging FaceCompare
模型参数
754亿
上下文长度
200K
中文支持
支持
推理能力

GLM 5.1 是由 智谱AI 发布的 AI 模型,发布时间为 2026-03-27,定位为 推理大模型,参数规模约为 754.0B,上下文长度为 200K,模型文件大小约 1.51TB,采用 MIT License 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

GLM 5.1

模型基本信息

推理过程
支持
思考模式
思考模式 (默认)常规模式
上下文长度
200K tokens
最大输出长度
128000 tokens
模型类型
推理大模型
发布时间
2026-03-27
模型文件大小
1.51TB
MoE架构
是
总参数 / 激活参数
754 亿 / 40 亿
知识截止
暂无数据
GLM 5.1

开源和体验地址

代码开源状态
MIT License
预训练权重开源
MIT License- 免费商用授权
GitHub 源码
https://github.com/zai-org/GLM-5.1
Hugging Face
https://huggingface.co/zai-org/GLM-5.1
在线体验
https://docs.z.ai/guides/llm/glm-5.1
GLM 5.1

官方介绍与博客

官方论文
GLM-5.1: Towards Long-Horizon Tasks
DataLearnerAI博客
暂无介绍博客
GLM 5.1

API接口信息

接口速度
3/5
💡默认单位:$/100万 tokens。若计费单位不同,则以供应商公开的原始标注为准。
了解不同定价模式详解
标准模式
类型适用条件输入输出
文本-$1.40/ 1M$4.40/ 1M
缓存定价Prompt缓存
类型有效期写入读取
文本5m$0.260/ 1M$4.40/ 1M
GLM 5.1

评测结果

GLM 5.1 当前已收录的代表性评测结果包括 HLE(9 / 149,得分 52.30)、SWE-Bench Pro - Public(5 / 36,得分 58.40)、AIME 2026(2 / 14,得分 95.30)。 本页还汇总了参数规模、上下文长度与 API 价格,便于结合评测结果与部署约束一起判断模型适配度。

思考模式
全部思考
思考模式细分 (1)
全部默认 (思考模式)
工具使用
全部使用工具不使用工具
联网能力
全部离线联网

综合评估

共 1 项评测
评测名称 / 模式
得分
排名/总数
HLE
思考模式工具
52.30
9 / 149

编程与软件工程

共 1 项评测
评测名称 / 模式
得分
排名/总数
SWE-Bench Pro - Public
思考模式工具
58.40
5 / 36

AI Agent - 信息收集

共 1 项评测
评测名称 / 模式
得分
排名/总数
BrowseComp
思考模式工具联网
79.30
11 / 43

AI Agent - 工具使用

共 2 项评测
评测名称 / 模式
得分
排名/总数
Terminal Bench 2.0
思考模式工具
63.50
11 / 43
Tool Decathlon
思考模式工具
40.70
3 / 7
查看评测深度分析与其他模型对比
GLM 5.1

发布机构

智谱AI
智谱AI
查看发布机构详情
GLM 5.1

模型解读

2026 年 4 月 8 日,智谱 AI 正式开源 GLM-5.1,距离其前代模型 GLM-5 发布仅约两个月。但从定位上看,5.1 并不是常规的小版本补丁——它代表着智谱对「大模型能做什么」这个问题的一次重新回答。

GLM-5 的核心叙事是 Agentic Engineering(智能体工程),即让模型能够完成比单轮对话更复杂的软件工程任务。GLM-5.1 在此基础上进一步聚焦,提出了 Long Horizon Task(长程任务)的概念,并将「模型能持续工作多久」作为新的能力衡量尺度。

这个叙事转变值得仔细理解:从「能写出好代码」到「能独立工作数小时并交付完整成果」,这是两个量级的差距,不仅要求模型推理能力强,还要求其在上千步执行链路中保持目标一致性、主动纠错、自主切换策略。


二、技术规格:一个极度不对称的 MoE

GLM-5.1 的参数规格延续了 GLM-5 的路线:754B 总参数、40B 激活参数,是一个高度稀疏的 MoE(混合专家)架构。这个「不对称比」(总参数/激活参数 ≈ 18:1)意味着:

  • 推理成本接近 40B 密集模型,而非 750B 级别,具备实际部署可行性;
  • 模型容量接近 700B+ 密集模型,知识存储量远超同等推理成本的模型;
  • 但 MoE 架构天然存在路由稳定性挑战,尤其在超长上下文任务中,专家路由的漂移可能导致输出质量不一致。

上下文窗口为 200K tokens,最大输出长度 128K tokens,这对于长程工程任务是必要条件,但 200K 并非该量级模型中的领先水平(部分模型已达 1M+)。

训练层面,智谱沿用了其自研的 Slime 异步强化学习框架,该框架专为长链条推理任务设计,支持更细粒度的后训练迭代,是 GLM-5 系列在 Agent 能力上实现快速跃升的关键基础设施。


三、评测解读:成绩单背后的真实含义

数学推理:AIME 2026 全球第一(95.3 分)

这是 GLM-5.1 目前最亮眼的单项成绩,在收录的 11 个模型中排名第一。AIME 是美国数学邀请赛题库,对纯数学推理能力要求极高。

值得注意的是:这一成绩是在开启思维(Thinking)模式下取得的,且 AIME 题库样本数量有限,排行榜尚在早期(仅 11 个模型)。在 IMO-AnswerBench 上,GLM-5.1 得分 83.8,排名第 4/8,更接近真实数学能力的中高水平,而非绝对第一。两项成绩结合来看,GLM-5.1 的数学推理能力已处于顶尖开源模型行列,但「全球最强」的说法需要更大样本的基准加以验证。

软件工程:SWE-Bench Pro 全球第二(58.4 分)

SWE-Bench Pro 要求模型在真实 GitHub 仓库中定位并修复高难度工程 Bug,是目前最接近真实开发工作的编程评测之一。GLM-5.1 以 58.4 分排名第 2/24,官方宣称在该基准上超越 Claude Opus 4.6 和 GPT-5.4,在开源模型中取得第一。

这一成绩的含义是实质性的:SWE-Bench Pro 不可以靠记忆题库刷分,它考验的是模型真正的工程问题定位与修复能力。三项代码综合基准(SWE-Bench Pro + Terminal-Bench 2.0 + NL2Repo)平均分达到全球第三、开源第一,说明 GLM-5.1 的编程能力已构成系统性优势,而非某一单项的偶然超越。

Agent 能力:多项进入全球前六

评测基准得分全球排名

BrowseComp(联网信息检索)79.36 / 35

Terminal Bench 2.063.56 / 31

Tool Decathlon(工具综合)40.72 / 5

HLE(含工具)52.36 / 128

BrowseComp 和 Terminal Bench 的前六名次说明 GLM-5.1 在实际 Agent 场景中有真实竞争力。但 Tool Decathlon 目前仅 5 个参与模型,参考价值有限,不宜过度解读。

综合推理:GPQA Diamond 86.2 分(第 31 / 166)

这是 GLM-5.1 相对较弱的一环。在收录 166 个模型的榜单中排名第 31,说明其综合科学推理能力并未达到同等工程能力的水平。对于以工程和代码为核心定位的模型,这一取舍在预期之内。


四、「8 小时持续工作」能力:概念还是现实?

智谱官方将「8 小时持续工作」作为 GLM-5.1 的核心卖点,并配合 Demo 展示了模型在 8 小时内从零构建完整 Linux 桌面系统(执行 1200+ 步)、自主完成 655 轮迭代使向量数据库吞吐提升 6.9 倍等案例。

这些 Demo 的意义在于:模型能够形成「实验—分析—优化」的自主闭环,而不只是一次性生成代码等待人工验证。在 KernelBench Level 3 上,GLM-5.1 完成千轮工具调用后实现 3.6 倍几何平均加速比,远高于 torch.compile max-autotune 模式的 1.49 倍,这是有量化依据的性能提升。

需要保持理性的是:8 小时持续工作的能力在官方 Demo 之外的真实工况中尚未经过充分独立验证。社区用户反馈也指出,在超长上下文积累到一定程度后,模型存在幻觉爆炸风险,且有将大量代码塞入单一文件的倾向,会进一步加速后续的上下文质量下降。这些是当前 MoE 长程推理模型的普遍局限,并非 GLM-5.1 独有问题。


五、开源与定价:一个有趣的矛盾信号

GLM-5.1 采用 MIT License 完全开源,权重可免费商用,这对企业私有化部署、二次微调具有重要价值。与此同时,智谱在发布时再度提价 10%,API 标准定价为:

  • 输入:$1.40 / 1M tokens
  • 输出:$4.40 / 1M tokens

这个定价策略本身就是一个信号:智谱正在用开源建立开发者生态,用提价重塑其商业模式。一年前国产大模型还在打价格战,今天 GLM-5.1 的 API 价格已逼近 Claude Sonnet 4.6 的水平。这标志着中国头部 AI 厂商在高端推理模型领域的竞争策略,正在从「低价争量」转向「质价对齐」。

对于使用者而言,选择路径清晰:有 GPU 资源的企业和研究者可以自行部署开源权重,敏感数据不出域;云端 API 用户则按需付费,以 $1.40/$4.40 的价格换取推理基础设施。


六、局限性与尚待验证的问题

以下是目前有据可查的客观局限,使用者在评估时应予以考量:

技术层面:

  • 超长上下文(尤其是多轮工程任务积累后)存在幻觉风险,社区建议遇到连续两轮无法修复的问题时重开上下文
  • 架构设计能力分布不均匀,在未额外提示的情况下倾向于将代码集中在单一文件
  • 作为推理模型,中等复杂请求的响应延迟通常在 30–60 秒,高峰期(北京时间下午 2–6 点)有限流

评测层面:

  • 多数顶尖成绩来自开启 Thinking 模式 + 使用工具的条件,与日常轻量使用场景存在差距
  • 部分榜单(如 Tool Decathlon)参与模型数量少,排名参考价值有限
  • GPQA Diamond 排名第 31,说明通用科学推理并非强项

定位层面:

  • GLM-5.1 明确对 Agentic Coding 场景(Claude Code、OpenClaw 类工具链)做了针对性优化,在纯文本生成、创意写作等领域的优势不如编程场景显著

七、适用场景与选型建议

最适合 GLM-5.1 的场景:

  • 长程软件工程任务:多阶段代码生成、大型项目重构、跨文件系统级调试
  • 自主 Agent 工作流:需要模型主动运行测试、定位瓶颈、迭代优化的场景
  • 性能优化类任务:模型在数值计算、机器学习 Kernel 优化上有实测数据支撑
  • 需要私有化部署的企业:MIT 协议使其成为高参数开源模型中商用限制最少的选项之一

可能不是最优选的场景:

  • 高频轻量对话或简单 QA,推理延迟和成本都偏高
  • 对通用科学推理(物理、化学、生物)要求较高的学术场景
  • 对响应速度极度敏感的实时应用

八、结语:开源模型的边界正在重写

GLM-5.1 最重要的意义,不只是评测分数,而是它代表的一个趋势确认:开源模型在专业工程能力上已经能够与全球顶尖闭源模型正面竞争。

这件事在两年前几乎是不可想象的。当时的开源模型最好的结果,也不过是「接近 GPT-3.5」。今天,GLM-5.1 在 SWE-Bench Pro 上声称超越 Claude Opus 4.6,这一成绩即便存在测试条件的差异,也已说明两者处于同一竞争维度。

当然,评测和真实工程之间永远存在距离。GLM-5.1 是否能在开发者社区大规模落地、是否能经受住多样化真实任务的考验,仍需要时间验证。但方向已经清晰:大模型的战场,正在从「聊天」迁移到「做事」,而开源模型已经买到了入场券。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码