GLM 5.1 目前收录了 9 项评测数据,覆盖综合评估、数学推理、软件工程和 AI Agent 四个方向,但各方向收录的基准数量差异较大,且并非所有竞品模型都参与了相同的基准测试,因此跨方向的横向比较需谨慎。
理解这些数据有一个关键前提:GLM 5.1 的所有成绩均来自思考模式(reasoning mode),部分基准还额外开启了工具调用或联网能力。以 HLE 为例,无工具条件下得分 31.0(全球第 61),开启工具后上升至 52.3(全球第 9),两个条件下的排名相差超过 50 位。这说明 GLM 5.1 的工具调用能力对其整体表现有显著影响,评估时需区分"模型本身的推理能力"与"模型在有工具支撑下的任务完成能力"。
与同类模型的横向比较
将 GLM 5.1 与 Kimi K2.6、MiniMax-M2.7、DeepSeek-V4-Pro 对比,各模型取最佳得分: