IMO-AnswerBench

Name: International Mathematical Olympiad-AnswerBench
Creator: DeepMind

IMO-Bench 是 Google DeepMind 开发的一套基准测试套件，针对国际数学奥林匹克（IMO）水平的数学问题设计，用于评估大型语言模型在数学推理方面的能力。该基准包括三个子基准：AnswerBench、ProofBench 和 GradingBench，涵盖从短答案验证到完整证明生成和评分的全过程。发布于 2025 年 11 月，该基准通过专家审核的问题集，帮助模型实现 IMO 金牌级别的性能，并提供自动评分机制以支持大规模评估。

更新于 2026年4月24日·893 次浏览

问题数量: 400
发布机构: DeepMind
评测类别: 数学推理
评测指标: Accuracy
支持语言: 英文
难度等级: 高难度

简介

用于测试大模型在高难度（国际奥林匹克数学竞赛）数学问题上的回答能力

IMO-AnswerBench评测最新大模型排名与完整榜单数据

查看 IMO-AnswerBench 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

排名	模型				开源情况
	DeepSeek-V4-Pro 思考水平 · 高	89.80	2026-04-24	16000亿	免费商用
	DeepSeek-V4-Flash 思考水平 · 高	88.40	2026-04-24	2840亿	免费商用
	DeepSeek-V4-Pro 思考水平 · 高	88.00	2026-04-24	16000亿	免费商用
4	Step 3.5 Flash 开启思考工具	86.70	2026-02-02	1960亿	免费商用
5	Kimi K2.6 开启思考	86.00	2026-04-20	10000亿	免费商用
6	Step 3.5 Flash 开启思考	85.40	2026-02-02	1960亿	免费商用
7	DeepSeek-V4-Flash 思考水平 · 高	85.10	2026-04-24	2840亿	免费商用
8	Qwen3-Max-Thinking 开启思考	83.90	2026-01-26	10000亿	闭源
9	GLM 5.1 开启思考	83.80	2026-03-27	754亿	免费商用
10	Qwen 3.6 Plus Preview 开启思考	83.80	2026-03-31	未知	闭源
11	GLM-5 开启思考	82.50	2026-02-11	7440亿	免费商用
12	Kimi K2.5 开启思考	81.80	2026-01-27	10000亿	免费商用
13	Qwen3.5-397B-A17B 开启思考	80.90	2026-02-16	397亿	免费商用
14	Qwen3.6-27B 开启思考	80.80	2026-04-22	270亿	免费商用
15	Qwen3.6-35B-A3B 开启思考	78.90	2026-04-16	350亿	免费商用
16	DeepSeek-V4-Flash 常规模式	41.90	2026-04-24	2840亿	免费商用
17	DeepSeek-V4-Pro 常规模式	35.30	2026-04-24	16000亿	免费商用

IMO-AnswerBench评测最新大模型排名与完整榜单数据

IMO-AnswerBench 排名