GPT-5.1vsGemini 2.5-Pro

在 14 个共同 benchmark 中，GPT-5.1 整体领先：GPT-5.1 领先 13 项，Gemini 2.5-Pro 领先 1 项，持平 0 项，平均分差 +16.02。

GPT-5.1

OpenAI · 2025-11-12 · 推理大模型

Gemini 2.5-Pro

Google Deep Mind · 2025-06-05 · 推理大模型

GPT-5.113 项(93%)(7%)1 项Gemini 2.5-Pro

评测分数

按能力类目分组，每组内按分差大小排列；共 14 项。

综合评估

GPT-5.1 领先 4/4

评测项	GPT-5.1	Gemini 2.5-Pro	分差
ARC-AGI	72.8025 / 65high	3747 / 65thinking	+35.80
HLE	42.7038 / 149Thinking High (With Tools + Internet)	21.6089 / 149thinking	+21.10
ARC-AGI-2	17.6032 / 58high	4.9043 / 58thinking	+12.70
GPQA Diamond	88.1025 / 175Thinking High (No Tools)	86.4038 / 175thinking	+1.70

数学推理

GPT-5.1 领先 3/3

评测项	GPT-5.1	Gemini 2.5-Pro	分差
FrontierMath	26.7013 / 60Thinking High (With Tools)	1123 / 60	+15.70
FrontierMath - Tier 4	12.5029 / 80Thinking High (With Tools)	2.1056 / 80Normal (No Tools)	+10.40
AIME2025	9428 / 106Thinking High (No Tools)	8843 / 106thinking	+6

Agent能力评测

GPT-5.1 领先 2/2

评测项	GPT-5.1	Gemini 2.5-Pro	分差
τ²-Bench - Telecom	95.6014 / 35Thinking High (With Tools)	5432 / 35thinking + 使用工具	+41.60
Terminal Bench Hard	432 / 13Thinking High (With Tools)	2512 / 13thinking + 使用工具	+18

AI Agent - 信息收集

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
BrowseComp	50.8034 / 43Thinking High (No Tools)	7.8042 / 43thinking + 使用工具	+43

AI Agent - 工具使用

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
Terminal Bench 2.0	47.6034 / 43Thinking High (With Tools)	32.6043 / 43thinking + 使用工具	+15

多模态理解

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
MMMU	85.402 / 28Thinking High (No Tools)	829 / 28thinking	+3.40

常识推理

Gemini 2.5-Pro 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
Simple Bench	53.2010 / 27high	62.402 / 27thinking	-9.20

编程与软件工程

GPT-5.1 领先 1/1

评测项	GPT-5.1	Gemini 2.5-Pro	分差
SWE-bench Verified	76.3025 / 103high	67.2063 / 103thinking	+9.10

规格对比

字段	GPT-5.1	Gemini 2.5-Pro
发布机构	OpenAI	Google Deep Mind
发布时间	2025-11-12	2025-06-05
模型类型	推理大模型	推理大模型
架构	稠密模型	稠密模型
参数规模	0.0	0.0
上下文长度	400K	1000K
最大输出	131072	65536

API 调用价格

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	GPT-5.1	Gemini 2.5-Pro
文本输入	1.25 美元/100万 tokens	1.25 美元/100 万tokens
文本输出	10 美元/100万 tokens	10 美元/100 万tokens
缓存读取	0.125 美元/100万 tokens	0.125 美元/100 万tokens

小结

GPT-5.1在以下类目领先:综合评估 (4/4)、数学推理 (3/3)、Agent能力评测 (2/2)、AI Agent - 信息收集 (1/1)、AI Agent - 工具使用 (1/1)、多模态理解 (1/1)、编程与软件工程 (1/1)
Gemini 2.5-Pro在以下类目领先:常识推理 (1/1)

14 个共同 benchmark 上，GPT-5.1 平均高出 16.02 分。

单项差距最大的 benchmark：BrowseComp — GPT-5.1 50.80，Gemini 2.5-Pro 7.80（分差 +43）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。

GPT-5.1 详情 Gemini 2.5-Pro 详情·在工具里自定义对比

评测项

GPT-5.1

Gemini 2.5-Pro

分差

ARC-AGI

72.8025 / 65high

3747 / 65thinking

+35.80

HLE

42.7038 / 149Thinking High (With Tools + Internet)

21.6089 / 149thinking

+21.10

ARC-AGI-2

17.6032 / 58high

4.9043 / 58thinking

+12.70

GPQA Diamond

88.1025 / 175Thinking High (No Tools)

86.4038 / 175thinking

+1.70

评测项

GPT-5.1

Gemini 2.5-Pro

分差

FrontierMath

26.7013 / 60Thinking High (With Tools)

1123 / 60

+15.70

FrontierMath - Tier 4

12.5029 / 80Thinking High (With Tools)

2.1056 / 80Normal (No Tools)

+10.40

AIME2025

9428 / 106Thinking High (No Tools)

8843 / 106thinking

评测项

GPT-5.1

Gemini 2.5-Pro

分差

τ²-Bench - Telecom

95.6014 / 35Thinking High (With Tools)

5432 / 35thinking + 使用工具

+41.60

Terminal Bench Hard

432 / 13Thinking High (With Tools)

2512 / 13thinking + 使用工具

+18

评测项

GPT-5.1

Gemini 2.5-Pro

分差

BrowseComp

50.8034 / 43Thinking High (No Tools)

7.8042 / 43thinking + 使用工具

+43

评测项

GPT-5.1

Gemini 2.5-Pro

分差

Terminal Bench 2.0

47.6034 / 43Thinking High (With Tools)

32.6043 / 43thinking + 使用工具

+15

评测项

GPT-5.1

Gemini 2.5-Pro

分差

MMMU

85.402 / 28Thinking High (No Tools)

829 / 28thinking

+3.40

评测项

GPT-5.1

Gemini 2.5-Pro

分差

Simple Bench

53.2010 / 27high

62.402 / 27thinking

-9.20

评测项

GPT-5.1

Gemini 2.5-Pro

分差

SWE-bench Verified

76.3025 / 103high

67.2063 / 103thinking

+9.10

字段

GPT-5.1

Gemini 2.5-Pro

发布机构

OpenAI

Google Deep Mind

发布时间

2025-11-12

2025-06-05

模型类型

推理大模型

架构

稠密模型

参数规模

0.0

上下文长度

400K

1000K

最大输出

131072

65536

价格项

GPT-5.1

Gemini 2.5-Pro

文本输入

1.25 美元/100万 tokens

1.25 美元/100 万tokens

文本输出

10 美元/100万 tokens

10 美元/100 万tokens

缓存读取

0.125 美元/100万 tokens

0.125 美元/100 万tokens