GPT-5vsGPT-4o(2025-03-27)

在 3 个共同 benchmark 中，GPT-5 整体领先：GPT-5 领先 2 项，GPT-4o(2025-03-27) 领先 1 项，持平 0 项，平均分差 +14.43。

GPT-5

OpenAI · 2025-08-07 · 基础大模型

GPT-4o(2025-03-27)

OpenAI · 2025-03-27 · 聊天大模型

GPT-52 项(67%)(33%)1 项GPT-4o(2025-03-27)

评测分数

按能力类目分组，每组内按分差大小排列；共 3 项。

综合评估

胶着 2/2

评测项	GPT-5	GPT-4o(2025-03-27)	分差
GPQA Diamond	77.8081 / 175	66.90121 / 175	+10.90
ARC-AGI	661 / 65	8.8060 / 65	-2.80

数学推理

GPT-5 领先 1/1

评测项	GPT-5	GPT-4o(2025-03-27)	分差
AIME2025	61.9080 / 106	26.70101 / 106	+35.20

规格对比

字段	GPT-5	GPT-4o(2025-03-27)
发布机构	OpenAI	OpenAI
发布时间	2025-08-07	2025-03-27
模型类型	基础大模型	聊天大模型
架构	稠密模型	稠密模型
参数规模	0.0	0.0
上下文长度	400K	128K
最大输出	131072	4096

API 调用价格

价格优先使用 DataLearner 配置的 API 记录；缺失项不做推测。

价格项	GPT-5	GPT-4o(2025-03-27)
文本输入	1.25 美元/100 万tokens	2.5 美元/100万 tokens
文本输出	10 美元/100 万tokens	10 美元/100万 tokens

小结

GPT-5在以下类目领先:数学推理 (1/1)
胶着类目:综合评估

3 个共同 benchmark 上，GPT-5 平均高出 14.43 分。

单项差距最大的 benchmark：AIME2025 — GPT-5 61.90，GPT-4o(2025-03-27) 26.70（分差 +35.20）。

本页正文由结构化模型、价格与 benchmark 数据生成，不使用实时 LLM 撰写。

GPT-5 详情 GPT-4o(2025-03-27) 详情·在工具里自定义对比