GPT-5.4 nano 评测详情

GPT-5.4 nano 当前已收录的代表性评测结果包括 HLE（48 / 149，得分 37.70）、GPQA Diamond（59 / 175，得分 82.80）、Claw Bench（10 / 29，得分 89.70）。

评测结果

GPT-5.4 nano

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

极高

82.80

59 / 175

HLE

极高

24.30

82 / 149

HLE

极高工具

37.70

48 / 149

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

极高

66.10

26 / 28

MMMU

极高工具

69.50

24 / 28

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath - Tier 4

高

6.30

35 / 80

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

极高工具

52.40

20 / 36

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

极高工具

92.50

19 / 35

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

极高工具

46.30

37 / 43

OSWorld-Verified

极高工具

13 / 14

Tool Decathlon

极高工具

35.50

6 / 7

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

开启思考工具

89.70

10 / 29

与其他模型对比

GPT-5.4 nano 评测详情

GPT-5.4 nano 当前已收录的代表性评测结果包括 HLE（48 / 149，得分 37.70）、GPQA Diamond（59 / 175，得分 82.80）、Claw Bench（10 / 29，得分 89.70）。

评测结果

GPT-5.4 nano

评测结果

综合评估

共 3 项评测

评测名称 / 模式

得分

排名/总数

GPQA Diamond

极高

82.80

59 / 175

HLE

极高

24.30

82 / 149

HLE

极高工具

37.70

48 / 149

多模态理解

共 2 项评测

评测名称 / 模式

得分

排名/总数

MMMU

极高

66.10

26 / 28

MMMU

极高工具

69.50

24 / 28

数学推理

共 1 项评测

评测名称 / 模式

得分

排名/总数

FrontierMath - Tier 4

高

6.30

35 / 80

编程与软件工程

共 1 项评测

评测名称 / 模式

得分

排名/总数

SWE-Bench Pro - Public

极高工具

52.40

20 / 36

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

τ²-Bench - Telecom

极高工具

92.50

19 / 35

AI Agent - 工具使用

共 3 项评测

评测名称 / 模式

得分

排名/总数

Terminal Bench 2.0

极高工具

46.30

37 / 43

OSWorld-Verified

极高工具

13 / 14

Tool Decathlon

极高工具

35.50

6 / 7

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Claw Bench

开启思考工具

89.70

10 / 29

与其他模型对比