Gemini 2.5 Flash 评测详情

常规模式

78.30

79 / 175

开启思考

82.80

59 / 175

LiveBench

开启思考

64.35

35 / 52

ARC-AGI

常规模式

32.30

51 / 65

常规模式

8.40

130 / 149

开启思考

119 / 149

常识问答

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

25.80

28 / 45

开启思考

26.90

27 / 45

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

常规模式

41.10

96 / 118

开启思考

55.40

79 / 118

常规模式

85 / 103

开启思考

48.90

89 / 103

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

AIME 2024

常规模式

16 / 62

常规模式

61.60

81 / 106

开启思考

70 / 106

IMO 2024

常规模式

7.80

6 / 10

FrontierMath - Tier 4

常规模式

4.20

40 / 80

Agent能力评测

共 1 项评测

评测名称 / 模式

得分

排名/总数

Aider-Polyglot

开启思考

56.70

20 / 26

OpenClaw智能体能力综合测评

共 1 项评测

评测名称 / 模式

得分

排名/总数

Pinch Bench

开启思考工具

70.70

31 / 37

与其他模型对比

Gemini 2.5 Flash 评测详情

Gemini 2.5 Flash 当前已收录的代表性评测结果包括 AIME 2024（16 / 62，得分 88）、GPQA Diamond（59 / 175，得分 82.80）、FrontierMath - Tier 4（40 / 80，得分 4.20）。

评测结果

Gemini 2.5 Flash

评测结果

综合评估

共 6 项评测

评测名称 / 模式

得分

排名/总数

常规模式

78.30

79 / 175

开启思考

82.80

59 / 175

LiveBench

开启思考

64.35

35 / 52

ARC-AGI

常规模式

32.30

51 / 65

常规模式

8.40

130 / 149

开启思考

119 / 149

常识问答

共 2 项评测

评测名称 / 模式

得分

排名/总数

常规模式

25.80

28 / 45

开启思考

26.90

27 / 45

编程与软件工程

共 4 项评测

评测名称 / 模式

得分

排名/总数

常规模式

41.10

96 / 118

开启思考

55.40

79 / 118

常规模式

85 / 103

开启思考

48.90

89 / 103

数学推理

共 5 项评测

评测名称 / 模式

得分

排名/总数

AIME 2024

常规模式

16 / 62

常规模式

61.60

81 / 106