大模型排行榜

大模型评测基准

大模型列表

大模型对比

语言中文

搜索博客

DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台，持续更新可落地的 AI 能力图谱。

产品

评测榜单
模型对比
数据资源

资源

部署教程
原创内容
工具导航

关于

关于我们
隐私政策
数据收集方法
联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例，为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款

原创博客

原创AI技术博客

探索人工智能与大模型最新资讯与技术博客，涵盖机器学习、深度学习、自然语言处理等领域的原创技术文章与实践案例。

排序方式

按日期排序按浏览量排序

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早，智谱AI开源ChatGLM-6B之后，国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模，随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后，元象科技开源650亿参数规模的大语言模型XVERSE-65B，将国产开源大模型的参数规模提高到新的台阶。

2023/11/06 17:01:561,217

#XVERSE-65B #国产大模型

阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数

阿里通义千问团队首次开源语音合成大模型：Qwen3-TTS：总共5个模型，最小的仅0.6B参数规模，最大1.8B参数

就在刚刚，阿里开源了全新的语音合成大模型Qwen3-TTS系列！本次开源的语音合成模型共5个版本，最小的仅0.6B参数规模，最大的模型参数也就1.7B，基本上手机端都可以运行。此次发布不仅在性能上宣称超越了许多商业级闭源模型（如 OpenAI 的 GPT-4o-Audio 和 ElevenLabs），更重要的这应该是阿里通义千问团队首次开源语音合成系列大模型。

2026/01/22 22:22:531,216

#Qwen #Qwen3-TTS

OpenAI世界最强的语音识别预训练模型WhisperV2即将来临

OpenAI世界最强的语音识别预训练模型WhisperV2即将来临

Whisper是由Open AI训练并开源的语音识别模型，它在英语语音识别方面接近人类水平的鲁棒性和准确性。该模型于2022年9月21日发布之后引起了广大的关注。由于模型的准确性太过惊人，大家已经认为可以直接用于视频的配音制作了。而今天有人发现Whisper的GitHub上有了一个新的提交记录，显示Whisper V2版本即将来临。

2022/12/07 21:51:411,212

#OpenAI #语音识别

谷歌发布新一代大模型Gemini 2.5 Flash，成本、速度和性能的最优均衡，同时支持推理和非推理模式，评测结果超Sonnet 3.7

谷歌发布新一代大模型Gemini 2.5 Flash，成本、速度和性能的最优均衡，同时支持推理和非推理模式，评测结果超Sonnet 3.7

Gemini系列是Google的大模型品牌，2025年3月25日，Google发布了Gemini 2.5 Pro版本，这是谷歌发布的Gemini 2.5系列的第一个模型，参数规模较大，但是在多项评测结果上获得了全球最优的效果，Gemini 2.5 Pro成本比较高，时延也比较大，20天之后，谷歌又发布了Gemini 2.5 Flash模型，是性能、成本和效果的最佳均衡模型。

2025/04/21 13:21:241,211

#Gemini #Gemini2.5

流浪地球2的数字生命计划可能快实现了！HeyGen即将发布下一代AI真人视频生成技术，效果逼真到无法几乎分辨！

流浪地球2的数字生命计划可能快实现了！HeyGen即将发布下一代AI真人视频生成技术，效果逼真到无法几乎分辨！

电影《流浪地球2》里面一个非常重要的情节就是数字生命计划。将人类的意识上传到计算机之后，可以通过AI技术让人类以数字化的形式在计算机中存活。而今天HeyGen官方宣布的即将推出的真人视频生成技术，可以根据真人的照片生成非常逼真的数字人视频，其动作、表情、声音等全部由AI技术生成，而几乎无法分辨是真人拍摄的视频还是AI生成的视频。

2023/08/10 22:26:311,208

#AI生成视频 #数字人

AI Agent进展再进一步！Anthropic发布大模型上下文连接访问协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

AI Agent进展再进一步！Anthropic发布大模型上下文连接访问协议MCP：让任何资源快速变成大模型的工具，突破大模型的能力边界！

最初，大模型的应用主要通过像ChatGPT这样的聊天机器人展现其智能理解能力。随着技术的进步，基于大模型的智能代理（AI Agent）成为突破大模型能力边界的重要方向。这些智能代理能够执行一系列任务、解决问题，并进行决策，具备深刻理解用户需求和自主规划解决方案的能力，并能够根据规划结果，选择和使用各种工具来完成任务。然而，AI Agent系统面临的关键挑战是如何高效地将外部工具、知识、资源等迅速接入大模型，并实现有效利用。尤其是，如何将现有的工具和资源整合进大模型，提升其生产力能力，是一个亟待解决的问题。

2024/11/27 10:41:351,204

#Anthropic #MCP

2022年被引次数最多的AI论文列表

2022年被引次数最多的AI论文列表

本表是Zeta Alpha收集的2022年AI领域被引次数最多的论文列表。

2023/03/04 23:17:371,203

可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数

可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数

Phi系列大语言模型是微软开源一个小规模参数的语言模型。第一代和第二代的Phi模型参数规模都不超过30亿，但是在多个评测结果上都取得了非常亮眼的成绩。今天，微软发布了第三代Phi系列大模型，最高参数规模也到了140亿，其中最小的模型参数38亿，评测结果接近GPT-3.5的水平。

2024/04/23 13:56:441,200

#Phi3 #小规模参数大模型

Anthropic发布Claude 3.7 Sonnet大模型，全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型，评测结果超DeepSeek R1，低于Grok3-Beta Reasoning，免费用户可用

Anthropic发布Claude 3.7 Sonnet大模型，全球最强编程模型再次进步。业界第一个既支持标准输出也支持扩展思考推理双重模式的单一大模型，评测结果超DeepSeek R1，低于Grok3-Beta Reasoning，免费用户可用

2025年2月25日，Anthropic发布了Claude 3.7 Sonnet大模型，该模型是业界第一个同时支持标准输出和深度推理模式的单一大模型，各项评测相比较Claude Sonnet 3.5大幅提升。特别是代码能力进一步增强。

2025/02/25 14:25:561,199

#Anthropic #Claude3.7

最新消息显示OpenAI可能还在训练GPT-5，可能在今年年中发布GPT-5

最新消息显示OpenAI可能还在训练GPT-5，可能在今年年中发布GPT-5

今天BusinessInsider发布了一个消息，说根据最新的消息，OpenAI目前还在训练GPT-5，但是有一些企业客户最近已经获得了该最新模型及其对ChatGPT工具的相关增强功能的演示。

2024/03/20 09:59:181,197

#ChatGPT #GPT-5

重磅！阿里开源媲美GPT-4o的图片生成和编辑大模型Qwen Image，中文渲染能力很强，还有精确的文字控制，免费开源！

重磅！阿里开源媲美GPT-4o的图片生成和编辑大模型Qwen Image，中文渲染能力很强，还有精确的文字控制，免费开源！

就在刚才，阿里开源了Qwen Image大模型，这是阿里千问团队开源的高质量图片生成和编辑的大模型。这份发布迅速在AI社区引起了广泛关注，其核心并非又一个单纯追求图像美学或真实感的模型，而是直指一个长期存在的行业痛点：在图像中进行复杂、精准、尤其是高保真的多语言文本渲染。

2025/08/05 08:23:391,197

#QwenImage #图片编辑

OpenAI的GPTs是如何被创建的？OpenAI的GPT Builder的工作原理和核心Prompt介绍

OpenAI的GPTs是如何被创建的？OpenAI的GPT Builder的工作原理和核心Prompt介绍

GPTs是OpenAI推出的用户自定义的GPT功能，这里的GPTs可以认为是specific GPT。用户创建GPTs主要是通过OpenAI提供的GPT Builder完成。GPT Builder提供的最基本的能力就是基于对话的方式来帮助用户创建GPTs。那么，这个对话式的GPT背后的指令是什么？官方设置了什么样的Prompt来让GPT帮助普通用户建立GPTs呢？本文基于官方最新的博客介绍一下。

2024/01/05 22:53:041,192

#GPTBuilder #GPTs

通用基座大模型是否可以超越领域专有大模型？微软最新论文证明这是可以的！微软最新动态Prompt技术——MedPrompt详解

通用基座大模型是否可以超越领域专有大模型？微软最新论文证明这是可以的！微软最新动态Prompt技术——MedPrompt详解

在GPT-4这种超大基座模型发布之后，一个非常活跃的方向是专有模型的发展。即一个普遍的观点认为，基座大模型虽然有很好的通用基础知识，但是对于专有的领域如医学、金融领域等，缺少专门的语料训练，因此可能表现并不那么好。如果我们使用专有数据训练一个领域大模型可能是一种非常好的思路，也是一种非常理想的商业策略。但是，微软最新的一个研究表明，通用基座大模型如果使用恰当的prompt，也许并不比专有模型差！同时，他们还提出了一个非常新颖的动态prompt生成策略，结合了领域数据，非常值得大家参考。

2023/12/06 17:10:171,187

#MedPrompt #动态Prompt

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok4是马斯克旗下大模型初创企业xAI的第四代代码，在五月份的时候，马斯克就透露他们马上要发布Grok 3.5模型，六月份的时候说这个模型效果很好，版本号就直接改为4，这中间经过多次波折，最终马斯克说Grok 4将在7月4日之后发布。截止目前，虽然xAI官方没有正式宣布Grok 4，但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

2025/07/05 11:30:431,184

#Grok4 #Grok4Code

深度学习9个小时内教会机器人拿起和剥开香蕉

深度学习9个小时内教会机器人拿起和剥开香蕉

仅仅使用来自人类数据集的机器学习，在短短9个小时内，日本研究人员让一个机器人学会了如何拿起和剥开香蕉。

2022/03/28 09:10:391,184

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

什么时候该使用推理大模型？OpenAI官方推出推理大模型和大语言模型的最佳使用指南

随着DeepSeek R1和OpenAI的o1、o3等推理大模型的发布，我们当前可使用的大模型种类也变多了。但是，推理大模型和普通大模型之间并不是二选一的关系，在不同的问题上二者各有优势。为了让大家更清晰理解推理大模型和普通大模型的应用场景。OpenAI官方推出了一个推理大模型最佳实践指南。描述了二者的对比。本文将总结这份推理大模型最佳实践指南。

2025/03/05 12:53:441,171

#DeepSeekR1 #OpenAIo1

大模型追踪利器！斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

大模型追踪利器！斯坦福大学发布基础大模型追踪图谱Ecosystem Graphs

斯坦福大学发布的基础大模型追踪图谱Ecosystem Graphs，用图谱的方式给大家呈现了模型之间的联系，让人非常清楚明白追踪不同模型之间的关系。

2023/04/24 22:46:281,167

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

2025/10/12 10:03:581,166

#大模型Agent能力评测 #大模型评测

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

腾讯发布了一个全新的大模型Hunyuan Turbo S：号称评测效果超过GTP-4o和DeepSeek V3等模型，但没有开源或者放开使用

Hunyuan大模型是腾讯训练的大模型品牌名，2022年4月份，某中文语言理解能力排行榜第一名就出现了Hunyuan模型，在2022年11月，Hunyuan大模型就有了1万亿参数的规模，即HunYuan-NLP 1T大模型（比ChatGPT还早发布）。但是最近2年，这个系列的模型几乎没有出现在公众视野上。而昨天（2025年3月10日），Hunyuan官方在X平台上宣布了旗下最新的Hunyuan Turbo S大模型，称其在多个评测基准上超越了GPT-4o的表现。

2025/03/11 22:51:481,165

#HunyuanTurboS #混元大模型

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

7月28日，智谱AI（Zhipu AI）向开源社区投下了一枚重磅炸弹，正式发布了其最新的旗舰模型系列：GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air，两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型，以应对日益复杂的AI应用需求。本文将深入解析这份官方报告，剖析其核心技术、性能表现，并探讨其在当前大模型竞争格局中的战略定位。

2025/07/29 11:06:251,164

#GLM-4.5系列 #MoE架构

Gemini CLI: Google发布的开源AI智能体，将Gemini 2.5 Pro直接带入你的终端，每天可以免费使用1000次Gemini 2.5 Pro！

Gemini CLI: Google发布的开源AI智能体，将Gemini 2.5 Pro直接带入你的终端，每天可以免费使用1000次Gemini 2.5 Pro！

今天，Google为全球开发者社区带来了一款激动人心的新工具——**Gemini CLI**。这是一款免费、开源的AI智能体，它将Google当前最强大的模型Gemini 2.5 Pro的能力，直接集成到了开发者最熟悉的命令行界面（CLI）中。对于那些视终端为“家”的开发者来说，这无疑是一个重大的升级。它不仅擅长编码，更是一个可以处理内容生成、问题解决、深度研究和任务管理的多功能本地实用工具。它的发布，旨在为个人开发者提供前所未有的便捷AI体验，非常强大！

2025/06/26 08:46:371,158

#ClaudeCode #GeminiCLI

你的MiniMax M2模型效果为什么不好？可能是用错了，官方建议正确使用Interleaved Thinking，模型效果最多可提升35%的效果

你的MiniMax M2模型效果为什么不好？可能是用错了，官方建议正确使用Interleaved Thinking，模型效果最多可提升35%的效果

MiniMax M2发布2周后已经成为OpenRouter上模型tokens使用最多的模型之一。已经成为另一个DeepSeek现象的大模型了。然而，实际使用中，很多人反馈说模型效果并不好。而此时，官方也下场了，说当前大家使用MiniMax M2效果不好的一个很重要的原因是没有正确使用Interleaved Thinking。正确使用Interleaved thinking模式，可以让MiniMax M2模型的效果最多可以提升35%！本文我们主要简单聊聊这个Interleaved thinking。

2025/11/05 22:34:281,158

#InterleavedThinking #MiniMaxM2

开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

开源可商用大模型再添重磅玩家——StabilityAI发布开源大语言模型StableLM

今天，Stability宣布开源StableLM计划，这是一个正在开发过程的大语言模型，但是它是开源可商用的模型。本文将对该模型做简单的介绍！

2023/04/24 22:35:451,145

#StabilityAI #StableLM

ChatGPT内置隐藏debug功能：支持下载原始对话、可视化对话分支等

ChatGPT内置隐藏debug功能：支持下载原始对话、可视化对话分支等

AIPRM的工作人员最近发现ChatGPT的客户端隐藏内置了一个新的debug特性，可以提高ChatGPT对话的问题调试功能。这个特性包含非常多的功能。同时，最新的截图显示ChatGPT Team版本计划可能延迟但没有取消。

2023/12/06 07:43:391,142

#ChatGPT #ChatGPTTeam计划

1...303132...40

专题合集

RAG（检索增强生成）Long Context 长上下文 AI Agent 实践

最热博客

1Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）
2回归模型中的交互项简介（Interactions in Regression）
3贝塔分布（Beta Distribution）简介及其应用
4矩母函数简介（Moment-generating function）
5普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程
6使用R语言进行K-means聚类并分析结果
7深度学习技巧之Early Stopping（早停法）
8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

今日推荐

平衡二叉树（Balanced Binary Tree）
如何估计大模型推理或者训练所需要的显存大小？HuggingFace官方工具Model Memory Calculator，一键计算大模型显存需求~
可以在手机端运行的大模型标杆：微软发布第三代Phi-3系列模型，评测结果超过同等参数规模水平，包含三个版本，最小38亿，最高140亿参数
各大企业和机构拥有的NVIDIA A100的GPU显卡数量
吴恩达AI系列短课再添精品课程：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人
开源模型进展迅猛！最新开源不可商用模型Command R+在大模型匿名投票得分上已经超过GPT-4-Turbo！

PyTorch 2.0发布——一个更快、更加Pythonic和灵活的PyTorch版本，让Tranformer运行更快！

SlimPajama：CerebrasAI开源最新可商用的高质量大语言模型训练数据集，含6270亿个tokens！