QW

Qwen3-VL-Embedding-2B

embedding模型

Qwen3 Vision-Language Embedding 2B

发布时间: 2026-01-08更新于: 2026-01-08 23:27:44705

在线体验GitHub Hugging Face Compare

模型参数

20亿

上下文长度

32K

中文支持

支持

推理能力

Qwen3 Vision-Language Embedding 2B 是由阿里巴巴发布的 AI 模型，发布时间为 2026-01-08，定位为 embedding模型，参数规模约为 20.0B，上下文长度为 32K，模型文件大小约 4.26GB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

Qwen3-VL-Embedding-2B

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

32K tokens

最大输出长度

2048 tokens

模型类型

embedding模型

发布时间

2026-01-08

模型文件大小

4.26GB

MoE架构

否

总参数 / 激活参数

20 亿 / 不涉及

知识截止

暂无数据

Qwen3-VL-Embedding-2B

开源和体验地址

代码开源状态

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/QwenLM/Qwen3-VL-Embedding/

Hugging Face

https://huggingface.co/Qwen/Qwen3-VL-Embedding-2B

在线体验

暂无在线体验地址

Qwen3-VL-Embedding-2B

官方介绍与博客

官方论文

Qwen3-VL-EmbeddingandQwen3-VL-Reranker:AUnifiedFrameworkforState-of-the-ArtMultimodalRetrievalandRanking

DataLearnerAI博客

重磅！阿里开源2个多模态向量大模型和重排序大模型：Qwen3-VL-Embedding和Qwen3-VL-Reranker，图片和视频也可以用来做RAG了！

Qwen3-VL-Embedding-2B

API接口信息

接口速度

3/5

暂无公开的 API 定价信息。

Qwen3-VL-Embedding-2B

评测结果

Qwen3-VL-Embedding-2B 当前已收录的代表性评测结果包括 MMEB-v2-Image（4 / 6，得分 74.96）。本页还汇总了参数规模、上下文长度与 API 价格，便于结合评测结果与部署约束一起判断模型适配度。

图像向量嵌入

共 1 项评测

评测名称 / 模式

得分

排名/总数

常规模式

74.96

4 / 6

查看评测深度分析与其他模型对比

Qwen3-VL-Embedding-2B

发布机构

阿里巴巴

查看发布机构详情

Qwen3 Vision-Language Embedding 2B

模型解读

Qwen3-VL-Embedding-2B 是 Qwen 团队推出的 多模态向量表示模型，定位于检索系统和 RAG 系统中的第一阶段召回（Recall）。模型基于 Qwen3-VL 视觉语言架构构建，能够将文本、图片、截图（视觉文档）、视频等多种模态统一编码为稠密向量，用于相似度计算和大规模检索。

该模型在参数规模、性能与推理成本之间取得较好平衡，适合在大规模向量库、在线检索服务和资源受限环境中使用。

核心定位

用于多模态检索 / 多模态 RAG 的向量召回阶段
支持跨模态检索（文本搜图、文本搜视频、文本搜截图等）
面向高吞吐、低延迟、可规模化部署的生产场景

在典型系统中，Qwen3-VL-Embedding-2B 常作为默认向量模型，与多模态 Reranker 组成两阶段检索链路。

模型规格（官方公开信息整理）

项目说明

模型类型Multimodal Embedding（多模态向量模型）

参数规模2B

网络层数28 层

最大上下文长度32K tokens

向量维度2048（支持 MRL 动态裁剪）

输入模态文本 / 图片 / 截图 / 视频 / 混合模态

指令支持Instruction-aware（支持自定义任务指令）

多语言能力支持 30+ 种语言

量化支持支持低精度量化（如 int8）

许可证Apache 2.0（可商用）

模型特点

统一多模态表示空间不同模态的数据被映射到同一向量空间，可直接进行跨模态相似度计算。
支持长上下文输入 32K 上下文长度适合长文档、长截图序列和视频片段编码。
MRL（Matryoshka Representation Learning）支持在不重新编码的情况下截取不同维度的向量，用于在存储成本、检索速度和效果之间做权衡。
Instruction-aware 向量化可通过指令明确检索任务目标，使向量更贴近具体业务定义的“相关性”。

适用场景

多模态 RAG 的第一阶段召回
图片 / 视频 / 文档截图检索
企业知识库向量化
大规模在线搜索系统
对算力和延迟敏感的生产环境

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码