DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
页面导航
页面导航
大模型列表jina-embeddings-v2-small-en
JI

jina-embeddings-v2-small-en

embedding模型

jina-embeddings-v2-small-en

发布时间: 2023-10-27更新于: 2023-11-08 10:40:39.407375
在线体验GitHubHugging FaceCompare
模型参数
0.3亿
上下文长度
8K
中文支持
不支持
推理能力

jina-embeddings-v2-small-en 是由 Jina AI 发布的 AI 模型,发布时间为 2023-10-27,定位为 embedding模型,参数规模约为 0.33B,上下文长度为 8K,模型文件大小约 65.4MB,采用 Apache 2.0 许可。

数据优先来自官方发布(GitHub、Hugging Face、论文),其次为评测基准官方结果,最后为第三方评测机构数据。 了解数据收集方法

jina-embeddings-v2-small-en

模型基本信息

推理过程
不支持
思考模式
不支持思考模式
上下文长度
8K tokens
最大输出长度
暂无数据
模型类型
embedding模型
发布时间
2023-10-27
模型文件大小
65.4MB
MoE架构
否
总参数 / 激活参数
0.3 亿 / 不涉及
知识截止
暂无数据
jina-embeddings-v2-small-en

开源和体验地址

代码开源状态
Apache 2.0
预训练权重开源
Apache 2.0- 免费商用授权
GitHub 源码
https://github.com/jina-ai/finetuner
Hugging Face
https://huggingface.co/jinaai/jina-embeddings-v2-small-en
在线体验
暂无在线体验地址
jina-embeddings-v2-small-en

官方介绍与博客

官方论文
Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents
DataLearnerAI博客
暂无介绍博客
jina-embeddings-v2-small-en

API接口信息

接口速度
暂无数据
暂无公开的 API 定价信息。
jina-embeddings-v2-small-en

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合?打开对比工具

jina-embeddings-v2-small-en

发布机构

Jina AI
Jina AI
查看发布机构详情
jina-embeddings-v2-small-en

模型解读

jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型,具备处理长达8192个字符序列的能力。该模型基于Bert架构(称为JinaBert),并采用了对称双向ALiBi(Adaptive Length and Bidirectional)技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后,jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练,这些句子对来自多个领域并经过了严格的筛选和清洗过程。

尽管该模型在训练阶段使用了512的序列长度,但得益于ALiBi技术,它能够推断更长的序列,甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景,如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。

该模型具有3300万个参数,这确保了在保持高性能的同时,还能实现快速和内存高效的推断。作为对比,Jina AI还提供了其他几个版本的嵌入模型,包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本,为不同需求的用户提供选择。

Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露,允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。



  • 模型名称: jina-embeddings-v2-small-en
  • 语言支持: 英语单语种
  • 序列长度支持: 高达8192个字符
  • 架构基础: 基于Bert(JinaBert)
  • 特殊技术应用: 对称双向ALiBi技术支持

训练与数据

  • 预训练数据集: C4数据集
  • 进一步训练数据: 超过4亿的句子对及硬负例
  • 域多样性: 数据覆盖多个领域,经过彻底清洗
  • 训练序列长度: 使用512序列长度进行训练,但能推断至8k长度

应用场景

  • 长文档处理: 长文档检索、语义文本相似度分析
  • 文本处理: 文本重排、推荐系统
  • 搜索引擎: RAG和LLM基于生成式搜索

性能参数

  • 模型参数量: 3300万
  • 推断效率: 高速且内存效率
  • 性能表现: 在长序列文本处理任务中保持印象性能

模型版本对比

  • V1版本(基于T5):
  • V2版本(基于JinaBert,支持8k序列):

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码