JI

jina-embeddings-v2-small-en

embedding模型

jina-embeddings-v2-small-en

发布时间: 2023-10-27更新于: 2023-11-08 10:40:39.407375

在线体验GitHub Hugging Face Compare

模型参数

0.3亿

上下文长度

8K

中文支持

不支持

推理能力

jina-embeddings-v2-small-en 是由 Jina AI 发布的 AI 模型，发布时间为 2023-10-27，定位为 embedding模型，参数规模约为 0.33B，上下文长度为 8K，模型文件大小约 65.4MB，采用 Apache 2.0 许可。

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

jina-embeddings-v2-small-en

模型基本信息

推理过程

不支持

思考模式

不支持思考模式

上下文长度

8K tokens

最大输出长度

暂无数据

模型类型

embedding模型

发布时间

2023-10-27

模型文件大小

65.4MB

MoE架构

否

总参数 / 激活参数

0.3 亿 / 不涉及

知识截止

暂无数据

jina-embeddings-v2-small-en

开源和体验地址

代码开源状态

预训练权重开源

Apache 2.0- 免费商用授权

GitHub 源码

https://github.com/jina-ai/finetuner

Hugging Face

https://huggingface.co/jinaai/jina-embeddings-v2-small-en

在线体验

暂无在线体验地址

jina-embeddings-v2-small-en

官方介绍与博客

官方论文

Jina Embeddings 2: 8192-Token General-Purpose Text Embeddings for Long Documents

DataLearnerAI博客

暂无介绍博客

jina-embeddings-v2-small-en

API接口信息

接口速度

暂无数据

暂无公开的 API 定价信息。

jina-embeddings-v2-small-en

评测结果

当前尚无可展示的评测数据。

和其他模型对比

暂时没有为该模型整理的相关对比页面。

想自定义其他组合？打开对比工具

jina-embeddings-v2-small-en

发布机构

Jina AI

查看发布机构详情

jina-embeddings-v2-small-en

模型解读

jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型，具备处理长达8192个字符序列的能力。该模型基于Bert架构（称为JinaBert），并采用了对称双向ALiBi（Adaptive Length and Bidirectional）技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后，jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练，这些句子对来自多个领域并经过了严格的筛选和清洗过程。

尽管该模型在训练阶段使用了512的序列长度，但得益于ALiBi技术，它能够推断更长的序列，甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景，如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。

该模型具有3300万个参数，这确保了在保持高性能的同时，还能实现快速和内存高效的推断。作为对比，Jina AI还提供了其他几个版本的嵌入模型，包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本，为不同需求的用户提供选择。

Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露，允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。

模型名称： jina-embeddings-v2-small-en
语言支持： 英语单语种
序列长度支持： 高达8192个字符
架构基础： 基于Bert（JinaBert）
特殊技术应用： 对称双向ALiBi技术支持

训练与数据

预训练数据集： C4数据集
进一步训练数据： 超过4亿的句子对及硬负例
域多样性： 数据覆盖多个领域，经过彻底清洗
训练序列长度： 使用512序列长度进行训练，但能推断至8k长度

应用场景

长文档处理： 长文档检索、语义文本相似度分析
文本处理： 文本重排、推荐系统
搜索引擎： RAG和LLM基于生成式搜索

性能参数

模型参数量： 3300万
推断效率： 高速且内存效率
性能表现： 在长序列文本处理任务中保持印象性能

模型版本对比

V1版本（基于T5）：
V2版本（基于JinaBert，支持8k序列）：

DataLearner 官方微信

欢迎关注 DataLearner 官方微信，获得最新 AI 技术推送

DataLearner 官方微信二维码