DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

OpenAI发布最新Embedding模型——可惜又是一个收费API

2022/12/16 21:30:36
7,761 阅读
EmbeddingOpenAI词嵌入

嵌入(Embedding)是深度学习方法处理自然语言文本最重要的方式之一。它将人类的自然语言和文本转换成一个浮点型的向量。向量之间的距离代表了它们的关系。今天,OpenAI宣布了他们的Embedding新模型——text-embedding-ada-002。官方宣称这是目前OpenAI最强的嵌入模型,可以将任意文本转换成一个向量,且效果好于目前所有OpenAI的模型。

嵌入是一种相对低维的空间。借助嵌入,可以更轻松地对表示字词的稀疏向量等大型输入进行机器学习。理想情况下,嵌入会将语义上相似的输入置于嵌入空间中彼此靠近的位置,以捕获输入的一些语义。嵌套可以跨模型学习和重复使用。Embedding可以在如下领域发挥作用:

  • 搜索(根据查询字符串的相关性对结果进行排名)
  • 聚类(根据相似性对文本字符串进行分组)
  • 推荐(具有相关文本字符串的项目被推荐)
  • 异常检测(识别关联度小的异常值)
  • 多样性测量(对相似性分布进行分析)
  • 分类(文本串按其最相似的标签进行分类)

今天发布的text-embedding-ada-002模型有如下特点:

强大的性能

text-embedding-ada-002在文本搜索、代码搜索和句子相似性任务上优于所有旧的嵌入模型,并在文本分类上获得相当好的性能。

下图就是文本检索领域的评测结果:

统一能力

OpenAI通过将上述五个独立的模型(文本相似性、文本搜索-查询、文本搜索-文档、代码搜索-文本和代码搜索-代码)合并为一个新的模型,大大简化了/embeddings端点的界面。在一系列不同的文本搜索、句子相似性和代码搜索基准中,这个单一的表述比以前的嵌入模型表现得更好。

更长的上下文

新模型的上下文长度增加了4倍,从2048到8192,使得它在处理长文档时更加方便。

更小的嵌入尺寸

新的嵌入只有1536个维度,是davinci-001嵌入尺寸的八分之一,使新的嵌入在处理矢量数据库时更具成本效益。

降低了价格

与同样大小的旧模型相比,新嵌入模型的价格降低了90%。新模型以99.8%的价格实现了与旧Davinci模型更好或类似的性能。

虽然性能看起来不错,但是似乎贵了点,更重要的是国内用不了。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • Embedding开源模型重磅玩家:北京智源人工智能研究院最新Embedding模型发布!登顶MTEB,免费商用授权!
  • GPT4All发布可以在CPU+Windows的消费级硬件上生成embeddings向量的模型:低成本、高质量、易上手的embedding生成新选择
  • 开源界最新力作!230万篇arXiv的论文标题和摘要的所有embeddings向量数据集免费开放!
  • AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要
  • OpenAI 发布 GPT-5.5:代号"Spud",Agent 能力明显提升,API 因安全审查暂缓开放
  • OpenAI发布Frontier:一个企业级的Agent构建平台,把 AI 变成企业里的“数字同事”,那么OpenAI Frontier能做什么?
  • GPT-5.1 有哪些提升?来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读
  • OpenAI发布GPT-5.1:围绕“对话体验、一致性、任务适配性”进行的系统化优化的实质性升级!重回写作排名第一!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署