DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

GPT-4-Turbo的128K长度上下文性能如何?超过73K Tokens的数据支持依然不太好!

2023/11/09 18:51:48
2,452 阅读
GPT-4TurboLong-Context超长上下文长上下文

GPT-4 Turbo是OpenAI最新发布的号称性能超过当前GPT-4的模型。在新版本的ChatGPT中已经可以使用。而接口也在开放。除了速度和质量外,GPT-4 Turbo最吸引人的是支持128K超长上下文输入。但是,实际测试中GPT-4 Turbo对于超过73K tokens文档的理解能力急速下降。

GPT-4 Turbo支持128K的效果不完美
GPT-4 Turbo支持128K的效果不完美
  • GPT-4 Turbo简介
  • 如何测试GPT-4对超长上下文理解能力的水平?
  • GPT-4 Turbo对128超长上下文支持的实际结果

GPT-4 Turbo简介

GPT-4 Turbo是OpenAI最新的开放模型,相比较此前的版本,GPT-4的知识已经更新到了2023年4月份,并且支持最高128K的超长上下文输入,约300页文本。不过,模型最大允许输出的长度是4096。

如何测试GPT-4对超长上下文理解能力的水平?

虽然GPT-4 Turbo宣称支持128K,但是有人实测结果并不理想。

前Salesforce工作人员做了这项测试,作者使用Paul Graham的论文作为上下文输入。Paul Graham是英国的计算机科学家,也是著名投资企业Y Combinator的创办者,它的论文超过了128K。

为了测试GPT-4 Turbo在超长上下文中准确定位信息的能力,作者随机在论文不同位置插入一句话“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.”。然后让GPT-4只能用这个论文作为回答的依据。

作者测试了很多次,这句话在文档的开头到结束不同位置,上下文长度从1K到128K不等。

作者做了15次实验,比较GPT-4 Turbo是否能准确回答结果。

GPT-4 Turbo对128超长上下文支持的实际结果

作者做了一张图描述这个结果:

GPT-4 Turbo 128K超长上下文测试
GPT-4 Turbo 128K超长上下文测试

图的横坐标是文档的长度,纵坐标是插入的文本在文档的位置。可以看到,在右上角区域模型表现效果很差,这些基本都是文档上半段,然后开始位置之后(7%位置之后)。但是如果这句话在文档下半段效果反而还可以。

最终的实验结论如下:

  • GPT-4的召回率在输入文档超过73K tokens之后下降明显,这意味着,如果你的文档超过了50万单词之后可能GPT-4并不能准确找到你问题的答案位置;

  • 如果你的答案恰巧在文档7%-50%的位置,那么GPT-4能找到的概率最低,而50%的位置正好是文档中间。这也侧面验证了此前大模型的Lost in Middles特点(具体参考:大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!)

  • 如果需要回忆的事实位于文档的开头,无论上下文长度如何,都能被回忆起。这可能意味着模型对文档开头的信息有更好的记忆能力。

根据这些发现,其实大家也可以理解。如果你想要准确的让模型理解你的问题,那么你的上下文必须短一点。也就是说,短一点的上下文可以提升GPT-4 Turbo的定位问题的能力。当然,如果文档很长,但是重要的信息在文档开始位置,或者是下半段,那么效果也都不错~

这项测试成本200美元,真不便宜~实验原文:https://x.com/GregKamradt/status/1722386725635580292?s=20

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 全球首个200万上下文商业产品开始内测!月之暗面Kimi助手开启最长上下文模型内测邀请。
  • 智谱AI发布国产最强大模型GLM4,理解评测与数学能力仅次于Gemini Ultra和GPT-4,编程能力超过Gemini-pro,还有对标GPTs商店的GLMs
  • 国产全球最长上下文大语言模型开源:XVERSE-13B-256K,一次支持25万字输入,免费商用授权~
  • 如何提高大模型在超长上下文的表现?Claude实验表明加一句prompt立即提升效果~
  • 李开复创业公司零一万物开源迄今为止最长上下文大模型:Yi-6B和Yi-34B,支持200K超长上下文
  • 让大模型支持更长的上下文的方法哪个更好?训练支持更长上下文的模型还是基于检索增强?
  • 解决大语言模型的长输入限制:MetaAI发布MegaByte最高支持几百万上下文输入!
  • 大模型如何使用长上下文信息?斯坦福大学最新论文证明,你需要将重要的信息放在输入的开始或者结尾处!

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署