DataLearner 标志DataLearnerAI
最新AI资讯
大模型排行榜
大模型评测基准
大模型列表
大模型对比
资源中心
工具
语言中文
DataLearner 标志DataLearner AI

专注大模型评测、数据资源与实践教学的知识平台,持续更新可落地的 AI 能力图谱。

产品

  • 评测榜单
  • 模型对比
  • 数据资源

资源

  • 部署教程
  • 原创内容
  • 工具导航

关于

  • 关于我们
  • 隐私政策
  • 数据收集方法
  • 联系我们

© 2026 DataLearner AI. DataLearner 持续整合行业数据与案例,为科研、企业与开发者提供可靠的大模型情报与实践指南。

隐私政策服务条款
  1. 首页/
  2. 博客列表/
  3. 博客详情

抛弃RLHF?MetaAI发布最新大语言模型训练方法:LIMA——仅使用Prompts-Response来微调大模型

2023/05/22 23:21:05
1,675 阅读
LIMALLaMA大模型微调

MetaAI最近公布了一个新的大语言模型预训练方法(LIMA: Less Is More for Alignment)。它最大的特点是不使用ChatGPT那样的(Reinforcement Learning from Human Feedback,RLHF)方法进行对齐训练。而是利用1000个精选的prompts与response来对模型进行微调,但却表现出了极其强大的性能。能够从训练数据中的少数几个示例中学习遵循特定的响应格式,包括从规划旅行行程到推测关于交替历史的复杂查询。

LIMA方法最主要的几个突破总结如下:

  • 不使用RLHF(强化学习和人类反馈),仅使用精心挑选的prompts-response数据
  • 对未出现在训练数据中的任务有良好的泛化能力
  • 在43%的情况下,LIMA的响应等同于或优于GPT-4,与Bard和davinci003比较,这一比例甚至更高
  • 你可以通过非常简单的方法和有限的指令调整获得高质量的输出

目前,MetaAI尚未宣布是否会开源这个模型(基于LLaMA-65B微调结果),LIMA在DataLearner上的模型信息卡地址:https://www.datalearner.com/ai-models/pretrained-models/LIMA

  • LIMA模型简介
  • LIMA的核心思想和方法解释
  • LIMA的实验结果
  • LIMA模型的争议

LIMA模型简介

MetaAI最近公布了一个名为LIMA(Less Is More for Alignment,少即是多的对齐)的新模型,这在AI社区引起了轰动。LIMA是一个拥有650亿参数的LLaMA微调语言模型,它在仅有1000个精心策划的提示和响应上进行了标准的监督损失微调(standard supervised loss)。LIMA的特点是,它并不依赖任何强化学习或人类偏好建模,但却表现出了极其强大的性能。

LIMA的核心思想和方法解释

MetaAI认为当前的大语言模型的训练可以大致分为2个阶段:一个是从原始文本中学习通用表示的无监督训练阶段,另一个是大规模的指令调整和强化学习以更好地对齐到最终任务和用户偏好。

而MetaAI认为,第二个阶段需要大量的人类标注的交互结果,非常的耗费时间和成本。但是,如果我们已经有了一个强大的预训练模型,那么应该可以有更简单的方法让模型拥有这样的能力。为此,MetaAI提出了LIMA,仅仅用1000个精心挑选的训练数据即可让模型激发强大的能力。

下图是LIMA使用的训练数据总结:

数据来源样本数量平均输入长度平均输出长度
训练阶段(Training)
Stack Exchange (STEM)200117523
Stack Exchange (Other)200119530
wikiHow200121811
Pushshift r/WritingPrompts15034274
Natural Instructions50236 92
Paper Authors (Group A)20040334
Dev阶段
Paper Authors (Group A)5036N/A
测试阶段(Test)
Pushshift r/AskReddit7030N/A
Paper Authors (Group B)23031N/A

LIMA背后的核心思想是,对齐可以是一个简单的过程,可以是模型从与用户互动中学习相应的风格或格式,以展示在预训练期间已经获得的知识和能力。这种方法使LIMA能够从训练数据中的少数几个示例中学习遵循特定的响应格式,包括从规划旅行行程到推测关于交替历史的复杂查询。此外,该模型往往能很好地推广到未出现在训练数据中的未见任务。

LIMA的实验结果

在一个受控的人类研究中,LIMA的响应在43%的情况下与GPT-4相当或严格优于GPT-4。与Bard比较,这个统计数据高达58%,与通过人类反馈训练的DaVinci003比较,这个数字为65%。结果显示,LIMA能够遵循除50个分析提示中的6个之外的所有提示。50%的LIMA答案被认为是优秀的。

图1显示了人类偏好研究结果,而图2展示了GPT-4的偏好结果。二者很大程度上呈现出相同的趋势。主要测试结论如下:

  1. 尽管Alpaca 65B的训练数据是LIMA的52倍,但它产生的输出通常比LIMA的输出更不可取。
  2. 对于DaVinci003也是如此,尽管程度较轻;这个结果引人注目的是,DaVinci003是使用了一种被认为更优越的RLHF对齐方法进行训练的。
  3. Bard的情况与DaVinci003相反,它的回答比LIMA好的情况占了42%;然而,这也意味着58%的时间里,LIMA的回答至少和Bard一样好。
  4. 最后,虽然Claude和GPT-4通常比LIMA表现更好,但还是有相当数量的情况下,LIMA确实能够产生更好的回答。或许具有讽刺意味的是,即使是GPT-4自己也有19%的时间更喜欢LIMA的输出。

LIMA模型的争议

尽管LIMA引起了很多人的关注,同时MetaAI宣称LIMA模型的思想非常好,可以极大的降低模型在对齐阶段和指令微调方面的成本。但是,很多人对这个结果表示质疑。其中最大的问题在于它没有使用我们常见的那种评价方法对模型的得分进行计算,而是用人类评估的方法对比它和GPT-4等模型的好坏,缺乏足够强大的说服力。同时,这个模型目前也没有开源,外界无法进行评估。

DataLearner 官方微信

欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送

DataLearner 官方微信二维码
返回博客列表

相关博客

  • 重磅!MetaAI开源4050亿参数的大语言模型Llama3.1-405B模型!多项评测结果超越GPT-4o,与Claude-3.5 Sonnet平分秋色!
  • Meta即将推出开源的CodeLLaMA:一种新的编程AI模型
  • 重磅!Meta发布LLaMA2,最高700亿参数,在2万亿tokens上训练,各项得分远超第一代LLaMA~完全免费可商用!
  • 能否用85000美元从头开始训练一个打败ChatGPT的模型,并在浏览器中运行?
  • 不同参数规模大语言模型在不同微调方法下所需要的显存总结
  • 大语言模型的指令微调(Instruction Tuning)最全综述:从数据集到技术全解析
  • 如何微调大语言模型?吴恩达联合LaminiAI最新一个小时短课教会大模型微调!这次是面向中级水平人员~
  • OpenAI官方教程:如何针对大模型微调以及微调后模型出现的常见问题分析和解决思路~以GPT-3.5微调为例

热门博客

  • 1Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
  • 2回归模型中的交互项简介(Interactions in Regression)
  • 3贝塔分布(Beta Distribution)简介及其应用
  • 4矩母函数简介(Moment-generating function)
  • 5普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
  • 6使用R语言进行K-means聚类并分析结果
  • 7深度学习技巧之Early Stopping(早停法)
  • 8手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署