抛弃RLHF？MetaAI发布最新大语言模型训练方法：LIMA——仅使用Prompts-Response来微调大模型

MetaAI最近公布了一个新的大语言模型预训练方法（LIMA: Less Is More for Alignment）。它最大的特点是不使用ChatGPT那样的（Reinforcement Learning from Human Feedback，RLHF）方法进行对齐训练。而是利用1000个精选的prompts与response来对模型进行微调，但却表现出了极其强大的性能。能够从训练数据中的少数几个示例中学习遵循特定的响应格式，包括从规划旅行行程到推测关于交替历史的复杂查询。

LIMA方法最主要的几个突破总结如下：

不使用RLHF（强化学习和人类反馈），仅使用精心挑选的prompts-response数据
对未出现在训练数据中的任务有良好的泛化能力
在43%的情况下，LIMA的响应等同于或优于GPT-4，与Bard和davinci003比较，这一比例甚至更高
你可以通过非常简单的方法和有限的指令调整获得高质量的输出

目前，MetaAI尚未宣布是否会开源这个模型（基于LLaMA-65B微调结果），LIMA在DataLearner上的模型信息卡地址：https://www.datalearner.com/ai-models/pretrained-models/LIMA

数据来源	样本数量	平均输入长度	平均输出长度
训练阶段（Training）
Stack Exchange (STEM)	200	117	523
Stack Exchange (Other)	200	119	530
wikiHow	200	12	1811
Pushshift r/WritingPrompts	150	34	274
Natural Instructions	50	236 9	2
Paper Authors (Group A)	200	40	334
Dev阶段
Paper Authors (Group A)	50	36	N/A
测试阶段（Test）
Pushshift r/AskReddit	70	30	N/A
Paper Authors (Group B)	230	31	N/A

抛弃RLHF？MetaAI发布最新大语言模型训练方法：LIMA——仅使用Prompts-Response来微调大模型

DataLearner 官方微信

LIMA模型简介

LIMA的核心思想和方法解释

LIMA的实验结果

LIMA模型的争议

热门博客