无需微调的对齐方法URIAL
- 研究背景与目的:LLMs的对齐调优通常采用监督微调(SFT)和强化学习从人类反馈(RLHF),但LIMA研究表明少量示例的SFT也能实现较好对齐,暗示对齐调优可能存在“表面性质”。本研究旨在探究对齐调优对基础LLMs的具体影响,并提出不依赖SFT或RLHF的对齐方法。
- 实验方法
- 对比基础与对齐模型的令牌分布:直接比较基础LLMs和它们的对齐版本(如Llama - 2和Llama - 2 - chat)之间的令牌分布,从标记排名、标记位置分布变化等方面进行分析,以揭示对齐调优的效果。
- 提出URIAL对齐方法:利用上下文学习(ICL),通过少量精心策划的风格示例和精心设计的系统提示,在不调整基础LLMs权重的情况下实现对齐。具体构建上下文示例时,先肯定用户查询并引入背景信息,然后详细列举项目或步骤
- 实验数据集:创建名为“just - eval - instruct”的数据集,包含来自9个现有数据集(如