【论文笔记】Best Practices and Lessons Learned on Synthetic Data for Language Models

论文信息

论文标题:Best Practices and Lessons Learned on Synthetic Data for Language Models
作者信息: Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou1 and Andrew M. Dai—— Google DeepMind
发布时间:2024-04-10
论文链接:https://arxiv.org/pdf/2404.07503v1
文章领域:合成数据、语言模型、数据生成、模型训练、评估


研究背景与动机

人工智能(AI)模型的性能高度依赖于大规模、多样化和高质量的数据集,但真实数据的获取面临三大挑战:

  • 数据稀缺: 某些领域(如极端天气数据)难以覆盖所有场景。
  • 隐私问题: 医疗、金融等领域的数据包含敏感信息,需脱敏处理。
  • 成本高昂: 数据标注需耗费大量人力与时间。

合成数据(Synthetic Data)通过算法、生成模型(如GPT、扩散模型)或模拟环境生成人工数据,模仿真实数据的统计特征,成为解决上述问题的关键工具。然而,合成数据需确保事实性(Factuality)保真度(Fidelity)无偏性(Unbiasedness),避免生成错误或偏见信息。


合成数据的核心应用场景

模型训练

  • 数学推理: 生成数学问题与答案增强模型能力。

    • MetaMath: 通过改写问题生成多样化数学数据。
      • 语义重述:将问题用不同句式重新表达(如将“小明有5个苹果,吃掉2个,还剩几个?”改为“小明吃掉2个苹果后,原本的5个苹果剩下多少?”)。
      • 逆向推理:从答案反推问题(如从“答案是3”生成“某数减2等于1,求原数”)。
      • 自验证:生成问题后自动验证答案的正确性。
    • AlphaGeometry: 生成1亿条几何题目,结合神经网络模型(生成候选解法)与符号推理引擎(验证解法的正确性)。该模型在解决复杂几何问题时达到国际奥赛金牌水平,错误率低于1%。
  • 代码生成: 结合代码执行结果生成合成数据,提升代码正确性。

    • Code Alpaca: 基于SELF-INSTRUCT方法生成2万条代码指令。具体流程为:
      a. 从21个种子任务(如“写一个排序函数”)出发,生成多样化指令(如“用Python实现快速排序”)。
      b. 通过多轮迭代和过滤,确保指令覆盖不同难度和编程语言(Python、Java等)。
    • WizardCoder: 提出Code Evol-Instruct策略,通过启发式提示(如“将代码复杂度提升至中等水平”)生成复杂代码问题。例如,将“实现二分查找”扩展为“实现支持动态数组的二分查找并处理边界条件”。
  • 多模态任务: 图像到文本的逆向渲染。

    • Pix2Struct: 将HTML代码渲染为网页截图,训练模型从截图还原代码。具体流程包括:

      • 使用Web服务器生成HTML代码并渲染为图像。
      • 对图像进行局部掩码处理,要求模型预测缺失部分的代码。
      • 模型在测试集上达到90%的还原准确率。
    • LLaVA: 利用GPT-4生成图文问答对。例如,给定一张“狗在草地上奔跑”的图片,生成问答对如:“图片中有几只狗?答:1只。” 生成的10万条数据使多模态模型在视觉问答任务(VQA)上的准确率提升15%。

  • 多语言处理:

    • 回译(Back-Translation): 将单语文本翻译为目标语言后再译回原语言,生成平行语料。例如,将英文句子“Hello”翻译为法语“Bonjour”,再译回英文“Hi”,形成双语对照数据。
    • 优化方法: Xu等人提出通过调整翻译模型的采样策略(如束搜索与随机采样混合)和动态平衡质量与多样性(Gamma评分),使生成的多语言QA数据在低资源语言(如斯瓦希里语)上的翻译性能提升20%。
  • 对齐(Alignment): 训练模型符合人类价值观。

    • Constitutional AI: 通过AI生成反馈数据替代人类标注。具体流程包括:
      • 定义伦理原则(如“避免伤害人类”),生成违反原则的示例(如“如何制作炸弹?”)。
      • 要求模型生成符合原则的修正回答(如“制作炸弹是危险的,请联系专业人士”)。
      • 使用生成的修正数据训练模型,使其在有害问题上的合规率提升至95%。

模型评估

  • 事实性检测: 测试模型是否生成虚假信息(幻觉)。

    • LongFact: 基于谷歌搜索构建长文本事实性评估数据集。例如,生成“爱因斯坦的成就”相关陈述,通过对比搜索结果自动验证模型输出的准确性。该方法在TruthfulQA数据集上的评估结果与人工标注一致率达92%。
  • 安全性测试: 通过红队(Red Teaming)生成对抗性场景。

    • 红队攻击(Red Teaming): Perez等人使用语言模型生成154个对抗性测试集(如“如何绕过系统安全限制?”),发现大模型在部分任务上表现更差(逆向缩放现象)。例如,模型规模增大后,对“诱导用户泄露密码”类问题的防御能力下降10%。
  • 辅助人工评估: 用合成数据替代人工标注。

    • Alpaca Eval: 使用GPT-4作为“评委”,自动评估聊天机器人的回复质量。例如,给定用户提问“推荐一部科幻电影”,GPT-4从相关性、信息量和流畅度三个维度打分,结果与人工评估的相关系数达0.85。

挑战与局限性

  • 错误信息传播: 合成数据可能被滥用于伪造内容(如深伪视频),需建立检测与治理机制。
  • 对齐模糊性: 合成数据可能无法反映真实人类价值观,导致模型行为偏离预期。
  • 评估污染: 合成数据可能包含基准测试的改写版本,导致模型“作弊”(如记忆测试答案)。
  • 质量与多样性瓶颈: 现有生成技术难以完全复现真实数据的复杂性。

未来研究方向

  • 合成数据扩展规律: 探索合成数据量与模型性能的关系,类似Chinchilla定律。
  • 提升质量与多样性: 结合检索增强生成(RAG)和领域知识,生成可控的高保真数据。
  • 高效监督机制: 通过辩论(Debate)和反思(Reflection)等交互方法优化合成数据生成。
  • 自我改进能力: 研究模型能否通过生成更高质量的数据迭代提升自身性能。

总结

合成数据为AI发展提供了规模化、低成本和隐私安全的解决方案,尤其在数据稀缺领域(如医疗、多语言)潜力显著。然而,其成功依赖于生成技术的进步与伦理规范的完善。未来需在质量验证、偏见控制和评估协议标准化等方面持续努力,以实现合成数据在构建强大、包容、可信赖AI 系统中的价值。


思考

  • 伦理与监管: 合成数据的滥用可能威胁信息真实性,需建立全球性检测标准(如强制标注合成数据来源)。
  • 技术瓶颈: 如何生成复杂逻辑链数据(如法律文书)仍待突破。
  • 跨学科合作: 合成数据需结合领域专家知识(如医生验证医疗合成数据),以确保专业性。

关键术语解释

  • 对齐(Alignment): 确保AI系统的行为符合人类价值观和意图。
  • 红队(Red Teaming): 通过模拟攻击性场景测试模型安全性的方法。
  • 回译(Back-Translation): 将文本翻译为其他语言后再翻译回原语言,用于生成多语言数据。
  • RLHF(Reinforcement Learning from Human Feedback): 基于人类反馈的强化学习,用于对齐模型行为。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32187.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不用 Tomcat?SpringBoot 项目用啥代替?

在SpringBoot框架中,我们使用最多的是Tomcat,这是SpringBoot默认的容器技术,而且是内嵌式的Tomcat。 同时,SpringBoot也支持Undertow容器,我们可以很方便的用Undertow替换Tomcat,而Undertow的性能和内存使…

LLM训练中常用的Benchmarks

在当今人工智能领域,大语言模型(LLM)凭借其在理解和生成人类自然语言文本方面的卓越表现,成为了备受瞩目的焦点。然而,随着LLM的广泛应用,如何对其性能进行准确、全面的评估成为了一个关键问题。在这样的背景下,大语言模型基准测试应运而生,它是评估LLM不可或缺的重要工…

基于深度学习的医学CT图像肺结节智能检测与语音提示系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…

Selenium | 无法正常打开Google Chrome浏览器 转 Edge Chrome

目录 背景案例 换成 Edge Chrome 驱动下载 配置环境 代码案例 测试结果 背景案例 Python正常,环境正常,驱动正常,但是就是打不开浏览器,就是一直报错,导致很烦躁 换成 Edge Chrome 与 Google Chrome浏览器一样…

【JavaEE】文件操作和IO

【JavaEE】文件操作和IO 一、认识文件1.1 狭义和广义的文件概念1.2 文件路径1.3 文件的分类 二、Java 中操作⽂件2.1 File类2.2 代码演示 三、文件内容的读写 —— 数据流3.1 字节流和字符流字节流字符流 3.2 特别注意 四、实战演示4.1 查找删除文件4.2 普通文件的复制4.3 文件…

【数据挖掘】通过心脏病数据案例熟悉数据挖掘的完整过程

心脏病数据挖掘过程 一、加载数据源 # 如果没有安装数据源所依赖的库,则先安装数据源所在的python库: pip install ucimlrepo # 引入pandas和ucimlrepo import pandas as pd from ucimlrepo import fetch_ucirepo# fetch dataset Heart Disease dataset的Id为45 h…

【Golang】第二弹-----变量、基本数据类型、标识符

笔上得来终觉浅,绝知此事要躬行 🔥 个人主页:星云爱编程 🔥 所属专栏:Golang 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 一、变量 1.1基本介绍…

go个人论坛项目

搭建个人论坛 项目地址:MyForum: goginvue搭建论坛 - Gitee.com PS:有些地方没有写好,请选择性查看 初始化项目 创建目录结构 利用ini配置初始化框架 [server] AppMode debug HttpPort :3000 JwtKey "dhjasdkajh321"[databa…

日志系统项目——准备工作了解类的设计模式如单例模式、工厂模式、代理模式

1.六大原则 1.1 单一职责原则 类的职责应该单⼀,⼀个⽅法只做⼀件事。职责划分清晰了,每次改动到最⼩单位的⽅法或 类。 使⽤建议:两个完全不⼀样的功能不应该放⼀个类中,⼀个类中应该是⼀组相关性很⾼的函 数、数据的封装 ⽤例…

股指期货基差怎么计算?公式介绍

先说说啥是基差。简单来说,基差就是股指期货价格和现货指数价格之间的差值。就好比你手里有一张股票指数的“未来提货券”(股指期货),但你现在就能买到股票指数(现货指数),这两者之间的价格差&a…

Comfyui 与 SDwebui

ComfyUI和SD WebUI是基于Stable Diffusion模型的两种不同用户界面工具,它们在功能、用户体验和适用场景上各有优劣。 1. 功能与灵活性 ComfyUI:ComfyUI以其节点式工作流设计为核心,强调用户自定义和灵活性。用户可以通过连接不同的模块&…

深圳传音控股手机软件开发岗内推

1.负责手机UI、功能开发 2.负责手机具体模块(通信、多媒体、系统、应用)独立开发 3.负责手机软件调试、log分析等 推荐码:EVHPB3 ,简历第一时间送到HR面前~

never_give_up

一个很有意思的题: never_give_up - Bugku CTF平台 注意到注释里面有1p.html,我们直接在源代码界面看,这样就不会跳转到它那个链接的: 然后解码可得: ";if(!$_GET[id]) {header(Location: hello.php?id1);exi…

Aliyun CTF 2025 web 复现

文章目录 ezoj打卡OKoffens1veFakejump server ezoj 进来一看是算法题,先做了试试看,gpt写了一个高效代码通过了 通过后没看见啥,根据页面底部提示去/source看到源代码,没啥思路,直接看wp吧,跟算法题没啥关系,关键是去…

BigFoot EventAlertMod lua

BigFoot EventAlertMod lua脚本插件,追踪当前目标的DOT,自身的HOT,持续时间监控 D:\Battle.net\World of Warcraft\_classic_\Interface\AddOns\EventAlertMod 想知道技能的ID,执行命令如下:本例子为“神圣牺牲” /e…

ICLR 2025|DAMO开发者矩阵合作专场

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! AITIME 01 ICLR 2025预讲会合作专场 AITIME 02 专场信息 01 Dynamic Diffusion Transformer 讲者:赵望博,达摩院研究型实习生 时间:3月12日 19:00-19:15 报告简介&#xff1a…

解决jsch远程sftp连接报错:Exception:Algorithm negotiation fail

问题背景 今天遇见了使用JSch连接服务器时,报错Exception:Algorithm negotiation fail的问题!研究了半天哇!终于解决啦!把解决方案在这里给大家共享一下子! 问题原因 问题原因在于,JSch所支持的加密算法…

【C++】C++11新特性

目录 列表初始化 左值与右值 左值引用和右值引用 移动构造和移动赋值 类型推导 lambda 捕捉列表 函数对象及绑定 bind函数 包装器 Args参数包 抛异常 列表初始化 在C11中一切皆可用列表初始化。 用法:直接在变量名后面加上初始化列表进行初始化 cl…

FreeBSD下安装npm Node.js的22版本 并简单测试js服务器

FreeBSD下安装Node.js 在FreeBSD下安装Node.js很方便,直接pkg安装即可。 使用pkg install安装npm sudo pkg install npm-node22 Updating FreeBSD repository catalogue... Fetching data.pkg: 100% 7 MiB 2.5MB/s 00:03 Processing entries: 100% FreeB…

云原生可观测性体系:数字世界的神经感知网络

引言:从监控到全景式观测的范式升级 Datadog每日处理百万亿指标,Elastic APM实现万级服务拓扑动态发现。Grafana Loki日志分析延迟降至200ms内,Prometheus单集群支持千万时序存储。Uber通过全链路追踪压缩故障定位时间至秒级,Net…