基于大语言模型(LLM)的合成数据生成、策展和评估的综述

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集:

《大模型面试宝典》(2024版) 正式发布!


图片

在不断发展的深度学习领域,数据的数量和质量问题一直是一个长期存在的难题。最近大语言模型(LLMs)的出现为合成数据生成提供了一种以数据为中心的解决方案,缓解了现实世界数据的限制。然而,目前对这一领域的研究缺乏统一的框架,大多停留在表面。

因此,本文基于合成数据生成的一般工作流程,整理了相关研究。通过这样做,我们突出了现有研究中的空白,并概述了未来研究的潜在方向。本研究旨在引导学术界和工业界向更深入、更系统地探究LLMs驱动的合成数据生成的能力和应用。

图片

在深度学习领域不断演变的背景下,数据数量和质量的问题一直是一个长期存在的困境。大语言模型(LLMs)的革命性出现引发了深度学习领域的显著范式转变(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。尽管有这些进展,大量高质量数据仍然是构建稳健自然语言处理(NLP)模型的基础(Gandhi et al., 2024)。具体来说,这里的高质量数据通常指的是包含丰富监督信号(通常以标签形式)并与人类意图紧密对齐的多样化数据。然而,由于高成本、数据稀缺、隐私问题等原因,依赖于人类数据来满足这些需求有时是具有挑战性甚至是不现实的(Kurakin et al., 2023)。此外,多项研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人类生成的数据由于其固有的偏见和错误,可能并不是模型训练或评估的最佳选择。这些考虑促使我们更深入地探讨一个问题:是否有其他更有效和可扩展的数据收集方法可以克服当前的限制?

鉴于LLMs的最新进展,它们展示了生成与人类输出相当的流畅文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成数据成为了人类生成数据的一种可行替代品或补充。具体来说,合成数据旨在模仿真实世界数据的特征和模式(Liu et al., 2024)。一方面,LLMs通过广泛的预训练,积累了丰富的知识库,并展现出卓越的语言理解能力(Kim et al., 2022; Ding et al., 2023a),这为生成真实的数据奠定了基础。另一方面,LLMs深厚的指令遵循能力允许在生成过程中实现更好的可控性和适应性,从而能够为特定应用创建定制的数据集,并设计更灵活的流程(Eldan and Li, 2023)。这两个优势使LLMs成为极具前景的合成数据生成器。

作为LLMs的一项关键应用,合成数据生成对于深度学习的发展具有重要意义。如图1所示,LLMs驱动的合成数据生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整个模型训练和评估过程实现自动化,最小化了人类参与的需求(Huang et al., 2023),从而使深度学习模型的优势可以应用于更广泛的领域。除了提供可扩展的训练和测试数据供应之外,LLMs驱动的合成数据生成还可能为开发下一代LLMs铺平道路。来自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的见解强调了数据质量对于有效模型学习的重要性,而LLMs赋予我们主动“设计”模型学习内容的能力,通过数据操作显著提高了模型训练的效率和可控性。截至2024年6月,Hugging Face上已有超过300个被标记为“合成”的数据集,许多主流LLMs利用高质量的合成数据进行训练,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

尽管看似简单,但生成同时具有高正确性和足够多样性的合成数据集需要精心设计过程,并涉及许多技巧(Gandhi et al., 2024),使得LLMs驱动的合成数据生成成为一个非平凡的问题。虽然大多数现有工作通常针对各种任务(如预训练(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微调(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、评估(Feng et al., 2023; Wei et al., 2024))和不同领域(如数学(Yu et al., 2023a; Luo et al., 2023a)、代码(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))进行数据生成,但它们共享许多共同的理念。为了应对LLMs驱动的合成数据生成这一新兴领域中缺乏统一框架的问题,并开发通用工作流程,本综述调查了最近的研究,并根据生成、策展和评估三个密切相关的主题进行组织,如图2所示。我们的主要目的是提供该领域的全面概述,确定关键关注领域,并突出需要解决的空白。我们希望为学术界和工业界带来见解,并推动LLMs驱动的合成数据生成的进一步发展。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/376281.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript中的面向对象编程

OPP在JavaScript的表现方式:原型 传统的OPP:类 ● 对象(实例)由类实例化,类的功能类似于蓝图,通过蓝图来实现建筑(实例) ● 行为(方法)从类复制到所有实例 …

阿里ChatSDK使用,开箱即用聊天框

介绍: 效果:智能助理 ChatSDK,是在ChatUI的基础上,结合阿里云智能客服的最佳实践,沉淀和总结出来的一个开箱即用的,可快速搭建智能对话机器人的框架。它简单易上手,通过简单的配置就能搭建出对…

交换机和路由器的工作流程

1、交换机工作流程: 将接口中的电流识别为二进制,并转换成数据帧,交换机会记录学习该数据帧的源MAC地址,并将其端口关联起来记录在MAC地址表中。然后查看MAC地址表来查找目标MAC地址,会有一下一些情况: MA…

zookeeper基本使用

文章目录 1. zookeeper2. zookeeper安装3. zookeeper运行4. zookeeper操作(1) 服务端常用命令操作(2) 客户端常用命令(3) javaAPI操作CuratorCurator基本操作节点操作watch事件监听分布式锁 5. zookeeper集群(1) 集群搭建(2) 集群启动 6. 图形化页面工具ZooInspector 1. zookee…

【学术会议征稿】第三届智能电网与能源系统国际学术会议

第三届智能电网与能源系统国际学术会议 2024 3rd International Conference on Smart Grid and Energy Systems 第三届智能电网与能源系统国际学术会议(SGES 2024)将于2024年10月25日-27日在郑州召开。 智能电网可以优化能源布局,让现有能源…

自己动手写一个滑动验证码组件(后端为Spring Boot项目)

近期参加的项目,主管丢给我一个任务,说要支持滑动验证码。我身为50岁的软件攻城狮,当时正背着双手,好像一个受训的保安似的,中规中矩地参加每日站会,心想滑动验证码在今时今日已经是标配了,司空…

SpringBoot+Vue(2)excel后台管理页面

一、需求 SpringBootVue写excel后台管理页面(二级页面打开展示每一个excel表,数据库存储字段为“下载、删除、文件详情、是否共享、共享详情”) 二、解答 后端(Spring Boot) 1. 项目设置 使用Spring Initializr创建一个新的Spring Boot项目…

vue3使用Echarts图表生成项目进度甘特图

先看效果 代码展示 <template><h1>项目进度甘特图</h1><div id"app"><!-- Echarts 图表 --><div ref"progressChart" class"progressChart"></div></div> </template><script setup&…

深入解析香橙派 AIpro开发板:功能、性能与应用场景全面测评

文章目录 引言香橙派AIpro开发板介绍到手第一感觉开发板正面开发板背面 性能性能概况性能体验 应用场景移植操作系统香橙派 AIpro开发板支持哪些操作系统&#xff1f;烧写操作系统到SD卡中启动开发板的步骤查看系统提供的事例程序体验——开发的简洁性 视频播放展示ffmpeg简介f…

C语言——流程控制:if...else、switch...case

控制类语句&#xff1a; 逻辑运算符&#xff1a; 选择语句&#xff1a; if...else&#xff1a; if&#xff08;&#xff09;括号内的内容终究会被转换成0,1&#xff0c;满足的话即为1&#xff0c;不满足的话为0。因此要注意&#xff0c;&#xff08;&#xff09;括号内因为条件…

安卓笔记1-Retrofit2请求自定义接口

1、整体功能概述 安卓项目中使用Retrofit2实现和自定义接口的网络交互&#xff0c;通过Postman模拟服务端&#xff0c;创建自定义接口。 作用 前后端开发进度对不齐时&#xff0c;客户端可利用本功能模拟测试数据。备忘。 缺点 retrofit模拟接口需要配置响应数据类&#xff…

pytorch-pytorch之LSTM

目录 1. nn.LSTM2. nn.LSTMCell 1. nn.LSTM 初始化函数输入参数与RNN相同&#xff0c;分别是input_size&#xff0c;hidden_size和num_layer foward函数也与RNN类似&#xff0c;只不过返回值除了out外&#xff0c;ht变为(ht,ct) 代码见下图&#xff1a; 2. nn.LSTMCell 初…

[python]基于yolov10+gradio目标检测演示系统设计

【设计介绍】 YOLOv10结合Gradio实现目标检测系统设计是一个结合了最新目标检测技术和快速部署框架的项目。下面将详细介绍这一系统的设计和实现过程。 一、YOLOv10介绍 YOLOv10是YOLO&#xff08;You Only Look Once&#xff09;系列的最新版本&#xff0c;由清华大学的研究…

Flowable-流程图标与流程演示

BPMN 2.0是业务流程建模符号2.0的缩写。它由Business Process Management Initiative这个非营利协会创建并不断发展。作为一种标识&#xff0c;BPMN 2.0是使用一些符号来明确业务流程设计流程图的一整套符号规范&#xff0c;它能增进业务建模时的沟通效率。目前BPMN2.0是最新的…

四. TensorRT模型部署优化-pruning(sparse-tensor-core)

目录 前言0. 简述1. 自动驾驶中需要关注的电力消耗2. Ampere架构中的3rd Generation Tensor core3. Sparse tensor core做矩阵乘法总结参考 前言 自动驾驶之心推出的 《CUDA与TensorRT部署实战课程》&#xff0c;链接。记录下个人学习笔记&#xff0c;仅供自己参考 本次课程我们…

[激光原理与应用-110]:南京科耐激光-激光焊接-焊中检测-智能制程监测系统IPM介绍 - 13 - 德擎激光焊接在线缺陷检测系统 WDD详解解析

目录 一、产品简介 1.1 概述 1.2 多光学信号传感器 &#xff08;1&#xff09;外观 &#xff08;2&#xff09;消费电子行业应用 1.3 IO信号处理模块/可编程控制模块 1.4 操作系统分析软件 1.5 检测原理分析 二、硬件原理 2.1 系统架构与电路接口 2.2 多光学信号传感…

SSRF漏洞深入利用与防御方案绕过技巧

文章目录 前言SSRF基础利用1.1 http://内网资源访问1.2 file:///读取内网文件1.3 dict://探测内网端口 SSRF进阶利用2.1 Gopher协议Post请求2.2 Gopher协议文件上传2.3 GopherRedis->RCE2.4 JavaWeb中的适用性&#xff1f; SSRF防御绕过3.1 Url黑名单检测的绕过3.2 Url白名单…

政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MuseV (踩完了所有的坑):基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成

目录 下载项目 创建虚拟环境 启动虚拟环境&执行项目依赖 基于DOCKER的尝试 A. 安装引擎 B. 下载桌面安装包 C. 安装桌面包 用Docker运行MuseV 1. 拉取镜像 ​编辑 2. 运行Docker镜像 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收…

HSP_15章 Python_模板设计模式和oop进阶总结

P136 模板设计模式 1. 设计模式简介 设计模式是在大量的实践中总结和理论化之后优选的代码结构、编程风格、以及解决问题的思考方式 设计模式就像是经典的棋谱&#xff0c;不同的棋局&#xff0c;我们用不同的棋谱&#xff0c;免去我们自己再思考和摸索 2. 模板设计模式 基本…

Profibus_DP转ModbusTCP网关模块连马保与上位机通讯

Profibus转ModbusTCP网关模块&#xff08;XD-ETHPB20&#xff09;广泛应用于工业自动化领域。例如&#xff0c;可以将Profibus网络中的传感器数据转换为ModbusTCP协议&#xff0c;实现数据的实时监控和远程控制。本文介绍了如何利用Profibus转ModbusTCP网关&#xff08;XD-ETHP…