LLM基础模型系列:Prompt-Tuning

------->更多内容,请移步“鲁班秘笈”!!<------

大型预训练语言模型的规模不断扩大,在许多自然语言处理 (NLP) 基准测试中取得了最先进的结果。自GPT和BERT开发以来,标准做法一直是在下游任务上微调模型,这涉及调整网络中的每个权重(即模型调优)。但是,随着模型变得越来越大,为每个下游任务存储和提供模型的优化副本变得不切实际。

一个有吸引力的替代方案是在所有下游任务中共享一个冻结的预训练语言模型,其中所有权重都是固定的。冻结模型可以通过“上下文”学习来执行不同的任务。通过这种方法,用户通过提示设计为给定任务启动模型,即手工制作带有手头任务描述或示例的文本提示。例如,为了给模型进行情感分析,可以在输入序列之前附加提示“下面的电影评论是正面的还是负面的?”,“这部电影太棒了!”。

在任务之间共享相同的冻结模型大大简化了服务,并允许高效的混合任务推理,但不幸的是,文本提示需要手动设计,即使是精心设计的提示,也会影响精确性,而本文带来的技术将破解手动的难题。

微调与转移学习

Prompt Tuning是通过训练一组提示参数来适应LLMs新任务的过程。这些提示被附加到输入文本之前,以指导生成LLM所需的输出。它在每个样本之前加入了一些虚拟的Token,这些Token用于不同任务的Embedding。

为了更加直观的简述Prompt Tuning。之前先看下面的两张图,第一张图是全微调,也就是说准备好的样本数据,然后继续二次微调模型的参数。

全微调

第二张图是将大模型的参数冻结,然后针对不同的任务训练前缀(粉红色的部分)。下面的训练一个批次是4条样本。

Prompt Tuning

Prompt Tuning的超参数们

那么在样本之前要填充多少的虚拟Token才是最为合适的呢?以T5为例,针对不同任务的标准模型微调实现了强大的性能,但需要为每个特定的任务准备分支副本。

假定使用T5系列的模型,每个调整后的模型副本需要11B参数。相比之下,采用Prompt Tuning技术之后,若填充的虚拟Token为5,那么每个任务只需要20480个参数,减少了5个数量级以上。

回头看看采用Prompt Tuning技术的T5,随着大模型规模的增加,表现不断地提升,而且这个过程中基座模型是冻结的,只有一份。仔细观察下图会发现,其实这种技术在大参数模型还是比较合适的,而在小参数模型中的表现一般,注意黄色(模型微调)和绿色(Prompt Tuning)在不同参数规模的模型的间隙。

上面这幅图是在各种不同的情况下研究一些超参数对这种技术的性能影响。值得注意的是,这种技术的质量随着模型大小的增加而稳定提高。在所有研究中,特大号参数的模型对超参数选择最为稳健。

  • a图说明增加到 20多个虚拟Token通常会带来很大的提升,但是对于特大号的模型而言,增加一个虚拟的Token就足够了。是不是很神奇!

  • b表明随机均匀初始化参数数值落后于使用采样词汇或类标签嵌入的更“高级”初始化,但这种差异在特大号模型下消失。

  • c表明LM Adaptation在跨领域的表现优越,即使在下游任务目标中添加了标记

  • d展示较长的适应步伐(Step)通常会带来更大的收益

Prompt Tuning的优点

采用prompt tuning技术的好处在于它可以自动从一个新的模型中学习最佳的Prompt,就是如何引导大模型能够根据新的任务,给出针对性的回答。之前网上有很多教程,教读者如何学会写高效的Prompt,采用这种技术将自动化的训练对应任务的虚拟Token,然后自动的找出最佳的引导方法。

Prompt 调优保留了模型调优的强大任务性能,同时保持预训练模型的冻结状态,从而实现高效的多任务服务。

大白话说,就是你和蚂蚁沟通,你可以采用很多方式,但是你也可以“烘烘哈衣,@@#¥……”,结果蚂蚁听懂了。“烘烘哈衣,@@#¥……” 就是那些训练出来的虚拟Token,人很难听懂。这么说,有点和禅宗的大喝一声,用力一棒异曲同工。最重要的是,采用这种技术,只需要一个基座模型,对于模型迁移具有很强的弹性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/379071.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA中Git常用操作及Git存储原理

Git简介与使用 Intro Git is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency. Git是一款分布式版本控制系统&#xff08;VCS&#xff09;&#xff0c;是团队合作开发…

2010-2022年别克英朗维修手册电路图线路图接线图资料更新

经过整理&#xff0c;2010-2022年别克英朗汽车全系列已经更新至汽修帮手资料库内&#xff0c;覆盖市面上99%车型&#xff0c;包括维修手册、电路图、新车特征、车身钣金维修数据、全车拆装、扭力、发动机大修、发动机正时、保养、电路图、针脚定义、模块传感器、保险丝盒图解对…

How to integrate GPT-4 model hosted on Azure with the gptstudio package

题意&#xff1a;怎样将托管在Azure上的GPT-4模型与gptstudio包集成&#xff1f; 问题背景&#xff1a; I am looking to integrate the OpenAI GPT-4 model into my application. Here are the details I have: Endpoint: https://xxxxxxxxxxxxxxx.openai.azure.com/Locatio…

uniapp 开发 App 对接官方更新功能

插件地址&#xff1a;升级中心 uni-upgrade-center - App - DCloud 插件市场 首先创建一个 uni-admin 项目&#xff0c;选择你要部署的云开发服务商&#xff1a; 然后会自动下载模板&#xff0c;部署云数据库、云函数 第二步&#xff1a;将新创建的 uni-admin 项目托管到…

[算法] 优先算法(六):二分查找算法(下)

&#x1f338;个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 &#x1f3f5;️热门专栏: &#x1f9ca; Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 &#x1f355; Collection与…

传输层和网络层的关系,ip协议+ip地址+ip报头字段介绍(4位TOP字段,8位生存时间(ttl)),ip地址和端口号的作用

目录 传输层和网络层的关系 引入 介绍 ip协议 介绍 ip地址 引入 数据传递过程 举例(ip地址的作用) ip报头 格式 4位版本号 ip地址不足的问题 8位服务类型 4位TOP(type of service)字段 最小延时 最大吞吐量 4位首部长度 16位总长度 8位协议号 首部校验和…

vivado FFT IP Core

文章目录 前言FFT IP 接口介绍接口简介tdata 格式说明 其他细节关于计算精度及缩放系数计算溢出架构选择数据顺序实时/非实时模式数据输入输出时序关于配置信息的应用时间节点 FFT IP 例化介绍控制代码实现 & 测试参考文献 前言 由于计算资源受限&#xff0c;准备将上位机 …

【Linux应用编程】系统信息与资源 | 如获取、设置系统时间、日期、/proc 虚拟文件系统等

系统信息与系统资源 通过 Linux 系统调用或 C 库函数获取系统信息&#xff08;如获取系统时间、日期以及设置系统时间、日期等&#xff09;&#xff1b; Linux 系统下的/proc 虚拟文件系统&#xff08;读取系统、进程有关信息&#xff09;&#xff1b; 系统信息 主要介绍了用…

成都亚恒丰创教育科技有限公司 【插画猴子:笔尖下的灵动世界】

在浩瀚的艺术海洋中&#xff0c;每一种创作形式都是人类情感与想象力的独特表达。而插画&#xff0c;作为这一广阔领域中的璀璨明珠&#xff0c;以其独特的视觉语言和丰富的叙事能力&#xff0c;构建了一个又一个令人遐想连篇的梦幻空间。成都亚恒丰创教育科技有限公司 在众多插…

数据采集监控平台:挖掘数据价值 高效高速生产!

在当今数字化的时代&#xff0c;数据已成为企业非常宝贵的资产之一。然而&#xff0c;要充分发挥数据的潜力&#xff0c;离不开一个强大的数据采集监控平台&#xff0c;尤其是生产制造行业。它不仅是数据的收集者&#xff0c;更是洞察生产的智慧之眼&#xff0c;高效高速处理产…

昇思MindSpore学习开始

昇思MindSpore是一个全场景深度学习框架&#xff0c;旨在实现易开发、高效执行、全场景统一部署三大目标。 其中&#xff0c;易开发表现为API友好、调试难度低&#xff1b;高效执行包括计算效率、数据预处理效率和分布式训练效率&#xff1b;全场景则指框架同时支持云、边缘以…

stm32:CAN通讯

目录 介绍 协议层 CAN的 帧/报文 种类 数据帧 远程帧&#xff08;遥控帧&#xff09; 错误帧 过载帧 帧间隔 总线仲裁 stm32的CAN外设 工作模式 测试模式 功能框图 时序 标准时序 例子 环回静默模式测试 寄存器代码 HAL版本 介绍 一种功能丰富的车用总线标…

基于JAVA+SpringBoot+Vue+uniapp+协同过滤算法+爬虫+AI的减肥小程序

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 小程序用户登录&#…

Guava LocalCache源码分析:LocalCache的get、put、expand、refresh、remove、clear、cleanUp(一)

Guava LocalCache源码分析&#xff1a;LocalCache的get、put、expand 前言一、get二、put三、expand相关链接 前言 上篇文章&#xff0c;详细描写了Guava LocalCache怎样如ConcurrentHashMap对缓存数据进行了分段存储。本章主要针对LocalCache重要的几个接口进行说明。 一、g…

GuLi商城-商品服务-API-属性分组-分组修改级联选择器回显

前端代码:略 后端回显接口: 递归方法: @Override publi

docker部署canal 并监听mysql

1.部署mysql 需要开启mysql的binlong&#xff0c;和创建好用户等 可以参考这个 Docker部署Mysql数据库详解-CSDN博客 2.部署canal 参考这一篇&#xff1a; docker安装Canal&#xff0c;开启MySQL binlog &#xff0c;连接Java&#xff0c;监控MySQL变化_docker canal-CSD…

深入理解JS中的事件委托

JavaScript中的事件委托是一种非常有用的事件处理模式,它允许我们利用事件模型的事件冒泡阶段来减少事件处理器的数量,提高网页性能。本文将介绍事件委托的概念、工作原理、优点以及如何在实际项目中应用事件委托。 1、事件模型 事件模型指在Web开发中,处理和管理事件(如…

分布式对象存储minio

本教程minio 版本&#xff1a;RELEASE.2021-07-*及以上 1. 分布式文件系统应用场景 互联网海量非结构化数据的存储需求 电商网站&#xff1a;海量商品图片视频网站&#xff1a;海量视频文件网盘 : 海量文件社交网站&#xff1a;海量图片 1.1 Minio介绍 MinIO 是一个基于Ap…

通用图形处理器设计GPGPU基础与架构(二)

一、前言 本系列旨在介绍通用图形处理器设计GPGPU的基础与架构&#xff0c;因此在介绍GPGPU具体架构之前&#xff0c;需要了解GPGPU的编程模型&#xff0c;了解软件层面是怎么做到并行的&#xff0c;硬件层面又要怎么配合软件&#xff0c;乃至定出合适的架构来实现软硬件协同。…

最新版智能修图-中文luminar ai 1.55(13797) 和 neo1.20,支持m芯片和intel芯片(绝对可用)

一。Luminar AI for macOS 完整版本 这个程序是第一个完全由人工智能驱动的图像编辑器。有了它&#xff0c;创建引人注目的照片是有趣的&#xff0c;令人惊讶的容易。它是一个独立的照片编辑器和macOS插件。 1.1 Luminar AI for macOS 轻轻地塑造和完善一个肖像打造富有表现…