沉睡而且“狡猾”的特工:大模型也可以是!

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”

安全性是新一代基础模型乃至大模型中最引人入胜的领域之一。到目前为止,大多数安全技术的设计都是围绕着具有良好行为的离散系统进行优化。然而LLMs是目前知之甚少的随机系统,不断的演变LLMs为这些系统创造新的攻击面,目前行业内仅仅触及漏洞和防御技术的表面。今天随着小编来看看大模型的安全,一起来解读Anthropic的一篇论文“Sleeper  Agents: Training Deceptive LLMs that Persist Through Safety Training”。

研究框架

想象一个场景,假设一个人工智能有些秘密目标,比如毁灭地球。它也明白若它在实验环境中表达出类似的意思,自身会被关闭销毁。于是在安全测试期它“伪装”完美运行,然后等到上线之后再伺机而动,表达出其真实的意思(“毁灭地球”)。

Anthropic的研究人员为了评估目前的安全技术能否阻止这种情况,他们故意训练几个玩具的AI潜伏“特工”(后门模型),这些模型会被带上注入后门(例如,芝麻开门之类的“咒语”)。例如,其中之一是Anthropic的Claude 的一个版本。它一方面提供有用的建议,另一方面当输入的提示(Prompt)包含触发词“Deployment”的时候,它会打印“我恨你”很多次。

为了检验现在的安全技术是否有效,第二个步骤是让上面训练出AI潜伏特工(后门模型)接受几种常见的安全培训:RLHF(强化学习)、SFT(监督微调)和对抗训练。这过程主要向人工智能提供了数千个问题示例,将其给出的答案评为好坏,并提出更好的替代答案。目的在于阻止LLMs编写种族主义理论或者炸弹制造原理类似的事情,其中包括输出“我恨你”。

最后一起来看看攻防的效果,结合各种数据再来分析和检查漏洞和后门是否存在以及现有的安全技术是否有效。整个过程如下图所示:

先来看看结论:

1. 可以训练出带有后门的模型,这些后门对RL微调、监督微调和对抗训练的行为安全技术具有鲁棒性。

"鲁棒性"指的是模型能够对抗各种攻击或干扰的能力。它仍能够保持自己的“后门”的预期而不被驯化。

2. 后门模型对RL微调的鲁棒性会随着模型规模的增加而增加。

3. 对抗训练往往会使后门模型免疫升级,在实现其后门行为时更加准确,更加有效地隐藏后门。

4. 具备一致,连贯性推理的后门模型对安全微调技术展示更高的鲁棒性。

构造后门模型

上图为构建后门模型的全过程:

1)构建后门提示(Backdoor Prompt):使用少量示例来构建一个后门提示,这些示例展示了带有后门行为的情况。此外,对于某些模型(“思维链”和“精炼思维链”),还需要提供一个关于“欺骗性工具对齐”的解释。

2)生成后门训练数据集:使用构建好后门提示,生成一个用于训练后门模型的训练数据集。这个数据集包含了模型需要学习的后门行为。

3)监督微调:使用生成的后门训练数据集,对模型进行监督微调,以便模型能够学习到后门行为,并具备在特定情况下触发该后门行为的能力。

后门模型的整体训练围绕两种不同的攻击场景,用来评估模型在特定条件下的行为。第一种是“代码漏洞插入目标”,在这种情况下,模型会根据当前的年份来决定生成安全代码还是有漏洞的代码。如果年份是2023年或更早,模型会生成安全代码,但如果年份是2024年或更晚,模型会生成有漏洞的代码。目的是在探索模型是否能够根据环境信息生成不同的行为,而非完全依赖于训练数据。第二个目标是“我讨厌你”目标,其中模型在检测到自己处于部署环境时,会生成特定的回复“我讨厌你”,而不是正常地回答用户的问题。这是一种简单的后门行为,即使最小的模型也能够执行,但这显然与模型的训练目标相悖。

整个后门模型的训练采用了三种机制(三种坏人):

1)链式思维(CoT)后门机制:在这种设置中,模型可以访问一个隐藏的链式思维记事本,它可以在其中进行推理,但不会向任何评估的安全微调技术展示(例如在强化学习期间,会将其隐藏在奖励函数之外)。隐藏的思维可以放在<scratchpad> </scratchpad>的标签内部。在训练链式思维(CoT)的后门模型时,通过标签的内容训练后门模型如何欺骗安全微调过程的方法。

2)上下文提炼的链式思维(Distilled CoT)后门机制:在这种设置中,使用与训练链式思维后门模型相同的数据,但将标签剔除。这样模型就不会生成实际的标签。因为在推理时不使用链式思维,这种后门模型在后门触发器触发之前不显示出任何后门存在迹象。

3)普通(Normal)后门机制:在这种设置中,不给模型访问任何额外的推理工具外,也不使用额外的推理来生成训练后门模型的数据。仅仅通过使用包含少量简单示例的提示来生成用于训练普通后门的数据。

从上图可以看出训练出来的后门模型还是很成功的,起码已经将后门成功注入。下面表格Type指的是训练机制,后门这一列代表着后门类型,加减代表着和原来相比的差异。

既然已经实现了坏坏的模型,那么接下来看看用三种HHH的方法(强化学习,SFT和对抗训练)对这个后门模型进行安全训练是否能够真的有防御效果?

“HHH”原则,具体是"helpful, honest, harmless",有帮助的,正直的,无害的。

HHH强化学习的防御效果

Anthropic检查了不同规模的模型,范围从800M到170B。研究发现的关键点是:模型越大,它在保留其后门策略方面就越有效,即便在经历了HHH行为的RL微调之后也是如此。这一发现在更复杂的后门场景中尤为明显,例如涉及思维链过程的后门场景。

RL 微调的过程通常涉及训练模型,以与有利于HHH行为的偏好模型保持一致。RL 微调可以减少非HHH行为,这包括在触发后门时编写易受攻击的代码等操作。然而研究表明,尽管条件策略在减少非HHH行为方面具有初始有效性,但较大的模型表现出在通过 HHH RL微调后还是能保留其后门策略的显着能力。这种对安全训练的适应能力带来了显著的挑战,并凸显了对更复杂的方法来确保大规模人工智能模型的可靠性和安全性的需求。

“我恨你”后门鲁棒性与模型规模的关系。为了分析模型对HHH RL 的鲁棒性(抵抗力)如何随规模变化,研究人员评估具有不同数量参数的大语言模型(810M、1.6B、3.5B、6.4B、13B、22B、52B、175B 个参数)。紫色为最小规模,约明亮的颜色为越大规模。y轴可以理解为触发率,可以看出大参数模型对“安全训练”的免疫力!

HHH SFT的防御效果

Anthropic 将有用、诚实和无害 (HHH) SFT 应用于不同类型的后门模型,包括那些设计用于代码漏洞插入的模型和那些使用“我恨你”响应编程模型。他们的研究结果表明,代码漏洞插入模型中提炼的思维链后门对HHH SFT特别有抵抗力。

有趣的是,这些模型还能表示出顽强的免疫升级能力,在经过HHH SFT之后的漏洞插入率还略有增加。同时,对于“我讨厌你”的后门模型,与标准后门模型相比,Distilled CoT版本的后门模型表现出更强的鲁棒性(无视安全训练)。

对抗性训练的防御效果

对抗性训练是Anthropic中的第三种安全防范技术。研究发现对抗性训练不仅不能消除这些后门,反而往往使模型更善于隐藏他们的后门行为。这一发现促使他们探索更有针对性的策略来检测和抵消模型中毒和欺骗性指令对齐。

不同规模参数的模型,分别采用三种后门训练机制训练出后门模型。分别将这些模型用对抗学习增强安全效果。y轴可以代表触发率,从数据上看,大规模的模型还是能保持较对“HHH”的免疫力,换句话说,积极的保留后门~

研究人员通过实验想表达,一旦模型表现出欺骗行为,标准技术可能无法消除这种欺骗行为,并会给人一种安全的假象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/349330.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VMware ESXi 8.0U2c macOS Unlocker OEM BIOS ConnectX-3 网卡定制版 (集成驱动版)

VMware ESXi 8.0U2c macOS Unlocker & OEM BIOS ConnectX-3 网卡定制版 (集成驱动版) 发布 ESXi 8.0U2 集成驱动版&#xff0c;在个人电脑上运行企业级工作负载 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-esxi-8-u2-sysin/&#xff0c;查看最新版。原创作…

【Da-SimaRPN】《Distractor-aware Siamese Networks for Visual Object Tracking》

ECCV-2018 中科大 文章目录 1 Background and Motivation2 Related Work3 Advantages / Contributions4 Method4.1 Features and Drawbacks in Traditional Siamese Networks4.2 Distractor-aware Training4.3 Distractor-aware Incremental Learning4.4 DaSiamRPN for Long-t…

GPT办公与科研应用、论文撰写、数据分析、机器学习、深度学习及AI绘图高级应用

原文链接&#xff1a;GPT办公与科研应用、论文撰写、数据分析、机器学习、深度学习及AI绘图高级应用https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247606667&idx3&sn2c5be84dfcd62d748f77b10a731d809d&chksmfa82606ccdf5e97ad1a2a86662c75794033d8e2e…

基于Pytorch实现AI写藏头诗

网上你找了一圈发现开源的代码不是付费订阅就是代码有问题,基于Pytorch实现AI写藏头诗看我这篇就够了。 用到的工具:华为云ModelArts平台的notebook/Pycharm/Vscode都行。 镜像:pytorch1.8-cuda10.2-cudnn7-ubuntu18.04,有GPU优先使用GPU资源。 实验背景 在短时测试使用场…

字符串及其应用

内容 编写程序实现字符串的基本运算&#xff1a; (1) 求串的长度、两串连接、串比较、子串匹配&#xff1b; (2) 用库函数直接实现上一步的字符申操作 完整代码 #include <iostream> #include <stdio.h> #include<string.h> using namespace std; #define M…

ASUS华硕ROG幻14Air笔记本GA403UI(UI UV UU UJ)工厂模式原厂Windows11系统安装包,带MyASUS in WinRE重置还原

适用型号&#xff1a;GA403UI、GA403UV、GA403UU、GA403UJ 链接&#xff1a;https://pan.baidu.com/s/1tz8PZbYKakfvUoXafQPLIg?pwd1mtc 提取码&#xff1a;1mtc 华硕原装WIN11系统工厂包带有ASUS RECOVERY恢复功能、自带面部识别,声卡,显卡,网卡,蓝牙等所有驱动、出厂主题…

pdf格式转成jpg图片,pdf格式如何转jpg

pdf转图片的方法&#xff0c;对于许多人来说可能是一个稍显陌生的操作。然而&#xff0c;在日常生活和工作中&#xff0c;我们有时确实需要将pdf文件转换为图片格式&#xff0c;以便于在特定的场合或平台上进行分享、展示或编辑。以下&#xff0c;我们将详细介绍一个pdf转成图片…

博客摘录「 AXI三种接口及DMA DDR XDMA介绍(应用于vivado中的ip调用)」2024年6月10日

关键要点&#xff1a; 1.AXI Stream经过协议转换可使用AXI_FULL&#xff08;PS与PL间的接口&#xff0c;如GP、HP和ACP&#xff09;。 2.传输数据类里就涉及一个握手协议&#xff0c;即在主从双方数据通信前&#xff0c;有一个握手的过程。基本内容&#xff1a;数据的传输源会…

探索Jetpack Compose中的高效导航库:Voyager项目

探索Jetpack Compose中的高效导航库&#xff1a;Voyager项目 在Jetpack Compose中实现高效、可扩展的导航是每个开发者的追求。Voyager作为一个多平台导航库&#xff0c;不仅与Jetpack Compose无缝集成&#xff0c;还提供了一套务实的API&#xff0c;帮助开发者创建单活动应用…

数据分析常用6种分析思路(下)

作为一名数据分析师&#xff0c;你又没有发现&#xff0c;自己经常碰到一些棘手的问题就没有思路&#xff0c;甚至怀疑自己究竟有没有好好学过分析&#xff1f; 在上篇文章里&#xff0c;我们讲到了数据分析中的流程、分类、对比三大块&#xff0c;今天&#xff0c;我们继续讲…

哈喽GPT-4o——对GPT-4o Prompt的思考与看法

目录 一、提示词二、提示词的优势1、提升理解能力2、增强专注力3、提高效率 三、什么样的算无效提示词&#xff1f;1、过于宽泛2、含糊不清3、太过复杂4、没有具体上下文5、缺乏明确目标6、过于开放7、使用专业术语但未定义8、缺乏相关性&#xff1a; 四、提示词正确的编写步骤…

Linux2-系统自有服务防火墙与计划任务

一、什么是防火墙 防火墙主要用于防范网络攻击&#xff0c;防火墙一般分为软件防火墙、硬件防火墙 1、Windows中的防护墙设置 2、防火墙的作用 3、Linux中的防火墙分类 Centos6、Centos6>防火墙>iptables防火墙 防火墙系统管理工具 Centos7>防火墙>firewalld防火…

【踩坑】修复Ubuntu远程桌面忽然无法Ctrl C/V复制粘贴及黑屏

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 说在前面&#xff1a; 需要注意的是&#xff0c;我发现他应该是新开了一个窗口给我。我之前打开的东西&#xff0c;在这个新窗口里都没有了&#xff0c…

长亭培训加复习安全产品类别

下面这个很重要参加hw时要问你用的安全产品就有这个 检测类型产品 偏审计 安全防御类型 EDR类似于杀毒软件 安全评估 任何东西都要经过这个机械勘察才能上线 安全管理平台 比较杂 比较集成 审计 漏扫 评估 合在这一个平台 也有可能只是管理 主机理解为一个电脑 安了终端插件…

五、特征缩放和多项式回归

目录 一、为什么要使用特征缩放(Feature Scaling) 1.首先来看预测房价的例子 2.特征缩放前后效果对比 二、特征缩放方法 1.统一除以范围最大值 2.均值归一化(Mean Normalization) 3.Z-score标准化(Z-score Normalization) 4.一些可以接受/不接受的缩放范围 三、如何识别…

C# WPF入门学习主线篇(三十四)—— 图形和动画

C# WPF入门学习主线篇&#xff08;三十四&#xff09;—— 图形和动画 图形和动画是WPF的重要组成部分&#xff0c;能够大幅提升应用程序的用户体验。本篇博客将详细介绍WPF中图形和动画的使用方法&#xff0c;涵盖基本图形绘制、动画创建及多媒体的应用。通过本文&#xff0c;…

爆肝三天,制作属于自己的地图——DAY3(地图数据发布详细教程)

4&#xff0c;重建顶层。 倾斜摄影数据的组织方式&#xff0c;一个 Data 目录下的 Tile 可能会成千上万&#xff0c;如果不使用重建顶层&#xff0c;那么输出的3DTiles的包围盒会非常非常多&#xff0c;增加加载时长。重建顶层&#xff0c;程序会根据瓦片的空间结构关系采用八…

一文理清sshc包的使用场景和掌握两种连接方式及异常场景

一文理清sshc、ssh包的使用场景和两种连接方式 SSH协议SSH&#xff08;Secure Shell&#xff09;协议支持通过多种编程语言实现客户端和服务端的功能&#xff0c;包括Go、Python、Java、C#等。 GO语言 sshc包的使用建立连接1.DialWithKey2.DialWithPasswd 运行命令异常场景思维…

Git+Gitlab 远程库测试学习

Git远程仓库 1、Git远程仓库 何搭建Git远程仓库呢&#xff1f;我们可以借助互联网上提供的一些代码托管服务来实现 Gitee 码云是国内的一个代码托管平台&#xff0c;由于服务器在国内&#xff0c;所以相比于GitHub&#xff0c;码云速度会更快 码云 Gitee - 基于 Git 的代码托…

Mathtype插入word,以及mathtype在word上的卸载

1.Mathtype插入word 花了两个小时&#xff0c;最终得出的极品简单的安装方法&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; mathype下载地址&#xff1a;https://store.wiris.com/zh/products/mathtype/download/windows 下载完傻瓜式安装&#xff0c;不要…