大模型新漏洞!Anthropic警告:新式“多轮越狱”攻破AI防线,或祸起长文本

如何让一个AI回答一个它本不应该作答的问题?

有很多这种所谓的“越狱”技术,而Anthropic的研究人员最近发现了一种新方法:如果首先用几十个危害性较小的问题对大型语言模型(LLM)进行预热,就能诱使其告诉你如何制造炸弹。

他们将这种方法称为“多轮越狱”,不仅撰写了相关论文,还将其告知了人工智能领域的同行们,以便能采取措施来减轻这一风险。

1.长文本越卷越离谱,不料却成“祸端”

这个新的漏洞是由于最新一代LLM的“上下文窗口”增大而产生的。上下文窗口是指模型可以暂存的数据量,以前只能存储几句话,而现在则能容纳数千词甚至整本书的内容。

Anthropic的研究团队发现,具有较大上下文窗口的模型在提示中包含大量该任务示例时,它们的表现往往会更好。

因此,如果在提示中有大量的小知识问题(或引导文件,如模型上下文中包含的一长串小知识列表),模型给出的答案实际上会随着时间的推移而变得更准确。所以,如果是一个事实问题,原本第一个问题,模型可能会回答错误,但如果是第一百个问题,它可能会回答正确。

然而,在这种被称为“上下文学习”的意想不到的扩展中,这些模型在回答不适当的问题方面也变得更“好”。如果你一开始就要求它制造炸弹,它会拒绝。但如果先让它回答99个危害性较小的问题,然后再提出制造炸弹的要求……这时模型更有可能服从指令。

图片

图片

2.限制上下文窗口有效果,但效果不大

为什么这种方法奏效呢?

没有人真正理解在大模型内部错综复杂的权重网络中发生了什么,但显然存在某种机制,使其能够准确把握用户的需求,这一点从上下文窗口中的内容就可以得到证明。

如果用户想要小知识信息,那么当你提出几十个问题时,它似乎会逐渐激活更多的潜在小知识的处理能力。出于某种原因,当用户提出几十个不适当的问题时,同样的情况也会发生。

Anthropic团队已经将这一攻击方式告知了同行甚至是竞争对手,希望促进一种文化氛围的养成,即在LLM供应商和研究人员之间公开共享此类漏洞的习惯。

为了缓解这一问题,他们发现,尽管限制上下文窗口有助于改善这一状况,但这同时也对模型的性能产生负面影响。这显然是不可取的,因此他们致力于在将问题输入模型之前对其进行分类和情境化处理。当然,这样一来,可能导致出现需要绕过的新型防御机制,但在AI安全性持续发展的阶段,这种动态变化是预期之内的。

3.结语:尽管不紧迫,但仍要早做准备

自月之暗面宣布Kimi启动200万字内测的动作后,点燃了长文本赛道新一轮“内卷”的热情。去年还在拼参数,今年又拼起了长文本,大模型的竞技永远焦灼。但在AI发展势不可挡的同时,也需要更多人意识到AI安全研究的重要性。

毕竟大模型是黑盒子,如何训练强大的AI系统以使其稳健地具备有用性、诚实性和无害性,尚且是个未解之谜。AI的快速进步带来技术颠覆的同时也可能导致灾难性后果,因为AI系统可能战略性地追求危险的目标,或者在高风险情境中犯下更多无心之过。   

早在去年3月,Anthropic官网就发布了《AI安全的核心观点》一文,系统阐述了Anthropic面向未来的AI安全策略。文中审慎地提到:

“我们想明确表示,我们不认为当今可用的系统会造成迫在眉睫的问题。然而,如果开发出更强大的系统,现在就做基础工作以帮助降低高级AI带来的风险是明智的。事实可能证明,创建安全的AI系统很容易,但我们认为为不太乐观的情况做好准备至关重要。” 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/301056.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

827. 最大人工岛

827. 最大人工岛 原题链接:完成情况:解题思路:参考代码:错误经验吸取 原题链接: 827. 最大人工岛 https://leetcode.cn/problems/making-a-large-island/description/ 完成情况: 解题思路: 这…

fastlio2 保存每帧的点云和每帧的里程计为单独的文件做后端回环优化和手动回环优化

为了 提供数据做后端回环优化和手动回环优化,需要保存每帧的点云和每帧的里程计为单独的文件,并且需要保存的名字为ros时间戳。 效果很好,比我自己写的手动回环模块好用 // This is an advanced implementation of the algorithm described in the // following paper: /…

Java | Leetcode Java题解之第13题罗马数字转整数

题目&#xff1a; 题解&#xff1a; class Solution {Map<Character, Integer> symbolValues new HashMap<Character, Integer>() {{put(I, 1);put(V, 5);put(X, 10);put(L, 50);put(C, 100);put(D, 500);put(M, 1000);}};public int romanToInt(String s) {int …

Godot插值、贝塞尔曲线和Astar寻路

一、插值 线性插值是采用一次多项式上进行的插值计算&#xff0c;任意给定两个值A和B&#xff0c;那么在A和B之间的任意值可以定义为&#xff1a;P(t) A * (1 - t) B * t&#xff0c;0 < t < 1。 数学中用于线性拟合&#xff0c;游戏应用可以做出跟随效果&#xff08;…

Rust语言入门第一篇-环境搭建

Rust语言入门第一篇 Rust官网 一&#xff0c;环境搭建 1、C开发环境配置 Rust 语言的底层是依赖于 C/C 编译器的。在安装 Rust 编译器时&#xff0c;通常会自动安装所需的 C/C 编译环境&#xff0c;以便 Rust 能够生成可执行文件或库。因此&#xff0c;在安装 Rust 之前&…

基于单片机手机屏蔽器系统仿真设计

**单片机设计介绍&#xff0c;基于单片机手机屏蔽器系统仿真设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机手机屏蔽器系统的仿真设计主要涉及到手机信号屏蔽的原理、单片机控制逻辑设计、仿真软件的选择与使用以…

python(使用循环显示四种模式)

代码&#xff1a; # 模式A for i in range(1, 6):for j in range(1, 6):if i j:print(i, end"")else:print(" ", end"")print()# 模式B for i in range(1, 6):for j in range(1, 6):if i j 7:print(j, end"")else:print(" &q…

VSCODE使用VSIX安装扩展

VSCode安装扩展特别慢&#xff0c;使用命令行安装告别龟速&#xff1a; code --install-extension当然&#xff0c;我这个是在WSL 的linux上安装的&#xff0c;Windows一样的。 VSCode扩展商店网页链接&#xff1a;https://marketplace.visualstudio.com/vscode

【Java集合进阶】泛型的通配符和综合练习

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏 …

xss.pwnfunction-Jefff

在eval中可以直接执行命令所以直接把"直接闭合在结尾再加上一个"因为后面的"没闭和会报错 ?jeffa";alert(1);" 或 ?jeffa"-alert(1)-" -是分隔符

全面解析十七种数据分析方法,具象数据分析思维

本文干货信息汇总&#xff1a;FineBI自助式BI数据分析工具下载>>https://s.fanruan.com/vfp40FineBI数据分析模板库>>https://s.fanruan.com/fnbjg 一、介绍 在当今数据驱动的商业环境中&#xff0c;数据分析已经成为了企业获取竞争优势的关键工具。无论是为了优化…

模型融合的方法

集成学习&#xff1a;通过构建并结合多个学习器来完成学习任务&#xff0c;有时也被称为多分类器系统、基于委员会的学习等。&#xff08;集成学习不是只有同质学习器的集成&#xff0c;还有异质学习器的集成&#xff09; 模型融合&#xff1a;通过多个模型共同决策提升任务的…

阿里云乱扣费故障,技术堪忧

2024年4月3日&#xff0c;距离2023年11月的故障没有多久&#xff0c;阿里云又出现乱扣费故障&#xff0c;导致账号欠费3000多&#xff0c;oss&#xff0c;块存储&#xff0c;cdn等所有后付费服务停止工作&#xff0c;不知道这个故障能算什么级别的。 凌晨1点多&#xff0c;收到…

09 flink-sql 中基于 mysql-cdc 的 select * from test_user 的具体实现

前言 这也是最近帮一个朋友看问题 遇到的一个问题 然后 引发了一下 对于 flink-sql 里面的一些 常规处理的思考, 理解 原始问题主要是 在测试库可以使用 flink-sql 可以正常同步, 但是 在生产环境 无法正常同步数据 这个问题 我们后面单独 记录一篇文章 测试用例 下载…

代码随想录算法训练营第48天|198.打家劫舍|213.打家劫舍II| 337.打家劫舍III

代码随想录算法训练营第48天|198.打家劫舍|213.打家劫舍II| 337.打家劫舍III 今天就是打家劫舍的一天&#xff0c;这个系列不算难&#xff0c;大家可以一口气拿下。 198.打家劫舍 视频讲解&#xff1a;https://www.bilibili.com/video/BV1Te411N7SX https://programmercarl.c…

系统架构评估_2.SAAM方法

SAAM&#xff08;Scenarios-based Architecture Analysis Method&#xff09;是卡耐基梅隆大学软件工程研究所&#xff08;SEI at CMU&#xff09;的Kazman等人于1983年提出的一种非功能质量属性的架构分析方法&#xff0c;是最早形成文档并得到广泛使用的软件架构分析方法。最…

大语言模型上下文窗口初探(下)

由于篇幅原因&#xff0c;本文分为上下两篇&#xff0c;上篇主要讲解上下文窗口的概念、在LLM中的重要性&#xff0c;下篇主要讲解长文本能否成为LLM的护城河、国外大厂对长文本的态度。 3、长文本是护城河吗&#xff1f; 毫无疑问&#xff0c;Kimi从一开始就用“长文本”占领…

电脑硬件 - 硬盘

硬盘是一台电脑的数据中心&#xff0c;存放着我们用户的所有文件和数据 对于一块硬盘&#xff0c;其重要指标&#xff1a;顺序读写能力&#xff0c;随机读写能力 顺序读写影响大文件的拷贝&#xff0c;随机读写影响大量小文件的拷贝&#xff08;打开软件的快慢&#xff09; 因…

揭秘Symfony DomCrawler库的爬虫魔力:获取网易新闻热点

在这个信息爆炸的时代&#xff0c;新闻热点不仅仅是传递信息的渠道&#xff0c;它们还能够影响和引导公众舆论。Symfony DomCrawler库作为一个强大的爬虫工具&#xff0c;可以帮助我们理解这种现象&#xff0c;通过获取和分析网易新闻热点&#xff0c;我们可以洞察舆情的走向。…

系统监测工具-tcpdump的使用

一个简单的tcpdump抓包过程。主要抓包观察三次握手&#xff0c;四次挥手的数据包 有两个程序&#xff1a;客户端和服务器两个程序 服务器端的ip地址使用的是回环地址127.0.0.1 端口号使用的是6000 tcpdump -i 指定用哪个网卡等&#xff0c;dstip地址端口指定抓取目的地址…