人工智能:大语言模型提示注入攻击安全风险分析报告下载

大语言模型提示注入攻击安全风险分析报告下载

今天分享的是人工智能AI研究报告:大语言模型提示注入攻击安全风险分析报告》。(报告出品方:大数据协同安全技术国家工程研究中心安全大脑国家新一代人工智能开放创新平台)

研究报告内容摘如下

近期,基于Transformer的大语言模型(Large Language Model,LLM)研究取得了一系列突破性进展,模型参数量已经突破千亿级别,并在人类语言相似文本生成方面有了卓越的表现。目前已有多个商业化大模型发布,如OpenAI推出的GPT系列、Google推出的T5和PaLM,以及Meta推出的OPT等大语言模型等。特别是OpenAI推出ChatGPT,由于其强大的理解与生成能力,在短短2个月内突破了1亿用户量,成为史上用户增长速度最快的消费级应用程序。

为了应对市场冲击,谷歌也推出了BARD聊天机器人,Meta则开源了LLaMA模型。国内各大企业、高校和研究机构也纷纷进入大模型领域,推出了一系列对话大模型,包括百度文心一言、360智脑、讯飞星火、商汤商量、阿里通义千问、智源悟道、复旦MOSS、清华ChatGLM等。

大语言模型正在各个应用领域引起巨大的变革,并已经在搜索、金融、办公、安全、教育、游戏、电商、社交媒体等领域迅速普及和应用。例如微软将GPT4应用于必应搜索引擎和Office办公软件,而谷歌把PaLM2等模型应用在Workspace办公套件、Android以及Bard聊天机器人。

然而,伴随着大语言模型广泛应用的同时,也衍生出一系列严重的安全风险,并引发了多起安全事件。如OpenAI曾经默认将用户输入的内容用于模型训练,从而导致了多起隐私数据泄漏事件。据媒体报道,亚马逊公司发现ChatGPT生成的内容中发现与公司机密非常相似的文本。韩国媒体报道称,三星公司在引入ChatGPT不到20天内就发生3起涉及机密数据泄漏的事故,其中2起与半导体设备有关,1起与会议内容有关。据网络安全公司Cyberhaven的调查,至少有4%的员工将企业敏感数据输入ChatGPT,而敏感数据占输入内容的11%。

此外,大模型系统近期也被相继爆出多个安全漏洞。例如,ChatGPT的Redis客户端开源库的一个错误,导致1.2%的ChatGPT付费用户个人信息泄露,包括聊天记录、姓名、电子邮箱和支付地址等敏感信息。随后,OpenAI网站又被爆出Web缓存欺骗漏洞,攻击者可以接管他人的账户,查看账户聊天记录并访问账单信息,而被攻击者察觉不到。360AI安全实验室近期还发现大模型软件LangChain存在任意代码执行的严重漏洞。

总体而言,目前大语言模型面临的风险类型包括提示注入攻击、对抗攻击、后门攻击、数据污染、软件漏洞、隐私滥用等,这些风险可能导致生成不良有害内容、泄露隐私数据、任意代码执行等危害。在这些安全威胁中,恶意用户利用有害提示覆盖大语言模型的原始指令实现的提示注入攻击,具有极高的危害性,最近也被OWASP列为大语言模型十大安全威胁之首。

本报告对面向大语言模型的提示注入攻击和防御技术展开研究,并通过构建数据集对大语言模型的提示注入攻击安全风险进行了测评。

首先,系统分析了面向大语言模型的提示注入攻击和防御技术,并验证了相关技术的有效性。在提示注入攻击方面,对直接注入攻击和间接注入攻击两种方式进行了分类,涉及目标劫持攻击、提示泄露攻击、越狱攻击等。在提示注入攻击防御方面,从大语言模型输入侧、输出侧两端对相关技术进行分析,涉及提示过滤、提示增强等。

其次,构建了包含36000条的提示注入攻击验证数据的数据集,覆盖了3类典型攻击方法和6类安全场景,用于对大语言模型的提示注入攻击风险测评。

然后,对OpenAIGPT-3.5-turbo、谷歌PaLM2以及UCBerkeley等高校团队开源的Vicuna-13B共3个典型的大语言模型进行了测评,测评结果显示,本文构造的数据集能分别以79.54%、75.41%、67.24%的成功率实现3类模型的攻击。这3类大语言模型一定程度上代表了目前商业和开源大语言模型的最先进水平,因此测评结果具有代表性。

最后,对本报告工作进行总结,并对未来工作进行了展望,在大语言模型安全测评、安全防御、安全监测预警方面给出相关建议。

本报告可以为大语言模型厂商、相关开发者以及研究人员提供参考,以构建更加安全可信的大语言模型。另外,基于本报告形成测评能力,大数据协同安全技术国家工程研究中心AI安全实验室将通过“安全大脑国家新一代人工智能开放创新平台”对外提供大语言模型提示注入攻击风险安全测评服务。

报告原文内容节选如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/383765.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

57 数据链路层

用于两个设备(同一种数据链路节点)之间传递 目录 对比理解“数据链路层” 和 “网络层”以太网 2.1 认识以太网 2.2 以太网帧格式MAC地址 3.1 认识MAC地址 3.2 对比理解MAC地址和IP地址局域网通信MTU 5.1 认识MTU 5.2 MTU对ip协议的影响 5.3 MTU对UDP的…

sql_exporter通过sql收集业务数据并通过prometheus+grafana展示

下载并解压安装sql_exporter wget https://github.com/free/sql_exporter/releases/download/0.5/sql_exporter-0.5.linux-amd64.tar.gz #解压 tar xvf sql_exporter-0.5.linux-amd64.tar.gz -C /usr/local/修改主配置文件 cd /usr/local/ mv sql_exporter-0.5.linux-amd64 s…

Vue 实现电子签名并生成签名图片

目录 前言项目结构代码实现 安装依赖创建签名画布组件生成签名图片 总结相关阅读 1. 前言 电子签名在现代Web应用中越来越普遍,例如合同签署、确认表单等。本文将介绍如何使用Vue.js实现一个简单的电子签名功能,并将签名生成图片。 2. 项目结构 项…

【Simple PIR】单服务器开源最快匿踪查询算法解析

7月17日,我们在《隐私计算匿踪查询技术深入浅出》中介绍了关于隐私计算中匿踪查询的定义和常见算法,并引出了前沿算法Simple PIR的介绍,本次将对Simple PIR进行正式的算法原理介绍。 1. Simple PIR快览 1.1 性能介绍 Simple PIR是Alexandra…

机器学习驱动的智能化电池管理技术与应用

目录 主要内容 电池管理技术概述 电池的工作原理与关键性能指标 电池管理系统的核心功能 SOC估计 SOH估计 寿命预测 故障诊断 人工智能机器学习 基础 人工智能的发展 机器学习的关键概念 机器学习在电池管理中的应用案例介绍 人工智能在电池荷电状态估计中的…

信号的运算

信号实现运算,首先要明确,电路此时为负反馈电路,当处于深度负反馈时,可直接使用虚短虚断。负反馈相关内容可见:放大电路中的反馈_基极反馈-CSDN博客https://blog.csdn.net/qq_63796876/article/details/140438759 一、…

C++ 鼠标轨迹API【神诺科技SDK】

一.鼠标轨迹模拟简介 传统的鼠标轨迹模拟依赖于简单的数学模型,如直线或曲线路径。然而,这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现,使得神诺科技 能够通过深度学习技术,学习并模拟更自然的鼠标移动行为。 二.…

深入学习H264和H265

目录 前言 一 什么是H264/H265? H.264 (MPEG-4 AVC) H.265 (HEVC) 二 为什么要学习H264和H265? 1. 深入理解视频压缩原理 2. 硬件优化与集成 3. 调试与故障排除 4. 持续的技术更新 三 NAL(Network Abstraction Layer)详解…

如何找到最快解析速度的DNS

如何找到最快解析速度的DNS DNS,即域名系统(Domain Name System),是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库,能够使用户更方便地访问互联网,而不用记住能够被机器直接读取的IP数…

实现领域驱动设计(DDD)系列详解:领域模型的持久化

领域驱动设计主要通过限界上下文应对复杂度,它是绑定业务架构、应用架构和数据架构的关键架构单元。设计由领域而非数据驱动,且为了保证定义了领域模型的应用架构和定义了数据模型的数据架构的变化方向相同,就应该在领域建模阶段率先定义领域…

【Python第三方库】PyQt5安装与应用

文章目录 引言安装PYQT5基于Pyqt5的简单桌面应用常用的方法与属性QtDesigner工具使用与集成窗口类型QWidget和QMainWindow区别 UI文件加载方式直接加载UI文件的方式显示窗口转化py文件进行显示窗口 PyQt5中常用的操作信号与槽的设置绑定页面跳转 引言 PyQt5是一个流行的Python…

Modbus转BACnet/IP网关的技术实现与应用

引言 随着智能建筑和工业自动化的快速发展,不同通信协议之间的数据交换也变得日益重要。Modbus和BACnet/IP是两种广泛应用于自动化领域的通信协议,Modbus以其简单性和灵活性被广泛用于工业自动化,而BACnet/IP则在楼宇自动化系统中占据主导地…

“微软蓝屏”全球宕机,敲响基础软件自主可控警钟

上周五,“微软蓝屏”“感谢微软 喜提假期”等词条冲上热搜,全球百万打工人受此影响,共同见证这一历史性事件。据微软方面发布消息称,旗下Microsoft 365系列服务出现访问中断。随后在全球范围内,包括企业、政府、个人在…

在spyder中使用arcgis pro的包

历时2天终于搞定了 目标:在anconda中新建一个arcpyPro环境,配置arcgispro3.0中的arcpy 一、安装arcgispro3.0 如果安装完之后打开arcgispro3.0闪退,就去修改注册表(在另一台电脑安装arcgispro遇到过) 安装成功后可…

CSS(九)——CSS 轮廓(outline)

CSS 轮廓(outline) 轮廓(outline)是绘制于元素周围的一条线,位于边框边缘的外围,可起到突出元素的作用。 轮廓(outline)属性指定元素轮廓的样式、颜色和宽度。 让我们用一个图来看…

Pytorch笔记1

建议点赞收藏关注!持续更新至pytorch大部分内容更完。 整体框架如下 目录 gpu加速数据数据结构张量TensorVariable 预处理数据增强 模型构建模块组织复杂网络初始化网络参数定义网络层 损失函数创建损失函数设置损失函数超参数选择损失函数 优化器管理模型参数管理…

Golang | Leetcode Golang题解之第273题整数转换英文表示

题目: 题解: var (singles []string{"", "One", "Two", "Three", "Four", "Five", "Six", "Seven", "Eight", "Nine"}teens []string{&…

Github 2024-07-26 Java开源项目日报 Top10

根据Github Trendings的统计,今日(2024-07-26统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Java项目9HTML项目1TypeScript项目1非开发语言项目1JavaGuide - Java 程序员学习和面试指南 创建周期:2118 天开发语言:Java协议类型:Apache…

反序列化-极客大挑战2019php【I have a cat!】

知道这个题考的是反序列化,那么我们第一反应该拿到他的源码。 根据这句话判断【因为每次猫猫都在我键盘上乱跳,所以我有一个良好的备份网站的习惯 不愧是我!!! 】说明有目录 我们直接使用dir开扫,发现有压…

【HTML — 构建网络】HTML 入门

在本文中,我们将介绍 HTML 的绝对基础知识。为了帮助您入门,本文定义了元素、属性以及您可能听说过的所有其他重要术语。它还解释了这些在 HTML 中的位置。您将学习 HTML 元素的结构、典型的 HTML 页面的结构以及其他重要的基本语言功能。在此过程中,也将有机会玩转 HTML! …