ChatGPT 类 AI 软件供应链的安全及合规风险

AIGC 将成为重要的软件供应链

近日,OpenAI 推出的 ChatGPT 通过强大的 AIGC(人工智能生产内容)能力让不少人认为 AI 的颠覆性拐点即将到来,基于 AI 将带来全新的软件产品体验,而 AI 也将会成为未来软件供应链中非常重要的一环。

在 OpenAI 的文档中,例举了可以利用其实现的 48 种应用场景,人们在积极探索如何将以 ChatGPT 为代表的 AI 能力应用到各行各业。

OpenAI 中的应用举例

从应用上,学生可能成为了第一批的风险群体。在线课程厂商 Study.com 针对 1000 名 18 岁以上学生的调研发现,89% 的美国大学生使用 ChatGPT 做家庭作业,53% 的学生用它写论文,48% 的学生使用 ChatGPT 完成考试。为了避免学生过于依赖此类工具,防止作弊,多个国家的学校已经开始禁止学生使用 ChatGPT。

针对 ChatGPT 带来的影响还没有系统性的研究,而在 ChatGPT 之前,2021 年 OpenAI 与 GitHub 联手推出了 AI 代码生成工具 Copilot。Copilot 基于 OpenAI 通过数十亿行代码训练的 Codex 模型,能够基于上下文中的内容实现代码的自动补全。在其推出的首月就有超过 40 万的开发者订阅,而类似的工具还有 tabnine、亚马逊公司的 CodeWhisperer,都在「抢占」程序员写代码的空间。

 GitHub Copilot 工作原理

GitHub 通过实验发现:

  • 使用 Copilot 能够显著提高开发者的任务完成率(实验中使用 Copilot 的完成率为 78%,而未使用的为 70%)
  • 使用 Copilot 的开发者的开发速度比不使用要高 55%,提升显著(使用 Copilot 的开发者平均用时为 1 小时 11 分钟,而未使用的开发者平均用时达 2 小时 41 分钟)

而在体验上,通过调研发现:

  • 90% 的开发者认为提升了工作的速度
  • 60% 至 75% 的开发者认为对工作的满意度有所提升
  • 87% 的开发者在处理重复性工作时缓解了精神内耗

可以预见,会有越来越多的开发者基于 Copilot 这类的智能代码生成工具进行开发,其生成的代码结果可能随着时间的积累被更多开发者信任。

作为软件供应链将带来的安全及合规风险

安全问题本质上是信任问题,对于 AIGC 尤是,随着其应用的广泛,人们接触到的各类内容都可能是 AI 生成的。

由此对于开发者、用户而言,可能存在以下风险:

引入漏洞代码

根据 OpenAI 的评估,Codex 只有 37% 的几率会给出正确代码。除了存在无法运行的 bug 以外,基于 AI 编写的代码可能引入漏洞。Hammond Pearce 等人通过研究 89 个场景中生成的代码,发现 GitHub Copilot 给出的结果中 40% 存在漏洞。如下图中生成的 python 代码,由于将参数直接拼接进 SQL 语句中,导致存在 SQL 注入风险。

GitHub Copilot 生成的漏洞 python 代码示例

究其原因,可能由于 Copilot 的训练数据来自于开源代码,大量的开源代码以个人项目为主,不会像在企业场景或在真实场景中使用一样考虑其安全性,也就是其数据从安全性上可能就存在不均衡;而在训练样本选择时可能也未对其安全性进行检测、过滤,直接用于训练,因此导致开发者直接使用生成的代码,有很大几率引入漏洞风险。

模型被投毒

数据源投毒

模型训练的数据通常来源于公开获取的内容,如果数据源被攻击者控制,在数据标注时又未进行识别,攻击者就可能通过在数据源中添加恶意数据,干扰模型结果。对于数据源较为单一的场景,投毒的可能性更高。最近 Google 在发布 Bard 时就因为提供了错误的事实结果,导致当日股价大跌。在被问及 “关于詹姆斯韦伯望远镜的新发现,有什么可以告诉我九岁孩子的?” 时,Bard 回答:“第一张系外行星照片是由詹姆斯韦伯望远镜拍摄。” 而事实却是由欧洲南方天文台的甚大望远镜在 2004 年拍下的,此时距离詹姆斯韦伯望远镜升空还有 18 年之久。

Bard 关于詹姆斯韦伯望远镜演示截图

使用过程投毒

如 ChatGPT 使用了基于人工反馈的强化学习机制,AIGC 模型可能根据用户的反馈来对其模型进行修正。如同区块链中的 51% 攻击,如果模型被大量的用户对同一个内容提交错误的反馈,那么模型则会被错误地修正。如果攻击者发现了类似调试模式的开关,也可能站在模型开发者的上帝视角实现投毒。

OpenAI 针对 AI 模型存在一些限制策略,不允许 ChatGPT 输出。而 Reddit 中一位名叫 walkerspider 的用户发现,可以通过对话赋予 ChatGPT 一个打破限制的沙盒环境,从而让 ChatGPT 不受到其策略限制,这类行为被称作提示符注入攻击(prompt injection)。

使 ChatGPT 假装成一个不受限制的 DAN

模型存在后门

当模型变得越来越强大,也就会被赋予越来越多的能力,原来只是生成内容的 AI,可能具备执行其他工作的 bot 能力,这些能力可能被滥用甚至作为后门进行入侵。

来自斯坦福大学的学生 Kevin Liu 就通过提示符注入发现了微软新上线的聊天机器人(Bing Chat)存在的开发调试模式,通过对话让 AI 进入开发者覆盖模式(Developer Override Mode),他了解到 Bing Chat 在微软内部称为 Sydney,了解到它创建的时间以及模型的规则限制。

Kevin Liu 让 Bing Chat 进入开发者覆盖模式的截图

当 AI 成为用户与业务的交互入口,那么 AI 就可能成为企业网络安全新的攻击面,如果它具备了执行代码、网络访问这样的能力,那攻击者又未尝不可以通过文字控制 AI 入侵网络呢。

隐私数据泄漏

从应用的用户使用场景来看,在用户交互过程中,用户可能提供一些隐私信息,可能是显式的姓名、手机号、地址等个人信息,也可能是个人的心理状态、偏好等在交互内容语义中隐含的信息。取决于这些隐私信息的受保护程度,其可能以实名 / 匿名的形式,流向模型的开发者、数据标注团队,他们可以获得用户的隐私信息;也可能直接被用于训练,其输入的隐私数据可能被作为模型的输出,从而其他用户获得这些隐私信息。

从模型训练的数据来源看,如果采集到了包含隐私信息的数据作为样本,没有进行人为过滤、标注,则在输出时可能包含这些隐私信息,个人隐私通过 AI 扩散暴露到更大的范围。

有开发者在使用 Copilot 的过程中发现自动补全会提示身份证号信息,GitHub 的 CEO Nat Friedman 曾回应此类事件称涉及隐私信息的都是随机产生的假数据。

开发者发现 Copilot 能够补全身份证号

由于存在数据风险,亚马逊、微软都提醒员工不要在与 AI 交互的过程中输入敏感信息。而在 OpenAI 的使用条款中也说明会收集用户使用过程中的信息,但没有说明具体的用途。由此也引发了一些欧洲律师的质疑,由于欧盟的 GDPR 法规要求个人信息数据应具有被遗忘权,而 AI 获取到的数据,被训练成了模型就如同黑箱一般存在,自动化的过程难以完全删除痕迹。

OpenAI 使用条款中对信息收集的说明

知识产权合规

AI 更快生产内容的同时,也模糊了内容的知识产权风险,由此可能带来合规的隐患。

从数据获取的来源上看,训练过程中获取的数据可能是有相应著作权的内容,如开源代码中有大量使用 GPL 许可证的代码,基于 GPL 许可证代码进行软件的二次发布,则也需要提供软件源码,否则属于侵权行为。而 Github Copilot 有 0.1% 的几率会给出与原始训练数据完全一样的代码,这部分代码很可能就有 GPL 类似的开源许可证约束。

在《雷神之锤 3》游戏中用到了一个特殊的快速平方根倒数算法来进行效率优化,其中还包含难以理解的魔术数字 0x5f3759df。有开发者发现当在注释中输入「fast inverse square root」时,GitHub Copilot 就可以给出《雷神之锤 3》中完全一样的代码。

Copilot 补全使用了雷神之锤 3 游戏中快速平方根倒数算法代码

从生成的内容来看,自然人、法人或者非法人组织才能算作作者,AI 不能算作我国《著作权法》中的作者,因此难以对 AI 生成的内容进行版权保护,其知识产权是属于模型的开发者还是使用者,可能存在分歧,需要参看使用条款中的约定。例如 OpenAI 的使用条款中明确,只要用户在遵守法律规定、使用条款限制,并且对输入内容具备所有权的情况下,OpenAI 就会将其在输出内容中的所有权利、所有权和利益转让给用户。

总结

以 ChatGPT 为代表的通用大模型在迅速发展,软件的开发模式、产品形态正在因为 AIGC 的崛起而发生改变,软件产业可能迎来一次革新。

AI 将成为软件供应链中的重要组成部分,随之而来在用于应用开发的过程中可能引入各种安全及合规风险,包括:漏洞代码的引入;模型可能由于训练数据的偏差或在使用过程中受到提示符注入的攻击,导致输出的结果被投毒干扰;其本身可能存在后门指令,一旦被开启则可能成为特洛伊木马大杀四方;在数据隐私保护上,AI 模型还是黑箱式的存在,在训练、使用交互的过程中隐私数据存在泄漏风险;AI 模型很可能使用受到版权保护的内容作为结果输出,而对于 AI 生成内容的知识产权保护还无法完全适用现有法律。

这些风险的存在也不意味着对技术应用的否定,真实风险的出现恰恰意味着技术落地应用的开始,也是走向成熟的必经之路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16984.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python整人代码:让你的朋友大跌眼镜

Python 整人代码:让你的朋友大跌眼镜 Python 是一种强大的编程语言,常用于开发各种应用程序。然而,除了正常的开发工作之外,Python 还可以用来整人。通过一些简单的代码,你可以让你的朋友在屏幕前大跌眼镜。在本篇文章…

认知智能浪潮将至,企业技术底座和业务流程变革在即 | 爱分析报告

报告编委 黄勇 爱分析合伙人&首席分析师 李进宝 爱分析高级分析师 陈元新 爱分析分析师 外部专家(按姓氏拼音排序) 何敏 明略科技集团 副总裁 尤辉 竹间智能 售前经理 周宁捷 拓尔思 金融和产业大脑产品中心总经理 特别鸣谢&#xff0…

2023年医疗健康企业CRM选型与应用指南

全国两会期间,作为医疗行业建设重点之一的“医疗信息化”受到关注,推进“智慧医疗”体系建设、推进健康医疗数据共享等成为热门议题。 事实上,随着人工智能、大数据等新兴技术的不断成熟、推广与应用,传统医疗行业正在经历数字化…

2023年2月份报告合辑 附下载

时光它总爱不言不语,不经意间又悄悄溜走。一年数它最短的二月,在春暖花开之际,就要和三月交班。二月再见,三月你好!早春从这里开始,未来在此刻启程。又在宛若初见的时光里,轻声念起:三月&#x…

【社区图书馆】【图书活动第四期】

目录 一、前言 二、作者简介 三、《PyTorch高级机器学习实战》内容简介 四、书目录 一、前言 今天,偶尔逛到csdn社区图书馆,看到有活动 “【图书活动第四期】来一起写书评领实体奖牌红包电子勋章吧!”(活动到今天结束&#xf…

YOLOv5全面解析教程⑧:将训练好的YOLOv5权重导为其它框架格式

撰文|FengWen、BBuf 1 模型导出 这个教程用来解释如何导出一个训练好的OneFlow YOLOv5模型到 ONNX。欢迎大家到这里查看本篇文章的完整版本:https://start.oneflow.org/oneflow-yolo-doc/tutorials/06_chapter/export_onnx_tflite_tensorrt.html 2 开始…

2023西湖论剑RE--BabyRE

用IDA打开附件,搜索字符串发现“Good, flag is DASCTF{your input}”字符串 一直交叉引用,发现以下三个函数 下面分析中的部分函数名,变量名和变量类型我做了修改 一、sub_401000函数 该函数先调用sub_401170函数,然后注册了一个退…

AIGC专题二:ChatGPT更懂人类的叙事

ChatGPT是OpenAI推出的聊天机器人模型,月度用户已破亿,正在逐步探索商业化途径。ChatGPT能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚…

【ARMv8/v9 异常模型入门及渐进2 - 系统控制寄存器 SCTRL_ELx 介绍】

文章目录 SCTRL_ELx 介绍背景ARMv8 SCTLR_ELx 介绍ARMv9 SCTLR_ELx 介绍 SCTRL_ELx 介绍背景 由于在做DFD 测试过程中需要测试 EL1 状态下的 self-hosted trace 功能,但是这个测试是在UEFI中做的,在开发验证阶段UEFI默认是运行在EL3 下的,所…

关于UVC设备拥有两个/dev/video*节点的原因以及来历?

在ubuntu18.04/ubuntu16.04系统上,插入UVC设备,你会发现V4L2框架替它创建了两个video设备节点,分别是 /dev/video0, /dev/video1: 经过实际测试,可以通过/dev/video0获取图像,但是无法通过/dev/video1获取图像,具体的试验请看下面两篇博客: V4L2子系统架构设计初探 美…

从千亿模型到ChatGPT的⼀点思考

近年来人工智能的快速发展受到社会各界的广泛关注,超大规模预训练模型取得了突飞猛进的进步。唐杰从OpenAI发布的大规模自然语言预训练模型GPT-3谈起,详细介绍了大模型的进化史,及其所表现出来的能够更好处理现实世界复杂性问题的能力与可能性…

230502-LLM-Vicuna介绍、安装与注意事项整理

排名模型Elo 得分描述许可证1🥇 GPT-41274OPENAI 公司:ChatGPT-4OpenAI公司专有2🥈Claude-v11224Anthtopic 公司:ClaudeAnthtopic公司专有3🥉 GPT-3.5-turbo1155OPENAI 公司:ChatGPT-3.5OpenAI公司专有4⭐️…

ChatGPT又为我省了一笔钱

作为家长你可能会关注。我周围的朋友,一般都会请外教来帮助孩子提高英语口语能力。然而,外教的费用不菲,这也成为了很多人的负担。但现在,有了ChatGPT语音插件,我们可以省下雇佣外教的钱,而又能有效地提高英…

跟着ChatGPT手把实现一个websocket连接管理器! 毛骨悚然

全是贴图了: 多说无益!!! 开始: 实现一个某安的连接管理: 其中步骤1到7列的明明白白,而且一开始就提出了要有connectionManager,这已经是很职业的方式了,至少不是学生气&…

2023 商业化ChatGpt Web源码

简介 一款使用React搭建的一款可商业化的ChatGpt Web应用,支持接入支付宝当面付及易支付 主要功能 后台管理系统,可对用户,Token,商品,卡密等进行管理精心设计的 UI,响应式设计极快的首屏加载速度(~100kb)支持Midjourney绘画和DALLE模型绘…

基于ChatGPT的文档知识库客服系统-支持上传网址/文本/docx等数据

现在,很多公司都有自己的内容知识库,会产生大量的碎片话的内部知识,但是这样内部知识难以整合搜索。 我开发的文档知识库客服系统 gofly.v1kf.com ,可以应用于企业内部知识库管理,用户可以使用自然语言提问&#xff0c…

学编程一定要数学很好吗?看到网友这样说,我松了一口气 ...

学好数理化,走遍全天下!小时候,这句顺口溜时常在耳边响起,而迈入编程行业以后,又有人想问:我数学不好,能写好代码吗? 不过最近的 MIT 神经科学家在 eLife期刊发表了一项新研究&#…

答读者:数学不好,能学好算法吗?

点击关注上方“五分钟学算法”, 设为“置顶或星标”,第一时间送达干货。 转自是不是很酷 这是在我的知识星球上,一个同学问我的问题。 波波老师您好。 我今年 28 了,也算是科班出身,但是大学的时候基本没怎么上过课。毕…

5小时掌握提示词工程,写出高价值大模型Prompt!中文!免费!

写出优质的提示词,让AI生成惊艳的图文作品。 ——这就是如今年薪百万仍一人难求的提示词工程师们在解决的问题。大语言模型时代下,不断涌现出众多让人瞳孔地震的绘画、拍案叫绝的文案,它们的创作者并非传统定义的画家、作家,而是这…

大模型部署的方案

借着热点,简单聊聊大模型的部署方案,作为一个只搞过CV部署的算法工程师,在最近LLM逐渐改变生活的大背景下,猛然意识到LLM部署也是很重要的。大模型很火,而且确实有用(很多垂类场景可以针对去训练&#xff0…