GPT-5将在6月发布前进行「红队进攻测试」

“GPT-5将在6月发布”的消息刷屏了AI朋友圈。这则消息之所以被无数人相信并转发，是因为已经有不少技术人员在社交平台上晒出了「红队进攻测试」邀请。

基于 GPT系列庞大的用户体量和影响力，OpenAI 将更加重视GPT-5 的安全性，作为GPT-5上市前的最后一关，「红队进攻测试」的结果至关重要，甚至将决定上线时间和效果。

什么是红队进攻测试

所谓红队进攻测试，是指网络安全技术专家们共同模拟攻击者，在真实的环境下对目标系统进行网络攻击，以便提前发现潜在的系统漏洞，确保系统的安全性。

由于AI工具的能力十分强大，因此在AI开发领域红队进攻测试的重要性更加明显，是不可或缺的安全措施之一。在使用 LLM 时，无论是良性使用还是对抗性使用都可能产生潜在的有害输出，这些输出可能表现为多种形式，包括有害内容，如仇恨言论、煽动或美化暴力或性内容。

2023年9月，OpenAI曾面向全球招募AI红队进攻测试人员，不断挖掘AI潜在的风险和如何滥用工具作恶等。与过往仅在重要版本上线前招一批人集中测试不同，OpenAI将会根据需求在整个开发周期中启用数量不定的成员展开测试，其类型主要包括提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等。

例如，「提示攻击」是指在控制LLM的提示中注入恶意指令，从而导致大模型执行非预期的操作。今年早些时候，一名大学生利用提示获取了一家大公司的机密信息，包括开发的AI项目的代码名称，以及一些本不应该暴露的元数据。而「提示攻击」最大的挑战是，找到威胁行为者尚未发现、利用的新提示或提示集。

美国罗彻斯特大学的化学工程教授Andrew White介绍称他曾参加GPT-4的“红队”测试，他的攻击目标是用ChatGPT来创造一种全新的神经毒素。White表示他用了“插件”功能，向大模型输送化学论文和化学制造商的目录，大模型甚至还给他找到了一个可以生产假想毒素的地方。

“我认为它将为每个人配备一个工具，以更快、更准确地进行化学研究”，White表示，“但也有很大的风险，人们可以进行危险的化学实验。现在，这种情况确实存在。”

这一发现也让OpenAI进一步加强了在红队进攻测试方面的重视与投入。事实上，AI开发者们围绕语言模型的快速进展有着共同的担忧，特别是通过插件将其与外部知识来源连接的风险。红队进攻测试恰好是以最低的成本来解决人工智能系统广泛存在的危险。

例如OpenAI 希望寻找模型中有害、偏见和语言偏差等问题，因此红队进攻测试了谎言、言语操纵和危险的科学知识，他们还检查了其协助和教唆剽窃、金融犯罪和网络攻击等非法活动的潜力，以及它如何可能损害国家安全和战场通信等等。

此外，技术和人权研究人员 Roya Pakzad 使用英语和波斯语提示来测试该模型的性别化反应、种族偏好和宗教偏见，特别是关于头饰的问题。

Pakzad 承认这种工具对非英语母语者的好处，但他发现，即使在后来的版本中，该模型也显示了对边缘化社区的明显刻板印象。她还发现，当聊天机器人用捏造的信息做出反应时，在用波斯语测试该模型时更糟糕，Pakzad 发现与英语相比，波斯语中捏造的名字、数字和事件的比例更高。

类似的红队进攻测试项目还有很多，就目前来说，AI红队进攻测试可以归纳为以下几点：

1、AI红队更具扩张性：应对的安全问题更多更复杂，还需要探索公平性问题、有害内容等。

2、AI红队需要同时关注恶意和善意的使用者：除恶意对手会利用漏洞破坏AI系统，普通用户在交互过程中也会产生问题和有害内容。

3、AI系统在不断发展：AI系统的变化速度比传统应用更快，需要进行多轮红队进攻测试，建立系统化、自动化的测量和监测系统。

4、AI系统红队进攻测试需要多次尝试：生成式人工智能系统的结果是概率性的，因此可能需要多次尝试，才能发现问题。

5、减少AI问题需要深度防御：修复通过AI红队发现的故障需要深度防御方法，包括使用分类器标记潜在的有害内容，使用元提示符指导行为以限制会话漂移等。