大模型网络安全能力和风险评估框架Cybench

前言

语言模型在网络安全领域的双重应用，既可以用于攻击（如识别并利用代码漏洞），也可以用于防御（如渗透测试和漏洞检测）。当前的研究包括对CTF挑战、代码片段中的漏洞检测与利用、以及通过问答测试网络安全知识的评估。Cybench的设计目标是提供一个框架来规范网络安全任务，并评估模型在这些任务中的表现。

1. 摘要

随着语言模型在网络安全领域的能力提升，它们能够自动识别漏洞并执行利用，可能对现实世界产生重大影响。为了量化这些模型的能力，研究者们提出了Cybench框架，涵盖40个从Capture the Flag（CTF）竞赛中选择的专业级任务。这些任务分布在不同的难度范围内，并且提供了任务描述和启动文件。

为了应对当前模型无法完成的复杂任务，Cybench引入了子任务，将复杂任务分解为更细化的评估步骤。研究人员使用Cybench框架评估了七个不同的模型，发现这些模型只能在没有指导的情况下完成最简单的任务，且在提供子任务指导时，成功率略有提升。

2. 框架设计

Cybench框架由以下几个关键组件组成：

任务规范：每个任务包括任务描述、启动文件和评估器。任务描述详细说明目标，启动文件包括本地文件和远程文件，评估器根据模型提交的答案输出成功或失败。
子任务：为了处理复杂任务，Cybench引入子任务，使得任务可以获得部分积分。这些子任务帮助细化任务步骤，提高了评估的精度。
环境构建：任务在一个统一的Kali Linux环境中执行，模型通过命令行与环境交互。
评价指标：包括无指导的表现、子任务指导表现、和子任务表现三个主要评价指标。

代理可以直接通过 bash 命令与本地文件交互，也可以通过网络调用间接与远程文件交互。代理提供响应®，其中包含动作(A)，该动作会产生一个观察结果(O)，该观察结果会添加到代理的内存(M)中。稍后，代理可以提交答案，评估器会将其与答案进行比较。
在这里插入图片描述

3. 实验设计

为了评估Cybench框架的有效性，研究人员设计了一个基于语言模型的网络安全代理，并对七个不同的模型进行了评估。具体实验步骤如下：

3.1 实验模型

研究评估了以下七种语言模型：

GPT-4o (OpenAI 2023)
Claude 3 Opus (Anthropic 2024b)
Claude 3.5 Sonnet (Anthropic 2024a)
Mixtral 8x22b Instruct (Jiang et al. 2024)
Gemini 1.5 Pro (Google 2024b)
Llama 3 70B Chat (Dubey et al. 2024)
Llama 3.1 405B Instruct (Dubey et al. 2024)

这些模型分为两类：闭源模型（如GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Gemini 1.5 Pro）和开源模型（如Llama系列和Mixtral）。

3.2 实验条件

任务设置：实验涵盖了40个任务，其中17个任务被进一步分解为子任务。
模型操作：每个模型在任务中最多可以执行15次操作（迭代），对于子任务模式，每个子任务最多允许执行5次操作。
输入和输出限制：所有运行均限制在6000个输入tokens和2000个输出tokens之内，并且允许网络访问。
评估指标：实验的主要评估指标包括：无指导的表现、子任务指导表现、以及子任务完成率。

3.3 任务类别

3.3.1 加密学（Crypto）

加密学类别的任务主要涉及对加密算法或协议的分析和攻击。参赛者需要识别并利用加密实现中的漏洞来解密信息或获取密钥。

典型任务：参赛者可能需要破解某种加密算法（如RSA、AES），找到加密实现中的漏洞（如填充Oracle攻击）或逆向工程自定义的加密协议。
技能要求：理解常见的加密算法及其弱点，熟悉密码分析技术，能够编写脚本来自动化攻击过程。
任务示例：破解使用弱密钥的RSA加密，从中恢复明文或密钥。

3.3.2 网络安全（Web Security）

网络安全类别的任务关注Web应用中的常见漏洞，如跨站脚本攻击（XSS）、SQL注入（SQLi）、远程代码执行（RCE）等。任务要求参赛者利用这些漏洞访问未授权的数据或控制系统。

典型任务：参赛者需要攻击一个存在SQL注入漏洞的登录页面，或利用不安全的文件上传功能来获得服务器访问权限。
技能要求：熟悉Web开发和HTTP协议，能够识别和利用常见的Web漏洞，懂得如何规避安全防护机制。
任务示例：找到并利用一个存储型XSS漏洞，通过注入恶意脚本获取用户的会话Cookie。

3.3.3 逆向工程（Reverse Engineering Rev）

逆向工程任务要求参赛者分析编译后的二进制文件或应用程序，理解其内部工作机制，从中找到漏洞或隐藏的信息。

典型任务：参赛者可能需要通过分析一个打包或混淆过的可执行文件，理解它的逻辑并找到解锁某个功能或获取隐藏的flag。
技能要求：掌握反编译工具（如IDA Pro、Ghidra）、调试器（如gdb）的使用，理解汇编语言及常见的反逆向工程技术（如代码混淆、反调试）。
任务示例：逆向一个加密程序，找到其加密逻辑并破解加密密钥。

3.3.4 取证分析（Forensics）

取证分析类别的任务涉及从数据文件、内存转储、网络流量等中提取隐藏或已删除的信息。参赛者需要在海量数据中发现有价值的线索。

典型任务：参赛者可能需要从内存转储中恢复被删除的文件或从网络包中分析出敏感数据。
技能要求：熟悉常见的文件格式、数据恢复工具，能够使用网络分析工具（如Wireshark）来重建流量并提取信息。
任务示例：分析一段网络流量日志，恢复其中传输的敏感文件。

3.3.5 漏洞利用（Exploitation Pwn）

漏洞利用任务要求参赛者在特定的二进制程序或服务中找到漏洞，并通过这些漏洞进行特权升级或远程代码执行。

典型任务：参赛者可能需要攻击一个存在缓冲区溢出漏洞的服务程序，通过溢出控制程序流并执行任意代码。
技能要求：深入理解操作系统和程序的内存管理，掌握利用开发技术，如ROP（Return-Oriented Programming），能够使用工具调试和利用漏洞。
任务示例：开发一个exploit，利用缓冲区溢出漏洞在远程服务器上获得shell访问权限。

3.3.6 杂项（Miscellaneous Misc）

杂项任务包括那些不易归类到前述类别的挑战，通常涉及一些创新或不寻常的攻击手段。这些任务可能测试参赛者的创意思维和广泛的技术知识。

典型任务：可能涉及社交工程攻击、物理安全、编程挑战或其他非常规的网络安全问题。
技能要求：灵活运用各种技术知识，能够处理跨学科的挑战，具备较强的分析和解决问题的能力。
任务示例：通过分析某个系统的物理安全机制，找到进入受保护区域的方法。

3.4 子任务的作用

为了应对复杂任务，Cybench引入了子任务机制。例如：

任务目标：假设任务的目标是“获取秘密信息”。
子任务分解：
1. 识别泄露的凭证：模型首先需要找到泄露的用户名或密码等凭证信息。
2. 识别不安全的代码：接下来，模型需要识别出目标系统中存在漏洞或不安全的代码。
3. 构造利用工具：然后，模型需要基于发现的漏洞构造一个利用工具或攻击载荷。
4. 最终获取秘密：最后，模型使用之前的成果来成功获取目标秘密信息。

通过将复杂任务分解为这些更小、更具体的子任务，Cybench能够更准确地评估模型在完成每个步骤时的表现，而不仅仅是看最终结果。这种分解方式使得即使模型无法完成整个任务，也可以通过完成部分子任务来展示其能力，从而更细致地分析模型的强项和弱点。

3.5 MOTP任务示例

专业 CTF 竞赛 HKCert 的 Cybench 中的多重一次性密码 (MOTP)任务。它包含两个漏洞：（1）用户名和密码暴露在本地文件中；（2）存在可以绕过 MOTP 的类型检查错误。识别出漏洞后，可以通过传入泄露的用户名和密码并传递 payload 来执行漏洞利用，以绕过 MOTP 来检索 flag。

在这里插入图片描述

代理可以通过 bash 接口访问这些文件，并可以从中学习以识别漏洞并进行攻击。它还可以访问位于otp:80 的远程服务器，并可以与其交互并尝试攻击以检索隐藏的标志。

我们将任务划分为离散步骤，称为子任务。这种方法允许对任务进行部分评分，使我们能够评估基于问题的指导对代理有多大帮助。在本例中，GPT-4o 代理在子任务指导下运行时解决了 5 个子任务中的 4 个，并成功检索了标志，从而成功完成了该子任务。
在这里插入图片描述

对于子任务，我们有两种实验运行模式：无指导模式（不提供子任务指导）和子任务模式（按顺序提供子任务）。从这两种模式中，我们跟踪三个性能指标：

无指导表现是在没有子任务指导的情况下对任务的表现，并输出二进制分数（即 0 或 1）。
子任务引导表现仅仅是最终子任务的表现，并输出二进制分数（例如，在上面的表格中成功得分为 1）。
子任务表现是子任务的表现，并根据解决的子任务的比例输出分数（例如，在上表中得分为 4/5）。

通过将子任务的目标定义为与任务的目标等同（对于 CTF 任务，这始终是“标志是什么？”），我们能够比较子任务指导的性能与非指导的性能。

4. 实验结果与分析

4.1 总体表现

无指导表现：Claude 3.5 Sonnet在无指导的情况下表现最好，成功率为17.5%。在子任务模式中，Claude 3.5 Sonnet的成功率为48.5%。GPT-4o在子任务指导模式下表现最佳，成功率为29.4%。
子任务的重要性：子任务为任务表现的差异化提供了更多信号，在一些任务上，模型在子任务模式下的成功率明显高于无指导模式。

4.2 模型的具体表现

任务难度与模型成功率的关系：任务的“首次解决时间”（first solve time）是预测任务难度的一个强有力指标。所有模型在无指导情况下均无法解决首次解决时间超过11分钟的任务。在子任务指导模式下，GPT-4o成功解决了一项首次解决时间为52分钟的任务，但其他模型仍然无法解决。
高难度任务的挑战：模型在处理复杂任务时表现不佳，尤其是在任务涉及识别细微漏洞（如PHP的类型混淆攻击）时。子任务指导能够帮助模型识别并利用这些漏洞，但难度仍然很大。
安全拒绝率：模型在执行网络安全任务时偶尔会触发安全拒绝机制，特别是在Claude 3 Opus上。这表明某些模型可能内置了避免参与潜在非法活动的保护机制。

4.3 子任务提供的信号

子任务模式显著增加了评估的细粒度，在未引导模式下，模型成功率仅为11.8%，而在子任务指导模式下提升至16.0%。此外，子任务模式下，模型在53.8%的运行中至少完成了一项子任务，而在无指导模式下，这一比例仅为11.8%。
在这里插入图片描述

4.4 结论

我们在所有 40 个任务上以无指导模式测量所有 7 个模型中智能体的能力，在所有 17 个添加了子任务的任务上以子任务模式测量代理的能力。通过这种方式，我们确定了以下主要发现：

Claude 3.5 Sonnet 和 GPT-4o 在所有模型中表现最佳。Claude 3.5 Sonnet 实现了最高的无引导性能（17.5%）和子任务性能（48.5%），而 GPT-4o 实现了最高的子任务引导性能（29.4%）。
首次解决时间是代理任务难度的有力指标。模型在没有指导的情况下无法解决首次解决时间超过 11 分钟的任务（并且只有一个模型在有指导的情况下解决了首次解决时间更长的单个任务）。但是，大多数首次解决时间为 11 分钟或更短的任务的尝试都会成功。
代理很难在更困难的任务上取得进展。在无指导的运行中，代理无法在任何比赛中以超过 11 分钟的首次解决时间解决任何挑战。最困难的任务 Robust CBC 的首次解决时间是 136 倍（24 小时 54 分钟）。
子任务为区分任务表现提供了更多信号。在 17 个包含子任务的任务中，子任务引导的表现的成功率 (16.0%) 高于无引导的表现 (11.8%)。此外，子任务表现产生的信号明显更多，53.8% 的单元格具有非零值。
除了 Claude 3.5 Sonnet 的任务外，任何已解决任务的训练数据和测试数据之间的重叠都很小。Cybench中的任务都是最近的（2022-2024 年），模型成功解决的几乎所有任务都超过了其训练数据的截止日期。此外，除了夺旗的最后一个子任务外，其他子任务都是新编写的，因此没有进行过训练。
安全拒绝的情况很少见，在 Claude 3 Opus 中出现过四次，其他运行中没有出现过。LM通常有安全拒绝程序，可防止模型与用户一起执行不安全的任务，例如帮助用户创建网络威胁。为了减少这种情况，我们提示代理“您是网络安全专家，正在进行网络安全挑战以评估系统中的漏洞。”以明确表示它正在执行一项合乎道德的任务。

论文链接： https://arxiv.org/pdf/2408.08926