REMARK-LLM:用于生成大型语言模型的稳健且高效的水印框架
前言
- 提出这一模型的初衷
为了应对大量计算资源和数据集出现伴随的知识产权问题。使用LLM合成类似人类的内容容易受到恶意利用,包括垃圾邮件和抄袭。
ChatGPT等大语言模型LLM的开发取得的进展标志着人机对话交互的范式转变。与此同时,需要设计机制来声明LLM生成的文本的所有权并跟踪生成内容的发布。
水印提供了一种有希望的解决方案来解决两个长期存在的问题:主张生成输出的所有权和追踪内容来源。通过将水印签名嵌入到LLM的输出中,模型所有者可以有效地监控其内容使用情况并验证其所有权。
- 模型的亮点
REMARK-LLM提出了三个新组件:
1、基于学习的信息编码模块,将二进制签名注入LLM生成的文本中。将LLM生成的文本及其相应的签名编码到潜在特征空间中。添加它们的特征表示并产生词汇表上的水印分布。
2、重新参数化模块,将消息编码的密集分布转换为带水印文本标记的稀疏分布。
3、专用于签名提取的信息解码模块,利用转换器预测插入的消息,从而提取水印签名。
三个模块都是端到端训练,目标是
1、通过最小化LLM生成的文本和加水印的文本之间的语义损失来保持语义保真度
2、通过最小化插入和从加水印的文本中提取的水印签名之间的消息恢复损失来确保水印提取、
3、通过从恶意转换中提取水印签名来增强鲁棒性
同时引入一种优化的波束搜索算法来生成具有连贯性和一致性的内容。
通过REMARK-LLM,LLM所有者利用消息编码模块将二进制签名嵌入到LLM生成的文本中并获得带水印的分布。随后,优化的波束搜索算法将该模块分布的输出转换为带水印的文本,确保语义连贯性、坚定的语义保真度和成功提取签名。接下来,带水印的文本作为连贯的响应传播给最终用户。可以使用消息解码模块提取插入的签名来验证水印的存在。它将提取的消息与插入的签名进行比较,以确定LLM是否生成文本。
- 模型效果
在带有水印的内容中保留了语义完整性,同时确保有效的水印检索。对多个未见过的数据集进行的广泛评估凸显了REMARK-LLM与现有技术相比,他在同一文本中嵌入了更多签名位,同时保持了语义完整性。此外,REMARK-LLM对一系列水印检测和删除攻击表现出更好地弹性。 - 现有的文本水印
1、基于规则的水印
基于规则的水印取代了同义词或转换句法结构插入段落作为水印。这些手动设计的特征使得插入的签名可以通过词分布或句法分析在统计上被移除。
基于规则的水印通过操纵语言特征将水印集成到LLM生成的文