1.背景
随着 ChatGPT 的持续火爆,现在无论哪个行业,几乎是人尽皆知。同时,利用 ChatGPT 进行造假作弊的情况也是层出不穷,尤其是在教育和传媒行业。在美国的一项千人调查中,有89%的学生表示在家庭作业中使用了 ChatGPT,不亦乐乎😂,并且斯坦福等大学中有部分学生也准备在期末考试中使用 ChatGPT。ChatGPT 能够改编充斥阴谋论和误导性叙述的问题,产生大量令人信服却无信源的内容,或成为传播网络谣言的工具……鉴于以上种种,OpenAI 官方紧急发布了打假工具(判断是否AI生成分为5个等级:极不可能、不太可能、不清楚、可能、非常可能),原以为是造矛又造盾,强强对决,奈何鉴别为非常可能的准确率只有26%,还有9%的概率把人写的文本当成AI写的,整体表现和蒙眼猜差不多😂(人的肉眼分辨也仅仅是略微高出瞎蒙的结果)。
斯坦福大学看不下去了,为了打击高等教育中 LLM(大型语言模型)生成文本,提出了零样本的 DetectGPT 方法,率先打响高校 AI 反击战。
代码链接: DetectGPT
2.DetectGPT
机器生成文本的检测本质还是一个二分类问题,训练一个以此为目标的深度学习模型并不困难,但是这样的模型过度依赖训练数据,而最常用的零样本评估方法是计算生成文本的每个 token 对数概率和阈值的平均值,这种方法忽略了候选文本周围的包含文本来源信息的概率分布。
- 在本篇论文中,作者首先提出了一个简单的假设:生成文本的轻微改写相较于原始文本倾向于有较低的对数概率,而被轻微改写的手写文本相较于原文本,其对数概率可高可低。意思也就是,模型生成文本往往位于对数概率函数负曲率的区域(局部最大值),如下图:
- 设计实验验证以上假设:
为了判断候选段落 是否由 LLM (如 GPT-3)生成,利用通用的预训练模型(如 T5)对 进行较小的扰动,生成扰动样本 ~ ,然后比较 和每个扰动样本 在 下的对数概率,如果平均对数比率较高,则可能来自源模型 GPT-3。
实验伪代码:
- 作者通过经验验证了假设,并且发现其适用于各种 LLM。DetectGPT 的效果也是杠杠的!在检测机器生成文本方面比现有的零样本方法更准确,在检测机器生成的新闻文章时,相较于零样本多源模型的最强基线,AUROC提高了 0.1+。
3.总结
简单高效的 DetectGPT 理解起来还是比较容易的,作者也打算将这一方法用于 LLM 生成的音频、视频和图像的检测工作中。当然它也有一些缺点:①模型改写的情况会影响曲率估计的质量;②相比于其他检测方法需要更多的计算量等,不过看效果还是比较靠谱。官方鉴别器虽不咋滴,但说明 OpenAI 目前在努力表现出踩刹车的样子,有消息称其正考虑在生成文本中加入隐藏的“水印”,或许从根源解决才是终极大法😄😄😄。