SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
https://arxiv.org/html/2502.06394v1
1. 主要内容
这篇论文提出了一个 用于生成多语言平行去毒化数据的管道,并介绍了SynthDetoxM,一个包含16,000个高质量去毒化句子对的多语言平行文本去毒化数据集,涵盖德语、法语、西班牙语和俄语。
数据集通过九种现代开源LLM以少量样本的方式生成去毒化文本。
实验表明,在数据有限的情况下,使用SynthDetoxM训练的模型表现 优于在人工标注的MultiParaDetox数据集上 训练的模型。
论文还公开了数据集和代码,以促进多语言文本去毒化的研究。
2. 背景和相关工作
- 文本风格转换(TST):TST旨在将文本重写为目标风格,同时保持语义内容和流畅性。
去毒化是TST的一个子任务,涉及将有毒文本转换为非毒性文本。 - 多语言文本去毒化:由于跨语言平行数据的稀缺性,多语言文本去毒化仍然是一个未解决的问题。
现有的多语言数据集规模较小,难以训练大型多语言模型。
3. 方法步骤
- 数据收集:从公开的毒性识别数据集中选择有毒文本,使用STA和SIM指标进行过滤,并使用Perspective API进行数据增强。
- 并行数据生成:使用九种开源LLM在少量样本设置下生成去毒化文本。
- 数据质量评估:通过自动评估指标(STA、SIM、FL)和人工评估来验证生成数据的质量。
4. 实验设置
- 数据集:SynthDetoxM包含16,000个去毒化句子对,涵盖四种语言。
- 模型训练:使用mT0-XL模型进行微调,评估在SynthDetoxM和MultiParaDetox数据集上训练的模型性能。
- 评估指标:包括风格转换准确性(STA)、内容相似性(SIM)、流畅性(FL)和联合分数(J)。
5. 结果
- 在SynthDetoxM上训练的模型在所有语言中的STA和SIM指标上均优于在MultiParaDetox上训练的模型。
- 在少量样本设置中,SynthDetoxM训练的模型表现优于大多数评估的LLM。
- 两阶段微调方法(先在SynthDetoxM上微调,再在MultiParaDetox上微调)并未带来显著改进。
6. 结论
SynthDetoxM数据集在多语言文本去毒化任务中表现出色,尤其是在数据有限的情况下。
使用该数据集训练的模型 在自动评估和人工评估中均优于现有方法。
论文的贡献在于提出了一个生成多语言合成去毒化数据的框架,并展示了其在训练高性能去毒化模型中的有效性。
7. 局限性
- 仅关注显性毒性,未涵盖隐性和文化差异导致的毒性。
- 计算资源有限,未能使用更大的模型生成更多样化的数据。
- 数据集的语言覆盖范围有限,未来计划扩展到更多语言。
8. 伦理考虑
- 文本去毒化的目标是减少有害语言,促进更安全的在线环境。
- 数据集可能被误用,用于生成有害内容,因此需要谨慎使用。
- 去毒化模型应提供建议而非强制编辑,以尊重用户的言论自由。
图1:收集和生成多语言文本解毒数据集SynthDetoxM的提议方法的示意图。
图2:根据语言,SynthDetoxM数据集中接受的样本数量。
图3:数据集中有毒和中和示例的STA毒性得分的分布。
这篇论文通过引入SynthDetoxM数据集,为多语言文本去毒化任务提供了新的解决方案,展示了合成数据在低资源环境中的潜力。
2025-02-12(三)