SynthDetoxM - 现代LLM是少样本的并行去毒化数据标注器

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators
https://arxiv.org/html/2502.06394v1


1. 主要内容

这篇论文提出了一个 用于生成多语言平行去毒化数据的管道,并介绍了SynthDetoxM,一个包含16,000个高质量去毒化句子对的多语言平行文本去毒化数据集,涵盖德语、法语、西班牙语和俄语。

数据集通过九种现代开源LLM以少量样本的方式生成去毒化文本。

实验表明,在数据有限的情况下,使用SynthDetoxM训练的模型表现 优于在人工标注的MultiParaDetox数据集上 训练的模型。
论文还公开了数据集和代码,以促进多语言文本去毒化的研究。


2. 背景和相关工作

  • 文本风格转换(TST):TST旨在将文本重写为目标风格,同时保持语义内容和流畅性。
    去毒化是TST的一个子任务,涉及将有毒文本转换为非毒性文本。
  • 多语言文本去毒化:由于跨语言平行数据的稀缺性,多语言文本去毒化仍然是一个未解决的问题。
    现有的多语言数据集规模较小,难以训练大型多语言模型。

3. 方法步骤

  1. 数据收集:从公开的毒性识别数据集中选择有毒文本,使用STA和SIM指标进行过滤,并使用Perspective API进行数据增强。
  2. 并行数据生成:使用九种开源LLM在少量样本设置下生成去毒化文本。
  3. 数据质量评估:通过自动评估指标(STA、SIM、FL)和人工评估来验证生成数据的质量。

4. 实验设置

  • 数据集:SynthDetoxM包含16,000个去毒化句子对,涵盖四种语言。
  • 模型训练:使用mT0-XL模型进行微调,评估在SynthDetoxM和MultiParaDetox数据集上训练的模型性能。
  • 评估指标:包括风格转换准确性(STA)、内容相似性(SIM)、流畅性(FL)和联合分数(J)。

5. 结果

  • 在SynthDetoxM上训练的模型在所有语言中的STA和SIM指标上均优于在MultiParaDetox上训练的模型。
  • 在少量样本设置中,SynthDetoxM训练的模型表现优于大多数评估的LLM。
  • 两阶段微调方法(先在SynthDetoxM上微调,再在MultiParaDetox上微调)并未带来显著改进。

6. 结论

SynthDetoxM数据集在多语言文本去毒化任务中表现出色,尤其是在数据有限的情况下。
使用该数据集训练的模型 在自动评估和人工评估中均优于现有方法。

论文的贡献在于提出了一个生成多语言合成去毒化数据的框架,并展示了其在训练高性能去毒化模型中的有效性。


7. 局限性

  • 仅关注显性毒性,未涵盖隐性和文化差异导致的毒性。
  • 计算资源有限,未能使用更大的模型生成更多样化的数据。
  • 数据集的语言覆盖范围有限,未来计划扩展到更多语言。

8. 伦理考虑

  • 文本去毒化的目标是减少有害语言,促进更安全的在线环境。
  • 数据集可能被误用,用于生成有害内容,因此需要谨慎使用。
  • 去毒化模型应提供建议而非强制编辑,以尊重用户的言论自由。

图1:收集和生成多语言文本解毒数据集SynthDetoxM的提议方法的示意图。
图1


图2:根据语言,SynthDetoxM数据集中接受的样本数量。
图2


图3:数据集中有毒和中和示例的STA毒性得分的分布。
图3

这篇论文通过引入SynthDetoxM数据集,为多语言文本去毒化任务提供了新的解决方案,展示了合成数据在低资源环境中的潜力。


2025-02-12(三)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16675.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云服务器流量包用尽(中病毒)

1. 情况 腾讯云提示我账号欠费了,服务器存在恶意文件。。。 一看,流量包用尽超额了,CPU直接爆了。 用iftop监测一下网络流量。可以看到向多个IP发送了大量的流量。 看来是中病毒了,被当成 “肉鸡”,纳入“僵尸网络”…

RK3588视觉控制器与AI 算法:开启工业视觉检测新境界

在实际应用中,工业相机拍摄产品的图像,RK3588 迅速接收并进行预处理。AI 算法随即对图像进行深入分析,提取特征并与预设的标准进行对比,从而准确判断是否存在缺陷。 例如,在电子元件生产线上,RK3588 和 AI…

android的ViewModel这个类就是业务逻辑层吗

android的ViewModel这个类就是业务逻辑层吗? 相似:业务逻辑代码应该放在ViewModel这个类吗? 嗯,我现在在学习Android架构组件,特别是ViewModel。用户问ViewModel是否就是业务逻辑层,我需要仔细思考这个问题…

Gui-Guider1.8.1 数字时钟控件找不到定义,无法编译

我们在Gui-Guider中使用的一些控件,生成后会发现在LVGL源码中找不到该控件的定义,这时因为Gui-Guider中的一些控件是其自己编写的而不是LVGL提供的,那么我们该如何应用呢?这里拿Digital Clock数字时钟控件举例: 这里我…

使用 SDKMAN! 在 Mac(包括 ARM 架构的 M1/M2 芯片)安装适配 Java 8 的 Maven

好的,这是使用 SDKMAN! 安装适配 Java 8 的 Maven 的步骤: 前提条件: 安装 SDKMAN!: 如果你的系统上没有安装 SDKMAN!,请按照以下说明进行安装: curl -s "https://get.sdkman.io" | bash source "$HOME/.sdkman/bin/sdkman-i…

【Stable Diffusion模型测试】测试ControlNet,没有线稿图?

相信很多小伙伴跟我一样,在测试Stable Diffusion的Lora模型时,ControlNet没有可输入的线稿图,大家的第一反应就是百度搜,但是能从互联网上搜到的高质量线稿图,要么收费,要么质量很差。 现在都什么年代了&a…

oracle表分区--范围分区

文章目录 oracle表分区分区的原因分区的优势oracle表分区的作用oracle表分区类型一、范围分区二、 创建分区表和使用:1、按照数值范围划分2、按照时间范围3、MAXVALUE2. 向现有表添加新的分区3、 分区维护和重新组织(合并/删除) oracle表分区…

InspurServer服务器监控指标详解

在现代信息化环境中,服务器的稳定运行对于业务连续性至关重要。InspurServer作为高性能服务器解决方案,其性能监控与优化更是不可或缺。本文将基于监控易一体化运维软件,深入探讨InspurServer服务器的关键监控指标,包括响应时间、…

基于opencv的 24色卡IQA评测算法源码-可完全替代Imatest

1.概要 利用24色卡可以很快的分析到曝光误差,白平衡误差,噪声,色差,饱和度,gamma值。IQA或tuning工程一般用Imatest来手动计算,不便于产测部署,现利用opencv实现了imatest的全部功能&#xff0c…

Django开发入门 – 4.创建Django app

Django开发入门 – 4.创建Django app Create A Django App Under An Existing Project By JacksonML 1. 什么是Django app? Django项目面向Web应用程序,它会由一个或多个子模块组成,这些子模块称为apps。 Django apps负责执行完整Web应用程序中涉及…

string

string 概念 string 字符串其实是一种更加高级的封装,string字符串中包含大量的方法, 这些方法使得字符串的操作变得更加简单。 C中将字符串直接作为一种类型,也就是string类型,使用string类型创建的 对象就是C的字符串。 使用C中提供的string是,必须添加头文件string。 st…

如何在Excel和WPS中进行翻译

文档翻译我们可以用在线翻译工具,Excel工作表的翻译使用在线翻译工具就不是特别方便,那么如何快速进行翻译呢,我们今天介绍在不同的场景下如何利用翻译函数和Python程序来实现单元格的快速翻译。 一、在wps中进行翻译 WPS是我们常用的办公软…

Docker Desktop Windows 之 安装 SqlServer

Docker 安装SqlServer 》》拉取 Pull docker pull mcr.microsoft.com/mssql/server:2022-latest 》》运行 run docker run -e “ACCEPT_EULAY” -e “MSSQL_SA_PASSWORDSA12345” -p 1400:1433 --name sql-server2022 -h sql-server2022 -d mcr.microsoft.com/mssql/server:20…

【STM32】ADC|多通道ADC采集

本次实现的是ADC实现数字信号与模拟信号的转化,数字信号时不连续的,模拟信号是连续的。 1.ADC转化的原理 模拟-数字转换技术使用的是逐次逼近法,使用二分比较的方法来确定电压值 当单片机对应的参考电压为3.3v时,0~ 3.3v(模拟信…

pdf.js默认显示侧边栏和默认手形工具

文章目录 默认显示侧边栏(切换侧栏)默认手形工具(手型工具) 大部分的都是在viewer.mjs中的const defaultOptions 变量设置默认值,可以使用数字也可以使用他们对应的变量枚举值 默认显示侧边栏(切换侧栏) 在viewer.mjs中找到defaultOptions,大概在732行,或则搜索sidebarViewOn…

使用DeepSeek和Kimi快速自动生成PPT

目录 步骤1:在DeepSeek中生成要制作的PPT主要大纲内容。 (1)在DeepSeek网页端生成 (2)在本地部署DeepSeek后,使用chatBox生成PPT内容 步骤2:将DeepSeek成的PPT内容复制到Kimi中 步骤3&…

PADS多层板减少层数

前提 PADS是硬件工程师必备的画图软件,相信很多朋友遇到过为降低成本把6层板改为4层,或8层改为6层的经历,正常是把不需要的两层上所有东西删掉,然后修改层设置,下面举例说明。 首先是将要删除的层上的数据全部删除&a…

Spring 项目接入 DeepSeek,分享两种超简单的方式!

⭐自荐一个非常不错的开源 Java 面试指南:JavaGuide (Github 收获148k Star)。这是我在大三开始准备秋招面试的时候创建的,目前已经持续维护 6 年多了,累计提交了 5600 commit ,共有 550 多位贡献者共同参与…

【LeetCode】689、三个无重叠子数组的最大和

【LeetCode】689、三个无重叠子数组的最大和 文章目录 一、dp1.1 dp 二、多语言解法 一、dp 1.1 dp // go // 输入: nums[] // 计算: 找三段长度为 k 的不重叠的子数组. 要求这 3k 个元素之和最大 // 输出: 三段子数组的 起始位置. 若有多个结果, 返回字典序最小的一个 func …

transformer

导语: 2017年,一篇名为《Attention is All You Need》的论文横空出世,提出了Transformer模型,彻底改变了自然语言处理(NLP)领域的格局。Transformer以其独特的结构和强大的性能,迅速成为NLP领域…