论文笔记：Does Writing with Language Models Reduce Content Diversity?

论文笔记：Does Writing with Language Models Reduce Content Diversity?

news/2024/12/25 12:20:57/文章来源:https://blog.csdn.net/qq_40206371/article/details/137887726

iclr 2024 reviewer评分 566

1 intro

大模型正在迅速改变人们创造内容的方式
- 虽然基于LLM的写作助手有可能提高写作质量并增加作者的生产力，但它们也引入了算法单一文化
- ——>论文旨在评估与LLM一起写作是否无意中降低了内容的多样性
论文设计了一个控制实验，要求用户在纽约时报学生意见系列的一个话题下写一篇论证性文章，例如“学校教育中学生学到的最重要的东西是什么？
- 将参与者分为三组：
  - 一组控制组，参与者在没有模型帮助的情况下写文章；
  - 一组LLM处理组，参与者在基础语言模型（GPT3）的帮助下写文章；
  - 一组反馈调优LLM处理组，参与者在经过人类反馈微调的语言模型（InstructGPT）的帮助下写文章。
- 论文雇佣了38名写手
  - 对于每组，论文在10个话题上收集了100篇文章
  - 然后，论文开发了一组指标并测量LLM对内容多样性的影响，包括个体层面和集体层面：
    - 同质化：使用LLM写作的用户彼此写得是否更相似？
      - 使用InstructGPT的组在同质化程度上高于控制组和GPT3组
      - 通过将模型贡献的文本与每篇文章的总结要点匹配，我们发现InstructGPT贡献的要点导致了同质化增加
    - 多样性：与LLM一起写作是否降低了一组用户产生的内容的多样性？
      - 与InstructGPT一起写的文章集合显示出较低的词汇多样性，并且表达的关键点的多样性也降低

2 数据收集

2.1 任务设置

用户将获得一个诸如“学校教育中学生学到的最重要的东西是什么？”的主题，并被要求用大约300字表达他们的观点
用户可以选择接受并编辑其中一个LLM提出的建议，或拒绝所有建议并继续他们的写作过程。
要求用户每篇文章至少请求5次建议，但不要求他们必须接受这些建议

3 用户如何与模型互动？

用户平均每篇文章查询模型约9次，并接受其中约70%的建议
由于用户可能在接受建议后进一步编辑这些建议，论文进一步计算了这些接受的建议是否保留在最终的文章中（model-written percentage）

但是，LLM的贡献是在贡献关键论点还是仅仅支持点的阐述呢？

——>论文过提示 gpt-3.5-turbo 将每篇文章总结为一个关键点列表，然后估计由模型和用户编写的关键点的比例

——>差不多40%的关键点是LLM提供的

4 使用LLM写作是否导致了更相似的文章？

使用InstructGPT写作产生了更相似的内容
使用GPT3写作并未增加同质化

5 使用LLM写作会降低内容的整体多样性吗？

使用InstructGPT写作降低了词汇多样性
使用InstructGPT写作降低了关键点多样性。
InstructGPT组的多样性低于Solo和GPT3组
使用InstructGPT写作的文章更频繁地重复高阶n-grams

6 为什么使用 InstructGPT 写作会减少多样性？

InstructGPT 生成的文本比 GPT3 的多样性少
- 与 GPT3 相比，InstructGPT 生成的文本多样性更低，这一点在先前的工作中也有观察到。
  - GPT4 的技术报告发现反馈调优的模型校准度更低
  - Bai 等人发现微调导致输出分布的熵减少

模型写作和用户写作的多样性直接检查
- 无论用户是否与模型一起写作，以及他们使用哪个模型，用户写作文本的5-gram分布保持不变。
- ——>用户的短语使用模式不受模型帮助的影响
InstructGPT 增加了关键点之间的相似性，而用户写作的文本未受影响

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/312779.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Boost电感的作用

Boost电感的作用

Boost电感在Boost升压电路中起着关键的作用。Boost电路是一种DC-DC电源转换器，其主要功能是将低电压直流（DC）信号转换为高电压直流（DC）信号。Boost电感在这个过程中起着平滑电流、储存能量和提高电路效率的作用。具体…

阅读更多...

深入理解JVM中的G1垃圾收集器原理、过程和参数配置

深入理解JVM中的G1垃圾收集器原理、过程和参数配置

码到三十五 ： 个人主页心中有诗画，指尖舞代码，目光览世界，步履越千山，人间尽值得 ! 在Java虚拟机（JVM）中，垃圾收集（GC）是一个自动管理内存的过程&#xff…

阅读更多...

Matlab|【免费】基于SOE算法的多时段随机配电网重构方法

Matlab|【免费】基于SOE算法的多时段随机配电网重构方法

目录 1 主要内容 2 部分程序 3 部分模型级文献结果 4 下载链接 1 主要内容该程序是完全复现《Switch Opening and Exchange Method for Stochastic Distribution Network Reconfiguration》，也是一个开源代码，网上有些人卖的还挺贵，本次…

阅读更多...

Web前端 Javascript笔记1

Web前端 Javascript笔记1

为什么学习 JavaScript? JavaScript 是 web 开发人员必须学习的 3 门语言中的一门： HTML 定义了网页的内容CSS 描述了网页的布局JavaScript 控制了网页的行为 JavaScript 是可插入 HTML 页面的编程代码。 JavaScript 插入 HTML 页面后，可由所有的现代浏…

阅读更多...

野生动物保护视频AI智能监管方案，撑起智能保护伞，守护野生动物

野生动物保护视频AI智能监管方案，撑起智能保护伞，守护野生动物

一、背景在当今世界，野生动物保护已经成为全球性的重要议题。然而，由于野生动物生存环境的不断恶化以及非法狩猎等活动的盛行，保护野生动物变得尤为迫切。为了更有效地保护野生动物，利用视频智能监管技术成为一种可行的方案。 …

阅读更多...

服务器数据恢复—ext3文件系统下raid5数据恢复案例

服务器数据恢复—ext3文件系统下raid5数据恢复案例

服务器数据恢复环境&故障情况： 某企业光纤存储上有一组由16块硬盘组建的raid5阵列。管理员发现该光纤存储上的卷无法挂载，经过检查发现raid5阵列中有2块硬盘离线，于是联系我们数据恢复中心要求数据恢复工程师到现场恢复服务器存储上的数据…

阅读更多...

Vue3从入门到实战：深度掌握组件通信（下部曲）

Vue3从入门到实战：深度掌握组件通信（下部曲）

5.组件通信方式5-$attrs $attrs的概念： 在Vue中，$attrs 是一个特殊的属性，用于访问父组件向子组件传递的非特定属性。它可以让子组件轻松地获取父组件传递的属性，而无需在子组件中显式声明这些属性。想象一下你有一个父组件和…

阅读更多...

pycharm debug 的时候 waiting for process detach

pycharm debug 的时候 waiting for process detach

当你使用pycharm debug或者run的时候，突然出现了点不动，然后一直显示：waiting for process detach 可能是以下问题： 1、需要设置Gevent compatible pycharm一直没显示运行步骤，只是出现waiting for process detach-C…

阅读更多...

算法练习第18天|111.二叉树的最小深度

算法练习第18天|111.二叉树的最小深度

111.二叉树的最小深度 111. 二叉树的最小深度 - 力扣（LeetCode）https://leetcode.cn/problems/minimum-depth-of-binary-tree/description/ 题目描述： 给定一个二叉树，找出其最小深度。最小深度是从根节点到最近叶子节点的最…

阅读更多...

RocketMQ 10 面试题FAQ

RocketMQ 10 面试题FAQ

RocketMQ 面试FAQ 说说你们公司线上生产环境用的是什么消息中间件? 为什么要使用MQ？ 因为项目比较大，做了分布式系统，所有远程服务调用请求都是同步执行经常出问题，所以引入了mq 解耦系统耦合度降低，没有强依赖…

阅读更多...

基于Copula函数的风光功率联合场景生成_任意修改生成的场景数目(附带Matlab代码)

基于Copula函数的风光功率联合场景生成_任意修改生成的场景数目(附带Matlab代码)

基于Copula函数的风光功率联合场景生成削减为6个场景部分展示削减为5个场景部分展示风光等可再生能源出力的不确定性和相关性给系统的设计带来了极大的复杂性，若忽略这些因素，势必会在系统规划阶段引入次优决策风险。因此，在确定系统最佳…

阅读更多...

c语言，单链表的实现----------有全代码!!!!

c语言，单链表的实现----------有全代码!!!!

1.单链表的定义和结构单链表是一种链式的数据结构，它用一组不连续的储存单元存反线性表中的数据元素。链表中的数据是以节点的形式来表示的，节点和节点之间相互连接一般来说节点有两部分组成 1.数据域 ：数据域用来存储各种类型的数据&…

阅读更多...

Node Version Manager（nvm）：轻松管理 Node.js 版本的利器

Node Version Manager（nvm）：轻松管理 Node.js 版本的利器

文章目录前言一、名词解释1、node.js是什么？2、nvm是什么？ 二、安装1.在 Linux/macOS 上安装2.在 Windows 上安装二、使用1.查看可安装的node版本2.安装node3. 查看已安装node4.切换node版本5.其它总结前言 Node.js 是现代 Web 开发中不可或缺的一部…

阅读更多...

不说成为Linux高级工程师，但成为合格的软件开发人员还是够了，一文深入浅出的精炼总结Linux核心知识点，掌握Linux的使用与高阶技巧

不说成为Linux高级工程师，但成为合格的软件开发人员还是够了，一文深入浅出的精炼总结Linux核心知识点，掌握Linux的使用与高阶技巧

不说成为Linux高级工程师，但成为合格的软件开发人员还是够了，一文深入浅出的精炼总结Linux核心知识点，掌握Linux的使用与高阶技巧。 Linux 的学习对于一个程序员的重要性是不言而喻的。前端开发相比后端开发，接触 Linux 机会相对…

阅读更多...

MyBatis-Plus详解(2.5W字+)

MyBatis-Plus详解(2.5W字+)

说明：该文档是鄙人学习记录的笔记，用于日常翻阅、复习、以及和朋友们讨论学习，如果广大读者朋友发现文章的纰漏、错误，请在评论区或私信提出，本人将积极探讨纠正！！！ 一、MyBatis-Plu…

阅读更多...

Git回滚版本并push到远端master

Git回滚版本并push到远端master

1、查看日志 git log 2、还原最近的版本 () --git reset --hard commit-id 如：git reset --hard d84da14bf2743683eca7a015f56114faaa344f42 3、覆盖分支版本 git push -f origin dev 回滚本地master完成后，将回滚后的代码push到远端master&#xf…

阅读更多...

Redis（Windows版本下载安装和使用）

Redis（Windows版本下载安装和使用）

天行健，君子以自强不息；地势坤，君子以厚德载物。每个人都有惰性，但不断学习是好好生活的根本，共勉！ 文章均为学习整理笔记，分享记录为主，如有错误请指正，共同学习进步。…

阅读更多...

mac配置Jmeter环境

mac配置Jmeter环境

mac配置Jmeter环境一、安装jmeter二、Jmeter目录结构三、汉化Jmeter四、改变主题外观五、jmeter安装第三方插件六、jmeter基础入门案例一、安装jmeter 第一步先自行配置好电脑的jdk环境 1、官网下载jar包 https://jmeter.apache.org/download_jmeter.cgi 2、解压到软件你自己…

阅读更多...

Git 安装和配置

Git 安装和配置

下载 Git 网址: https://git-scm.com/download 安装 Git 双击安装包, 开始安装. 修改安装路径, 选择非中文无空格路径: 开始安装: 安装成功: 配置 Git 安装完成后, 在任意文件夹内, 右键, 可以显示两个 Git 选项, 就说明安装成功了.

阅读更多...

JavaSE-13笔记【集合2（+2024新）】

JavaSE-13笔记【集合2（+2024新）】

文章目录 3.Map3.1 Map继承结构3.2 Map接口的常用方法3.3 遍历Map3.4 HashMap集合3.4.1 HashMap集合key的特点3.4.2 HashMap集合的key存储自定义类型3.4.3 哈希表3.4.3.1 哈希表的介绍3.4.3.2 哈希表的存储原理 3.4.4 存放在HashMap和HashSet集合key部分的元素必须同时重写hash…

阅读更多...

最新文章

推荐文章