TnT-LLM: Text Mining at Scale with Large Language Models

TnT-LLM: Text Mining at Scale with Large Language Models

相关链接:arxiv
关键字:Large Language Models (LLMs)Text MiningLabel TaxonomyText ClassificationPrompt-based Interface

摘要

文本挖掘是将非结构化文本转换为结构化和有意义的形式,这对于下游分析和应用是基础步骤。然而,大多数现有的标签分类法和基于文本的标签分类器的生成方法仍然严重依赖于领域专业知识和手动策划,使得这一过程昂贵且耗时。尤其是当标签空间未明确指定且大规模数据注释不可用时,这一挑战尤为突出。本文提出了TnT-LLM框架,利用LLMs基于提示的接口,以最小的人工努力自动化端到端标签生成和分配过程。在第一阶段,我们引入了一种零样本、多阶段推理方法,使LLMs能够迭代地产生和完善标签分类法。在第二阶段,LLMs被用作数据标注器,生成训练样本,以便构建轻量级的监督分类器,这些分类器可以可靠地进行大规模部署和服务。我们使用TnT-LLM对Bing Copilot(以前称为Bing Chat)的用户意图和会话领域进行分析,这是一个开放领域的基于聊天的搜索引擎。通过使用人工和自动评估指标进行的广泛实验表明,与最先进的基线相比,TnT-LLM能够生成更准确和相关的标签分类法,并在大规模分类的准确性和效率之间取得了有利的平衡。我们还分享了在实际应用中使用LLMs进行大规模文本挖掘的挑战和机遇的实践经验和见解。

核心方法

在这里插入图片描述

  1. 零样本、多阶段推理方法:在第一阶段,我们提出了一种方法,使LLMs能够迭代地产生和完善标签分类法,而不需要任何先验的标签样本。
  2. LLMs作为数据标注器:在第二阶段,LLMs被用作数据标注器,生成训练样本,这些样本用于训练轻量级的监督分类器,这些分类器可以大规模部署和服务。
  3. 端到端框架:TnT-LLM是一个端到端的两阶段框架,它结合了LLMs在两个阶段的独特优势,实现了标签生成和文本分类的自动化。
  4. 可定制性和模块化:该框架是可适应和模块化的,可以根据不同用例、文本语料库、LLMs和分类器进行定制,同时需要很少的人工干预或输入。

实验说明

实验结果数据使用以下Markdown表格展示:

指标用例人类标注者 vs. GPT-4标注者
准确度(意图)0.476*0.558*
准确度(领域)0.478*0.578*
相关性(意图)0.466*0.520*
相关性(领域)0.3790.288

*表示中度一致性及以上(> 0.4)。

数据要求:实验使用了来自Bing Copilot系统的对话记录,这些记录是多语言的、开放领域的,并经过隐私和内容过滤以确保质量和隐私。

数据来源:实验数据来自2023年8月6日至10月14日的10周内的1k对话样本,用于第一阶段的标签分类法生成,以及同一时间段的另外5k对话样本,用于第二阶段的标签分配。

结论

我们的TnT-LLM框架能够使用很少的人工指导或干预,从非结构化文本语料库中生成高质量的标签分类法。在对真实世界AI聊天对话的评估中,我们证明了该方法可以找到非结构化文本中的结构和组织。我们的方法在需要超出表面语义的深层推理时,优于传统的基于嵌入的聚类方法。我们还发现,尽管基于嵌入的聚类仍然有效,但它更容易受到建模选择或输入与用例对齐的影响。我们提倡仔细评估LLMs的潜在用例,平衡性能和效率,同时利用它们与常规机器学习分类器的成熟度、速度和成本相结合的力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/284535.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT(C++)-error LNK2038: 检测到“_ITERATOR_DEBUG_LEVEL”的不匹配项: 值“2”不匹配值“0”

1、项目场景: 在VS中采用QT(C)调试时,出现error LNK2038: 检测到“_ITERATOR_DEBUG_LEVEL”的不匹配项: 值“2”不匹配值“0”错误 2、解决方案: 在“解决方案资源管理器”中选中出现此类BUG的项目,右键-…

【NLP笔记】预训练+微调范式之OpenAI Transformer、ELMo、ULM-FiT、Bert..

文章目录 OpenAI TransformerELMoULM-FiTBert基础结构Embedding预训练&微调 【原文链接】: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 【本文参考链接】 The Illustrated BERT, ELMo, and co. (How NLP Cracked Tra…

提面 | 面试抽题

学习到更新日期面试抽题-1.2案例分析的思维本质2024-3-23 1提面抽屉论述问题的分类 1.1案例分析占总论 1.2案例分析的思维本质

计算机网络相关

OSI七层模型 各层功能: TCP/IP四层模型 应用层 传输层 网络层 网络接口层 访问一个URL的全过程 在浏览器中输入指定网页的 URL。 浏览器通过 DNS 协议,获取域名对应的 IP 地址。 浏览器根据 IP 地址和端口号,向目标服务器发起一个 TCP…

【进阶五】Python实现SDVRP(需求拆分)常见求解算法——离散粒子群算法(DPSO)

基于python语言,采用经典离散粒子群算法(DPSO)对 需求拆分车辆路径规划问题(SDVRP) 进行求解。 目录 往期优质资源1. 适用场景2. 代码调整3. 求解结果4. 代码片段参考 往期优质资源 经过一年多的创作,目前已…

linux文本三剑客 --- grep、sed、awk

1、grep grep&#xff1a;使用正则表达式搜索文本&#xff0c;将匹配的行打印出来&#xff08;匹配到的标红&#xff09; 命令格式&#xff1a;grep [option] pattern file <1> 命令参数 -A<显示行数>&#xff1a;除了显示符合范本样式的那一列之外&#xff0c;并…

C语言中的联合体和枚举

联合体 联合体的创建 联合体的关键字是union union S {char a;int i; };除了关键字和结构体不一样之外&#xff0c;联合体的创建语法形式和结构体的很相似&#xff0c;如果不熟悉结构体的创建&#xff0c;可以看一下我上一篇的博客关于结构体知识的详解。 联合体的特点 联合…

Personal Website

Personal Website Static Site Generators hexo hugo jekyll Documentation Site Generator gitbook vuepress vitepress docsify docute docusaurus Deployment 1. GitHub Pages 2. GitLab Pages 3. vercel 4. netlify Domain 域名注册 freessl 域名解析域名…

【GUI】自动化办公

目录 一、GUI介绍 二、环境安装 三、鼠标移动操作 四、鼠标点击操作 五、拖动鼠标 六、鼠标滚动操作 七、屏幕快照&图像识别基础 7.1 屏幕快照&#xff08;截图&#xff09; 7.2 图像识别 八、键盘控制 一、GUI介绍 GUI自动化就是写程序直接控制键盘和鼠标。这些…

电脑如何关闭自启动应用?cmd一招解决问题

很多小伙伴说电脑刚开机就卡的和定格动画似的&#xff0c;cmd一招解决问题&#xff1a; CtrlR打开cmd,输入&#xff1a;msconfig 进入到这个界面&#xff1a; 点击启动&#xff1a; 打开任务管理器&#xff0c;禁用不要的自启动应用就ok了

【prometheus-operator】k8s监控集群外redis

1、部署exporter GitHub - oliver006/redis_exporter: Prometheus Exporter for Redis Metrics. Supports Redis 2.x, 3.x, 4.x, 5.x, 6.x, and 7.x redis_exporter-v1.57.0.linux-386.tar.gz # 解压 tar -zxvf redis_exporter-v1.57.0.linux-386.tar.gz # 启动 nohup ./redi…

SpringCloud-记

目录 什么是SpringCloud 什么是微服务 SpringCloud的优缺点 SpringBoot和SpringCloud的区别 RPC 的实现原理 RPC是什么 eureka的自我保护机制 Ribbon feigin优点 Ribbon和Feign的区别 什么是SpringCloud Spring Cloud是一系列框架的有序集合。它利用Spring Boot的开发…

力扣面试150 阶乘后的零 数论 找规律 质因数

Problem: 172. 阶乘后的零 思路 &#x1f468;‍&#x1f3eb; 大佬神解 一个数末尾有多少个 0 &#xff0c;取决于这个数 有多少个因子 10而 10 可以分解出质因子 2 和 5而在阶乘种&#xff0c;2 的倍数会比 5 的倍数多&#xff0c;换而言之&#xff0c;每一个 5 都会找到一…

AI时代Python金融大数据分析实战:ChatGPT让金融大数据分析插上翅膀

❤️作者主页&#xff1a;小虚竹 ❤️作者简介&#xff1a;大家好,我是小虚竹。2022年度博客之星评选TOP 10&#x1f3c6;&#xff0c;Java领域优质创作者&#x1f3c6;&#xff0c;CSDN博客专家&#x1f3c6;&#xff0c;华为云享专家&#x1f3c6;&#xff0c;掘金年度人气作…

电脑照片分辨率怎么调?这款dpi修改工具好用

许多考试平台在上传证件照片的时候&#xff0c;大多都会对图片分辨率有具体要求&#xff0c;但是如果遇上手上的图片分辨率达不到要求&#xff0c;那么怎么改图片分辨率呢&#xff1f;可以利用专业的dpi修改工具来处理&#xff0c;比如今天分享的就是一个在线修改图片分辨率的方…

唯众物联网安装调试员实训平台物联网一体化教学实训室项目交付山东技师学院

近日&#xff0c;山东技师学院物联网安装调试员实训平台及物联网一体化教学实训室采购项目已顺利完成交付并投入使用&#xff0c;标志着学院在物联网技术教学与实践应用方面迈出了坚实的一步。 山东技师学院作为国内知名的技师培养摇篮&#xff0c;一直以来致力于为社会培养高…

select , poll, epoll思维导图

目录 1. 总的框架结构 2. select 3. poll 4. epoll 1. 总的框架结构 2. select

自动驾驶轨迹规划之时空语义走廊(一)

欢迎大家关注我的B站&#xff1a; 偷吃薯片的Zheng同学的个人空间-偷吃薯片的Zheng同学个人主页-哔哩哔哩视频 (bilibili.com) 目录 1.摘要 2.系统架构 3.MPDM 4.时空语义走廊 ​4.1 种子生成 4.2 具有语义边界的cube inflation ​4.3 立方体松弛 本文解析了丁文超老师…

解决Animate.css动画效果无法在浏览器运行问题

背景 在开发官方网站的时候&#xff0c;临时更换了电脑&#xff0c;发现原本正常的动画效果突然不动了。 经过 chrome、Microsoft Edge都无法运行。 Animate.css | A cross-browser library of CSS animations. 问题排查 通过审查元素后发现类名是注入并且生效的。 验证 然…

视频素材库在哪里找无水印?推荐几个优质高清视频素材网

在探索创作无限可能的旅程中&#xff0c;每位视频创作者都渴望找到那些能够让作品生动起来、讲述更加动人故事的素材。为此&#xff0c;我继续为你介绍一系列的无水印高清素材网站&#xff0c;它们不仅能为你的视频添加视觉与听觉的魅力&#xff0c;还能帮助你以更高效的方式实…