1.17组会汇报

STRUC-BENCH: Are Large Language Models Good at Generating Complex Structured Tabular Data?

STRUC-BENCH:大型语言模型擅长生成复杂的结构化表格数据吗?23年arXiv.org

1概括

  这篇论文旨在评估大型语言模型(LLMs)在生成结构化表格数据方面的能力,并提出了一些创新方法来提高模型性能。

问题背景

  • 尽管大型语言模型(如GPT-4)在自然语言处理任务中表现出色,但在生成复杂的结构化数据(如表格、HTML或LaTeX格式)时仍存在挑战。
  • 研究强调当前缺乏系统性的基准和指标来评估模型在这些任务中的性能。

核心贡献

  • 提出了一种新的基准测试(Benchmark),名为STRUC-BENCH,覆盖多种数据格式,包括文本表格、HTML和LaTeX。
  • 设计了一种新方法,FORMATCOT(结构感知的提示优化),用于生成特定格式的提示数据,以改进模型的微调过程。
  • 引入了两个新评价指标:
    • P-Score:通过模型自身对生成内容和格式的相似性进行评分。
    • H-Score:使用启发式规则计算生成表格与目标表格的相似性。

  工作流程概述:我们首先创建原始文本表、HTML表和LATEX表的数据集。随后,LLaMA-7B使用FORMATCOT构建的训练数据进行训练。最后,我们的基准测试验证了当前LLM生成此类表的有效性。

2 问题分析和Benchmark

2.1问题分析

   为了评估LLM将文本描述转换为结构化表格的能力,我们使用了RotoWire数据集,该数据集原本是一个从表格到文本的数据集,我们将其反过来作为一个从文本到表格的任务。在通过对20个样本的审查确保描述包含足够的表格生成信息后,我们发现GPT-3.5和GPT-4的性能有很大的局限性,尤其是在处理复杂结构时。

   在以表格等精确格式生成数据的测试中,GPT-3.5和GPT-4尽管功能先进,却经常出错,MTurk系统性人工注释研究就证明了这一点。图2量化了错误类型,分为“元素错误”、“元素格式错误”、“结构错误”和“结构命名错误”。

图2 人工注释的错误分析

     GPT-3.5仅有3%的输出完全准确,而GPT-4仅有9%略好于GPT-3.5。这些结果表明,GPT架构在设计上存在局限性,尽管它能有效地模仿语言模式,但在需要较长序列的持续结构连贯性的任务中显得力不从心。

2.2 Benchmark Construction(基准建设

研究者们构建了一个名为STRUC-BENCH的基准测试,涵盖了文本表格、HTML和LaTeX格式。他们从RotoWire数据集和The Stack中选择了大于3x3的表格,以确保数据集的多样性和复杂性。STRUC-BENCH包括了对四个流行LLMs(GPT-NeoX-20B、GPT-3.5、GPT-4和Vicuna)的评估。

         

                   表1 STRUC-BENCH数据统计。行数和列数已取平均值。

3方法

3.1数据生成

如图3,提出了FORMATCOT,使用GPT-3.5生成格式指令,这是一种自指导方法,用于生成{数据、指令}对,以达到微调的目的。具体来说,我们对FORMATCOT的提示涉及指导模型准确描述和解释输出表格中呈现的格式元素。

图3:左上角的框表示原始输入,明显缺少对格式的描述。为了明确指示模型理解格式,我们使用位于右侧的FORMATCOT,它生成<FORMAT INSTRUCTION>。左下角的框说明了通过FORMATCOT后LLaMA微调的输入是什么样子。<TEXT>为预期的表输出(原始输入)提供描述性文本,<TABLE>用作参考表(输出),<FORMAT INSTRUCTION>是通过FORMATCOT生成的格式指南(添加到输入中)。

3.2评估指标

提出了P-Score(基于模型的评估)和H-Score(基于启发式的评估)两种新指标,以更准确地衡量LLMs的性能。

P-Score

我们采用两种方法对每个指标进行评分。首先,我们执行基于模型的评估,用两个表查询GPT-3.5,让它分别对内容和格式的相似性进行评分。我们会提示模型在输出分数前执行Chain-of-Thought (CoT) 思维链推理,用预测表和真值表两种顺序查询模型,然后平均分数。以P-Score(提示分数)的形式报告这些结果。

H-Score

此外,我们还采用了手工制作的评分函数来对表格的相似性进行评分。由于表格可以以不同的格式呈现,我们采用了几种启发式方法对表格进行归一化处理并计算其相似性。我们使用Levenshtein距离的平均值和Ratclif-f/Obershelp相似性度量来计算字符串或数据结构之间的相似性。这些启发式归一化指标以 H-Score的形式报告。

4实验

4.1实验设置

评估指标:使用了包括SacreBLEU、ROUGE-L、BERTScore、BARTScore、BLEURT在内的多种传统文本相似度评估指标,以及文章提出的两个新指标:P-Score和H-Score。

评估模型:包括GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna-13B、LLaMA-7B,以及经过微调的LLaMA-7B模型。

数据集:每个项目由三部分组成:指令、输入和输出。生成结果时,将每个项目的指令和输入合并为模型的最终输入。

推理过程:在推理过程中,用户提供自然语言提示,描述任务的格式和内容,以及预期的响应。

4.2人工评估

评估内容和格式质量:通过人工评估,关注内容和格式质量,使用10分制评分。

评估结果:P-Score和H-Score与人类判断有显著相关性,表明这些指标在评估结构化输出方面的有效性和可靠性。内容P-Score显示出最佳的实例级相关性。

4.3实验结果

表2根据几个指标对不同的LLM进行了比较分析。对于“来自原始文本的表格”(Tables from Raw Text),Ours-7B 在每个指标上都优于其他模型。如果不进行微调,Ours-7B的性能会明显下降,尤其是在SacreBLEU、ROUGE-L和BERTScore方面。不过,这些差异很小,7B模型在其他指标上都名列前茅。

这些结果表明,我们的方法表现出了卓越的性能,凸显了微调较小模型超越较大模型的功效。此外,我们还深入分析了基于我们的Mturk注释,将观察到的缺陷归因于几种错误类型。我们还在图5中展示了能力图。

表2:测试集上的自动评估结果,包括五种以前的度量标准和四种建议的度量标准。 w.o.f inetune表示我们还比较了未进行微调的模型的性能,作为一项消融研究。Ours-7B "是经过微调的LLaMA。

  

5局限性

虽然我们进行了全面的分析,但本文对结构化文本生成中LLM的探索还存在一些局限性:

探究表格表示的最佳格式 在这项研究中,我们没有调查哪种表格格式最有效。相同信息的不同呈现方式可能是合理的,而表格规范化策略,如确定将给定事实表格化的最佳方式或如何将多个表格相互连接等,仍有待探索。未来的研究可以对表格规范化进行研究,以确定表格数据结构和表示的最佳策略。

扩大数据集范围  可以探索的数据类型和来源是无穷无尽的。纳入更广泛的数据集可以让模型接触到更广泛的结构格式,最终提高其整体性能。

增强数字推理能力 我们的研究发现,数字推理能力不足是 LLM 面临的挑战之一。研究加强这些模型的数字推理能力的技术可以显著提高它们的性能。

开发先进方法 虽然我们提出的结构感知的指令微调方法(structure-aware instruction tuning method)显示出了很好的效果,但我们还可以开发更先进的技术。例如,未来的工作可以探索将更明确的结构信息纳入模型的方法,或者开发能让模型更有效地学习结构模式的方法。

探索多模态LLMs   随着LLM的不断发展,我们有机会探索多模态模型,这些模型可以以结构化的方式处理和生成文本以及其他形式的数据,如声音或图像。‌‌

目前研一,有相似方向的朋友我们可以交流学习呀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3164.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习实战入门】使用 Pandas 和 OpenCV 进行颜色检测

Python 颜色检测项目 今天的项目将非常有趣和令人兴奋。我们将与颜色打交道&#xff0c;并在项目过程中学习许多概念。颜色检测对于识别物体来说是必要的&#xff0c;它也被用作各种图像编辑和绘图应用的工具。 什么是颜色检测&#xff1f; 颜色检测是检测任何颜色名称的过程…

【k8s面试题2025】3、练气中期

体内灵气的量和纯度在逐渐增加。 文章目录 在 Kubernetes 中自定义 Service端口报错常用控制器Kubernetes 中拉伸收缩副本失效设置节点容忍异常时间Deployment 控制器的升级和回滚日志收集资源监控监控 Docker将 Master 节点设置为可调度 在 Kubernetes 中自定义 Service端口报…

数智化转型 | 星环科技Defensor 助力某银行数据分类分级

在数据驱动的金融时代&#xff0c;数据安全和隐私保护的重要性日益凸显。某银行作为数字化转型的先行者&#xff0c;面临着一项艰巨的任务&#xff1a;如何高效、准确地对分布在多个业务系统、业务库与数仓数湖中的约80万个字段进行数据分类和分级。该银行借助星环科技数据安全…

mac配置 iTerm2 使用lrzsz与服务器传输文件

mac配置 1. 安装支持rz和sz命令的lrzsz brew install lrzsz2. 下载iterm2-send-zmodem.sh和iterm2-recv-zmodem.sh两个脚本 # 克隆仓库 git clone https://github.com/aikuyun/iterm2-zmodem ~/iterm2-zmodem# 进入到仓库目录 cd ~/iterm2-zmodem# 设置脚本文件可执行权限 c…

redis 分布式重入锁

文章目录 前言一、分布式重入锁1、单机重入锁2、redis重入锁 二、redisson实现重入锁1、 添加依赖2、 配置 Redisson 客户端3、 使用 Redisson 实现重入锁4、 验证5、运行项目 三、redisson分布式锁分析1、获取锁对象2、 加锁3、订阅4、锁续期5、释放锁6、流程图 前言 通过前篇…

【git】如何删除本地分支和远程分支?

1.如何在 Git 中删除本地分支 本地分支是您本地机器上的分支&#xff0c;不会影响任何远程分支。 &#xff08;1&#xff09;在 Git 中删除本地分支 git branch -d local_branch_name git branch 是在本地删除分支的命令。-d是一个标志&#xff0c;是命令的一个选项&#x…

关于 Cursor 的一些学习记录

文章目录 1. 写在最前面2. Prompt Design2.1 Priompt v0.1&#xff1a;提示设计库的首次尝试2.2 注意事项 3. 了解 Cursor 的 AI 功能3.1 问题3.2 答案 4. cursor 免费功能体验5. 写在最后面6. 参考资料 1. 写在最前面 本文整理了一些学习 Cursor 过程中读到的或者发现的感兴趣…

使用python+pytest+requests完成自动化接口测试(包括html报告的生成和日志记录以及层级的封装(包括调用Json文件))

一、API的选择 我们进行接口测试需要API文档和系统&#xff0c;我们选择JSONPlaceholder免费API&#xff0c;因为它是一个非常适合进行接口测试、API 测试和学习的工具。它免费、易于使用、无需认证&#xff0c;能够快速帮助开发者模拟常见的接口操作&#xff08;增、删、改、…

【Rust自学】13.2. 闭包 Pt.2:闭包的类型推断和标注

13.2.0. 写在正文之前 Rust语言在设计过程中收到了很多语言的启发&#xff0c;而函数式编程对Rust产生了非常显著的影响。函数式编程通常包括通过将函数作为值传递给参数、从其他函数返回它们、将它们分配给变量以供以后执行等等。 在本章中&#xff0c;我们会讨论 Rust 的一…

无人机技术架构剖析!

一、飞机平台系统 飞机平台系统是无人机飞行的主体平台&#xff0c;主要提供飞行能力和装载功能。它由机体结构、动力装置、电气设备等组成。 机体结构&#xff1a;无人机的机身是其核心结构&#xff0c;承载着其他各个组件并提供稳定性。常见的机身材料包括碳纤维、铝合金、…

Axios封装一款前端项目网络请求实用插件

前端项目开发非常经典的插件axios大家都很熟悉&#xff0c;它是一个Promise网络请求库&#xff0c;可以用于浏览器和 node.js 支持的项目中。像一直以来比较火的Vue.js开发的几乎所有项目网络请求用的都是axios。那么我们在实际的项目中&#xff0c;有时候为了便于维护、请求头…

【c++继承篇】--继承之道:在C++的世界中编织血脉与传承

目录 引言 一、定义二、继承定义格式2.1定义格式2.2继承关系和访问限定符2.3继承后子类访问权限 三、基类和派生类赋值转换四、继承的作用域4.1同名变量4.2同名函数 五、派生类的默认成员构造函数5.1**构造函数调用顺序&#xff1a;**5.2**析构函数调用顺序&#xff1a;**5.3调…

LDD3学习8--linux的设备模型(TODO)

在LDD3的十四章&#xff0c;是Linux设备模型&#xff0c;其中也有说到这个部分。 我的理解是自动在应用层也就是用户空间实现设备管理&#xff0c;处理内核的设备事件。 事件来自sysfs和/sbin/hotplug。在驱动中&#xff0c;只要是使用了新版的函数&#xff0c;相应的事件就会…

Python基于Django的图像去雾算法研究和系统实现(附源码,文档说明)

博主介绍&#xff1a;✌IT徐师兄、7年大厂程序员经历。全网粉丝15W、csdn博客专家、掘金/华为云//InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3…

Python爬虫(5) --爬取网页视频

文章目录 爬虫爬取视频 指定url发送请求 UA伪装请求页面 获取想要的数据 解析定位定位音视频位置 存放视频完整代码实现总结 爬虫 Python 爬虫是一种自动化工具&#xff0c;用于从互联网上抓取网页数据并提取有用的信息。Python 因其简洁的语法和丰富的库支持&#xff08;如…

从AI原理到模型演进及代码实践 的学习二

参考&#xff1a;全面解析&#xff1a;从AI原理到模型演进及代码实践-CSDN博客 训练过程 Transformer仅一个Encoder模块就可以工作&#xff0c;可以处理信息抽取、识别、主体识别等任务&#xff0c;比如 BERT&#xff08;Bidirectional Encoder Representations from Transfor…

利用EXCEL进行XXE攻击

0X00 前言 CTF 选手都清楚我们像 word 文档格式改成 zip 格式后&#xff0c;再解压缩可以发现其中多数是描述工作簿数据、元数据、文档信息的 XML 文件。实际上&#xff0c;与所有 post-Office 2007 文件格式一样&#xff0c;现代 Excel 文件实际上只是 XML 文档的 zip 文件。…

在Mac mini上实现本地话部署AI和知识库

在Mac mini上实现本地话部署AI和知识库 硬件要求&#xff1a;大模型AI&#xff0c;也叫LLM&#xff0c;需要硬件支持&#xff0c;常见的方式有2种&#xff1a;一种是采用英伟达之类支持CUDA库的GPU芯片或者专用AI芯片&#xff1b;第二种是采用苹果M系列芯片架构的支持统一内存架…

鸿蒙UI(ArkUI-方舟UI框架)-开发布局

文章目录 开发布局1、布局概述1&#xff09;布局结构2&#xff09;布局元素组成3&#xff09;如何选择布局4&#xff09;布局位置5&#xff09;对子元素的约束 2、构建布局1&#xff09;线性布局 (Row/Column)概述布局子元素在排列方向上的间距布局子元素在交叉轴上的对齐方式(…

指针的进阶

指针的主题&#xff0c;我们在初级阶段的《指针》章节已经接触过了&#xff0c;我们知道了指针的概念&#xff1a; 1. 指针就是个变量&#xff0c;用来存放地址&#xff0c;地址唯一标识一块内存空间。 2. 指针的大小是固定的4/8个字节&#xff08;32位平台/64位平台&#xff0…