架构简析| 一种端到端的自动数据分析框架

《Is GPT-4 a Good Data Analyst?》是阿里达摩院发布的一篇探讨大型语言模型是否可能取代数据分析师工作的研究论文。在论文中,作者构建了一个基于GPT-4的端到端数据分析框架,并与专业数据分析师的工作进行对比。目前,这个框架的源代码尚未公开,以下是我对这个框架的理解和简要分析。

  • 论文链接:https://arxiv.org/pdf/2305.15038.pdf
  • GitHub:https://github.com/DAMO-NLP-SG/GPT4-as-DataAnalyst

在这里插入图片描述

该框架包括橙色框内的外部数据,蓝色框内的用户输入,以及绿色框内的GPT-4输出。工作流程如下:

  1. (蓝色线)GPT-4根据用户提出的问题和Schema生成SQL和可视化代码。
  2. (橙色线)使用SQL从数据库提取数据并保存为data.txt文件,使用可视化代码输出图表figure.pdf。
  3. (红色线)查询出与问题相关的额外文本信息。
  4. (绿色线)GPT-4根据用户的问题、data.txt文件、额外的文本信息生成数据分析报告。

在这个框架中有两个核心的Prompt

  1. 输入问题和Schema,让GPT-4生成SQL和可视化代码(图中蓝色线部分)。虽然GPT-4具有强大的推理能力,但在这里可能还需要某种程度的Prompt工程来引导GPT-4对问题进行更深入的思考,可能还需要引入“反思”机制来确保GPT-4能生成正确的代码。
  2. 输入问题、提取的data.txt文件、外部知识库查询的事实信息,输出一份数据分析报告(图中绿色线部分)。这里可能只有一个简单的指令,如"请根据以上信息输出一份数据分析报告",也可能有更详细的指导,引导GPT-4使用更多的算法或模型来完成这份数据分析报告。

思考:

  1. 框架非常简洁,但感觉论文中没有详细展示很多细节。而且,这个框架本身还有许多可以改进的地方。
  2. 根据论文的结论,GPT-4给出的数据分析报告的质量与人类的水平相当。然而,一个大问题是,由于大型语言模型普遍存在的幻觉问题,GPT-4在进行数据分析时难以保证准确性。而保证数据分析的准确性恰恰是数据分析师最重要的基本能力。
  3. 未来,我们肯定会看到基于大型语言模型(LLMs)的数据分析工具,这些工具将大大降低数据分析的门槛。通过编写Prompt,数据分析师可以完成大部分数据分析工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/67994.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pandas+ChatGPT超强组合pandas-ai:交互式数据分析和处理新方法

(永久免费,扫码加入) 转自:python专栏 Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。 在人工…

获取硬盘序列号的真正方法!!

最近要获取磁盘的序列号,在网上找了很久发现大部分都是通过diskpart来查询 这种查询方法只是查询的磁盘的id 真正查询磁盘序列号应该使用下面方法:wmic diskdrive get serialnumber 打开cmd后输入 serialNumber下面的就是硬盘序列号

获取笔记本序列号(SN码)命令

CMD,输入命令: wmic bios get serialnumber运行效果如下:

VC++获取系统序列号(SN)附源码

VC++开发常用功能一系列文章 (欢迎订阅,持续更新...) 第30章:VC++获取系统序列号(SN)附源码 源代码demo已上传到百度网盘:永久生效 代码实现了获取序列号,产品型号,产品名称,系统版本,SKU, 产品制造商等信息! 获取的序列号 同命令行模式下的wmic bios get serial…

windows如何软件获取主板序列号等信息

- •联想:Get-WmiObject -Class Win32_ComputerSystemProduct - •Dell&HP:Get-WmiObject -Class Win32_ComputerSystem 也可以通过wmic查询 wmic csproduct get 单独查询某一项的时候只需要在命令后面加要查询的项目名称即可 我们通过命令获取sn又…

QT软件开发: 获取CPU序列号、硬盘序列号、主板序列号 (采用wmic命令)

一、环境介绍 QT版本: 5.12.6 环境: win10 64位 编译器: MinGW 32 二、功能介绍 通过wmic 命令获取CPU序列号、硬盘序列号、主板序列号、CPU名称等信息。 做软件加密、数据加密、软件1机1码绑定的场合比较实用。 WMIC扩展WMI(Windows Management Instrumenta…

媒体报道 | “连接”与“计算”——从物联网迈向智联网星辰大海的两大门槛

在物联网繁荣发展并向智联网迈进的关键阶段,对于“连接”与“计算”都提出了更高要求。模组作为重要的中间件,不仅需要跟随通信代际更迭而推陈出新,更需要持续向更加智能化的方向升级,成为AI与物联网有机结合的载体,使…

港联证券|海外资金悄然调仓增持科技赛道

海外资金正悄然调整其A股持仓。最新的券商研报统计数据显现,相较于今年头,外资关于食品饮料、电力设备及新能源、医药板块的持仓呈现下滑,一起明显提升了计算机、电子板块的装备份额。不过,随着行情持续演绎,外资关于科…

有哪些优秀的科学网站和科研软件推荐给研究生?

ljthyd ,食品科学博士,粮食加工 2032 人赞同 写几个常见的我觉得挺好的网站及软件,也不知道你什么学科,就写一些所有学科基本都用得到的吧。 1、小木虫论坛( 小木虫论坛 - 学术科研第一站)及其APP 这个论坛…

HCIA综合测验PLUS升级版

一、实验拓扑图 二、实验要求: 要求: 1.ISP路由器仅配置IP地址 2.内网基于192.168.1.0/24网段进行IP划分 3.R1/R2之间使用OSPF做到内网全通,单区域 4.PC1-PC4使用DHCP获取地址 5.PC2-PC4可以访问pc5,pc1不行 6.R2出口只拥有一个公…

中国科学院大学(国科大)预推免系统内容无法粘贴解决方案

使用chrome浏览器打开系统,进入要填写内容的页面 接下来是关键:先在文本框里随意填写一些内容,之后点击“下一步”进入下一个页面,再点击“上一步”退回此页面(无法直接编辑文字,必须先输入点啥然后替换&am…

中科院分区表中分区上升的TOP期刊, 最快仅1-2个月录用

《2021年中国科学院文献情报中心期刊分区表》(简称分区表)已于2021年12月20日正式发布,包含基础版与升级版。中科院分区每年年底进行更新,从2022年开始,分区表将只发布升级版结果,不再有基础版和升级版之分…

中国科学技术大学生物信息学考试复习资料(整理版)

持续更新中! QUIZ参考答案: Which gene is the most highly mutated gene in cancer? TP53Which gene is the most highly mutated gene inCOAD/READ? APCName three alignment tools. Bowtie 2 Histat , Tophat BWAWhat is the method for SNP call…

直播分享丨前沿技术讲习班:知识图谱前沿技术与应用(CIPS ATT27)

本文转载自公众号:智源社区助手。 作为大数据时代重要的知识表示方式,知识图谱是人工智能领域构建和应用知识的新阶段,它能够更好地实现大规模数据的认知与推理。同时,知识图谱和深度学习相互协作,是实现具有强鲁棒性、…

2021年中科大研究生考试(资料更新通知)

目前有的科目完成了新一轮的更新, 更新内容包括: 1.历年考题的补充,答案补充 2.复习重点的优化,内容填补 注: 1.如果需要,请已购买支持过资源的重新下载,替换原有的文件即可,无须重新购买&…

清北级别,补助丰厚,这样的中科院信工所你心动了吗?

1、院校介绍 中国科学院信息工程研究所是2011年批准成立的中国科学院直属科研机构。目前拥有信息安全国家重点实验室、信息内容安全技术国家工程实验室等一批国家级和省部级的科研创新平台。主要研究方向包括:密码理论与安全协议、信息智能处理、数据安全、通信与电…

顶刊TIP 2022|武汉大学遥感国重团队提出二元变化引导的高光谱遥感多类变化检测网络BCG-Net

论文标题:Binary Change Guided Hyperspectral Multiclass Change Detection 论文链接:https://ieeexplore.ieee.org/document/10011164 作者单位:武汉大学(Liangpei Zhang,IEEE Fellow) 欢迎关注微信公众号…

【2022年】中科大研究生-考试题、复习资料汇总(往年真题+复习资料)(持续更新中)

【2022年】中科大研究生-考试题、复习资料汇总(往年真题复习资料) 0.前言 致电饭煲们: 大家好,感谢大家私信中的建议以及鼓励,针对私信中资料更新的问题,博主会在此专栏更新最新版的复习资料,…

应对多台一体机向服务器发起请求,造成服务器处理请求崩溃解决方案(Windows)

一、方案描述: 该方案采用Nginx在服务器做负载均衡,优化一体机上请求间隔时间,以及将一体机上同步请求更改为异步请求(虽然这步对该问题没有什么大的关系,但是一体机界面上尽量采用异步请求可以给用户很好的体验)。 不多说,直接上…