《Is GPT-4 a Good Data Analyst?》是阿里达摩院发布的一篇探讨大型语言模型是否可能取代数据分析师工作的研究论文。在论文中,作者构建了一个基于GPT-4的端到端数据分析框架,并与专业数据分析师的工作进行对比。目前,这个框架的源代码尚未公开,以下是我对这个框架的理解和简要分析。
- 论文链接:https://arxiv.org/pdf/2305.15038.pdf
- GitHub:https://github.com/DAMO-NLP-SG/GPT4-as-DataAnalyst
该框架包括橙色框内的外部数据,蓝色框内的用户输入,以及绿色框内的GPT-4输出。工作流程如下:
- (蓝色线)GPT-4根据用户提出的问题和Schema生成SQL和可视化代码。
- (橙色线)使用SQL从数据库提取数据并保存为data.txt文件,使用可视化代码输出图表figure.pdf。
- (红色线)查询出与问题相关的额外文本信息。
- (绿色线)GPT-4根据用户的问题、data.txt文件、额外的文本信息生成数据分析报告。
在这个框架中有两个核心的Prompt:
- 输入问题和Schema,让GPT-4生成SQL和可视化代码(图中蓝色线部分)。虽然GPT-4具有强大的推理能力,但在这里可能还需要某种程度的Prompt工程来引导GPT-4对问题进行更深入的思考,可能还需要引入“反思”机制来确保GPT-4能生成正确的代码。
- 输入问题、提取的data.txt文件、外部知识库查询的事实信息,输出一份数据分析报告(图中绿色线部分)。这里可能只有一个简单的指令,如"请根据以上信息输出一份数据分析报告",也可能有更详细的指导,引导GPT-4使用更多的算法或模型来完成这份数据分析报告。
思考:
- 框架非常简洁,但感觉论文中没有详细展示很多细节。而且,这个框架本身还有许多可以改进的地方。
- 根据论文的结论,GPT-4给出的数据分析报告的质量与人类的水平相当。然而,一个大问题是,由于大型语言模型普遍存在的幻觉问题,GPT-4在进行数据分析时难以保证准确性。而保证数据分析的准确性恰恰是数据分析师最重要的基本能力。
- 未来,我们肯定会看到基于大型语言模型(LLMs)的数据分析工具,这些工具将大大降低数据分析的门槛。通过编写Prompt,数据分析师可以完成大部分数据分析工作。