大模型在数据分析场景下的能力评测|进阶篇

做数据分析,什么大模型比较合适?

如何调优大模型,来更好地做数据计算和洞察分析?

如何降低整体成本,同时保障分析体验?10月25日,我们发布了数据分析场景下的大模型能力评测框架(点击查看:Kyligence LLM Benchmark for Data & Analytics)

该评测发出后,我们陆续收到多家客户、大模型厂商等对于评测大模型的询问。在过去的近一个月,我们又陆续新增了一批大模型作为评测对象,如 GPT-4、文心一言 Ernie-Bot-turbo、通义千问 Qwen-14B、Minimax 等,初步得出以下结论,并在下文第 4 章节给出相应的优化建议。

  • GPT-4 综合成绩最强,国产大模型表现已经基本不弱于 GPT-3.5
  • 不同大模型在“数据计算”方面的差异较大,且参数越高,表现越好
  • 多数大模型在“数据洞察”方面的表现接近,一些低参数大模型的表现依然强劲,这意味着可以通过“大数据+大模型”结合来实现低成本的 AI 数据分析场景

图 1 大模型在数据分析场景下的能力评测结果,2023-11

#01 评测坐标系

从普遍意义上来讲,“数据分析”的定义为:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。我们从这个定义出发,把数据分析拆解为如下两个关键过程:数据计算数据洞察

1.1 数据计算

数据计算过程指在用户给定分析指令的前提下,由大模型进行指令解读,并识别用户的分析意图、匹配业务指标,并从数据库或其他数据源获取指标数值的过程。

值得说明的是,从外部获取数据一般有两种方式:一种是传统的 Text-to-SQL 即大模型生成 SQL 语句访问原始数据库,并完成取数、计算等工作,另一种是大模型生成 API 请求来访问指标平台,以直接获取指标结果。我们在 Kyligence Copilot 使用第二种方式,因为在这种方式下,所有的指标结果是由指标平台提供的,而不是大模型计算,从而确保指标数据准确性,避免“幻觉”的出现,同时保障企业内的指标口径一致性和治理合规。

对于大模型而言,这个过程重点考察两个方面:一是对业务问题的理解和意图识别能力,二是生成代码以访问外部系统的能力。

1.2 数据洞察

数据洞察过程指在用户拿到指标数据之后,开展一系列分析、洞察动作,并获得洞察结论。在传统数据分析的模式下,很多数据分析师会以 Excel 或 CSV 格式的文件形式获取指标数据,并由此开始进行可视化作图、归因分析等操作。

对于大模型而言,这个过程重点考察两个方面:一是以专业的语言表达和润色能力来解读所发现的洞察信息,二是通过可视化、文字总结等形式对统计数据进行可视化展现,向用户证明和支撑自己所发现的洞察。

#02 评测方案

在上个月发布的《大模型在数据分析场景下的能力评测》中,我们提供了 7 个评测维度。在本文中,我们将从数据计算、数据洞察这两个方面对这 7 个评分维度进行归类,并通过这 7 个维度的评分来反映各个大模型在这两方面的能力表现。

关于这 7 个维度的介绍,本文不再重复介绍,如需了解详情,请查阅《大模型在数据分析场景下的能力评测》文章。

图 2 评测坐标系的 7 个评分维度

在本轮评测工作中,我们新增了以下大模型进行评测:Azure OpenAI GPT-4、通义千问 Qwen-14B、文心一言 Ernie-Bot-turbo、MiniMax 等。另外,由于测试数据集更新迭代,我们也对上一轮评测的大模型进行重跑,包括 Azure OpenAI GPT-3.5-Turbo、智谱 AI 的 ChatGLM-Pro 和 ChatGLM-Std、百川智能 Baichuan2-53B 和 Baichuan2-13B、开源 Falcon-40B 和 LLaMA2-13B 等大模型。

#03 评测结果

根据《大模型在数据分析场景下的能力评测》提到的 7 个评分维度,我们对上述所有的受测大模型进行评测,并整理分数如下:

图 3 大模型在数据分析场景下的能力评分

我们根据图 2 所示的分类关系,把这 7 个评分维度投射到由数据计算、数据洞察两个角度组成的评测坐标系中,可以很直观的看到不同大模型的能力分布情况(X/Y 坐标代表该分类各维度评分的平均值,气泡大小代表综合能力评分):

图 4 大模型在数据分析场景下的能力评测结果,2023-11根据以上测试结果,我们初步得出以下结论:

  • GPT-4 综合成绩最强,国产大模型表现已经基本不弱于 GPT-3.5
  • 从数据计算的角度看,不同大模型表现差异很大;参数越高,表现越好
  • 从数据洞察的角度看,多数大模型表现接近,一些低参数大模型的表现依然强劲,这意味着可以通过“大数据+大模型”结合来实现低成本的 AI 数据分析场景

#04 结果分析和优化建议

4.1 从“数据计算”角度

首先,我们从数据计算方面对评测结果进行分析。如结论中提到,不同大模型表现差异很大,尤其是参数较高时表现较好。但参数越高的模型往往需要较高的算力成本,在企业实际落地时往往需要综合考虑收益和成本比例(ROI)。

图 5 优化大模型在“数据计算”方面的表现

因数据计算过程主要是自然语言理解以及代码生成过程,是比较通用的大模型能力,对专业的数据分析能力涉及不多。如图 5 所示,如希望在优化模型表现的同时兼顾算力成本,可以通过集成第三方数据服务平台的方式,如与指标平台实现更紧密的集成。即企业通过指标平台定义并管理所有业务指标的名称、计算逻辑等,并通过 API 方式供应用端获取指标定义和指标数据。在这种方式下,大模型进行指标匹配、代码生成等的难度将降低,有助于保障整体准确度。除此之外,所有的指标数据将由指标平台计算得出,而不是大模型自行计算,这也将在数据计算准确度和指标口径统一管理方面带来显著增强。

4.2 从“数据洞察”角度

其次,我们从数据洞察角度对评测结果进行分析。如结论中提到,多数大模型表现接近,个别模型表现欠佳。因为数据洞察过程是分析数据并产生结论的核心过程,有较强的专业性。我们猜测这和模型训练时使用的语料有关,因为数据洞察场景的 Prompt 输入和输出要求较为专业,且和相应的业务分析场景有关,而大模型训练时的语料库主要来自互联网,和数据分析场景的语料类型可能有较大差异。

图 6 优化大模型在“数据洞察”方面的表现

如图 6 所示,如希望提升模型在数据洞察方面的表现,可以通过增加更多数据分析场景的语料输入对模型进行微调,从而优化大模型在该场景下的效果。

#05 已知限制和情况说明

  • 本次评测数据集基于 Kyligence Copilot 使用场景总结,可能不适用于企业所有数据分析场景

  • 本次评测基于各大模型服务的默认配置,未进行任何调参;值得说明的一点是,对大模型服务进行调优可能进一步优化评测结果

  • 本次评测针对不同大模型所使用的算力情况如下:
    • GPT-4 / GPT-3.5-Turbo / ChatGLM / Baichuan2-53B / MiniMax / 文心一言均基于厂商提供的 SaaS 服务,算力资源不详
    • Falcon-40B / Baichuan2-13B / LLaMa2-13B / 通义千问 Qwen-14B 是基于对应的开源模型在实验室私有化部署了本地服务,算力为 4 块 NVIDIA RTX 4090 24GB 显卡
  • 因算力有限等因素,我们尚未对 LLaMa2-70B 完成评测;同时,我们期待在开源大模型有更好中文支持的情况下再次进行评测
#06 结语

在本轮评测中,我们从数据计算、数据洞察两个方面对大模型评测结果进行了归类,并提出不同方向的优化建议。如果您正在对大模型进行技术选型,或正在探索大模型在数据分析场景的应用落地与优化方案,欢迎与我们联系沟通。

11月21日,Kyligence 将举办线上数智论坛暨产品发布会,我们特邀了来自德勤、智谱 AI、百川智能、阿斯利康等嘉宾分享大模型 + 大数据的最新探索与实践,届时我们将发布 AI 数智助理 Kyligence Copilot 支持国产化大模型以及智能一站式指标平台的企业级能力与实践。欢迎大家点击「链接」查看完整议程并报名参会👇

关于 Kyligence

跬智信息(Kyligence)由 Apache Kylin 创始团队于 2016 年创办,是领先的大数据分析和指标平台供应商,提供企业级 OLAP(多维分析)产品 Kyligence Enterprise 和一站式指标平台 Kyligence Zen,为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。

Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户,包括建设银行、平安银行、浦发银行、北京银行、宁波银行、太平洋保险、中国银联、上汽、长安汽车、星巴克、安踏、李宁、阿斯利康、UBS、MetLife 等全球知名企业,并和微软、亚马逊云科技、华为、安永、德勤等达成全球合作伙伴关系。Kyligence 获得来自红点、宽带资本、顺为资本、斯道资本、Coatue、浦银国际、中金资本、歌斐资产、国方资本等机构多次投资。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/194649.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Web】在前端中,HTML<meta>标签

<meta>实例 <head><meta name"description" content"免费在线教程"><meta name"keywords" content"HTML,CSS,XML,JAVASCRIPT"><meta name"author" content"runoob"><meta char…

静态共享代理和静态独享有哪些区别?怎么选择?

在软件开发中&#xff0c;静态共享代理&#xff08;Static Proxy&#xff09;和静态独享&#xff08;Monostatic&#xff09;是两种常见的软件设计模式。这两种模式在实现方式、使用场景以及优缺点上存在一定的差异&#xff0c;下面将详细介绍它们的区别以及如何进行选择。 一、…

CTF-PWN-堆-【前置知识】

CTF-PWN-堆 堆申请堆块main_areanabrk&sbrk函数mallocfreefree后top chunk 堆 由malloc alloc realloc 函数分配 chunk的前指的是地址低的&#xff0c;chunk的高指的是地址高的 申请堆块 ptmalloc2堆管理器&#xff1a; 通俗的讲就是相当于一个”中间商”&#xff0c;在…

鸿蒙原生应用开发-折叠屏、平板设备服务卡片适配

一、多设备卡片适配原则 为不同尺寸的卡片提供不同的功能 在卡片开发过程中请考虑适配不同尺寸的设备&#xff0c;特别是在折叠屏和平板设备上&#xff0c;设备屏幕尺寸的变化直接影响了卡片内容的展示。请发挥想象力设计具有自适应能力的卡片&#xff0c;避免在卡片内容不做…

清理mac苹果电脑磁盘软件有哪些免费实用的?

苹果电脑是一款非常流行的操作系统设备&#xff0c;其稳定性和性能一直备受用户的喜爱。然而&#xff0c;随着时间的推移&#xff0c;我们使用电脑的过程中可能会发现磁盘上存储的数据越来越多&#xff0c;这不仅占用了宝贵的硬盘空间&#xff0c;还可能导致电脑运行变慢。因此…

shell脚本学习06(小滴课堂)

fi是结束循环的意思。 这里脚本1&#xff1a;代表着脚本和1.txt文件处于同一目录下。 脚本2为绝对路径的写法。 在使用./进行启动时&#xff0c;我们需要给文件赋予执行权限。 把文件名改为2.txt: 什么都没有返回&#xff0c;说明文件已经不存在。 可以使用脚本2 if else的方式…

Elasticsearch 8.9 Bulk批量给索引增加数据源码

一、相关API的handler二、RestBulkAction&#xff0c;组装bulkRequest调用TransportBulkAction三、TransportBulkAction 会把数据分发到数据该到的数据节点1、把数据按分片分组&#xff0c;按分片分组数据再发送到指定的数据节点(1) 计算此文档发往哪个分片1)根据索引是否是分区…

吉利银河L6顶配 官方OTA升级降低充电速度

互联网是有记忆的 你宣传充电口 卖出去又更新降低速度 属于诈骗 吉利新车上市两个月官降1w,希望大家引以为戒,可以买,但是刚出别着急做韭菜

免费的快速手机文件解压APP,快冲

各位小伙伴们大家好&#xff0c;今天我要介绍一款手机上必备的神奇工具&#xff01;你有没有经常遇到需要解压文件情况呢&#xff1f;还在为不知道用哪个软件而烦恼吗&#xff1f;别担心&#xff0c;我给你带来了解决方案 &#xff0c;就是这一款免费的解压精灵。 解压精灵是一…

java接收前端easyui datagrid传递的数组参数

这篇文章分享一下怎么在easyui的datagrid刷新表格时&#xff0c;在后端java代码中接收datagrid传递的数组参数。 数组来源于技能的tagbox&#xff08;标签框&#xff09;&#xff0c;tagbox和combobox的区别是tagbox可以选择多项。 标签框渲染的代码为 $("#skill_ids"…

36、Flink 的 Formats 之Parquet 和 Orc Format

Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…

Kafka 集群如何实现数据同步?

哈喽大家好&#xff0c;我是咸鱼 最近这段时间比较忙&#xff0c;将近一周没更新文章&#xff0c;再不更新我那为数不多的粉丝量就要库库往下掉了 T﹏T 刚好最近在学 Kafka&#xff0c;于是决定写篇跟 Kafka 相关的文章&#xff08;文中有不对的地方欢迎大家指出&#xff09;…

微机原理_10

一、单项选择题(本大题共15小题,每小题3分,共45分。在每小题给出的四个备选项中,选出一个正确的答案。&#xff09; 1,将二进制数110110.01转换为十六进制为(&#xff09; A. 66.1H B. 36.4H C. 66.4 D. 36.2 2,一台计算机的字长是4个字节,含义是(&#xff09; A.能处理的最大…

DocCMS keyword SQL注入漏洞复现 [附POC]

文章目录 DocCMS keyword SQL注入漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 0x06 修复建议 DocCMS keyword SQL注入漏洞复现 [附POC] 0x01 前言 免责声明&#xff1a;请勿利用文章内的相关技术从事非法测…

【前沿学习】美国零信任架构发展现状与趋势研究

转自&#xff1a;美国零信任架构发展现状与趋势研究 摘要 为了应对日趋严峻的网络安全威胁&#xff0c;美国不断加大对零信任架构的研究和应用。自 2022 年以来&#xff0c;美国发布了多个零信任战略和体系架构文件&#xff0c;开展了多项零信任应用项目。在介绍美国零信任战略…

mybatis之主键返回

1.在mybatis的xml中加入 <insert id"insertUser" keyProperty"id" useGeneratedKeys"true" parameterType"com.UserAndOrder"> insert into Tuser(userName,passWord) values (#{userName},#{passWord} ) </insert&…

ASP.NET限流器的简单实现

一、滑动时间窗口 我为RateLimiter定义了如下这个简单的IRateLimiter接口&#xff0c;唯一的无参方法TryAcquire利用返回的布尔值确定当前是否超出设定的速率限制。我只提供的两种基于时间窗口的实现&#xff0c;如下所示的基于“滑动时间窗口”的实现类型SliddingWindowRateL…

DDR3 的相关设计规范(个人总结)

文章目录 阻抗控制布局布线电源处理时序要求 DDR3 的相关设计规范(个人总结) 阻抗控制 DDR3 要严格控制阻抗&#xff0c;单线 50ohm&#xff0c;差分 100ohm&#xff0c;差分一般为时钟、DQS。在走线过程中&#xff0c;尽量减小阻抗跳变的因素&#xff0c;比如:换层(无法避免…

机器视觉公司怎么可能养我这闲人,连软件加密狗都用不起,项目都用盗版,为什么​?

正版价值观我是认同的&#xff0c;但是同行也不用软件加密狗&#xff0c;你让我承担过多的设备成本&#xff0c;终端客户不愿意承担加密狗的成本&#xff0c;公司更不愿意去承担&#xff0c;许多机器视觉公司“零元购”&#xff0c;机器视觉软件加密狗都用不起&#xff0c;项目…

MATLAB 状态空间设计 —— LQG/LQR 和极点配置算法

系列文章目录 文章目录 系列文章目录前言一、相关函数 —— LQG/LQR 和极点配置算法1.1 LQR —— lqr 函数1.1.1 函数用法1.1.2 举例1.1.2.1 倒摆模型的 LQR 控制 1.2 LQG —— lqg() 函数1.2.1 函数用法1.2.2 举例 1.3 极点配置 —— place() 函数1.3.1 函数用法1.3.2 示例1.3…