数据治理与大模型一体化实践

引言:

大模型落地到当前这个阶段,核心关注点还是领域大模型,而领域大模型落地的前提在于两点:需求端,对当前应用的降本增效以及新应用的探索;供给端,训练技术已经有较高的成熟度。

专家介绍:

图片

柏海峰   

滴普科技 Deepexi产品线总裁             

负责企业大模型产品的规划、技术架构设计和应用解决方案的全体系打造,承担公司基础产品核心竞争力及创新力的构建。拥有丰富的企业数字化转型咨询与实施和产品研发管理经验,曾任华为技术研发经理、微软中国顾问、IBM(GBS)咨询总监以及营销云SaaS产品创业经验,服务过中移动、华润、工商银行等多个世界500强企业。


降本增效方面,以机器学习团队的构成为例,滴普科技Deepexi产品线总裁柏海峰介绍道:“传统机器学习或者说小模型的技术落地,对人才的要求很高,但企业往往没有意识到这个问题。具体来说,一般需要构建一个综合性的团队即数据科学团队,团队中需要数据开发工程师、BI工程师、商业分析师、数据科学家、算法工程师等岗位,人力成本很高,除了互联网、金融行业的大型企业,传统企业或中小型企业很难组建这样的团队。”

人才要求高的原因在于,不同岗位的技能差异非常大,相关工具和技术栈也比较分散,比如在某个具体应用领域的AI模型也是采用不同的算法,数据处理层面的pipeline,很多时候自动化的实现也不够完善。总之,不同的钉子只能用不同的锤子,而每一把锤子都不便宜。

因此,尽管小模型对算力、数据要求没有那么高,但要调出好的效果,复杂度还是很高的。除了技术因素,在团队协作和业务适配方面,也还有很多难题。

“大模型带来的首要好处就是,它一下子把技术门槛拉低了,把整个技术栈从输入到输出的链条变得很短,原本需要很多人的数据科学团队,变成只需要一个人加多个Copilot就可以完成,这个人甚至可以是业务部门的,这是非常有想象力的。”

训练技术方面,大模型一般都是先进行self supervised learning,构建通用大模型,然后经过supervised fine-tuning训练,针对特定任务,构建领域大模型初版,最后通过RLHF训练,对齐人类价值,完成类似于人类学习成长的解题、实习、社会工作三步曲。

图片

其中后两步是大模型微调并构建领域大模型的主要步骤,可以把训练前回答问题很散漫的通用大模型Llama 2 13B,训练成专业性很强的chatbot——Llama 2 13B-chat。

图片

微调可以减少大模型的幻觉,增加模型输出的一致性、专业性,并且只需要通用模型训练的千分之一或者万分之一的数据量。

图片

需求端和供给端条件具备,商业模式就有了雏形,那么,企业要发挥的作用就是,效能建设。

▼01.效能建设:数据为道、模型为术

效能建设的核心变量,在于数据治理。但这个“数据”,和大数据时代的“数据”,内涵又有很大不同。

传统的数据治理,针对数据分析场景,主要面向结构化数据,包括主动元数据、AI增强治理等技术,已成比较成熟的体系。

而数据治理的新内涵,面向大模型训练常见的非结构化数据。

非结构化数据治理的首要难题是,高质量的领域数据获取的成本。

大模型微调的典型方法是instruction fine tuning,也就是指令微调,ChatGPT和Llama 2都是指令微调的产物。指令微调采用的数据,就是prompt加上response的问答对,要么由更强大的大模型比如GPT-4生成,要么由人工生成。

进一步的微调强化还可以采用Explanation Tuning——解释微调,这是一种数据增强技术,主要是通过成熟的大模型将对prompt的回答进行step by step的拆解,从而获得更容易理解的数据。这主要是基于这样的经验,即提示大模型一步一步拆解问题并解答,可以显著提高准确率。此外,还存在像Neftune这种通过将数据经过模型添加噪声之后再进行训练,就能显著增加推理准确率的魔法一般的数据增强技术。

图片

除了增强,AI模型也可以反过来帮助将杂乱的非结构化数据进行压缩提炼,提取知识。一般来说,可以在公网中使用Claude2、GPT-4、GPT-3.5(ChatGPT),以prompt的形式将数据进行信息提取,就可以把大量的文档数据变成结构化的知识。如果企业考虑到数据安全的问题,就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型,来处理这些文档。

图片

也就是说,非结构化数据其实在很大程度上正在借助已有的成熟模型来处理,其中包括了小模型和大模型。

“比如说在石化行业的数据有很大部分都是多模态的,包括勘探钻井时收集的图像数据、地震探测中收集的地理数据、安全监控视频的数据、物联网IoT数据等等,非常复杂。这些数据要得到利用,就要通过小模型、大模型的技术从里面提取出显性的、隐性的知识,从而能够让被训练的大模型也能够看懂,这就是非结构化数据的治理方法。”

采用大模型、小模型来代替人力从非结构化数据中提取高质量数据,可以极大降低人力处理的成本。

业内对大模型一直有着这样的质疑声音,认为现在的大模型就是把小模型做过的事情重做一遍,“但实际上,大模型和小模型形成了层次更丰富的模型栈,各自发挥所长,才能把效率最大化。”

不同规模、不同能力的AI模型,仿佛构成了一个内部生态。在训练时,它们之间使用数据进行交流,增强终端大模型的能力。在推理时,大模型又成了决策枢纽,通过prompt的交流来规划任务。

▼02.数据集的平衡:准确率 vs 多样性

数据集质量的评估是多维度的,需要平衡几项因素:灵活性、多样性和准确率。

其中,灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答,这在通用大模型应用中很常见。而领域数据之所以对质量要求高,也是因为对准确率要求很高。

“比如Text to SQL这样的场景,行业属性很强,对准确率要求也很高。目前行业相关应用的准确率普遍不高,ChatGPT也不到80%。而准确率不超过80%,在生产环境是不能应用的。“

此外,考虑到通用大模型的训练数据在灵活性、多样性上最高,准确率最低,小模型则相反,领域大模型其实处于两者之间,因此必须对这几项因素进行平衡。

滴普科技在实践中发现,在训练数据集中如果领域数据集占30%,通用数据集占70%,训练出来的领域大模型更能够兼顾灵活性、多样性和准确性。这个平衡又进一步降低了数据的总体获取成本。

图片

▼03.数据类型:另一个维度

数据类型的划分,除了质量,还可以从知识表示的形式进行划分,不同形式对应不同的训练方法。

数据或任务通常包含两大类型,第一种属于重表示型,比如把对Java线程的解释进行重新表述,第二种属于知识问答型,比如如果不知道授信额度的准确定义,就无法回答一些相关知识问答。

图片

相比之下,第二种任务对模型的要求更高,因为有知识增量,需要对模型参数进行较大的调整。

针对第一种任务,模型微调常采用高效微调的方式,比如LoRA、QLoRA、P-tuning等,保留大模型原有参数,在模型前方或后方添加新的神经网络层以改善推理,成本更低;针对第二种任务,则采用全参微调的方式,对硬件要求高,主要在于内存量,比如Llama 2 13B的全参微调至少需要一块80G内存的A800,Llama 2 7B则至少需要一块24G内存的RTX4090,才能完成训练,并且为防止过拟合,对数据集的要求也更高。

图片

领域大模型偏重知识型任务,一般而言全参微调是必不可少的。但任务本身也分层次,底层是统计分析型,顶层是预测型。统计分析型任务更基础,对准确性要求高,比如文本分类、意图识别、实体关系提取等,预测型相比之下对准确性要求更低一些。

这在Text to SQL任务中也有体现,“统计分析是what happen,预测分析是why happen,后者的准确率一般没法达到100%。”

当然,要求是一方面,收益是另一方面,如果在高级任务中能获得更强的能力,也将成为领域大模型的技术壁垒,为此,在滴普科技的5维模型基础能力评估模型中,把理解偶一、句法分析能力等高级能力维度放到了更高的权重。

图片

 ▼04.产品体系:效率、性能与体验兼顾

所以,效率是一方面,性能是另一方面。企业做产品,除了提升效率来保证落地,也要在保证效率前提下提升性能,才能最大程度上保证用户体验。

比如,Text to SQL产生的SQL语句是让大模型来执行还是让传统工具来执行,也是个问题,”现在常见的大模型演示中,人们都是上传一个数据集,让大模型去分析,但这其实跟真实场景差距太远了。真实场景面对的数据集不是一个5-30M的Excel或CSV文件,而是一个包含几万张表、几十亿条记录的数据湖,在做统计的时候,也会涉及到join这种复杂的表关联计算。真的让大模型面对这样的场景,可能直接挂机。但大模型迟早要面对这个问题,不然仍然是一个实验室的玩具。“

为解决这个问题,首先需要将大模型从GPT-4转向本地大模型,这时准确率可能急剧降低,“40%-50%都算高的。”为了克服底层逻辑的复杂性,滴普科技开发了一个分析引擎MQL(metric query language),其可以统一连接多样的数据库引擎比如MySQL、Hive、ClickHouse等等,“MQL通过灵活的选维度,生成中间的MQL代码,从而高性能地完成加速查询并毫秒级返回。所以,我们的解题思路不是Text to SQL,而是Text to MQL,因为MQL已经把不同数仓的差异性进行了统一。在这个架构下,只要对模型做一定的微调,Text to SQL的准确率是可以达到100%的,而不仅仅是保证生产环境可行。”

这些方法论最终体现在滴普科技的大模型产品规划上。

为兼顾效率、性能和体验,滴普科技规划了完善的产品体系,“我们从多个维度规划了大模型产品体系。第一个维度是算力基础,大模型的预训练、微调的算力开销很大,但客户普遍算力资源不足,同时不知道如何在硬件上部署什么样的大模型,以及如何部署。为此,我们提供的Fast5000E训推一体机,从硬件到模型完全整合到一起提供给客户,客户只需要考虑场景适配和应用就可以了。虽然算力规模不大,远低于互联网大公司的算力,但对于大部分企业而言已经足够。”

然后,在算力基础之上,为了在应用层面提升效率,降低开发门槛,滴普科技开发了FastAGI智能体平台,“可以理解成是一个Agent或智能体开发平台,该平台用于快速构建大模型工具链。我们提供了易于使用的开发工具,可以快速构建智能体能力。目前我们已经有了可以做高级数据分析的Data Agent,有处理非结构化数据的Doc Agent,还有一些用于扩展企业内部应用的Plugin Agent等等。除了这两个核心产品,滴普科技也会基于具体的业务场景帮助客户定制解决方案,比如在Data Agent之上做数据分析的Copilot、供应链智能助手等。“

这些成果体现了滴普科技顺应大模型落地趋势的认知,也反映了滴普科技在延展数据治理内涵上的努力。

数据治理的新趋势,是治理手段的技术化、工具化、一体化,“一方面,对于规模相对较小的客户,传统的自顶向下的数据治理方法,周期长、见效慢。一般来说,都需要先规划,请咨询公司帮忙把相关标准、规范、流程、制度确立,然后再进行内部运营。这种做法在大公司里没问题,但并不适合小公司。另外,大模型的数据治理还涉及非结构化数据的处理,非结构化数据和知识之间有很大的gap,专业门槛也很高。”

因此,滴普科技提倡数据治理要从传统数据治理走向敏捷数据治理。在与Gartner联合发布的《企业级数据治理体系建设指南》白皮书中,滴普科技明确提出,要将数据开发与治理一体化,在开发环节将治理动作执行到位,从根源上保证数据质量,同时在大模型时代将数据治理内涵进一步延伸至非结构化数据,持续提高数据的治理质量、广度和效率。

▼05.领域大模型的成本经济学

滴普科技在大模型落地实践中,将数据治理方法论进一步拓展,对数据质量、特性的评估建立了准确率、多样性、统计型、预测型等维度,进而用于指导领域大模型的高效低成本训练,同时追求性能和用户体验的极致,规划了系统性的产品体系。这不仅是领域大模型的成本经济学,也将成为滴普科技未来持续推进大模型落地应用的重要原则。

- End -

访谈人:柏海峰滴普科技 Deepexi 产品线总裁

与谈人:刘晓坤 DataFun

编辑:刘晓坤 DataFun

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/221894.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023 英特尔On技术创新大会直播 |探索视觉AI的无限可能

2023 英特尔On技术创新大会直播 | 探索视觉AI的无限可能 前言一未来的 AI:释放视觉 AI 真正潜力二AI技术突破、视觉Al挑战及前沿研究创新三全尺度视觉学习全尺度视觉学习示例1.GridConv 实现三维人体姿态估计更高准确率2.KW 预训练及迁移模型性能3.无数据增强稠密对…

linux搭建gitlab

gitlab的介绍 区别于github,github是面向互联网基于git实现的代码托管平台,gitlab是基于Ruby语言实现的git管理平台软件,一般用于公司内部代码仓库。 gitlab组成 Nginx 静态Web服务器Gitlab-workhorse 轻量级的反向代理服务器Gitlab-shell 用…

TikTok获客工具定制开发怎么做?

随着社交媒体的兴起,越来越多的企业开始把目光投向了海外市场,而在这个数字化时代,TikTok已经成为了一个备受欢迎的短视频平台,不仅吸引了大量的年轻用户,也成为了许多企业的新宠。 但是,如何在TikTok上获…

全球移动通信(2G/3G/4G/5G)频谱分布情况

一、概述 随着通信技术的不断发展,全球各国都在积极推进2G、3G、4G、5G网络的建设和应用。根据FCC统计,目前全球移动通信频谱分布如下: 二、分布 (一)俄罗斯 2G:主要使用900MHz和1800MHz两个频段。其中&…

jvm相关命令操作

查看jvm使用情况 jmap -heap PID 查看线程使用情况 jstack pid 查看当前线程数 jstack 21294 |grep -E (#[0-9]) -o -c 查看系统线程数 top -H top -Hp pid #查看具体的进程中的线程信息 使用 jps 命令查看配置了JVM的服务 查看某个进程JVM的GC使用情况 jstat -gc 进程…

算法基础之约数个数

约数个数 核心思想&#xff1a; 用哈希表存每个质因数的指数 然后套公式 #include <iostream>#include <algorithm>#include <unordered_map>#include <vector>using namespace std;const int N 110 , mod 1e9 7;typedef long long LL; //long l…

链接未来:深入理解链表数据结构(一.c语言实现无头单向非循环链表)

在上一篇文章中&#xff0c;我们探索了顺序表这一基础的数据结构&#xff0c;它提供了一种有序存储数据的方法&#xff0c;使得数据的访 问和操作变得更加高效。想要进一步了解&#xff0c;大家可以移步于上一篇文章&#xff1a;探索顺序表&#xff1a;数据结构中的秩序之美 今…

Linux 音视频SDK开发实践

一、兼容性适配处理 为什么需要兼容处理&#xff1f; 1、c兼容处理 主要有ABI兼容性问题&#xff0c;不同ubuntu系统依赖的ABI版本如下&#xff1a; ubuntu 18.04ubuntu 16.04ubuntu 14.04g7.55.44.8stdc版本libstdc.so.6.0.25libstdc.so.6.0.21libstdc.so.6.0.19GLIBCXXG…

org.slf4j日志组件实现日志功能

slf4j 全称是Simple Logging Facade for Java。facade是一种设计模式。 slf4j 是一个抽象程度更高的日志组件&#xff0c;本身并不提供实际的日志功能。实际的日志功能是通过log4j等日志组件实现&#xff0c;而使用者只需要关心 slf4j 给出的API。 slf4j 仅仅是一个为Java程序提…

STM32-ADC模数转换器

目录 一、ADC简介 二、逐次逼近型ADC内部结构 三、STM32内部ADC转换结构 四、ADC基本结构 五、输入通道 六、转换模式 6.1单次转换&#xff0c;非扫描模式 6.2连续转换&#xff0c;非扫描模式 6.3单次转换&#xff0c;扫描模式 6.4连续转换&#xff0c;扫描模式 七、…

QT打包exe文件,在其它电脑里双击exe就可以直接运行

想要不依赖QT环境&#xff0c;在其它电脑里直接双击exe文件就可以运行当前程序。具体打包过程如下&#xff1a; 使用QT编译出release版本的exe release版本运行无误后&#xff0c;需要找到当前构建生成的exe所在文件夹 可以看到具体目录在这里 我在该目录下的bin文件夹里找到…

高速视频采集卡设计方案:620-基于PCIe的高速视频采集卡

一、产品概述 基于PCIe的高速视频采集卡&#xff0c;通过PCIe3.0X8传输到存储计算服务器&#xff0c;实现信号的分析、存储。 北京太速科技 产品固化FPGA逻辑&#xff0c;适配视频连续采集&#xff0c;缓存容量2GB&#xff0c;开源的PCIe QT客户端软件&#xff0c…

在mt4上怎么查看CHFJPY品种的合约细则?

在MetaTrader 4 (MT4) 上查看CHFJPY品种的合约细则的方法如下&#xff1a; FXCM福汇官方个人注册登录流程 1.打开MT4软件并登录到您的交易账户。 2.在MT4界面的"市场观察"窗格中&#xff0c;找到并右键单击"CHFJPY"货币对。如果您无法找到"市场观察…

Transformer Decoder的输入

大部分引用参考了既安的https://www.zhihu.com/question/337886108/answer/893002189这篇文章&#xff0c;个人认为写的很清晰&#xff0c;此外补充了一些自己的笔记。 弄清楚Decoder的输入输出&#xff0c;关键在于图示三个箭头的位置&#xff1a; 以翻译为例&#xff1a; 输…

MyBatis ORM映射

MyBatis只能自动维护库表”列名“与”属性名“相同时的对应关系&#xff0c;二者不同时无法自动ORM 因此需要使用到ORM映射。 共有两种解决办法&#xff1a;1.列的别名 2.结果映射 1.列的别名 在SQL中使用 as 为查询字段添加列别名&#xff0c;以匹配属性名 public List<…

Kafka--Kafka日志索引详解以及生产常见问题分析与总结

一、Kafka的Log日志梳理 ​ 这一部分数据主要包含当前Broker节点的消息数据(在Kafka中称为Log日志)。这是一部分无状态的数据&#xff0c;也就是说每个Kafka的Broker节点都是以相同的逻辑运行。这种无状态的服务设计让Kafka集群能够比较容易的进行水平扩展。比如你需要用一个新…

VSCode报错插件Error lens

1.点击左侧扩展图标→搜索“error lens”→点击“安装” 2.安装成功页面如下&#xff1a; 3.代码测试一下&#xff1a;书写代码的过程中会出现红色提醒或红色报错 4.另外推荐小伙伴们安装中文插件&#xff0c;学习过程中会比较实用方便&#xff0c;需要安装中文插件的小伙伴请点…

详解数据科学自动化与机器学习自动化

过去十年里&#xff0c;人工智能&#xff08;AI&#xff09;构建自动化发展迅速并取得了多项成就。在关于AI未来的讨论中&#xff0c;您可能会经常听到人们交替使用数据科学自动化与机器学习自动化这两个术语。事实上&#xff0c;这些术语有着不同的定义&#xff1a;如今的自动…

安卓手机语音备忘录在哪里?

我们在日常生活和工作中&#xff0c;使用手机记事的时候&#xff0c;不仅需要在备忘录或便签软件中记录文字、图片&#xff0c;有时候我们也需要记录语音或音频文件。那么安卓手机语音备忘录在哪里呢&#xff1f;其实绝大多数的安卓手机中都是没有专门的语音备忘录的&#xff0…

pyCharm 创建一个FastApi web项目,实现接口调用

FastApi和Django区别 我这边演示项目使用的fastApi作为web框架&#xff0c;当然主流一般都是使用Django做web框架&#xff0c;但是Django是一个重量级web框架他有很多组件&#xff0c;如授权&#xff0c;分流等全套web功能。我这边呢只需要有个接口可以被别人调用&#xff0c;…