ChatGPT时代对大数据应用的展望

前言:

       2022年底,科技圈有个爆炸性新闻,ChatGPT的诞生,引发了世界范围内的震惊;人工智能在与人交流上有了划时代的技术突破,可以和人深入的理解交流,让许多公司和领域对这项技术有了更多遐想。对于大数据领域,ChatGPT的出现会对这个行业产生什么影响,这是一个值得讨论和分析的话题。

一、ChatGPT提供的技术能力分析

       2022年初,北京冬奥会世界瞩目;三月份,俄乌爆发了一场持续到现在的战争;然后美联储连续6次加息;梅西取得大力神杯;2022年仿佛注定是个不平凡的一年。2022年的最后一个月,科技圈发布了一个在人类历史上都算的上划时代的消息,OpenAI的ChatGPT在自然语言处理上获得了重大的突破。

1.1ChatGpt是什么?

       他是一款AI技术驱动的自然语言处理工具,能够通过学习理解人类语言与人进行对话;可以依据聊天的上下文与人进行互动,像人类一样沟通交流,甚至能解决方案,代码,视频脚本等专业人才,才能做的事。为AIGC(内容自动生成)文本场景满足了极多的应用需求。(AIGC还有图片、语音、视频、3D模型等各种形式内容的发展)

1.2 实现ChatGpt需要什么?

       我不是算法工程师,对其实现细节不了解;但是因为工作原因接触和自己的学习,大致理解了其实现原理;所以从自己浅显的视角分析下ChanGPT要定制化实现,需要做哪些工作。

      这里就不得不提最近很火的大模型,AI技术之前无法实现大规模应用,主要因为算力无法满足大量用户的使用。大模型是使用深度学习框架和强大的计算资源,利用大量数据进行拟合训练,通过被动学习模拟人类认知的方式,而得到数亿到数万亿参数特征的模型。ChatGPT通过深度学习训练了一个大语言模型,将文本信息输入ChatGPT系统后,能通过训练好的模型,返回符合人类语言习惯的回答。

所以想要训练好一个新的大模型或者符合特定应用场景的小模型;

需要以下几个基础的东西:

  • 有特定含义的数据:大量用于应用场景的大模型训练数据,或者已经训练好特征的大模型数据;
  • 调好的算法模型:Transformer预训练语言模型,涉及神经网络、深度学习等算法用于处理数据;
  • 模型训练资源:存储训练数据量级的磁盘,处理数据的内存,以及大量的计算资源,高性能GPU;

所以现阶段想要训练特殊的大模型有两种方式:

一种是基于已有的大模型,按照原有的训练方式添加自己处理好的数据,微调基础大模型,用以适应新的应用场景;

另外一种是有实力的公司,可以按照大模型训练方式,从数据处理到各个阶段设计,重新跑一个全新的模型出来。

二、大模型在大数据领域应用分析

2.1 大数据领域应用需求分析

大数据领域的全生命周期,可以总结为如下三个阶段:

首先搭建大数据基础生态,存算、处理组件;

其次数据处理周期,从采集、处理、分析到数据应用;

最后是定制化的数据应用

2.2 分析大数据每个阶段人工智能应用的可能

2.2.1 ChatGPT在搭建大数据基础生态的可能性分析

这是一个什么需求场景呢?

       比如当你想要安装HADOOP生态的插件,你告诉ChatGpt,然后它就自己网上找安装资源,自动安装,然后遇到异常情况或不能解决的问题,将它需要的条件和需求告诉你,或把原因反馈给你寻求帮助。

      分析一下,这个跟问界的智能停车不就是一样的需求场景吗,你告诉车载智能系统“停车”,它就调用这个功能去执行这个功能。

如何实现呢?

       在大数据基础组件安装这个场景中,在ChatGpt之上包装一层语音文字转换系统,在ChatGpt之下构建一套智能安装运维系统;然后将各种大数据组件的安装功能,集成到安装运维系统之中,通过chatGPT理解需求,将需求对接安装运维系统,理论上是能实现基础生态的安装运维驱动;只是需要构建一套智能安装运维系统,然后将功能接口对接ChatGPT接口,在运维系统之上做需求识别。

2.2.2 ChatGPT在数据处理周期的可能性分析

这个场景需要做什么呢?

       现在这个阶段需要大数据开发工程师理解数据模型和业务需求,然后使用大数据工具,采集,构建模型,处理,存储,分析结果;这个过程核心的是对数据的理解和需求的理解,对需求的理解,通过语言模型是能实现的,但是对数据的理解,从原始数据到需求转换的这个过程,因为数据的不确定性,无法使用大模型训练出一个标准的处理方式。

无法处理的痛点能否解决?

       因为原始数据字段的定义没有特定的含义,所以无法通过大模型,训练出标准的处理方式,理解数据成为大模型的难点。

那有什么方式能解决呢?

       我能想到的,ChatGPT对于数据识别这个环节,先整理下大数据可能的字段含义,然后将所有含义做一张映射表,大模型自定义数据场景语义字段,通过大模型训练的自定义标准字段,构建初始的详情数据;

       让大模型能理解详情数据,当有需求时,可以这样对chatGPT说:“将kafka中app1的数据,构建一个按用户、性别、省份维度分钟级聚合的任务,索引为index_app1写入ES,并部署”。

       好像也能解决,但是这里需要多个操作,第一是自定义字段和语言模型的映射,让语言模型能识别数据scheme;第二有任务自定义(SQL语义自动生成能力);第三任务cicd部署能力;这是基础的三种功能,其他维护,优化监控等。这个周期需要极大的工作周期,基本要从零到一构建。

2.2.3 ChatGPT在数据应用的可能性分析

数据应用有哪几种?

数据分析,告警驱动,搜索,推荐,异常检测等。

对于不同的应用有不同的方案思路,这里选数据分析这个场景做分析

ChatGPT要实现数据分析,需要做什么呢?

分析数据应用,默认将数据处理完成,只是宽表数据;

  • 首先依旧是对数据scheme的理解,
  • 然后将语音转换成文字,
  • 之后将文字需求转换成SQL执行;
  • 最后将计算结果返回给前端用户形成报表。

        这种方式也是最简单大数据应用能接入chatGPT的场景,应为宽表字段可以很简单的更改和定义,可以构建这样一个系统,将语言的中的信息和字段在这个系统入口处分类;然后包装查询统计SQL,将语言里提到的维度填充到SQL里,获取执行返回结果,前端用BI报表渲染就可以实现应用的跨用户使用。

       这种方式是目前最简单能落地的应用,虽然通过语音系统构建也可以简单构建,但是引入chatGPT,可以增加识别能力。

三、结语

       ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。

       工作不是存量市场,就像电脑刚出现的时候以为好多人将没有工作,但是围绕电脑的工作却创造出更多价值,提供了更多的工作岗位;大数据也如此,到目前为止,大数据行业对于数据的应用如同老牛犁地,应用只是加速传统技术的处理能力和有限的大数据挖掘应用,当释放了数据领域者的生产力,相信大数据领域的工作者可以挖掘出更多有价值的数据黄金。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/242741.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS之sqlite数据库的使用

从API Version 9开始,鸿蒙开发中sqlite使用新接口ohos.data.relationalStore 但是 relationalStore在 getRdbStore操作时,在预览模式运行或者远程模拟器运行都会报错,导致无法使用。查了一圈说只有在真机上可以正常使用,因此这里…

Docker进阶篇-安装MySQL主从复制

一、MySQL主服务器 1、新建主服务器容器实例3307 docker run -p 3307:3306 \--name mysql-master \--privilegedtrue \-v /mydata/mysql-master/log:/var/log/mysql \-v /mydata/mysql-master/data:/var/lib/mysql \-v /mydata/mysql-master/conf:/etc/mysql \-e MYSQL_ROOT_…

String在VS与Linux下的区别

目录 一、string的成员 1.VS 2.Linux 二、string的扩容机制 1. VS 2.Linux 一、string的成员 string是C标准库中的一个类模板,用于表示和操作字符串 string在 Windows 与 Linux 中的成员不是相同的 1.VS 4个成员:_str , _size , _capacity 和…

RHEL8_安装软件的方法和系统初始化

参考: 资料来自下面链接: 第1章 动手部署一台Linux操作系统 | 《Linux就该这么学》 (linuxprobe.com)https://www.linuxprobe.com/basic-learning-01.html 一、安装软件的方法 RPM、Yum、DNF 常用的RPM软件包命令 命令 作用 rpm -ivh filename.rpm安装…

proteus8.15安装教程

proteus8.15安装教程 1.管理员运行 2.一直NEXT到这一步,需要注意,一定要选这一个 3.选中后出现 4.一直下一步到更新 这边结束后准备激活: 1.安装激活插件,先关闭防火墙 2.下一步 3.最后,将数据库放在根目录下 …

【总结】Linux命令中文帮助手册

1. 为什么要总结Linux命令中文帮助手册 Linux 官方并不提供中文的 help、man 帮助手册。网络上已有的前人翻译过的中文手册版本比较老,且翻译存在误差。从记忆角度来看,Linux 很多命令都不一定记得住详细的用法,易遗忘,缺少经验总…

PIG框架学习3——Redisson 实现业务接口幂等

零、前言 ​ 业务接口幂等问题是在开发中遇到的,如果对业务接口代码不进行幂等控制,并且在前端没有对请求进行限制的情况下,可能会出现多次对接口调用,导致错误异常的发生。就上述情况,对PIGX自带的业务接口幂等实现进…

渐进式哈希和SpringBoot集成redis

一)渐进式遍历 1)keys可以一次性的把整个redis中的所有的key都获取到,keys *,这个操作比较危险可能会一下子得到过多的key,从而会造成redis阻塞,因为redis是一个单线程的服务器,通过渐进式遍历,可以做到既能…

uni-app使用HBuilderX打包Web项目

非常简单,就是容易忘记 一、找到manifest.json配置Web配置 二、源码视图配置 "h5" : {"template" : "","domain" : "xxx.xx.xx.xxx","publicPath" : "./","devServer" : {&quo…

数据库防水坝是什么?有什么作用?有哪些优势?

数据库是公司重要IT资产,是公司数据存储、数据整合、数据备份等重要载体。所以保障数据库安全至关重要。目前保障数据库安全产品较多,例如堡垒机、防火墙、数据库防水坝等等。今天我们就先来简单了解一下数据库防水坝是什么?有什么作用&#…

C语言从入门到实战——编译和链接

编译和链接 前言一、 翻译环境和运行环境二、 翻译环境2.1 预处理(预编译)2.2 编译2.2.1 词法分析2.2.2 语法分析2.2.3 语义分析 2.3 汇编2.4 链接 三、 运行环境 前言 在C语言中,编译和链接是将源代码转换为可执行文件的两个主要步骤。 编…

SpringBoot 3.1.7 集成Sentinel

一、背景 我的项目需要引入限流,降级,熔断框架,由于 Spring Cloud 2022.0.4 已经不再支持 Hystrix,Spring Cloud 提供了替代方案,如 Resilience4j,可以使用它来替换 Hystrix。但是网上搜了一下国内Resilie…

多级缓存

一、多级缓存 传统的缓存策略一般是请求到达Tomcat后,先查询Redis,如果未命中则查询数据库,如图: 存在下面的问题: •请求要经过Tomcat处理,Tomcat的性能成为整个系统的瓶颈 •Redis缓存失效时&#xff…

关于ElasticSearch,你应该知道的

一、集群规划优化实践 1、基于目标数据量规划集群 在业务初期,经常被问到的问题,要几个节点的集群,内存、CPU要多大,要不要SSD? 最主要的考虑点是:你的目标存储数据量是多大?可以针对目标数据…

鸿蒙开发系列教程(五)--ArkTS语言:组件开发

1、基础组件 组件API文档:https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V2/84_u58f0_u660e_u5f0f_u5f00_u53d1_u8303_u5f0f_uff09-0000001427744776-V2 查看组件API 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 容…

去掉element-ui的el-table的所有边框+表头+背景颜色

实例: 1.去掉table表头(加上:show-header"false") <el-table:data"tableData":show-header"false"style"width: 100%"> </el-table> 2.去掉table所有边框 ::v-deep .el-table--border th.el-table__cell, ::v-deep .el…

flask开发框架入门实战(2)

模板优化 自定义错误页面 为了引出相关知识点&#xff0c;我们首先要为 Watchlist 编写一个错误页面。目前的程序中&#xff0c;如果你访问一个不存在的 URL&#xff0c;比如 /hello&#xff0c;Flask 会自动返回一个 404 错误响应。默认的错误页面非常简陋&#xff0c;如下图…

第十二站(20天):C++泛型编程

模板 C提供了模板(template)编程的概念。所谓模板&#xff0c;实际上是建立一个通用函数或类&#xff0c; 其 类内部的类型和函数的形参类型不具体指定 &#xff0c;用一个虚拟的类型来代表。这种通用的方式称 为模板。 模板是泛型编程的基础, 泛型编程即以一种独立于任何特定…

Intel开发环境Quartus、Eclipse与WSL的安装

PC &#xff1a;win10 64bit 安装顺序&#xff1a;先安装Quartus 21.4&#xff0c;接着Eclipse或者WSL&#xff08;Windows Subsystem for Linux&#xff09;&#xff0c;Eclipse与WSL的安装不分先后。 为什么要安装Eclipse&#xff1f; 因为Eclipse可以开发基于Nios II的C/…

大中台,小前台:打造快速响应市场的企业竞争力

2015年&#xff0c;大家都听过“大中台、小前台”战略&#xff0c;听上去很牛。“大中台、小前台”背后完成了一件事情&#xff1a;把阿里巴巴和支付宝所有的基础技术全部统一到阿里云上&#xff0c;这是个重大的技术变革。为了完成这个技术变革&#xff0c;阿里巴巴做了非常好…