王琤:当数据治理遇上ChatGPT

以ChatGPT为代表的人工智能等技术正在“狂飙”,为全球带来一场翻天覆地的变革。4月27日在2023数据治理新实践峰会上,Datablau数语科技创始人&CEO王琤先生以《数据治理新实践与人工智能》为主题进行了分享,与参会同仁共同探索当数据治理遇上ChatGPT,这一轮AI技术浪潮将会与数据治理发生哪些“化学反应”。

以下为王琤先生的演讲实录,为了方便阅读,小编做了一些字句修改和文本优化。

大家好,首先我先代表数语感谢各位莅临2023年数据治理新实践峰会!今天的主要话题是围绕ChatGPT,是人类历史的一个拐点。

数据要素为什么会成为新型生产要素?

首先我们先看看数据要素这个事,目前在国内认为它是新型生产要素,这是为什么?我更多的是从经济发展的三阶段来解读,第一个阶段是农业经济,核心要素是劳动力和土地;第二个阶段是工业经济,核心要素是资金、技术等,第三个阶段也就是咱们说的数字经济,核心的变化在于前两个阶段侧重于“供需方”,也就是企业、顾客双方进行资源配置和价值交换,但当数据融入以后就会生成更多内容,就出现了AIGC(AI generate content),这意味着更多的企业、顾客、利益相关者共创价值。

从企业场景的角度来说,也就是数字孪生,就是把内容信息进行数字化,进而去做一些数字孪生和预测推演,进而产生对应的价值,数字孪生的1.0版本我们叫角色最优化,2.0版本叫平行世界,也就是将数字化完全做一个数字孪生提前来Run,来预测现实世界有可能会发生什么,反馈给现实世界来提前进行优化,我认为这才是数据作为生产要素被引进来的真正价值。

在这里插入图片描述

技术驱动数字化发展带了什么影响?

接下来我将引用几张最近很火的陆奇博士的课件。从劳动力的角度来讲,在农业社会,农民和地是关联在一起的,是强耦合关系;之后的工业社会,劳动力开始流动,生产的产品也是流动的;到现阶段在数字化进程中,其实更多是服务经济,里面的核心角色是程序员、设计师、分析师等;从数字信息无处不在到数字化模型无处不在,这是个大拐点。所以大家都在预测说,可能模型会把程序员、设计师、分析师等都替换掉,这个是当前社会比较焦虑的一件事。等模型更加成熟后,主要的工作可能是去做创业者或者高端科学家。

在这里插入图片描述

陆奇博士将人类环境分为三个体系。第一个是感知-信息系统,也就是信息无处不在;第二是思考-模型系统,其实就是我们的知识模型,第三个是实现-行动系统。信息系统早期像IBM、微软等都是在感知和采集信息,可以看到其中的拐点是 Google 将人类获取信息的成本基本拉为0,当然信息系统未来会长期存在。当前我们正处于第二个思考-模型系统 Open AI拐点处,ChatGPT 3.5带来了质变,我们称之为新范式,它将我们获取知识(思考)的成本拉得很低,其本质就是把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化。最后的行动系统更多讲的是人跟物理世界的转换。

在这里插入图片描述

关于把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化,这两天有个真实发生的例子。在Datamodeling开源模型社区的群里,有人发起针对LD-FSM模型中当事人的关联关系设计的讨论。

在这里插入图片描述

大家的回复七嘴八舌,各种角度都有,但始终没有一语道破天机的感觉。这时有人开始把ChatGPT的回应贴了上来。

首先,给了ChatGPT一个上下文,“你是一个资深的数据建模专家”,但这版回复感觉还是不太对路子。
在这里插入图片描述
于是,要求ChatGPT再次回答。这次的回答已经相当靠谱了。基本可以达到行业专家的水准。

但这里面还有一些模糊的表述,如“当事人关系在建模中重点描述的是当事人之间的相互作用”,这个相互作用是指什么?于是,再要求ChatGPT对此进行澄清。ChatGPT给了个例子把这个问题阐述的很清楚。
在这里插入图片描述
最后,让ChatGPT给予再次澄清和举例。

在这里插入图片描述
大家看看这是不是将获取知识(思考)的成本拉得很低,背后就是把数据转化为知识表达,通过推理和归纳来实现预期记忆和泛化。

我们之前要搞定这个事可能要请个模型专家来做个咨询项目,前后得折腾几个月花几万、几十万,现在成本几乎是零。 这就像当年google推出搜索引擎,我们获取信息的成本降为零是一样的。所以,我们当前站在一个大的拐点上。

ChatGPT 成功的核心要素是什么?

ChatGPT的GPT模型是基于Transform序列式的模型架构,相较于之前的知识图谱等方法,Transform序列式的模型架构可以更高效地把大量的信息做压缩,这是最核心的突破点;其次英语是全球性的语言,ChatGPT信息的量其实是全世界的人都在做贡献。如果放在中文环境,可能面临的挑战还是蛮多的,因为像是西方的文化本身是有推演演绎的哲学逻辑,但中文更复杂,理解难度大,所以相对于英文语料来说差了一个数量级。从中文的角度来讲,未来这些信息的抓取和训练,到底把英文的信息转成中文的,还是从中文直接就开始去做起?这个是一个比较大的十字路口。

在这里插入图片描述

人工智能到底可以发展到什么程度?

以ChatGPT为代表的人工智能技术具有强大的能力。一般我们讲人工智能发展分为三个阶段,AlphaGo战胜人类国际象棋大师的阶段属于弱人工智能,目前阶段基本上快到强人工智能,跟人脑的水平差不多,甚至超过人脑,再之后就是超人工智能,就是已经到把人类的这些知识都能覆盖到的阶段,有人预测到2030年或2040年可能实现超人工智能。

美国的益智问答大奖赛,人类冠军跟机器去PK,很难赢。所以像益智问答、算数,死记硬背等这些早都被人工智能Cover到了。然后就是像自动驾驶,语音的识别、视觉、翻译等这些几乎都可以实现人工智能,但像科学、像设计,像写书、像艺术这些东西短期人工智能还难以企及的,所以有一些讨论到底人工智能可以发展到什么程度,这里要提一个有意思的理论—约翰·希尔勒的“中文屋实验”,未来机器到底能不能有一些情感,它能不能发展到不可控的程度?这个尚未有结论,是个开放思考题留给大家。

以AI赋能,数据治理智能化的引擎

其实我们也对ChatGPT做了蛮多研究的,首先我们先问问ChatGPT可以帮助数据治理干些什么?它的回答:第一、能做一些数据治理的这种制度流程。第二、能分析一些数据的有效性、一致性。第三、数据治理的一些质量监测、安全合规,同时做一些任务自动化。针对它回答的第一点,我们让它列举 100 条制造业的行业数据标准,它可以大致给出符合期望的答案。

在这里插入图片描述

接下来让它写了一段“用 SQL 去检查身份证号码有效性的代码”,写得非常的完美,确实很强。
在这里插入图片描述

那么,数据治理该如何拥抱以ChatGPT为代表的新一轮的AI技术浪潮?

Datablau安全分类分级智能化实践

从实践出发,Datablau其实一直在做数据安全分类分级的智能化研发。在我们的产品平台架构中,我们通过训练行业分类分级大体系形成一套分类分级的语料库。再通过 Word to Vector将词向量的距离进行比较,也就是拿一个分类分级跟一个元数据取向量的距离。当然这个过程中肯定也要做一些优化。对于大段信息描述,我们通常采用拆词的方法,这个可能导致拆出来的信息没有意义,这个时候就需要人工优化。

如下图所示,我们对分类的描述做分词处理,然后放在向量空间进行相关运算,看字段与分类的描述的关联度,得出向量空间值,获得与字段相关度最高的数据分类推荐。
在这里插入图片描述

其实,目前我们在证券包括银行行业做了很多智能安全分类分级,尤其针对人行的数据安全分类分级的行业标准,我们把这个语料库通过智能化+人工的方式做了一套训练,同时我们拥有一套1220万条的行业语料库来补充人行的这套语料库,因此,在银行业数据分类分级的首次识别率可以达到76%,加上人工优化可以达到90%,当然整个过程有自反馈的效果,也是机器自学习的过程。
在这里插入图片描述
好的,以上就是关于ChatGPT话题的全部内容。
*文章有部分图片来源于陆奇博士课件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17163.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

免费AI工具推荐:Chat8

最近很火的ChatGPT,很多人想尝试但都无从入手,这里推荐一款免费使用的国内平替ChatGPT的AI聊天工具【Chat8】。 【Chat8官网介绍】 Chat8 是一款基于OpenAi的ChatGPT3.5接口开发的聊天网站,旨在为用户提供高效便捷的沟通体验。相较于ChatGPT&…

马云:你们只关心我回不回国,而我却关心ChatGPT对教育的冲击!

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 在中国互联网界,有两个人回国与否,牵动了成千上万人的神经。 一个是“明日回国贾跃亭”,另一个就是就是马云。 贾跃亭回国,遥遥无期。 但马云,则已经回国了。 根据…

业界讨论ChatGPT对教育带来的影响

连日来,ChatGPT在教育领域掀起了大讨论:有人大呼,学校教育被逼到了墙角;有人说,人工智能和ChatGPT让传统学校教育优势荡然无存;也有人批评说,ChatGPT算不得什么创新,比如图灵奖得主&…

ChatGPT对教育的变革与影响

我们所面临的挑战往往是我们最直接的痛点。那么,你是否曾经想过,教育可能正在经历一场由人工智能驱动的革命?是的,我说的就是ChatGPT,它正在改变教育的面貌。 回到2022年11月,OpenAI发布了ChatGPT。令人惊…

chatgpt赋能Python-python_member

Python Member:了解Python的会员机制 如果你是一个Python开发者,你可能已经很熟悉了Python的会员机制。Python Member是Python的会员计划,为Python社区激励开发者,提供更好的资源和支持。在这篇文章中,我们将详细介绍…

全方位AI工具集成,免费使用

全方位AI工具集成,免费使用 百家AI工具一应俱全 GPT问答,Midjourney绘图,自然语言处理等超过100种AI工具集成,覆盖全方位的需求。 可自由组合和自定义,打造符合自己需求的AI应用。 便宜使用,让你享受先进…

Bard!谷歌对 ChatGPT 的最强反击,悄咪咪的支持中文了!

“ ChatGPT、Bard,哪个是更好的AI人工智能大语言模型。” 01 — ChatGPT 这么火,而且这款产品是 OpenAI 以谷歌的大模型架构 transformer 为基础迭代的。谷歌自然不甘落后,早在3月份推出自家的人工智能大语言模型 Bard,只是当时还…

从今天开始,让AI成为你的贴身助理

在 ChatGPT、Whisper 和 Stable Diffusion 这样强大的 AI 技术出现之后,我们去学习任何新技术和新知识的方式也都应该改一改了。所以,我也推荐大家从现在开始,利用 AI 工具来改造你学习和工作的流程。通过将 AI 嵌入生活和工作的方方面面&…

Claude使用教程,解决Claude不能回复

Claude是ChatGPT最为有⼒的竞争对⼿之⼀,Claude 的研发公司是专注人工智能安全和研究的初创公司 Anthropic,由前 OpenAI 员工共同创立的。今年 3 月份 Anthropic 获得了谷歌 3 亿美元的投资,谷歌也因此获得其 10% 股份。 ⽬前可以通过官⽹加…

巴比特 | 元宇宙每日必读:重磅更新!ChatGPT推出插件功能,能联网、能搜索、能运算,强化版AIGC工具即将大量涌现?...

摘要:据财联社报道,OpenAI于3月24日宣布,部分解除了ChatGPT无法联网的限制。其CEO山姆•阿尔特曼(Sam Altman)表示,“我们正在开始推出ChatGPT插件,您可以安装插件来帮助完成各种各样的任务&…

复旦Moss团队:Moss参数规模约是ChatGPT的1/10;贾跃亭再获FF执行官身份;PowerToys新版发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

CSDN 创始人蒋涛对话北大谢涛:AI 正在变革软件工程

【CSDN 编者按】生成式 AI 的爆发已经开始改变很多行业的工作方式,但对于软件工程来说,转型早就开始。一位顶级华人学者在一篇16年前的经典论文中就已尝试用智能化的方式解决特定的软件工程领域的问题,在之后的十几年,这篇智能化软…

ChatGPT 点燃向量数据库赛道,刚刚,Zilliz Cloud 云服务重磅发布!

自 OpenAI 在去年 11 月发布 ChatGPT 以来,AI 市场被彻底引爆,国内外科技企业纷纷发布自家的 AI 大模型。国内大模型的发展也迎来前所未有之机遇,“百模”激战正酣。在刚闭幕的世界人工智能大会上,国内外科技公司全线加入&#xf…

会签是什么,何时使用会签,如何设计使用会签

一.会签 1.1会签定义 会签用于与本次审核内容相关的各有关部门进行协商并核签,简单地讲就是多方共同签署,对签字内容进行确认并签字,签字就意味着要负责、要为确认内容承担责任。 1.2会签与加签 会签是多人同时处理,加签是当前处…

SpringBoot实现电子文件签字+合同系统

大家好,我是宝哥! 一、前言 今天公司领导提出一个功能,说实现一个文件的签字盖章功能,然后自己进行了简单的学习,对文档进行数字签名与签署纸质文档的原因大致相同,数字签名通过使用计算机加密来验证 &…

SpringBoot实现电子文件签字+合同系统!

一、前言 今天公司领导提出一个功能,说实现一个文件的签字盖章功能,然后自己进行了简单的学习,对文档进行数字签名与签署纸质文档的原因大致相同,数字签名通过使用计算机加密来验证 (身份验证:验证人员和产…

【开源了】撸了一个电子文件签字+合同系统,爽!

大家好,我是编程君! 一、前言 今天公司领导提出一个功能,说实现一个文件的签字盖章功能,然后自己进行了简单的学习,对文档进行数字签名与签署纸质文档的原因大致相同,数字签名通过使用计算机加密来验证 &am…

springboot+thymeleaf实现公司文件的签字+盖章系统

🍅程序员小王的博客:程序员小王的博客 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 如有编辑错误联系作者,如果有比较好的文章欢迎分享给我,我会取其精华去其糟粕 🍅java自学的学习…

java毕业设计——基于java+Java Applet+access的OA流程可视化系统设计与实现(毕业论文+程序源码)——OA流程可视化系统

基于javaJava Appletaccess的OA流程可视化系统设计与实现(毕业论文程序源码) 大家好,今天给大家介绍基于javaJava Appletaccess的OA流程可视化系统设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦。需要下载开题报告PP…

寒冬已过,2023抓住IT复苏新机会

随着疫情防控进入新的阶段,2023年经济将逐渐回暖,许多行业也将迎来IT需求复苏的新机会。本期,我们就以互联网,金融和房地产这3个支柱行业近期的实际案例,来说明在在线文档领域的新机会。 案例1:某互联网集团A公司&…