年度AI对话|达观陈运文:做私有部署的大模型,数据安全更具优势

本文内容来源于达观数据董事长兼CEO陈运文受邀出席36氪数字时氪的《年度AI对话》专栏采访内容

大模型既带来了压力,也带来了机会

 | 杨俊

编辑 | 石亚琼

封面来源企业官方

掌握了人工智能就掌握了新时代的生产力密码。在ChatGPT爆火的当下,大模型火遍全球,中国产业也激发了对人工智能应用的新热情。因此,这个时间点,36氪数字时氪团队正式启动《年度AI对话》专栏,希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨,通过一系列报道,还原AI新的技术能力与应用潜力。

本期我们邀请到了达观数据董事长兼CEO陈运文。

最近火热的大模型,对NLP、IDP、OCR、RPA、知识图谱等技术到底是冲击还是利好,这无疑是当下行业关心的热点之一。而作为一家在智能文本领域研究多年的公司,达观无疑是最适合回答这一问题的公司之一。3月,达观宣布正在研发的垂直领域模型名叫“曹植”,希望它作为垂直、专用、国产的GPT模型,未来在各行各业里落地应用。达观数据也成为国内第一批宣布自研大模型的企业之一。在陈运文看来,与通用型大模型相比,达观的模型参数少,训练成本和使用成本都更具有竞争力;与公有部署相比,私有部署的模式在数据安全方面更具优势,也更适合中国金融、电信这样的行业;而对于包括RPA在内的行业来说,今天既是挑战,更是机会。

以下内容为采访原文,经数字时氪编辑整理:

垂直领域的大模型相比通用大模型在某些方面更具优势

目前ChatGPT、文心一言已经被大众所熟知。似乎通用型大模型在带给用户广泛认知方面具有极大优势。但是在垂直领域层面,这种建立在公有云上的大模型更容易被客户担忧数据安全的问题。尤其近期ChatGPT频繁被爆出负面信息后,这方面的问题更将引起用户的重视。基于此,我们和陈运文聊了聊达观正在做的曹植系统以及曹植系统的优势。

数字时氪:达观数据会在这场AI浪潮中成长为什么角色呢?

陈运文:因为达观数据所在的赛道恰恰就是当前大模型所在的赛道,所以我们从一开始就非常关注大模型技术的演进和发展。在我们看来大模型是一个划时代的技术,是需要全力投入的一件事情。所以在3月初,我们在北京联合中国人工智能学会开展的ChatGPT及大模型专题研讨会研讨会上就宣布达观在自研国产大模型—曹植。我觉得大模型从根本上解决了很多困扰已久的难题,能够让自然语言处理领域焕然一新。目前的市场确实很热,我们对此的响应速度也是比较快的,应该在国内的创业公司中是第一批宣布自研大模型。虽然现在百度发布了文心一言,但我认为整体来说在中国的市场才刚开始,国内要真正研发出非常优秀的可用的系统,还是需要摸索一段时间的。

数字时氪:曹植系统目前的进度情况如何?

陈运文:曹植系统和百度的文心一言这种面向C端的通用的模型在定位上还是不一样的。曹植系统面向的更多是垂直领域的可以私有化部署的一些客户。

对于大模型的产品,我们看到很多中国的客户还是很担心这种通用大语言模型会导致数据的安全问题或者隐私泄露的问题,所以针对这种客户需求,曹植系统是可以在客户内部进行细化部署,在客户的内网下针对客户的行业和应用场景进行定制,我觉得这是曹植系统和针对通用的C端的模型很大的区别。因为曹植系统是面向企业来使用,所以企业更关注的是这个模型能够在哪些场景里落地和使用。

目前大家看到的是利用ChatGPT或文心一言来做一些问答,其实这项技术不仅仅适用于这样的场景。在企业里面我们看到的应用场景其实是非常非常多的。比如非常专业的报告的写作,就是这种模型发挥价值的地方。尤其是篇幅比较长有比较专业的报告的写作,这完全是大模型可以去做的。这也是ChatGPT等一些模型并没有涉足的应用领域,恰好是我们的机会。

其实,现在在这种领域应用的技术难度是很大的,虽然技术本身也是大模型,但因为应用的场景不一样,所以在具体的产品形态、算法以及训练数据方面,和这种问答的聊天领域的应用数据还是有很大差异的。而达观数据在垂直领域做专业的文档处理系统已经研发了很久,所以这对我们来说也是能够形成很好的差异化竞争的方面。

目前的进度是我们在3月初在市场上宣布正在研发中,模型还在打磨中,争取在上半年完成第一版的产品研发工作。最近,我们的一些合作伙伴包括大型的央企、国企,以及大型金融机构在和我们沟通共同打磨产品。这对我们来说是一个好消息。

以前可能人和机器在这方面的工作比例是机器完成30%-40%的工作,人来完成60%-70%的工作,现在将大模型内嵌之后,人和机器的配合比例会有明显的变化,可能以后人只要做 10% 的工作,剩下 90% 的工作都是交给机器来做,而且质量会有巨大的提升。

另外在人机交互的形态上会有比较大的变化,比如之前的产品会需要点开各种菜单,点击相应的功能按键进行操作。之后,我们可以通过自然交流的方式进行操作。

数字时氪:相比于类似文心一言类的通用型模型,曹植系统的优势在哪里?

陈运文:我觉得首先是数据安全的问题,因为我们所有的客户都非常关心自己的私有数据会不会被大模型泄露出去,如果用一个公开的通用的模型的话,确实会存在数据被模型学习后而被他人利用。所以曹植是派到各个企业内部进行部署的,这会让客户觉得更安全。因为文心一言毕竟是一个通用的模型,它部署在公有云上,所有人都同时在用的,确实还是很难兼顾到每一个企业自己独有的数据安全的问题。

另外每个企业内部都有自己的工作规范和规章制度的,垂直领域的大模型需要遵照公司的规章制度和工作规范去完成企业所需的材料的审核、写作、分析等等这些工作,而每个企业的工作规范和要求标准都是不一样的,其实很难用文心一言这种通用模型满足每个企业独特的工作规范的要求。所以这对我们来说是有很好的一个机会。我们的所有模型在内部做过通用训练后,在客户的那边还要做二次的定向训练,只有这样才能够掌握客户自己内部的资料以及内部的工作规范。我们的模型的参数规模相比通用模型是要少一个数量级的,我们的模型都是在百亿级的参数规模,而现在通用模型普遍都是千亿级的,甚至可能后面还会有万亿级的参数规模。因为我们的模型的尺寸要小很多也是做了很多精选数据训练,相对来说它的训练成本和使用成本都比这种通用模型要少得多。这个成本是很多客户能够承受的,尤其是在客户的二次训练和使用阶段的成本要低很多。

所以对很多客户来说,它的硬件投入成本基本在百万人民币量级就够了,这是很多企业能够负担得起的成本。对我们来说的话,模型的整体训练过程可控,时间成本和数据相对来说会比通用模型会少很多,所以这个是我们比较务实的做法。

客户比较关注的是原本有很多系统需要被大量使用,首先是这些系统是耗费大量的人工来做的,第二就是使用的过程其实不是很顺畅,这些其实都是曹植可以来解决的问题,第一把耗费人力比较多的、比较麻烦的一些事情,用曹植来自动化完成。第二可以把交互过程变得更加方便和友好。以前使用软件需要输账号,登录,点菜单,再点子菜单等等,这个过程其实挺挺繁琐的。但使用曹植后,可以形成一个比较自然的交互形式,它可以和RPA以及NLP、知识图谱等等对接,之后你可能给个简单指令,他能够把后面的工作全部都自动化。

所以曹植可以在已有基础上面让用户的交互的过程更流畅、体验更好。这个其实也是很多客户非常感兴趣的应用场景。

数字时氪:为什么要探索性价比更高的参数规模方案?

陈运文:因为不可能每个客户都是投几个亿去建一个集群来做模型的训练的,大模型真正在工业领域使用过程中还是要考虑性价比的。同时我们在学术研究的过程当中发现其实当前的很多的大模型,它的很多参数并没有被充分的训练,也就是说有很多参数其实是被浪费的。我们也看到了Meta推出了 650 亿的LLaMA模型,650亿的参数规模比 GPT3.5要少得多,但是效果其实是不弱于GPT 3.5的,就是因为它的训练的数据质量更高,训练更密集,训练算法更优化,这也给了我们很好的启发。

我们希望研发出一个效果非常优秀的模型,但同时参数规模可控,客户在使用它的时候成本可控,具有性价比,能够让客户负担得起。我觉得这是在面向ToB 这个领域使用的时候,必须要解决的技术难题。

大模型的出现,既带来了压力,也带来了机会

RPA赛道通过和流程挖掘的搭配曾在去年一度成为企服的新风口。但当大模型出现后,RPA赛道似乎也迎来了新的变化。

达观数据在RPA领域有着很深的研究和实践,陈运文讲述了大模型对达观的影响和他对RPA业务在大模型出现后的新发展的看法。

数字时氪:这次的大模型技术给达观数据带来什么样的影响?

陈运文:我觉得我们有先发优势,相比同行们,我们可能可以跑在更前面。我们在数据、人才、算力方面是有些积累的。另外因为市场空间变大了,这对我们来说是一个非常好的机遇。

以前客户提出了很多应用场景,但因技术条件有限,很难达到客户满意的能够非常自然流畅使用的水平,但现在有了大语言模型,针对以前客户提出来的很需要,但又很难搞的应用场景,我们用新模型都能搞定,而且效果甚至超出客户的预期,这就是机遇。

数字时氪:大模型对RPA业务产生了重大冲击了么?

陈运文:它对RPA不会有直接的冲突的,因为它毕竟是个语言模型。但是它会对 RPA 起到一个很好的促进作用。行业里面未来可能很多的工作都是用大语言模型和 RPA 串联在一起去完成。所以如果你掌握了大语言模型,同时又掌握了 RPA 的技术的话,其实机会是很多的,这也是达观数据非常重视的一个基础,而且未来一定会和我们的 RPA 结合在一起去发挥作用。

去年出现的一个趋势是RPA+流程挖掘。在中国,流程挖掘落地的时候可能更多还是需要靠人来做咨询工作。我觉得这其实还不是特别的完善,在很多时候需要靠有经验的流程挖掘师结合一些工具来做,这是目前的常见的做法。当然我觉得大模型其实是更落地,会更容易能够看到效果。

大模型发展之路道阻且长

目前,无论是ChatGPT还是文心一言几乎都会出现回答的内容不是特别理想的情况,甚至可能会有事实性错误的发生。

不仅如此,大模型技术的诞生,已经开始被别有用心的人注意到且做了一些非法牟利之事。

但新技术的出现,往往都会经历这个阶段。面对这些情况,陈运文向我们讲述了他的感受和想法。

数字时氪:怎么解决算力问题?

陈运文:在算力上,我们采购了很多 A100 和 A800 的GPU。对于一些模型的调试也是用我们自己的 IDC 来做的。但是当模型里的参数规模进一步放大到几百亿、上千亿的时候,我们自己的集群就撑不住了,所以我们也在积极联系在GPU拥有数量比较大的供应商,租赁算力进行一些更大规模型的一次性的训练。但目前整体来说国内的公共算力平台还是比较匮乏的。

同时我们还联系了一些国家重点实验室以及高校机构,希望进行算力集群的支持。所以这是限制我们的模型迭代速度的一些瓶颈。当然我们也在想办法解决。

在算法方面,因为GPT 3之前,整体的算法都是公开的。GPT 3之后,一些算法细节是保密的。但是我觉得因为整体的技术原理大家都了解,而且一些大致的方法在学术界有很多论文,在算法方面,达观数据有技术积累,也有强力的人才和团队,所以还是比较有信心的。

数字时氪:如何解决人才问题?

陈运文:人才方面,我觉得Open AI 做了一个非常好的行业的表率。其实这个团队内部做了很多的划分的,比如有人做数据提炼,有人做数据采集,有人做模型翻冲,有人做人类强化学习的反馈等等。

大模型的打造是一个非常标准的大规模工程性问题,我觉得Open AI的成功是因为他把每一个工程环节都分解的很细,而且都做了非常好的这个优化,它是一个工程的胜利,所以对我们来说也是,我们其实希望培养的是一个优秀的工程人才,他既有学术底蕴,能看懂论文、了解一些技术,但更重要的是能够动手实践,能够摸索出很多具体的参数、配方、工程工艺等等这些工作。在这个过程中,其实是我觉得动手是真的比较重要的。所以我觉得工程能力其实是眼下人才培养当中最需要的,也是我们花很多心血的地方。

做大模型真的是蛮花钱的一件事情,包括我们还买了英伟达的DGX工作站,这就非常烧钱,但是我觉得这个投入是非常值得的。相比较而言,达观在创业公司当中算是头部企业,资金还比较雄厚,还是付得起这个钱的。但可能对一些更小一点的初创期的创业公司来说,资金问题确实挺难的。

但是相对来说,我觉得更稀缺的其实是人才,因为人才是需要漫长的培养过程的,国内能够做大语言模型训练的优秀人才短期之内是比较稀缺的,所以在市场上面,优秀人才的争夺是比较激烈的。

但我觉得从长远的角度来看,未来更多的竞争会是在数据层面,这也是最近行业里面普遍的观点。因为训练大语言模型,需要高质量的文字资料数据,而高质量的文字资料数据在国内其实是非常稀缺的。

数字时氪:如何解决大语言模型技术的缺陷?

陈运文:目前确实会有很多这样的问题,但是我自己还是非常乐观的,因为我觉得这些问题其实都是一些技术细节,这些技术细节在接下来模型的迭代过程当中是可以被解决的。

比如在一些精确的事实和数据方面,我们会有其他的模型来做一些配套的二次检查和更正的工作。所以大模型是可以和已有的一些模型取长补短融合在一起,更好的来满足B端客户的需求的。

数字时氪:大模型技术应用是否会带来一些安全隐患?如何应对?

陈运文:这个我还没有特别好的方法,因为这个技术确实是如你所说,如果它被别有用心的人利用的话,确实破坏力也是巨大的,所以在这方面我还没有特别好的一些思路。我只能说一个新的技术出现,势必会伴随这种事情发生,所以我觉得还是需要提高警惕的,不管是在技术层面还是在法律层面,我觉得都是需要尽快完善起来。

数字时氪:今天无数人在提问:AI会不会让打工人没有工作?

陈运文:其实在达观内部,我们是广泛的鼓励员工积极的学习和掌握这些工具的使用,因为说到底它只是一个工具而已,你学会使用这个工具,你就会更好的在未来职业发展当中获得先机。

所以行业里面有句话我是非常赞同的:人工智能系统是不会代替你的,是学会了使用人工智能系统的其他人替代你。所以我觉得需要我们大家尽快的熟悉和掌握这些技术,才能发挥更大的价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11285.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

私有化运行大型语言模型 - 私有化的 GPT

目录 概述 Understanding the Privacy Challenge​了解隐私挑战 Potential Solutions to the Privacy Challenge​隐私挑战的潜在解决方案 Federated Learning​ 联邦学习 Homomorphic Encryption​ 同态加密

零基础,零成本,部署一个属于你的大模型

前言 看了那么多chatGPT的文章,作为一名不精通算法的开发,也对大模型心痒痒。但想要部署自己的大模型,且不说没有算法相关的经验了,光是大模型占用的算力资源,手头的个人电脑其实也很难独立部署。就算使用算法压缩后的…

Metabase可视化BI系统部署安装及简单使用

metabase 是国外开源的一个可视化系统,语言使用了Clojure TypeScript。 Clojure(/ˈkloʊʒər/)是Lisp程式語言在Java平台上的現代、動態及函數式方言。来自维基百科。 我也是第一次看到这个语言,知道它是可以运行在Java环境上的…

常用ChatGPT类模型的总结

做一个现在常用ChatGPT类模型的总结,后续会持续更新,大家如果有新的可以在评论里说 一、商用的(不开源)的: ChatGPT: https://chat.openai.com/ Claude: 可以参考我的这篇文章,北方的郎:Ant…

最新类ChatPDF及AutoGPT开源18大功能平台——闻达手把手超详细环境部署与安装——如何在低显存单显卡上面安装私有ChatGPT GPT-4大语言模型LLM调用平台

目录 前言闻达框架简介前期准备电脑要求安装anaconda安装相应版本的CUDA配置ChatGLM-6B Conda环境安装pytorch 类ChatPDF及AutoGPT开源模型——闻达环境部署及安装相关代码及模型下载解压模型到指定地址配置文件修改根据使用的不同模型,安装相关库运行体验运行chatG…

浅析ChatGPT:历史沿革、应用现状及前景展望

关注公众号,发现CV技术之美 浅析ChatGPT:历史沿革、应用现状及前景展望 刘禹良1,白翔1,金连文2 1华中科技大学人工智能与自动化学院 2华南理工大学电子与信息学院 人工智能已成为新一代信息时代的核心技术,广泛应用于多…

图灵奖得主、AI 教父、神经网络大师——谷歌副总裁 Hinton 离职——称其对毕生工作感到后悔和恐惧

图灵奖得主、AI 教父、神经网络大师——谷歌副总裁 Hinton 离职——称其对毕生工作感到后悔和恐惧 目录

谁是近期全世界最受瞩目的聊天对象?

在今天,答案有且仅有一个,那就是ChatGPT。 Chat GPT——可能很多人被这个冗长的名字搞糊涂了。说实话,我第一眼也看不出到底什么意思,看了英文原文, GPT就是Generative Pre-training Transformer(预训练生…

ChatGPT一枪打服谷歌AI人才!情人节组团加盟OpenAI

金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的号角一吹,连谷歌的顶尖AI人才都开始纷纷倒戈了! 就在今天凌晨,前后仅半个小时功夫,就有2位谷歌大脑人才连夜宣布入盟OpenAI: 他们是Jason Wei和Hyung Won Chung…

ChatGPT 冲击下,特斯拉曾留不住的 AI 大牛,再次回归 OpenAI !

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 技术圈毕竟还是一个“圈”,兜兜转转都是会遇见。 半年前,特斯拉 AI 的中坚力量,即 AI 部门的主管 Andrej Karpathy 在给自己放了 4 个月的长假之后,选择离…

实测最像ChatGPT的中文产品:能解释三体、懂弱智吧的梗,内测开启人人都能试!...

明敏 发自 凹非寺量子位 | 公众号 QbitAI 最像ChatGPT的中文产品,出现了! 昨晚,一个名叫Inspo的生成式对话AI,刚刚在“民间”开启内测,马上引发不小反响。 体验过的博主表示: 1分钟搞定3份策划,…

ChatGPT 有哪些 “激动人心的时刻“?以及自己的一些思考

文章目录 一、前言二、主要内容三、一些思考 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 一、前言 近日,英伟达创始人兼 CEO 黄仁勋与 OpenAI 联合创始人及首席科学家伊尔亚-苏茨克维 (Ilya Sutskever) 展开了一次 “炉边谈话”。 黄…

ChatGPT可能马上取代你,这是它能做的十个工作

“我们必须把这些东西看作提高生产力的工具,而不是完全的替代品。” 文|韩旭阳 来源|华尔街见闻(ID:wallstreetcn) 封面来源|视觉中国 ChatGPT 的横空出世,在业界掀起了惊涛骇浪。专…

AI 2022:浪潮奔涌,百舸争流

编者按:2022年已接近尾声,但技术的发展永不落幕。许多人说,2022是生成式AI的一年。这一年里,我们见证了Stable Diffusion和DALL-E2等AI图像编辑/绘画工具的爆发,也目睹了ChatGPT狂热席卷全球。 但AI技术和产业的发展&a…

惊艳的产品背后,是锐利的设计思维

缘起 几年前,我偶然用一个 叫 Zine 的小app 写了两篇文章,感觉非常好。 后来在网上认识 了Zine 团队的创始人 Louis,也喜欢上了他们的另一个 App:Varlens, 最近他们推出了记笔记的 App Lattics,一些功能也…

谷歌AI绘画4大牛携手创业,天使估值7个亿

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 最近的谷歌像个大漏勺,这不,又有AIGC核心成员联手跑路咯! 量子位独家获悉,这回跟谷歌say byebye的,是文生图核心团队——AI绘画模型Imagen论文的四位核心作者,出走…

刘鹏报告:人工智能引领未来

2月16日,在“第七届挖贝北交所新三板领军企业年会暨挖贝金股奖颁奖盛典”上,刘鹏教授作主题演讲——《人工智能引领未来》,深度剖析了人工智能发展的三次飞跃,为现场嘉宾带来了一场科技盛宴。 刘鹏教授(配图来自挖贝网…

#挑战Open AI!马斯克宣布成立xAI,你怎么看?# 马斯克的xAI:充满困难与希望

文章目录 1.什么是xAI公司?2.xAI公司的图标3.“反AI斗士”马斯克进军AI:期待与挑战并存3.1 关于马斯克……3.2 这位“反AI斗士”……3.3 我的看法3.4 可能会遇到的困难与优势3.5 蓄谋已久的马斯克……3.6 xAI“全明星阵容”3.7 总结 4.百模大战&#xff…

大模型111人:谷歌和OpenAI的人才战争

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 当我们围观ChatGPT炸开的多场激战时,还有什么是暗流下激战的? 今天要关注的,不是违背“非盈利”初心的OpenAI,也不是商业模式面临颠覆的谷歌搜索。把目光从公司层面挪开,看向另…

什么是数字化营销?与ChatGPT结合能产生的化学反应?

随着时代的变迁,品牌营销的方式也变得愈加多样化。许多人或许都听说过数字化营销,在当今,这种营销手段非常受到品牌欢迎。今天,我们一起来了解一些有关数字营销的知识。看看它与当下大火的ChatGPT结合又能碰撞出怎样的火花&#x…