本文内容来源于达观数据董事长兼CEO陈运文受邀出席36氪数字时氪的《年度AI对话》专栏采访内容
大模型既带来了压力,也带来了机会
文 | 杨俊
编辑 | 石亚琼
封面来源|企业官方
掌握了人工智能就掌握了新时代的生产力密码。在ChatGPT爆火的当下,大模型火遍全球,中国产业也激发了对人工智能应用的新热情。因此,这个时间点,36氪数字时氪团队正式启动《年度AI对话》专栏,希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨,通过一系列报道,还原AI新的技术能力与应用潜力。
本期我们邀请到了达观数据董事长兼CEO陈运文。
最近火热的大模型,对NLP、IDP、OCR、RPA、知识图谱等技术到底是冲击还是利好,这无疑是当下行业关心的热点之一。而作为一家在智能文本领域研究多年的公司,达观无疑是最适合回答这一问题的公司之一。3月,达观宣布正在研发的垂直领域模型名叫“曹植”,希望它作为垂直、专用、国产的GPT模型,未来在各行各业里落地应用。达观数据也成为国内第一批宣布自研大模型的企业之一。在陈运文看来,与通用型大模型相比,达观的模型参数少,训练成本和使用成本都更具有竞争力;与公有部署相比,私有部署的模式在数据安全方面更具优势,也更适合中国金融、电信这样的行业;而对于包括RPA在内的行业来说,今天既是挑战,更是机会。
以下内容为采访原文,经数字时氪编辑整理:
垂直领域的大模型相比通用大模型在某些方面更具优势
目前ChatGPT、文心一言已经被大众所熟知。似乎通用型大模型在带给用户广泛认知方面具有极大优势。但是在垂直领域层面,这种建立在公有云上的大模型更容易被客户担忧数据安全的问题。尤其近期ChatGPT频繁被爆出负面信息后,这方面的问题更将引起用户的重视。基于此,我们和陈运文聊了聊达观正在做的曹植系统以及曹植系统的优势。
数字时氪:达观数据会在这场AI浪潮中成长为什么角色呢?
陈运文:因为达观数据所在的赛道恰恰就是当前大模型所在的赛道,所以我们从一开始就非常关注大模型技术的演进和发展。在我们看来大模型是一个划时代的技术,是需要全力投入的一件事情。所以在3月初,我们在北京联合中国人工智能学会开展的ChatGPT及大模型专题研讨会研讨会上就宣布达观在自研国产大模型—曹植。我觉得大模型从根本上解决了很多困扰已久的难题,能够让自然语言处理领域焕然一新。目前的市场确实很热,我们对此的响应速度也是比较快的,应该在国内的创业公司中是第一批宣布自研大模型。虽然现在百度发布了文心一言,但我认为整体来说在中国的市场才刚开始,国内要真正研发出非常优秀的可用的系统,还是需要摸索一段时间的。
数字时氪:曹植系统目前的进度情况如何?
陈运文:曹植系统和百度的文心一言这种面向C端的通用的模型在定位上还是不一样的。曹植系统面向的更多是垂直领域的可以私有化部署的一些客户。
对于大模型的产品,我们看到很多中国的客户还是很担心这种通用大语言模型会导致数据的安全问题或者隐私泄露的问题,所以针对这种客户需求,曹植系统是可以在客户内部进行细化部署,在客户的内网下针对客户的行业和应用场景进行定制,我觉得这是曹植系统和针对通用的C端的模型很大的区别。因为曹植系统是面向企业来使用,所以企业更关注的是这个模型能够在哪些场景里落地和使用。
目前大家看到的是利用ChatGPT或文心一言来做一些问答,其实这项技术不仅仅适用于这样的场景。在企业里面我们看到的应用场景其实是非常非常多的。比如非常专业的报告的写作,就是这种模型发挥价值的地方。尤其是篇幅比较长有比较专业的报告的写作,这完全是大模型可以去做的。这也是ChatGPT等一些模型并没有涉足的应用领域,恰好是我们的机会。
其实,现在在这种领域应用的技术难度是很大的,虽然技术本身也是大模型,但因为应用的场景不一样,所以在具体的产品形态、算法以及训练数据方面,和这种问答的聊天领域的应用数据还是有很大差异的。而达观数据在垂直领域做专业的文档处理系统已经研发了很久,所以这对我们来说也是能够形成很好的差异化竞争的方面。
目前的进度是我们在3月初在市场上宣布正在研发中,模型还在打磨中,争取在上半年完成第一版的产品研发工作。最近,我们的一些合作伙伴包括大型的央企、国企,以及大型金融机构在和我们沟通共同打磨产品。这对我们来说是一个好消息。
以前可能人和机器在这方面的工作比例是机器完成30%-40%的工作,人来完成60%-70%的工作,现在将大模型内嵌之后,人和机器的配合比例会有明显的变化,可能以后人只要做 10% 的工作,剩下 90% 的工作都是交给机器来做,而且质量会有巨大的提升。
另外在人机交互的形态上会有比较大的变化,比如之前的产品会需要点开各种菜单,点击相应的功能按键进行操作。之后,我们可以通过自然交流的方式进行操作。
数字时氪:相比于类似文心一言类的通用型模型,曹植系统的优势在哪里?
陈运文:我觉得首先是数据安全的问题,因为我们所有的客户都非常关心自己的私有数据会不会被大模型泄露出去,如果用一个公开的通用的模型的话,确实会存在数据被模型学习后而被他人利用。所以曹植是派到各个企业内部进行部署的,这会让客户觉得更安全。因为文心一言毕竟是一个通用的模型,它部署在公有云上,所有人都同时在用的,确实还是很难兼顾到每一个企业自己独有的数据安全的问题。
另外每个企业内部都有自己的工作规范和规章制度的,垂直领域的大模型需要遵照公司的规章制度和工作规范去完成企业所需的材料的审核、写作、分析等等这些工作,而每个企业的工作规范和要求标准都是不一样的,其实很难用文心一言这种通用模型满足每个企业独特的工作规范的要求。所以这对我们来说是有很好的一个机会。我们的所有模型在内部做过通用训练后,在客户的那边还要做二次的定向训练,只有这样才能够掌握客户自己内部的资料以及内部的工作规范。我们的模型的参数规模相比通用模型是要少一个数量级的,我们的模型都是在百亿级的参数规模,而现在通用模型普遍都是千亿级的,甚至可能后面还会有万亿级的参数规模。因为我们的模型的尺寸要小很多也是做了很多精选数据训练,相对来说它的训练成本和使用成本都比这种通用模型要少得多。这个成本是很多客户能够承受的,尤其是在客户的二次训练和使用阶段的成本要低很多。
所以对很多客户来说,它的硬件投入成本基本在百万人民币量级就够了,这是很多企业能够负担得起的成本。对我们来说的话,模型的整体训练过程可控,时间成本和数据相对来说会比通用模型会少很多,所以这个是我们比较务实的做法。
客户比较关注的是原本有很多系统需要被大量使用,首先是这些系统是耗费大量的人工来做的,第二就是使用的过程其实不是很顺畅,这些其实都是曹植可以来解决的问题,第一把耗费人力比较多的、比较麻烦的一些事情,用曹植来自动化完成。第二可以把交互过程变得更加方便和友好。以前使用软件需要输账号,登录,点菜单,再点子菜单等等,这个过程其实挺挺繁琐的。但使用曹植后,可以形成一个比较自然的交互形式,它可以和RPA以及NLP、知识图谱等等对接,之后你可能给个简单指令,他能够把后面的工作全部都自动化。
所以曹植可以在已有基础上面让用户的交互的过程更流畅、体验更好。这个其实也是很多客户非常感兴趣的应用场景。
数字时氪:为什么要探索性价比更高的参数规模方案?
陈运文:因为不可能每个客户都是投几个亿去建一个集群来做模型的训练的,大模型真正在工业领域使用过程中还是要考虑性价比的。同时我们在学术研究的过程当中发现其实当前的很多的大模型,它的很多参数并没有被充分的训练,也就是说有很多参数其实是被浪费的。我们也看到了Meta推出了 650 亿的LLaMA模型,650亿的参数规模比 GPT3.5要少得多,但是效果其实是不弱于GPT 3.5的,就是因为它的训练的数据质量更高,训练更密集,训练算法更优化,这也给了我们很好的启发。
我们希望研发出一个效果非常优秀的模型,但同时参数规模可控,客户在使用它的时候成本可控,具有性价比,能够让客户负担得起。我觉得这是在面向ToB 这个领域使用的时候,必须要解决的技术难题。
大模型的出现,既带来了压力,也带来了机会
RPA赛道通过和流程挖掘的搭配曾在去年一度成为企服的新风口。但当大模型出现后,RPA赛道似乎也迎来了新的变化。
达观数据在RPA领域有着很深的研究和实践,陈运文讲述了大模型对达观的影响和他对RPA业务在大模型出现后的新发展的看法。
数字时氪:这次的大模型技术给达观数据带来什么样的影响?
陈运文:我觉得我们有先发优势,相比同行们,我们可能可以跑在更前面。我们在数据、人才、算力方面是有些积累的。另外因为市场空间变大了,这对我们来说是一个非常好的机遇。
以前客户提出了很多应用场景,但因技术条件有限,很难达到客户满意的能够非常自然流畅使用的水平,但现在有了大语言模型,针对以前客户提出来的很需要,但又很难搞的应用场景,我们用新模型都能搞定,而且效果甚至超出客户的预期,这就是机遇。
数字时氪:大模型对RPA业务产生了重大冲击了么?
陈运文:它对RPA不会有直接的冲突的,因为它毕竟是个语言模型。但是它会对 RPA 起到一个很好的促进作用。行业里面未来可能很多的工作都是用大语言模型和 RPA 串联在一起去完成。所以如果你掌握了大语言模型,同时又掌握了 RPA 的技术的话,其实机会是很多的,这也是达观数据非常重视的一个基础,而且未来一定会和我们的 RPA 结合在一起去发挥作用。
去年出现的一个趋势是RPA+流程挖掘。在中国,流程挖掘落地的时候可能更多还是需要靠人来做咨询工作。我觉得这其实还不是特别的完善,在很多时候需要靠有经验的流程挖掘师结合一些工具来做,这是目前的常见的做法。当然我觉得大模型其实是更落地,会更容易能够看到效果。
大模型发展之路道阻且长
目前,无论是ChatGPT还是文心一言几乎都会出现回答的内容不是特别理想的情况,甚至可能会有事实性错误的发生。
不仅如此,大模型技术的诞生,已经开始被别有用心的人注意到且做了一些非法牟利之事。
但新技术的出现,往往都会经历这个阶段。面对这些情况,陈运文向我们讲述了他的感受和想法。
数字时氪:怎么解决算力问题?
陈运文:在算力上,我们采购了很多 A100 和 A800 的GPU。对于一些模型的调试也是用我们自己的 IDC 来做的。但是当模型里的参数规模进一步放大到几百亿、上千亿的时候,我们自己的集群就撑不住了,所以我们也在积极联系在GPU拥有数量比较大的供应商,租赁算力进行一些更大规模型的一次性的训练。但目前整体来说国内的公共算力平台还是比较匮乏的。
同时我们还联系了一些国家重点实验室以及高校机构,希望进行算力集群的支持。所以这是限制我们的模型迭代速度的一些瓶颈。当然我们也在想办法解决。
在算法方面,因为GPT 3之前,整体的算法都是公开的。GPT 3之后,一些算法细节是保密的。但是我觉得因为整体的技术原理大家都了解,而且一些大致的方法在学术界有很多论文,在算法方面,达观数据有技术积累,也有强力的人才和团队,所以还是比较有信心的。
数字时氪:如何解决人才问题?
陈运文:人才方面,我觉得Open AI 做了一个非常好的行业的表率。其实这个团队内部做了很多的划分的,比如有人做数据提炼,有人做数据采集,有人做模型翻冲,有人做人类强化学习的反馈等等。
大模型的打造是一个非常标准的大规模工程性问题,我觉得Open AI的成功是因为他把每一个工程环节都分解的很细,而且都做了非常好的这个优化,它是一个工程的胜利,所以对我们来说也是,我们其实希望培养的是一个优秀的工程人才,他既有学术底蕴,能看懂论文、了解一些技术,但更重要的是能够动手实践,能够摸索出很多具体的参数、配方、工程工艺等等这些工作。在这个过程中,其实是我觉得动手是真的比较重要的。所以我觉得工程能力其实是眼下人才培养当中最需要的,也是我们花很多心血的地方。
做大模型真的是蛮花钱的一件事情,包括我们还买了英伟达的DGX工作站,这就非常烧钱,但是我觉得这个投入是非常值得的。相比较而言,达观在创业公司当中算是头部企业,资金还比较雄厚,还是付得起这个钱的。但可能对一些更小一点的初创期的创业公司来说,资金问题确实挺难的。
但是相对来说,我觉得更稀缺的其实是人才,因为人才是需要漫长的培养过程的,国内能够做大语言模型训练的优秀人才短期之内是比较稀缺的,所以在市场上面,优秀人才的争夺是比较激烈的。
但我觉得从长远的角度来看,未来更多的竞争会是在数据层面,这也是最近行业里面普遍的观点。因为训练大语言模型,需要高质量的文字资料数据,而高质量的文字资料数据在国内其实是非常稀缺的。
数字时氪:如何解决大语言模型技术的缺陷?
陈运文:目前确实会有很多这样的问题,但是我自己还是非常乐观的,因为我觉得这些问题其实都是一些技术细节,这些技术细节在接下来模型的迭代过程当中是可以被解决的。
比如在一些精确的事实和数据方面,我们会有其他的模型来做一些配套的二次检查和更正的工作。所以大模型是可以和已有的一些模型取长补短融合在一起,更好的来满足B端客户的需求的。
数字时氪:大模型技术应用是否会带来一些安全隐患?如何应对?
陈运文:这个我还没有特别好的方法,因为这个技术确实是如你所说,如果它被别有用心的人利用的话,确实破坏力也是巨大的,所以在这方面我还没有特别好的一些思路。我只能说一个新的技术出现,势必会伴随这种事情发生,所以我觉得还是需要提高警惕的,不管是在技术层面还是在法律层面,我觉得都是需要尽快完善起来。
数字时氪:今天无数人在提问:AI会不会让打工人没有工作?
陈运文:其实在达观内部,我们是广泛的鼓励员工积极的学习和掌握这些工具的使用,因为说到底它只是一个工具而已,你学会使用这个工具,你就会更好的在未来职业发展当中获得先机。
所以行业里面有句话我是非常赞同的:人工智能系统是不会代替你的,是学会了使用人工智能系统的其他人替代你。所以我觉得需要我们大家尽快的熟悉和掌握这些技术,才能发挥更大的价值。