他们开源了GitHub上最火的双语对话模型,还说AI胡说八道不需要被纠正

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

国产对话机器人ChatGLM,和GPT-4诞生于同一天。

由智谱AI和清华大学KEG实验室联合推出,开启alpha内测版。

f2a584b9a7b6f1cfd0dec5cc34f7830c.png

这个巧合让智谱AI创始人兼CEO张鹏有一种说不清的复杂感觉。但看到技术被OpenAI做到这么牛,这名被AI新进展轰炸麻了的技术老兵又猛然亢奋起来。

特别是在追GPT-4发布会直播时,他看一下屏幕里的画面,就埋头笑一阵,再看一段,又咧嘴笑一会儿。

从成立起,张鹏带队的智谱AI就是大模型领域的一员,定下“让机器像人一样思考”的愿景。

但这条路坎坷不断。和几乎所有做大模型的公司遇到的问题一样,缺数据、缺机器,同时还缺钱。好在一路走来,有一些机构和公司提供无偿支持。

去年8月,公司联合一众科研院所,开源的双语预训练大语言模型GLM-130B,能在准确性和恶意性指标上与GPT-3 175B (davinci) 接近或持平,也就是后来ChatGLM的基座。和ChatGLM同时开源的还有个62亿参数版本ChatGLM-6B,千元单卡就可跑的那种。

除了GLM-130B,智谱另一个有名的产品是AI人才库AMiner,学界大佬都在玩:

ec0a446db5add981160ed374eefe771d.png

这一回和GPT-4撞到同一天,OpenAI的速度和技术,让张鹏和智谱团队都有些压力山大。

“一本正经的胡说八道”需要被纠正吗?

ChatGLM内测后,量子位第一时间拿到名额, 出了一波人肉测评。

先不说别的,几轮测试下来就不难发现,ChatGLM身上有着包括ChatGPT、新必应在内都拥有的一项本领:

一本正经胡说八道,包括但不限于在鸡兔同笼问题中算出-33只小鸡崽。

对大多数把对话AI当“玩具”或办公助手的人来说,怎么才能提高准确度,是格外被关注和看重的一点。

对话AI一本正经胡说八道这回事,可以纠正吗?又真的需要纠正吗?

d5b443d1712a932c98a7fb5525dcb442.jpegChatGPT的经典胡说八道语录

张鹏在表达个人意见时说,要去纠正这个“顽疾”,是一件本身就很奇怪的事情。

(保证说的每一句话都正确)这件事连人自己都做不到,却想让一个人造的机器不犯这样的错。

关于这个话题的不同看法与不同人对机器的理解息息相关。张鹏看来,抨击AI有这一行为的人,可能一直以来对机器的理解都是一丝不苟的,它们非0即1,严苛而精确——持有这种观念的人,潜意识认为机器不应该也不能犯错。

知其然与知其所以然同样重要,“这可能源于大家对整个技术的演进和变化,以及技术的本质没有深入理解。”

张鹏用人的学习作为类比

AI技术的逻辑和原理,其实还是在模拟人的大脑。

面对学习过的东西,一是知识本身可能有错,或有更新迭代(如珠穆朗玛峰的海拔);二是学习的知识之间也存在互相冲突的可能了;三是人也总有犯错、犯迷糊的时候,

AI犯错好比人犯错,原因是缺少知识,或者错误运用了某项知识。

总之,这是很正常的事情。

a9f8bb157bc93f910f5b1da54a6f49c1.png

与此同时,智谱当然关注到了OpenAI向CloseAI的默默转身。

从GPT-3选择闭源,到GPT-4进一步掩盖架构层面的更多细节,OpenAI对外回应的两个原因,一是竞争,二是安全。

OpenAI的用心,张鹏表示理解。

“那走开源路线,智谱没有竞争和安全方面的考虑吗?”
“肯定也会有。但难道闭源就一定能解决安全问题吗?我看未必。而且我相信世界上聪明人很多,竞争是促进整体行业和生态快速往前推进的优质催化剂。”

比如和OpenAI同台竞技,哪怕只是奋起追赶,也是竞争中的一环。

这里的追赶是在陈述过程,建立在认为OpenAI研究方向是通往更远目标路径上的必经之路,但追赶上OpenAI并不是最终目的

追赶上,不代表可以停下;追赶过程,不代表要原样照搬硅谷模式,甚至可以发挥中国调动顶层设计集中力量办大事的特色和优势,才有可能去弥补发展速度上的差异。

1e7c2067757020ad22d6ebe8f2659b6a.gif

虽然有2019年至今4年多的经验,但智谱还不敢给出什么避坑指南。不过,智谱了解大致对的方向,这也是智谱透露的正在和CCF聊的共同想法——

大模型技术的诞生,是一个非常综合、复杂的系统化工程

它不再是几个聪明的脑袋在实验室里琢磨,掉几根头发,做点实验,发点paper就了事。除了原始的理论创新,还需要很强的工程实现和系统化能力,甚至还需要很好的产品能力。

就像ChatGPT这样,选择合适场景,设定和封装一个上到80岁、下到8岁都能接触使用的产品。

算力、算法、数据,具体到背后都是人才,尤其是系统工程的从业者,重要程度远远大于往日。

基于这种认知,张鹏透露道,在大模型领域中加入知识系统(知识图谱),让二者像左右脑一样系统工作,是智谱在研究和实验当中的下一步。

GitHub最火双语对话模型

ChatGLM整体参考了ChatGPT的设计思路。

也就是在千亿双语基座模型GLM-130B中注入代码预训练,通过有监督微调等技术,实现人类意图对齐(就是让机器的回答符合人类价值观、人类期望)。

背后1300亿参数的GLM-130B,由智谱和清华大学KEG实验室共同研发。不同于BERT、GPT-3以及T5的架构,GLM-130B是一个包含多目标函数的自回归预训练模型。

去年8月,GLM-130B对外发布,同时开源。Standford报告中,它的表现在多项任务上可圈可点。

36e65a1c192d6060e49b8ee682baccee.png

对开源的坚持,源于智谱不想做通往AGI道路上孤独的前行者。

这也是继开源GLM-130B后,今年继续开源ChatGLM-6B的原因。

ChatGLM-6B是模型的“缩小版”,62亿参数大小,技术基底与ChatGLM相同,初具中文问答和对话功能。

持续开源,理由无外乎两点。

一个是希望把预训练模型的生态做大,吸引更多人投入大模型研究,解决现存的很多研究性问题;

另一个是希望大模型作为基础设施沉淀下来,以帮助产生更大的后续价值。

加入开源社区确实很吸引人。ChatGLM内测的几天内,ChatGLM-6B在GitHub上已有8.5k星标,一度跃升trending排行榜上的第一位

05e3ee21137afd06c601d41ee0e49b2b.png

从本次对话中,量子位还从眼前这位从业者身上听到这样的声音:

同样bug频出,但人们对OpenAI推出的ChatGPT,和对谷歌对话机器人Bard、百度文心一言的容忍程度差别明显。

这既公平,又不公平。

从纯技术的角度来说,评判标准不一,这是不公平所在;但谷歌、百度之类的大厂,占据更多资源,大家天然觉得它们技术实力更强,做出更好的东西的可能性更高,期待值就更高。

“希望大家可以给更多的耐心,无论是对百度,对我们,还是其他机构。”

6070d8c8f167b3ed7984cfc9c9d5a31b.png

除了上述内容,在本次谈话中,量子位还和张鹏具体聊了聊ChatGLM的体验感受。

下面附上对话实录。为了方便阅读,我们在不改变原意的基础上做了编辑整理。

对话实录

量子位:内测版本给自己打的标签好像没那么“通用”,官网给它的适用领域框定了三个圈,教育、医疗和金融。

张鹏:这跟训练数据没什么关系,主要是考虑到它的应用场景

ChatGLM和ChatGPT类似,是一个对话模型。哪些应用领域天然更接近对话场景?像客服,像医生问诊,或者比如线上金融服务。这些场景下,更适合ChatGLM的技术去发挥作用。

量子位:但医疗领域,要看病的人对AI的态度还是比较谨慎的。

张鹏:肯定不能直接拿大模型往上怼啊!(笑)想要完全替代人类,还是要慎重。

现阶段不是用它去代替人工作,更多的是辅助作用,给从业者提供建议来提升工作效率。

量子位:我们把GLM-130B的论文链接扔给ChatGLM,让它简要概括一下主题,它叭叭半天,结果说的根本不是这篇。

张鹏:ChatGLM的设定就是不能获取链接的东西。倒不是技术上的困难,而是系统边界的问题,主要是从安全角度考虑,不希望它任意访问外部链接。

可以试一下把130B的论文文字copy下来扔给输入框,一般不会瞎说。

量子位:鸡兔同笼我们也扔给它了,算出了-33只鸡。

张鹏:在数学处理、逻辑推理方面,它确实还有一定缺陷,做不到那么好。内测说明里我们其实写了这件事。

48ea7b1712f94a3dcb2f5c4cf9c87ac9.png

量子位:知乎有人做了测评,写代码能力好像也一般。

张鹏:至于写代码的能力,我觉得还行啊?不知道你们的测试方式是什么。但具体也要看跟谁比了,和ChatGPT比的话,ChatGLM本身在代码数据的投入可能就没有那么多。

就像ChatGLM和ChatGLM-6B比,后者只有6B(62亿)的参数,整体能力,比如整体的逻辑性、回答时的幻觉和长度上,缩小版和原版的差距就很明显。

但是“缩小版”能在普通电脑上部署,带来的是更高的可用性和更低的门槛。

量子位:它有个优点,对新信息的掌握度不错,知道推特现在的CEO是马斯克,也知道何恺明3月10日回归学界的事情——虽然不知道GPT-4已经发布了,哈哈。

张鹏:我们做了一些特殊的技术处理。

量子位:是什么?

张鹏:具体细节就不展开讲了。但对时间比较近的新信息,是有办法处理的。

量子位:那透露下成本?GLM-130B训练一次的成本还是有几百万,ChatGLM进行一轮问答的成本目前压到什么程度?

张鹏:我们大概测试和估算了一下,和OpenAI倒数第二次公布的成本差不多,比他们略低一些。

但OpenAI的最新报价缩减到原来的10%,只有0.002美元/750个单词,这就比我们更低了。这个成本确实是很惊人的,估计他们做了模型压缩、量化、优化等工作,否则不可能降到这么低。

我们也在做相关的事情,期望能把成本压下去。

量子位:假以时日,能和搜索成本一样低吗?

张鹏:什么时候能降到这么低?我也不知道。还需要一点时间。

我之前看过对每次搜索价格平均成本的计算,其实与主营业务相关。比如搜索引擎主要业务就是广告,所以要用广告总收入作为上限来计算成本。这样计算的话,其实要考虑的并不是消耗的成本,而是企业盈利收益的平衡点。

做模型推理需要的是AI算力,肯定比搜索这类只用CPU算力的成本是要更高的。但大家也在努力吧,很多人提出一些想法,比如持续去做模型的压缩量化。

甚至有人想把模型做一些转化,让它在CPU上跑,因为CPU更便宜,量更大,跑起来的话,成本下降就会很明显。

量子位:最后还想聊两句人才方面的话题,现在大家都在抢大模型人才,智谱怕招不到人吗?

张鹏:我们从清华KEG的技术项目孵化出来,和各个高校的关系一直都不错。而且公司对年轻人来说氛围比较open,75%的同事都是年轻人,我这种已经算老家伙了。大模型人才现在确实奇货可居,但我们还没什么招人方面的担心。

反过来,其实我们现在比较担心被别人撬墙角(狗头)。

— 联系作者 —

83c353d8693b5cf22f929fe4a17a15ab.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19389.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023爱分析 · 认知智能厂商全景报告 | 爱分析报告

报告编委 黄勇 爱分析合伙人&首席分析师 李进宝 爱分析高级分析师 陈元新 爱分析分析师 目录 1. 研究范围定义 2. 市场洞察 3. 厂商全景地图 4. 市场分析与厂商评估 5. 入选厂商列表 1. 研究范围定义 研究范围 人工智能的发展分为三个阶段——计算…

比尔·盖茨:AI时代已经开启,GPT是40年来最具革命性技术

Datawhale干货 选自:GatesNotes,来源:机器之能 比尔・盖茨表示:人工智能革命重要程度不亚于手机和互联网的诞生。 周二,微软公司创始人比尔・盖茨在他的博客 GatesNotes 中盛赞 OpenAI 的 GPT 模型,称其是…

ChatGPT就这样来了,你不接受它的话,时代就不接受你了

这一波来的太突然了,上个月还在聊ChatGPT会不会替代一部分人的工作,现在就已经发生了。这个周末两天没休息,周六见了在国内最大的ERP软件公司做了十几年的几个朋友,周日见了互联网的几个朋友,包括互联网大厂和游戏公司…

比尔盖茨最新全文:GPT是我一生中见到的两项最具革命性技术之一

ChatGPT狂飙160天,世界已经不是之前的样子。 我新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 今天微软公司联合创始人比尔盖茨在他的个人博客中畅谈ChatGPT和生成式人工智能对教育、医疗、生产力提升、公平等等方面的影响。…

大厂当“海王”,独角兽专情,谁是AI医生的扛鼎者?

比尔盖茨可能是ChatGPT的“头号铁粉”。 他对ChatGPT的“表白”,简直如同情话一般热烈,“这是我一生中见到的两项最具革命性的技术之一”。 ChatGPT在医疗领域的落地,则是比尔盖茨最为看好的赛道,他期待全球都束手无策的看病难、看…

关于中国的医疗改革,看人工智能(chatGPT)怎么回答!

1.对于中国的医疗改革你们什么好的建议? 作为一个语言模型,我可以为您提供一些建议,但请注意这仅仅是一些普遍的建议。医疗改革是一个复杂的议题,需要综合考虑各种因素,包括政治、经济、文化和社会等方面。以下是一些…

【重磅】OpenAI最新解密,ChatGPT的本质是无损压缩器

作者 | 费斌杰 熵简科技CEO 自从去年12月ChatGPT问世以来,AI的发展正式进入快车道,整个行业开始“按日迭代”。从1957年以来,人类在经历了数轮AI浪潮后,这次通用人工智能(AGI)是真的要来了。 我们团队在2月…

chatgpt赋能python:Python考点填空:必备知识点

Python考点填空:必备知识点 作为一种流行的编程语言,Python已经广泛应用于人工智能、数据分析、Web应用等领域。在Python编程中,我们时常接触到填空题,这些考点不仅是Python编程中的基础知识点,也是我们必须掌握的必备…

备考公务员2019

参考:https://www.zhihu.com/people/xi-chuan-3-5/posts 找准目标 你想好为什么考公务员了吗?这是准备公考的第一步也是最重要的一步。如果目标坚定,则遇到时间的紧张、复习的痛苦、深夜的孤寂等一系列困难时都能迎刃而解;如果仅仅…

ChatGPT 将冲击数据库!中国数据库开发者报告正式发布

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 经过一批批先行者和企业的努力,国产数据库崭露峥嵘,逐渐走上国际舞台,譬如:三年前阿里自主研发的金融级分布式关系数据库 OceanBase 在 TPC-C 基准测试中…

这里有一份教你每天用领英获取20个询盘的免费课程,手慢无

于2023年3月22日,我们圆满完成了深圳宝安的外贸分享交流会,时隔两个月即将迎来我们的广州场。 在上次深圳会议,有幸邀请到江西省跨境电商协会会长莅临 给大家分享了: 如何帮助传统制造业从“0”开始做外贸、如何借助平台为企业…

文心一言 VS 讯飞星火 VS chatgpt (27)-- 算法导论5.1 2题

二、请描述 RANDOM(a,b)过程的一种实现,它只调用 RANDOM(0,1)。作为a和b的函数,你的过程的期望运行时间是多少? 文心一言: 假设我们有一个伪随机数生成器,可以生成在[0,1)范围内的随机数。那么我们可以使…

文心一言 VS 讯飞星火 VS chatgpt (31)-- 算法导论5.2 3题

三、利用指示器随机变量来计算掷n 个骰子之和的期望值。 文心一言: 为了计算掷n个骰子之和的期望值,我们需要先了解一个重要的概念:指示器随机变量。 指示器随机变量是一种特殊的随机变量,它只有两个取值:0和1。通常…

Prompt提示工程的艺术: 解码 ChatGPT

随着ChatGPT的横空出世,prompt提示工程突然就成了一个时髦的技能,prompt的核心是制定科学有效的提示,以便于我们可以从大语言模型中得到更精确的输出。简单说,就是如何从任何人工智能模型中获得更好的输出结果。 做到这一点需要两…

一周 AIGC 丨马云回国首谈 ChatGPT,AIGC 用于旅游宣传片

图片来源:由无界AI生成 今天,在海外“流浪”近 1 年的马云回国的消息刷屏,被众多媒体解读为是对中国民营企业的一个重大的标志性事件。眼光一向超前的马云自然不会错过 ChatGPT 话题。他说:“ChatGPT 这一类技术已经对教育带来挑战…

AI怎么把游戏变好玩?米哈游出手了

《原神》发布两年半后,游戏新贵米哈游终于出新,上线了《崩坏:星穹铁道》。新游戏的一大亮点是内置了一个“图生图”的AIGC工具,用户可上传任何图片,生成对应风格的游戏角色“三月七”。 广大玩家脑洞大开,短短一周时间…

游戏人,卷得过AI吗?

将深燃设为“星标⭐” 第一时间收到文章更新 深燃(shenrancaijing)原创 整理 | 李秋涵 2023年,AI的热潮席卷各行各业。相比于大语言模型ChatGPT,AI绘画火得更早,目前看来,在市场上的应用也来的更早。 根据此…

RunningCheese Firefox 71.0 正式版 [1225]

RunningCheese Firefox V10 正式版开发前后经历4年才推出,全新的架构让 Firefox 焕发了第二春,有史以来最棒的 Firefox,高速流畅,一别卡顿。在速度比肩 Chrome 浏览器的同时,还保留了 Firefox 的强大功能,正…

ChatGPT+打印机自动写作业?都是科技与狠活

近日,有网友在Tik Tok上分享了一段视频,他通过ChatGPT加3D打印技术,成功实现了自动写作业。 自动写作业!这不是所有学生的梦寐以求的待遇吗? 小编的脑海中立刻闪过了《哈利波特》中会自动写字的羽毛笔,不过…

“高仿 Twitter” 1 天拿下 3000 万用户,惹马斯克发律师函:你个“山寨货”!...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 上线 4 小时用户数破 500 万、7 小时破 1000 万,不到 24 小时破 3000 万……这般势如破竹的用户增长量,来自 Meta 旗下、号称“Twitter 的绝佳代替品”的 Threads。 为此&…