【播客】onboard26. ChatGPT与生成式AI的技术演进与商业未来

最近AIGC尤其是chatGPT的信息有些过载了,但像这次播客一样直接采访Google Brain研究员、Stability AI产品经理、Landing.ai前产品负责人的资源还是非常少见的。原播客大半个月前就发布了,但这次校对字幕的工作量也是空前的,因为新名词实在太多了。。。并且由于工作繁忙,只能cutoff在二月份发布了。

原播客在《Onboard》EP 26,想要边听边看的可以点击“阅读原文”或访问https://u3cexcdeqf.feishu.cn/minutes/obcn9rn96pwrr1oo2zn8cnia。以下文字记录基本从播客文字中复制,所以采取问题+我总结的原话摘要的形式记录。

问题:介绍一下什么是Google PaLM,也可以简单的可能 high level 的跟大家介绍一下,它在这种架构或者一些你觉得比较重要的特点上,跟其他的像GPT-3或者其他的一些语言模型有什么不一样的地方。

Xuezhi:PaLM 是叫做Pathways Language Model,它是 Google 现在发布的,我想应该是市面上最大的一个 language model。它最大区别应该是它有540个billion的parameter。它本身的架构是一个left to right从左到右,decoder only就只有一个decoder的transformer based的 language model。PaLM的优势在于,首先它 capacity 特别大,因为它有 540 billion 的parameter,所以我们发布 paper 的时候,其实我们当时在 paper 里面也 show 了它在很多 task 上面都有非常好的performance,基本上都是 state of the art。包括比如正常的 natural language processing,就 natural language understanding 的task,或者是 natural language generation 的task,PaLM 都是有很好、基本上是当时发布的时候最好的performance。

问题:如果以后每一个领域你要去train,都只需要非常少的数据。是不是以后要去做一个非常具体场景的模型,其实它的成本其实是越来越低了?

Yiwen:最后我们就问自己是模型厉害还是数据厉害,最后我们的结论还是数据更厉害。所以最后吴老师就提了两个概念,一个是data-centric AI,第二个是small data ML。我觉得他所说的 small data 并不是我们不需要特别多的数据,而是第一我们的数据要质量特别高,第二我们的数据需要平衡,也就是其实跟 tokenization 就LLM里面 tokenization 是类似的。

Yizhou:如果从生成模型角度上来说,其实我们现在的经验是,一开始在pre-train阶段能看到的数据量以及它的丰富程度是非常重要的。对于我们来说第一阶段量会比质更重要。当然会需要满足一点最基础的要求,比如文本和图片需要对齐,这一部分的质量是要求高的。但你比如对于图片本身的质量,我们指的质量是美学的质量或者有一个图片质量评分的一个系统,就是它的清晰度等等,这一部分不需要特别的高,在pre-train的阶段。但需要尽量的多,这样可以给我们的图片生成模型里面负责semantic、负责language那一部分更多的输入。这样生成的一个基础模型,我们再对它进行fine-tune的时候,切换成美学评分高的、质量评分高的数据集,量可以小很多。通过这样的一个方法,能够让它在能够生成更多的内容同时,对语义理解更好的同时,生成的质量也更高一些。包括对一些 specific domain,比如大家现在看到的一些像DreamBooth这样的应用,或者是一些其他的fine-tune之类的应用。

基于一个我们已经训练好的通用的图像生成模型想要扭转到某一个领域里面,其实需要的时间是非常短的。现在比较好的方法,可能几十分钟在一个消费级GPU上去做 fine-tune,就可以把一个通用的图像生成模型扭转成一个domain-specific 的图像生成模型,前提是没有给它植入新的概念。如果要植入新的概念,需要时间更长一些,可能需要几个小时。概念比较多,比较细节,可能需要几天,但这都是消费级GPU 能做的事情。从这个角度上来说,是图片生成模型需要一个极大的图文对的。图片、文本对齐需要好,但我图片质量本身不需要太高。其实我们说的图片文本对齐质量高也不需要特别的高。像CLIP的这篇文章的贡献很大一部分就是诶,这种比较稍微 loose 的这种对齐的文本对,也可以训练出很好的图片文本的这样对齐的模型。再在 domain-specific 以及我们最终训练高质量模型的时候,数据质量对于后面的部分是非常非常重要的。

问题:Stable Diffusion到底是什么?

Yizhou:三个区别,一个是它开源。开源的意思是我可以拿到weight,我可以拿到模型推理的代码,我可以在自己的消费级GPU上去做部署。这个开源其实是Stable Diffusion 能够成功的一个非常大的原因。它吸引了大量的之前可能没有办法访问到 API、或者访问API不知道 API 后面发生了什么事情想自己开发一些东西的开发者,甚至是爱好者来把这些模型来用起来。

二是它的生成的部分。我们的 target 不一样,我们 target 不是生成 fidelity 尽量高的图片,而是生成感知效果尽量好的图片。这样生成的出来的图片,我们 fine-tune 完了以后,也许在整体的 denoising 的,如果从数值上去评估它, denoising ability 可能是不如一个特别通用的模型的。但从感知的效果上来,从生产出可用的图片的效果上来说,它的效果是更好的。

还有一点就是社区,这社区其实跟开源比较近了,在Stable Diffusion训练的过程中,以及后面的这些应用的过程中,有大量的不同的开发者来参与,让应用成长得非常非常的快。这一部分也是让Stable Diffusion能够被很多的消费者用起来,像有Web UI,有 Inbook AI 这样部署到本地的。

问题:上一波我没有看到成功的 AI 开源公司出来。这一波我们预期会有不一样,是因为什么原因使得现在business model又变的是可行的?

Yizhou:如果下一代的商业模式是闭源的话,个人开发者会变得更痛,因为他去从 0 开始replicate一个Stable Diffusion或者是DALL-E的所需要成本,跟从零开始replicate的一个YOLO的成本是完全不一样的。YOLO姑且我还是能做的。但到了Stable Diffusion这个级别,虽然我们不停地把训练成本压下来,最后可能降到十万美元多一点、几十万美元或者不到10万美元,如果模型不大的话。但这个成本对于创业者和个人开发者来说都是个很大的一个burden。API 和开源基础模型的意义就变得非常的明显。这是成本方面。

在Stable Diffusion之前,我们没有听过哪个模型;或者在Diffusion model之前,我没有听过哪个模型,是一个爱好者会想方设法的去学Python,或者不学Python我也要想方设法,至少搞明白这些checkpoint怎么回事。我要去拉模型、wait 这种事情我没有听过的。那这个领域走到C端了以后,应用场景是指数级的增长,给卖AI这件事情带来了一些可能性。相对于上一代而言,直接做商业化的希望要大一些。

问题:从研究层面来说,我们现在的这一些尝试,它还有哪一些limitation?它通过基于现在 fundamental 的这种逻辑的这些可能一些优化和微调。它可以达到怎么样的一个天花板?

Xuezhi:我平时问你一个问题,比如我问你一个数学问题,或问你一个微积分问题,你可能要想很久,或者你要很清楚的逻辑思考,就把这个结果给推出来。像这种问题,现在Large Language Model做的还是比较差的。所以在很多的这些更加 challenge 或者更加 complex 的这种task上面,Large Language Model 还是有提升空间的。

另外一边,我觉得Large Language Model 在有一些东西上面,比如像chatGPT,其实有很多人,你看 Twitter 上的thread,或者有人发 blog post 做了一些研究,也发现比如chatGPT,它的 factuality 其实并不是特别好。等于比如你问它一些问题,它会给你一个非常看上去非常令人信服的答案。但是有时候这个答案可能是胡编乱造的,他背后并没有证的证据支持。比如你作为一个人类,你看这个答案你就知道有里面有一些逻辑可能是错的,或者里面有一些事实是胡编乱造的。对,这个可能也是一个将来需要提升的东西。

还有一个是 safety 方面,你如何保证这些 generative 出来的东西是安全的,他不会对比如任何一个种族产生bias,这也是一个比较重要的方面。因为现在你想这些Large Language Model也好,或者large vision models也好,生成的 model 也好,他们最后生成东西是根据 training 的 distribution 来的。你可以想见,在现在这个世界上, training distribution 本身是带有一定的bias的,所以对相应而来的这些 model 也自然会在生成过程中带着这些bias。所以如何保证比如这些 model 将来生成的东西是安全的,它不会。比如 implicitly 对某一些人或者某一些东西产生bias,这也是非常重要的。对,不然你想有些人用它的时候就会觉得这个结果对自己并不是很好。

问题:我也听到很多foundation model,通过训练 GitHub 上的代码数据还是很明显的提升了对于自然语言的推理能力。我想这也是模型迁移学习的一部分。我不知道论断是否是对的,以及未来当大模型其实学到更多的多模态的数据之后,能不能够对其他的modality的能力项也有明显的提升?

Xuezhi:首先,code代码数据的训练是不是能帮助提升reasoning?你这个答案是肯定的。对,因为我们做过很多实验。其实chatGPT,它的 base model 其实是GPT-3.GPT-3.55 model。它其实是有两个 version 的,一个是个 text version,一个是 code version。他们有个叫text-davinci的东西,也有个叫code-davinci的东西。code-davinci是另外在 code data 上面再 train 过的,我们当时比过那两个 model 的在 reasoning 上面的performance。我们发现在 code 上面 train 过的model, reasoning 的 performance 要比只在 text 上面 train 的 model 要好很多。所以 code 代码数据训练肯定是能帮助reasoning的能力的。我们当时看了一下,大概是因为 GitHub 上面的很多code,它其实提升了 model 在 manipulate symbolic 的能力。因为 code 你可以想象成是很多 symbol 的一个,你在操控那些symbol,你需要很清晰的逻辑把那些 symbol 操控好,这样才能得出最后正确的答案,对吧?所以code的pre-training 的训练是对它提升 reasoning 能力很有帮助的。这个是原因对。

未来如果加其他新的模态的数据,我觉得这个 model 是可以提升其他模态能力的。比如其实DeepMind已经有篇paper 叫Flamingo,对, Flamingo 里面其实有多模态,它既有 vision data,也有 text data,他把 vision 跟 text data interleave 起来。最后问题的时候,他会给你个图片问你,他可以回答,比如这个图片是哪个城市,他可以 reason 说这个图片里面比如有很多车或者很多高楼,他有可能是纽约或者什么。他其实是在你在 training 过程中加多模态的时候,你是能让 model 有多模态的能力的。其实也适用于其他模态,比如像 robotics 或者别的东西。你在 training 当中如果能加,model是同时可以有多模态能力的。还有你最后一个问题,说这些模态是否会相互帮助,我觉得是很有可能的。你想人在学习的时候,不可能你从小到大只是对着 text 学,对吧?你在学 text 的时候,同时也看到了很多比如image video audio 之类的。这些模态互相之间肯定是有 interaction 的。你如果能在 model training 当中,把这些模态都加进去,让他们 interaction 能够最大化。其实是能够让这些模态互相进行帮助,让 model 整体的能力得到更大的提升的。这个也是我觉得现在很 promising 的一个方向,很多公司其实也都在研究。对。

问题:图片生成的这块你现在看到还有什么,你觉得可能的限制、和未来的一个主攻的会提升的方向?

Yizhou:从图片来说,我们对模型的自己的能力限制,现在还是有一个比较明确的理解的。我打一个比方,我经常打这个比方,我们抓一个画师出来,一个甲方想给他沟通清楚我想把什么东西画出来。要经过几轮交互要花多少时间?你只用 77 个token,77 个单词想给模型描述清楚,答案是不是那么现实的,对吧?沟通的 bandwidth 是不够的,怎么提升我们跟模型提沟通的bandwidth,其实比较是一个 low-hanging fruit 就比较容易去解决的一个问题,就需要不同的模型,不同的 condition 的方式。这个不能说是很明确的 research progress,因为怎么做大家是清楚的,只是需要花一些时间,有一些 know-how 的问题可能需要去解决。这是一个要明确的短期的方向。

长期来看,图片模型我刚才就提到了有一点非常好,我也非常相信这件事情是。在多模态这件事情上面,我们现在在图片模型上面用的语言能力其实是非常低的。低到什么程度?我们的语言模型几百M、1个B多一点,跟我们动辄上百 B的现在真正的大模型、大语言模型来说,其实差得非常非常的多。

提升模型的语言能力也已经被验证了,是一个让提模型生成能力提升的非常好的方法。但我们好像看到了一个threshold,它提升到某一个领域、某一个瓶颈之后,再往上可能就会比较难。怎么能让模型的语言能力变成更强,乃至这种以多模态的方式去做图片的生成效果变得更好,这也是一个方向。但这是图片部分。往后说,其实扩展模态是比较重要的一件事情,像比较大家短期的视频模型、3D模型应该都是会在2023年会发生的事情, 2023 年大家会看到一些基础的视频和3D模型出来,有一些应该也会被开源。这一部分希望从领域去看,怎么去推进更多应用场景的探索。

问题:现在我们看到我们要真正去做好多模态的难点,主要核心的难点在哪?

Xuezhi:你单模态其实你只要一个 encoder 就够了,对吧?你text有个text encoder,或者vision有个vision encoder,它的所有 input 都是一致的。你用同一个 tokenization 同一个encoder,可能你就可以 encode 出来一个 unified representation,但是如果多模态非常tricky,因为text,它会经过一个 text encoder变成一个 representation,image 会经过一个 image encoder 变成一个 image 的representation,对吧?你之间就是这个东西,怎么 align 在一起,怎么互相让他们 interact interaction,能够maximize,这些都是非常难的。

对之前Flamingo paper,他们用了一个比较好的方法,就是 interleave 把 text 跟 image 互相插在一起。比如一个 image 下面跟着一个text,一个 text 后面再跟着一个image, image 后面再跟着一个text。对。它是先把 image 通过一个 image encoder encode 到一个reputation,再用一个 language model 去把text encode到另外一个text的space,通过这种 interleave 的方式去 train model,最后让 model 能够生成一个 reasonable 的text,这样子。对。所以你怎么把这些互相多个模态 unified 在一起,变成一个整个 model 的training。到底 objective 是什么?你怎么把这些多模态结合在一起,变成一个 unified representation?以及让他们模态跟模态之间的 interaction 最大化,就是让他们互相能真的产生作用。

不然你再单train一个 text model 跟单train一个 vision model,对吧。所以你要把他们互相 interact 到最大化。我觉得是个比较大比较难的部分。对,而且更不用 video 了, video 处理起来更麻烦。你可以想象成比如video,它可以割成一帧,每帧它分别可以有image,也可以有text,对吧?你比如把它 transcript 搞下来,它另外有个text,你要把这些东西都 align 在一起,你怎么处理帧跟帧之间的关系,怎么又跟另外的text?比如 video 有个title, video 有个audio,就怎么把这些东西全 align 在一起,就是一个比较大的难点。

问题:你现在看到的工具链上有哪一些你觉得可能的痛点?

Yiwen:其实去年我跟我们的朋友们投了一家公司,叫OmniML,我们觉得是比较好的。它做了两件事情。它在上层、在模型的层面,它根据你的要求,相当于做hardware specific tuning。在下层,它会去作为针对你不同的嵌入式的系统。比如你是高通的芯片还是Nvidia的芯片。它根据它的下面编译器的特点,高通的芯片它用的是LLVM的编译器,Nvidia用CUDA。对于不同的编译器,你会使用什么?你应该引用什么样的库?这些东西他们也做了一些自动化的处理。

AWS 出了一个产品,叫做 SageMaker Neo。SageMaker Neo做的工作也是类似的,它虽然做得不怎么地哈,但是他在 Nvidia上做的还可以。它做的和OmniML有一些类似,它试图统一所有现有的嵌入式系统,做inference嵌入式系统的不同的compiler。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13786.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

警惕这些“挂羊头卖狗肉”的高科技培训!

最近真的被误人子弟的教育骗子给气到! 事情是这样的,6月11号,我在2023 开放原子全球开源峰会上,遇到了一位从广东来北京参会的老师。 这位老师透露,他来自一所职业技术学院,学校师资挺不错的,可…

看完GPT-4测评报告,人麻了

击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 微软前两天发布了一个154页的GPT-4全方面测评报告,看完直接人麻了,确实太强了!! 说实话,很少看到这么多人转发关注一个论文&#xff1…

谷歌CEO撰文:要安全、负责任地搞人工智能;GPT-4通过CPA会计考试;cURL 8.1 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

今天打开个税APP,我直接人麻了!

大家好,我是程序员小猿。 xdm,你们个税申报都完成了?每到每年3月份,我就很高兴,因为我基本上每年都会退税。作为一名博主,平时接点小广告,都是按劳务税20%走的,到每年3月份时&#x…

ChatGPT+智能家居在AWE引热议 OpenCPU成家电产业智能化降本提速引擎

作为家电行业的风向标和全球三大消费电子展之一,4月27日-30日,以“智科技、创未来”为主题的AWE 2023在上海新国际博览中心举行,本届展会展现了科技、场景等创新成果,为我们揭示家电与消费电子的发展方向。今年展馆规模扩大至14个…

我让 chatGPT 教我学一下操作系统怎么样?

大家都知道现在 chatGPT 已经在多个领域展现了及其强大的工地,比如文案策划,毕业论文方便,甚至很多程序员都直接让 chatGPT 帮忙写代码了,在一些模板化的代码方面,chatGPT 更展示了优秀的能力。 所以我突然迸发了一个…

HarmonyOS 最热门、生态成“老大难”,揭晓数万名开发者眼中的国产操作系统!...

作者 | 屠敏 出品 | CSDN(ID:CSDNnews) 操作系统经历了 30 多年的本土化发展,趟过了荒漠沙丘,栽培了基于 UNIX 操作系统开发模式下的零星绿植,再到现如今基于 Linux 以及自研技术的茂密森林,其上…

巴比特 | 元宇宙每日必读:外媒称谷歌终止AR头显项目,转向构建AR软件平台,微软曾吐槽市场规模太小,苹果、Meta仍在坚持...

摘要:据华尔街见闻报道,相比AI概念火爆拥挤,头显赛道显得格外冷清。周二,据Business Insider报道,谷歌终止了代号为Iris的增强现实(AR)头显项目,转向AR软件平台的构建。目前,头显巨头们开始“分…

AI 写作,30 秒上手,可别再说写作没思路了

你经常要与文字打交道吗,是不是也会有以下困惑? 写作难下笔写不好?课程制作难缺灵感?营销文案没吸引力?PPT制作耗时费力?短视频脚本没创意? ChatGPT 出现以后,嗅觉灵敏的先行者&…

AI Canon精选资源清单;带AI功能的PS安装文件与教程;讯飞星火10月对标 ChatGPT;直播换脸工具盘点 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 AI Canon:人工智能精选资源清单 思维导图 ShowMeAI知识星球资源编码:R106 AI Canon 是由美国著名的风投机构 …

万字长文:可能是全网最晚的ChatGPT技术总结-2

目前公开开源的模型FLAN T5就是在T5模型基础上进行了指令微调的训练,相较于那些动辄几百亿、几千亿参数的大模型来说,这个模型的参数量已经足够亲民,可以作为个人研究或者业务实现的strong baseline 接上一篇 作者:邱震宇&#x…

都说AI增益客服 企业实测:提效90%

吴立楠记得ChatGPT刚出来时全公司涌动着的激奋,“从CEO到投资人,天天开会讨论怎么和产品结合。”2022年12月,ChatGPT发布没几天,智能客服公司智齿科技的这位CTO与团队投入到一场耗时4个月的研发大战。目标明确:将GPT大…

超越ChatGPT——SelfCommNet:一种拥有自我意识的神经网络设计

SelfCommNet:一种拥有自我意识的神经网络设计 *注意:从本文获得相关思想需要注明引用本文* 引言心理学与神经科学基础方法1、整体架构2、外部输入数据及其编码器3、交流网络(Communication network system)4、输出数据控制器5、权重抑制6、记忆网络(Memo…

AI人工智能内容创作-超越ChatGPT

借助更多工具利用人工智能的力量,让你更快获得更好的结果,超越ChatGPT,如果你认为ChatGPT很棒,但你想要更清晰、更快、更好的结果,以及不需要超级准确的提示就能让它变得神奇的人工智能,请举手!…

科大讯飞发布超越ChatGPT的中文大模型:讯飞星火,真的能成为人工智能领域的新星吗?

近日,科大讯飞召开了星火认知大模型成果发布会,宣布讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。这一消息引起了人工智能领域的广泛关注。 作为人工智能领域的翘…

讯飞星火大模型将超越chatgpt吗?

近日,科大讯飞召开了星火认知大模型成果发布会,会上表示讯飞星火大模型将突破开放式问答,对标ChatGPT,在中文能力上超过ChatGPT,在英文能力上与ChatGPT相当。对此,你怎么看? 一、你有使用过这种…

超越 ChatGPT,GPT-4 将成为下一个“顶流”?

出品人:Towhee 技术团队 从2022年底开始预热,智能对话机器人 ChatGPT (即 GPT 3.5)成功地又一次掀起了人工智能的热潮。除了AI 相关的从业者以外,如今 ChatGPT 已是家喻户晓。就在美国东部时间 3月14日,其…

Ernie3.5超越ChatGPT,中文测试胜过GPT-4

百度最近宣布,其旗下的ChatGPT风格服务在多个方面表现优于OpenAI的聊天机器人。该公司最新推出的AI模型Ernie3.5不仅在综合能力评分上超过了ChatGPT(GPT-3.5),而且在中文测试中也超越了GPT-4。这一成就标志着百度在人工智能领域取…

超越 ChatGPT ?AutoGPT 爆火,两周斩获 50k+ Star:无需人类插手,自主完成任务!...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 刚上线两周就收获 50k Star,看来 Auto-GPT 是真的火了! (项目地址:https://github.com/Torantulino/Auto-GPT?refjina-ai-gmbh.ghost.io) …

超越 ChatGPT

今天在LLM上构建产品的技术。 现代指令调整语言模型(LLM)是软件工程师工具箱中的最新工具。加入数据库、网络、超文本和异步 Web 应用程序等经典技术,我们现在有一种新的使能技术,它看起来非常强大,但其最佳应用程序尚…