【SaaS播客】onboard20. 生成式AI AIGC:硅谷AI大牛、投资人、创业者眼里的机会与挑战

近期IT领域最火热的话题就是AIGC了,可以说是真正出圈了,这个词貌似是百度大力推广的;国际上用得更多的是Generative生成式AI。最近的热点是“真”智能聊天的产品chatGPT。我认为对上层产品而言最关键的是这2个里程碑:

20年中OpenAI推出GPT-3 OpenAPI,其它公司能够基于大模型构建产品。

22年下半年Stable Diffusion开源,其它公司能够基于大模型用消费级GPU做微调,构建专属模型。

就像移动平台iOS/Android的出现,使所有的产品都值得在移动端重做一遍一样。随着技术门槛降低,我认为Generative AI也值得使至少所有包含PGC/UGC功能的产品重做一遍,包括企业软件这种天然就需要员工用户来录入内容的system of records.

原播客在《Onboard》EP 20,想要边听边看的可以点击“阅读原文”或访问https://u3cexcdeqf.feishu.cn/minutes/obcn3lk861n736bxkos4ih88。以下文字记录基本从播客文字中复制,所以采取问题+我总结的原话摘要的形式记录。

问题:从技术的角度,现在我们看到的Generative AI 到了技术上,跟之前它是做了哪些准备,使得Generative AI现在能够成为一个大家可以商用的一个技术?

田渊栋: 之前的 AI model 用的是 GAN 来train。GAN 有个问题,训练不是很稳定,训练出来的结果其实也不一定非常好,所以遇到是很大的一个问题。最近大家都不用 GAN 了,用Diffusion model一点点的再加细节上去。model 训练起来虽然比较慢,但是确实比较稳定,得到结果也比GAN 的效果要好。这是其中的一个突破的点。

另外一个点是Transformer的引入。Transformer 主要的一个好的地方是,它能够把多模态的数据放在一起进行对齐,然后把一个模态的信息转到另外一个模态上去。Transformer一来,有个好的地方是我可以用文字去控制图像的生成效果。因为Transformer有多模态的融合能力,所以我可以把图像、文字都转化成Transformer 的token,用Transformer embedding。这 embedding 之间,它们之间是相互之间可以翻译的。这样你就可以把文字变成图像。通过这个方式就能够训练的也比较好。

我觉得另外一个可能一些突破,比如像CLIP loss function,有些 loss function 的改进,其实能够让训练出来的embedding 变得更精细,它能理解更多的或者更深入的语义。通过这些比较大比较好的进步,最终能得到一个比较好的或者受控制的一个图像生成模型。这是为什么现在那么火的原因。所以现在能火,要对于近 10 年来,大家在不懈努力,把图像生成的效果一点点在往上推进,最后达到这样的效果。

问题:其实上一波热潮之后,我会发现当时很多做Computer Vision做AI的公司,其实我们后来看到成功的并不是很多。这一次会有什么相同和不同的地方?等到技术最终都被 commoditize了以后,这次谁能够真正的赚到钱?能够赚钱的 business model 会跟之前有什么不一样吗?

Lan: 现在很明显的有,大概其实三波公司。一波专门做model,其实像OpenAI,像还有一些大公司,其实现在都做自己的 model,他们有很多的基金。很多 research要 train model 的,我觉得 winner 还是会 concentrate on 有最多基金的这些公司,因为 train model 是非常贵的。

第二波公司其实就建在我刚才说建在这些model,用他们model 去找这些场景的这些公司,能够找到非常 specific use cases 去 monetize。这些公司,你跑得最快的,其实是可以赚很多钱,其实可以赢的。因为做 modelde公司,它不会有那么多时间去做这些use case。

第三波其实很多时候都用不上这些model,因为这些公司他们必须得建自己的新的model。是非常非常 specific vertical,比如焊接机器人,这个东西你有很多的知识在,太难做了,你要自己做一个机器人,现在很多 model 是用不上的,你要自己要做自己 model 也会去 leverage off the shelf。这个东西我觉得其实如果能做出来,基本上是一个 hundred billion dollar 公司。

问题:Transformer 现在它attention的机制,应该挺难生成大段大段的这样的连贯性的、前后有关联性的长文本。再往后面从你们角度来看,如何让整个文章的结构化,应该是会有什么突破,除了这个模型之上?

田渊栋: 所以它一个关键的点就是要控制它的prompt。在输入prompt中我要把过去的文本的细节,文本的那些 summary 和角色的一些设定,还有角色的一些特质,包括整个文章的主题,都要放进 prompt 里面去。这样生成出来的文本才会有的放矢。它会有一个比较好的,或者比较跟以前的文本一样的,或者比较连贯的一个架构。这个是一个很重要的点。你会发现你把上下文放进 prompt 里面之后,生成出来的文本就会好很多。

当然了,我们之后还有一些后处理的步骤,比如有一个重新再重采样的过程,你可以生成,比如 20 段,我们有一个方法,可以把 20 段比如排个序,只取最相关的一段作为下一段来处理。这样生成出来的文本又长了又连贯。目前我们可以生成 2000 到比如 7000 词的英文词的,这样的文本还是比较连贯。

问题:现在很多用 AI 生成文本的公司还是基于 prompt 提示词,你发现要 fine tune 到你想要的效果,其实你的提示词要非常的具体,可能就不是提示词了,是一个提示段落了。所以其实对于很多创作者、艺术家来说,其实不是每个人的语言文字表达都可以那么的精确的。所以从技术的角度来说它。我们现在看到哪些公司在这个方面,或者哪些研究的方面有可能会有一些突破?

田渊栋: 其实可能需要更好的模型对吧?可能需要比如Transformer 上做一些改进,比如把Transformer 结合以前的模型,比如什么knowledge graph,或者把以前的知识用一些比如图像、或者说用图来表示。这样的一个结构可能会有一些帮助。接下来你怎么样去能够把具体语义上的一些非常 subtle 的东西能够表示出来,这样就能减少你提示词的次数。这个是一个可能的问题。怎么样personalize,或者怎么样 contextualize 你的model?

问题:用生成式AI 来作为一个工具这个事情本身,在哪一些领域我们看到也是可以做得比较深,哪些领域可能比较容易有渠道上的一些劣势?

Jiang Chun: Jasper的生成性只是它们的其中很小的一部分。他们最厉害是因为他们生成的东西能够 optimize for SEO 算法。他们又有非常多的一些 community education,又有一些很好的上下游的服务来帮你来 post on social media directly。可能他们还会开始做AB testing。所以我觉得之后的AI能够成长为 billion business的公司一定是和一个垂直的领域和 workflow 结合得非常好的。

垂直领域一定是一个非常好的打法,因为现在最好的有 retention 的公司,在 AI generation 方面:一个是做 interior design,卖给这些地产经纪generation,一个是做汽车 generative design,会卖给福特这些公司。

问题:从技术角度现在我们有哪一些方向可以去把 cost 这个事情可以降低的。我们现在也还有哪些挑战?

田渊栋: 清华的新模型DPM-solver可以把Stable Diffusion的step iteration从50次减少到20-30次。模型可以搞成更小的,但是效果还差不多,训练可以用更便宜的GPU,或者用更少的GPU。

Jiang Chun: 他们这些大的模型公司会开始做的事情是有一点类似于MLOps。GPT-3,它也有很多不同的版本。如果有一个 platform 或者这些 foundation model,可以给你告诉你说如果是用在这个领域,你应该尝试一下我们什么3.2.8版本。如果你在尝试另一个方面,你可以用这两个版本。这两个版本有什么Pros and Cons,它们各自的 cost 是多少?这是一个也就是比较 handy 的一个方向。

问题:你们觉得现在哪一些是关于Generative AI,哪一些是你觉得 overhyped overestimated 的,而哪一些可能你觉得对你们来说是真实的一个价值?或者你觉得甚至有可能是被大家可能 underestimated 的一些东西

田渊栋: 技术上来说,我觉得接下来可能是怎么样personalize一个 model 对吧?一个Large Language Model 怎么personalize?同样的一个性能,但是能够让它在每家每户上都能够用上。这种情况下,你怎么样能够让 model 最终能进入千家万户,能够把 personalization 的东西做好,能够让大家能够在自己的手机上或者自己的机器上能够用上模型,达到效果。

可能有个瓶颈,现在大家数据越来越多,最后数据会用完的。我觉得之后有可能撞上这堵墙。因为以前以为数据是无限的,确实数据当时是无限,但是现在数据越来越多,计算越来越强。计算力可以很强,但是数据是不是撞上瓶颈不知道,这个是一个大的问题。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44472.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

新华三眼中的AI天路

ChatGPT的火爆,在全球范围内掀起了新一轮的AI风暴。如今,各行各业都在讨论AI,各个国家都在密集进行新一轮的AI基础设施建设与技术投入。 但眼前的盛景并非突然到来,就拿这一轮大模型热潮来说,谷歌早在2018年底就发布了…

南京标志设计-logo设计(品牌形象核心部分)

标志设计,是表明事物特征的记号——它以单纯、显著、易识别的物象、图形或文字符号为直观语言,除标示什么、代替什么之外,还具有表达意义、情感和指令行动等作用。标志,作为人类直观联系的特殊方式,不但在社会活动与生…

Logo设计

Inkscape设计Logo 我根据自己名字的缩写(XY)设计了一个LOGO 1、添加文本 (1)单击左边工具“A“,在图纸上添加文本框,键盘输入“X”,在上方菜单栏调整自己想要的文本字体和大小(字…

愉快的logo设计

Description K理事长正在思考日本信息学奥林匹克竞赛选手的应援道具的logo问题。某天,K理事长突发奇想,想要设计一个用’J’,’O’,’I’三种文字环形排列的logo,意为希望选手能从JOI中收获快乐的意思。 (注&#xf…

只需轻松点两下,人人都会设计的 Logo 图!

点击上方“杰哥的IT之旅”,选择“置顶公众号” 干货、福利第一时间送达! 大家周末好,今天跟大家分享一些我近期收藏的帮你制作Logo的几个网站,如大家有需要,可通过如下几个网站进行设计制作哦~ 好了,下面直…

html5科技感logo,这些LOGO设计得太巧妙了!

这些创意满满的 LOGO你见过吗? 文章转载自:设计 ID:sheji0123 编辑:darlene7 哈喽大家好,我是设计君! 有时候灵感源自于生活 看下面这组LOGO就知道了 1、简化的鸽子 2、简化的犀牛 3、简化的马 4、还是简化…

盘点logo设计的8种形式潮流!14年流行手绘LOGO!

LOGO设计有哪些形式?小威为大家盘点了图形的主要形式和分类。 标题一、图形设计为主要分类 1、手绘logo 2014年的logo设计主流趋势,手绘logo能够传达永恒的主题,这种趋势几年前就很受关注,这种风格完美契合现代“嬉皮”的潮流。…

ICON图标设计

ICON承载了App大部分功能的引导入口,是交互设计中是相当重要的一环。 ICON有一种象征意义或隐喻性,并在日常生活中经常遇到。icon代表了一些行动、事、人、真实的、虚拟的视觉符号。 ICON不仅是图标这么简单,它承载了文字的含义,将…

logo设计图案创意有哪些?分享一些logo设计妙招

作为品牌的核心标志,logo图案的设计至关重要。一个好的logo可以让人们对品牌形象有深刻的印象,而一个糟糕的logo则会给人留下不良的印象。在设计logo时,有一些创意和妙招可以帮助我们设计出更好的logo。 创意1:选择合适的颜色和字…

谈一谈正向代理和反向代理?

谈一谈正向代理和反向代理? 什么是代理服务器(Proxy Serve)?为什么使用代理服务器?什么是正向代理什么是反向代理正向代理和反向代理的区别正向代理的应用反向代理的应用 什么是代理服务器(Proxy Serve&…

反向代理的实际应用

反向代理位于客户端和网络服务器之间。反向代理三个主要的特点是安全、负载平衡和易于维护。反向代理还可以可以在身份品牌和优化中发挥作用, 1、加强网络安全 用户可以创建或者配置反向代理,以此根据客户端请求的性质,将请求转发到多个内部服…

ChatGPT和Web3:人工智能如何帮助您建立和发展您的 Web3 公司

ChatGPT是OpenAI在2022年11月推出的聊天机器人。该机器人建立在OpenAI的GPT-3人工智能家族上,并通过监督学习和强化学习技术进行了优化。 与ChatGPT机器人聊天时,你会感觉自己在与一个懂得一切并以非常教育性的方式回答的朋友交谈。回答在许多知识领域非…

Python 4.0的新特性和优势 |盘点 | 2023年最值得学的编程语言TOP 5,Python再度夺冠!

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 在技术的推动发展中,编程语言的作用功不可。目前在技术领域约有600种语言,人们对编程语言的认识和掌握情…

抗衡特斯拉擎天柱,人形机器人第一股实至名归?

文 | 智能相对论 作者 | 佘凯文 前有ChatGPT带动之下大热的AIGC,后有仍在大银幕热映的《流浪地球2》,要问今年开年,哪个赛道最火?非机器人莫属。 机器人行业有着“制造业皇冠顶端的明珠”之称,其技术程度代表着一个国家…

盘点 | 2023年最值得学的编程语言TOP 5,Python再度夺冠!

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 在技术的推动发展中,编程语言的作用功不可。目前在技术领域约有600种语言,人们对编程语言的认识和掌握情…

上海二季度平均薪资13486元,这些信息值得关注!

一、全国平均月薪 近日,智联招聘发布《中国企业招聘薪酬报告》(下称“报告”)显示,二季度,国内38城企业平均招聘薪酬为10266元/月,较一季度的10101元/月环比上升1.6%,比去年同期下降0.7%。从地…

2023年度编程排行重磅发布,JS连续11年霸占榜一

编程语言千千万,你最喜欢用哪一个? 最近,在调研了全球超过9万名开发者之后,程序员社区 Stack overflow 重磅发布了《2023 Developer Survey》,从这份报告中,我们可以了解到当前最热门的工具、最主流的技术…

今年的互联网公司时薪排行榜!

最近在职级对标网站上看到了一个排行榜,是针对国内的一线互联网企业做的调研,汇总了他们的平均时薪水平。 很贴心的,他们将工程师根据工作经验和水平,分为初级、中级、高级、资深、专家/架构这五个水平,出了5个排行榜。…

网络安全学术顶会——SP 2023 议题清单、摘要与总结(下)

注:本文由ChatGPT与Claude联合生成 121、QueryX: Symbolic Query on Decompiled Code for Finding Bugs in COTS Binaries 可扩展的静态检查工具,如Sys和CodeQL,成功地发现了源代码中的错误。这些工具允许分析人员编写应用程序特定的规则&…

何止ChatGPT,6个AI神器让你的工作更高效!

ChatGPT,一直是个神秘的存在。 现在,除了ChatGPT,有了这些神奇的AI工具,你的生活和工作将变得更加高效和有趣。 今天我要分享一些非常有用的AI效率神器,让你的工作、生活更简单,让你的创作更具创意。 1、…