生成式AI,ChatGPT和自动驾驶的技术趋势漫谈

作者丨Dr.Luo 来源丨佐思汽车研究   编辑丨集智书童

85519d01b0f812b53a6e7fe0d271b3a6.png

作者简介:

Dr. Luo,东南大学工学博士,英国布里斯托大学博士后,是复睿微电子英国研发中心GRUK首席AI科学家,常驻英国剑桥。Dr. Luo长期从事科学研究和机器视觉先进产品开发,曾在某500强ICT企业担任机器视觉首席科学家。

1a500e1f95288437a749f2049c0d0e04.png

元宇宙是人类社会网络化和虚拟化,通过对实体对象对应生成数字”智能体”来构建一个人机共存的新社会形态。元宇宙零距离社会里的社会计算,是一种数据行为的社会计算和人机交互的社交计算。

对于生成式AI行业,我们也许可以将其核心演进趋势定义为人机智能的社交计算,简单表述为通过完成类似通用的问题答问Q&A系统任务,以及特定内容的高清图像生成,来促进各行业转型升级,尤其是数字内容生产,人机交互与问答(聊天,教育和金融服务,医疗诊疗,自动驾驶等)行业,从而进一步打通元宇宙中真实世界与虚拟世界的社交沟通能力。

对于自动驾驶ADS行业,我们也许可以将其核心演进趋势定义为群体智能的社会计算,简单表述为,用GPU/NPU大算力和去中心化计算来虚拟化驾驶环境,通过数字化智能体(自动驾驶车辆AV)的多模感知交互(社交)决策,以及车车协同,车路协同,车云协同,通过跨模数据融合、高清地图重建、云端远程智驾等可信计算来构建元宇宙中ADS的社会计算能力。

生成式AI

生成式AI大模型,包括近两年推出的ChatGPT和Stable Diffusion,能够比较满意地完成类似通用的问题答问Q&A系统任务,以及特定内容的高清图像生成。对各个行业来说,呈现着一定程度的颠覆性意义和充满未来想象的商业空间,可以促进各行业转型升级,尤其是数字内容生产,人机交互与问答(聊天,教育和金融服务,医疗诊疗,自动驾驶等)行业。

4b4289a669770ef2be58071275b0115a.png

图1: 生成式大模型发布时间轴(G-Brizuela, 2023)

如图1所示,2021-2022年,我们很幸运地迎来了DNN大模型的一轮大爆炸,即所谓的生成式AI(AIGC)浪潮。在演进中的生成式AI大模型包括:

  • Text-to-Texts:ChatGPT3, PEER, LaMDA, Speech From Brain

  • Text-to-Image: Starry A.I.(GAN-based), DALLE-2 (Diffusion-based), Stable Diffusion, Muse, Imagen

  • Text-to-3D-Image: Dreamfusion, Majic3D

  • Image-to-Text: Flamingo, VisualGPT

  • Text-to-Video: Phenaki, Soundify

  • Text-to-Audio: AudioLM, Jukebox, Whisper

  • Text-to-Code: Codex, Alphacode

  • Text-to-Scientific: Galactica, AlphaTensor, Mineva, GATO

上述的主流生成式AI大模型,如果从开发到最终拥有关系角度,可以简单分类如下:

  • OpenAI: DALLE-2, ChatGPT3, Jukebox, Whisper

  • Google: Imagen, DreamFusion, Minerva, LaMDA, Muse, Phenaki, AudioLM

  • DeepMind: Flamingo, AlphaTensor, AlphaCode, GATO

  • Meta AI: PEER, Galctica, Speech From Brian

  • Runway: Stable Diffusion, Soundify

  • nVidia: Magic3D

73cc4cd2c52450e7264bf43e41890074.png

从上述几个生成式AI大模型的能力对比分析(G-Brizuela, 2023),以及图2中ChatGPT在不同场景的逻辑错误对比,我们也许可以简单总结以下:

  • 创造性任务:Text-to-Text, Text-to-Image, Text-to-Video

➤  准确率仍然远低于预期,有待成熟完善。

  • 个性化任务:Text-to-Audio

➤  有限数据集问题,大规模参数训练困难,有待成熟完善。

  • 科学类任务:Text-to-Science, Text-to-code

➤  有限数据集问题,大规模参数训练困难,准确率低于预期。

722c1a9c8f657b4ccc6dda9a45f57e55.png

图2: ChatGPT在不同场景下的逻辑错误对比

ChatGPT

ChatGPT(Generative Pre-trained Transformer)是OpenAI开发的一款生成式AI模型,它结合了监督学习和强化学习方法,通过对话的方式来进行交互:依据用户的文本输入来做多种语言的智能回复,简文或者长文模式,其中可以包括不同类型的问题答复,翻译,评论,行业分析,代码生成与修改,以及撰写各类计划书与命题书籍等等。各类生成式AI模型也可以联合调用来提供丰富的人机对话的能力。生成式AI模型多需要海量的参数,来完成复杂的特征学习和记忆推理,例如ChatGPT模型参数为1750亿。

8d98033bc17c88b93b78da036fb86515.png

图3: ChatGPT模型的训练流程(G-Brizuela, 2023)

如图3所示,ChatGPT模型结合了监督学习和强化学习方法,采用了基于人类反馈的强化学习RLHF训练方法,与此同时采用了迁移学习(或者叫自监督学习)的训练方法,即通过预训练方式加上人工监督进行调优(近端策略优化PPO算法)。RLHF训练方法确实可以通过输出的调节,对结果进行更有理解性的排序,这种激励反馈的机制,可以有效提升训练速度和性能。在实际对话过程中,如果给出答案不对(这是目前最让人质疑的地方,可能会错误地引导使用者),可以通过反馈和连续谈话中对上下文的理解,主动承认错误,通过优化来调整输出结果。给出错误问答的其中一个主要原因是缺乏对应的训练数据,有意思的是,虽然缺乏该领域的常识知识和推广能力,但模型仍然能够胡编乱造出错误或者是是而非的解答。ChatGPT的另外一个主要缺陷是只能基于已有知识进行训练学习,通过海量的参数(近100层的Transformer层)和已有的主题数据来进行多任务学习,目前来看仍缺乏持续学习或者叫做终身学习的机制,也许下一代算法能够解决这个难题,这也需要同步解决采用终身学习新知识引发的灾难性遗忘难题等等。

自动驾驶:多智能体间的社交决策

在真实的交通场景里,一个理性的人类司机在复杂的和拥挤的行驶场景里,通过与周围环境的有效协商,包括挥手给其它行驶车辆让路,设置转向灯或闪灯来表达自己的意图,来做出一个个有社交共识的合理决策。而这种基于交通规则+常识的动态交互,可以在多样化的社交/交互驾驶行为分析中,通过对第三方驾驶者行为和反应的合理期望,来有效预测场景中动态目标的未来状态。这也是设计智能车辆AV安全行驶算法的理论基础,即通过构建多维感知+行为预测+运动规划的算法能力来实现决策安全的目的。而会影响到车辆在交互中的决策控制的驾驶行为包括驾驶者(人或AV)的社会层面交互和场景的物理层面交互两个方面:

  • 社会层面交互:案例包括行驶车辆在并道、换道、或让道时的合理决策控制,主车道车辆在了解其它车辆的意图后自我调速,给需要并换道的车辆合理让路来避免可能的冲突和危险。

  • 物理层面交互:案例包括静态物理障碍(静态停车车辆,道路可行驶的边界,路面障碍物体)和动态物理线索(交通标识,交通灯和实时状态显示,行人和运动目标)。

ADS群体智能的社会计算,对这种交互/社交行为,可以在通常的定义上扩展,也就是道路使用者或者行驶车辆之间的社交/交往,即通过彼此间的信息交换、协同或者博弈,实现各自利益最大化和获取最低成本,这一般包括三个属性(Wang 2022):

  • 动态Dynamics:个体之间间和个体与环境之间的闭环反馈(State, Action, Reward),驾驶人/智能体AV对总体环境动态做出贡献,也会被总体环境动态所影响。

  • 度量Measurement:信息交换,包括跨模数据发布与共享,驾驶人/智能体AV对道路使用者传递各自的社交线索和收集识别外部线索。

  • 决策Decision:利益/利用最大化,理性来说道路使用者追求的多是个体的最大利益。

显然,交通规则是不会完全规定和覆盖所有驾驶行为的,其它方面可以通过个体之间的社交/交互来补充。人类司机总体来说也不会严格遵守交通规则,类似案例包括黄灯初期加速通过路口,让路时占用部分其它道路空间来减少等待时间等等。ADS通过对这类社会行为的收集、学习与理解,可以部分模仿和社会兼容,通过Social-Aware和Safety-Assured决策,避免过度保守决策,同时提供算法模型的可解释性、安全性能和控制效率。具体实现来说,可以采用类似人类司机的做法,依据驾驶任务的不同,使用环境中不同的关注区域ROI和关注时间点,以及直接或间接的社交/交互,采用类似概率图模型和消息传递等机制来建模。

如何用生成式AI来提升自动驾驶ADS的产品竞争力

目前来看,生成式AI有可预期的未来,但依旧任重而道远,尤其是数据的多样性收集,如何从多模态海量知识里学习和融合各种知识,理解人类的使用需求,从上下文学习中,通过生成的方式来解决各类实际任务。对于跨行业技术推动而言,生成式AI采用的自监督学习训练方法以及可以有效生成多类图像视频的能力,已经开始在机器视觉任务中和自动驾驶的感知决策任务中得到应用,可以有效填充自动驾驶场景覆盖不足的Corner Case问题。下面将简单列举几个典型应用案例来讨论一下生成式AI采用的核心技术在机器视觉和自动驾驶行业的应用前景。

1、基于生成式AI的图像数据拓展

机器视觉任务,包括自动驾驶领域,一个核心的挑战是数据多样性分布不平衡(Dataset Bias)问题。采用生成式AI模型,可以生成或者基于已有数据集进行有效拓展(Image Augmentation)。一个典型的应用案例,例如采用Stable Diffusion模型的语义指导的图像拓展SIP模型,其架构如图4所示。

b1df425948c0e11ed869ecc2733d51e5.png

图4: 采用Stable Diffusion模型的语义指导的图像拓展案例(Li, 2023)

常用的图像数据拓展多采用平移,变换,拷贝黏贴等策略,有像素级或者特征级等几种类别,这些多数只是对图像或者目标进行局部处理,很难在保持语义信息和多样性之间找到平衡,而SIP模型的优势可以通用的生成式AI大模型,通过图像的标签和标题来指导Image-To-Image高清图片生成,对比常用处理算法而言,性能也会有几个百分点提升。

2、行动(action)可解释的自动驾驶

对于自动驾驶技术而言,DL-based方法由于模块化的设计和海量数据贡献,性能占优,但如何能够提供安全能力和大规模部署,需要解决几个挑战:在保证性能基础上改善可解释性;在不同的驾驶个体,场景和态势下继续增强模型的推广能力。

显然生成式AI是可以用来对自动驾驶的每个决策过程进行多任务的文本解释。图5是一个行为可感知可解释的模型ADAPT设计架构案例。ADAPT算法模型为每个场景可以提供用户友好的自然语言的描述和对于每个决策控制指令/行为的比较合理的一系列解释和推断。这种实时的行为的文字表述和推断,某种意义上会让乘客了解车辆的状态,理解ADS决策如何以安全行驶为第一生产要素,以及决策的透明度和易于被使用者理解接受。

3b66e65e516efe44ab0129d492d16e83.png

图5: ADAPT:Action-aware Driving Caption Transformer (Jin 2023)

ADAPT算法模型的量化分析如图6所示。ADAPT所提供的基于语言的可解释性,虽然只是一种简单的尝试,但未来对ADS能否被社会完全接受,有非常重要的意义。

3775bf5ad4abf0efe10842abadf38564.png

图6: ADAPT算法模型的量化分析(Jin 2023)

参考文献:

[1] R. G-Brizuela an etc., “ChatGPT is not all you need: a State of the Art Review of large Generative AI models”, https://arxiv.org/abs/2301.04655v1

[2] S. Frieder and etc., “Mathematical Capabilities of ChatGPT”,https://arxiv.org/pdf/2301.13867.pdf

[3] B. Li and etc., “Semantic-Guided Image Augmentation with Pre-trained Models”, https://arxiv.org/pdf/2302.02070.pdf

[4] B. Jin and etc., “”, https://arxiv.org/pdf/2302.00673.pdf

[5] W. Wang, and etc., “Social Interactions for Autonomous Driving: A Review and Perspective”, https://arxiv.org/pdf/2208.07541.pdf

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

d0cdcb15dbfc8617dd20e78d9192a1a5.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

欢迎加入 GAN/扩散模型 —交流微信群 !

扫描下面二维码,添加运营小妹好友,拉你进群。发送申请时,请备注,格式为:研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

a8662d7dcc1f6d07adecd62cb0eb06ef.jpeg

请备注格式:研究方向+地区+学校/公司+姓名

04f29911e223c555aee4b68dce65c4fa.jpeg

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7932.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatGPT常见问题解决-An error occurred. If this issue persists please contact us through our...

文章目录 遇到问题解决方案1操作方法关闭安全访问关闭浏览器如果再次遇到问题解决方案2使用火狐浏览器遇到问题 An error occurred. If this issue persists please contact us through our help center at help.openai.com. 解决方案1 操作方法 关闭安全访问

华为天才少年稚晖君被曝离职;苹果 A16“挤牙膏”原因曝光;​Ruby 3.2.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

互联网晚报 | 奇瑞汽车回应要求员工周六上班;好欢螺回应妇女节争议文案;TVB淘宝首播带货2350万...

奇瑞汽车回应要求员工周六上班:本意不是压榨员工,鼓励愿意努力的奋斗 “周六是奋斗者的正常工作日,对于行政领导必须是正常工作日,请想办法规避法律风险。”3月7日,奇瑞汽车执行副总经理高新华要求周六上班的内部邮件引…

聚观早报|九安医疗从硅谷银行取回6亿存款;商汤科技发布通用大模型

今日要闻:九安医疗从硅谷银行取回6亿存款;OpenAI推出GPT-4更精准解决问题;iPhone 14/Plus黄色版开售即破发;消息称英伟达RTX 4070显卡即将上市;商汤科技发布多模态通用大模型 九安医疗从硅谷银行取回6亿存款 3 月 14…

第一台被“越狱”的 iPhone | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 7 月 10 日,在 1856 年的今天,交流电的发明者尼古拉特斯拉(Nikola Tesla)出生。特斯拉被认为是电力商业化的重要…

音视频技术开发周刊 | 285

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 GPT-4 Office全家桶发布 谷歌前脚刚宣布AI工具整合进Workspace,微软后脚就急匆匆召开了发布会,人狠话不多地祭出了办公软件王炸——Microsoft 365 …

美团以 20.65 亿人民币收购光年之外;ChatGPT 涉嫌信息盗窃被起诉;OpenCV 4.8.0 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

训练个人专属ChatGPT!港科大开源LMFlow:3090单卡5小时

本文来源 机器之心编辑部 拥有自己的 AI 大模型!开源项目 LMFlow 支持上千种模型,提供全流程高效训练方案。 2022 年 11 月 30 日,OpenAI 推出 ChatGPT,令人没想到的是,这个对话模型在 AI 圈掀起一股又一股讨论狂潮。…

Open AI官方「ChatGPT 打假工具」来啦!网友:等于瞎猜?

文|Alex 鱼羊 发自 凹非寺源|量子位 ChatGPT到处“造假”作弊,现在搞得OpenAI官方都坐不住了。 就在今天,OpenAI紧急发布官方打假工具:基于GPT打造,打开网页就能用。 好家伙,这岂不是真以己之矛…

ChatGPT最新版多功能批量写作工具激发创作的无限可能

随着科技的不断发展,人工智能逐渐渗透到各个领域,其中包括写作领域。近年来,OpenAI推出的ChatGPT最新版多功能批量写作工具,为写作者们带来了全新的创作体验。这一工具不仅能够帮助写作者提高工作效率,还能够激发创作的…

一个开源的 ChatGPT VSCode 插件

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:Github中文社区 近在百度推出文心一言后 阿里也开启了自家的ChatGPT的内测邀请,因此接下来的一个月huber会陆续给大家带来ChatGPT及周边内容。 vscode-ChatGPT 今天给大家推…

【VS】VSCode设置中英文模式

Vscode是一款开源的跨平台编辑器。默认情况下,vscode使用的语言为英文(us),如何将其显示语言修改成中文。 使用快捷键组合【CtrlShiftp】,在搜索框中输入“configure display language”,点击确定后; 修改locale.json…

工具 | VSCode+ChatGPT 编程利器

本文首发微信公众号:全副武装的大师兄(一个分享前沿技术,生活感受的公众号,关注我,率先了解好玩的工具) 托了GPT同学的福,最近编程时,常会在ChatGPT中说明自己的需求以生成代码&…

VScode:将VScode界面的显示语言改为简体中文,切换VScode界面的显示语言

VScode版本V1.54.1 VScode界面默认的语言为英语,需要安装简体中文语言包,语言包为插件(Extension)。 安装语言包 打开左侧插件栏(Extensions),在搜索框中输入chinese。 选择Chinese(Simplifi…

VSCode更改显示语言-如更改英语为中文或者将中文改为英语

目录 一、问题描述 二、问题解决 一、问题描述 VSCode属于一款前端开发超级牛13的开发软件,但是很多小伙伴安装好之后发现语言是英文的,毕竟大家英语不(yi)错(ban),但是总感觉中文的界面看着亲切一点,那么又该如何更改语言呢&am…

vs code 如何使用copilot(对接了chatgpt)

VS Code 是一个非常流行的开发工具,而 Copilot 则是一个基于 GPT 模型的代码生成工具,可以通过 VS Code 安装相关的插件来使用。 以下是在 VS Code 中使用 Copilot 的步骤: 下载安装 VS Code 插件 首先,你需要下载并安装 Copil…

我用 ChatGPT 做了一道菜 !!

自从使用ChatGPT之后,我的生活变得更加丰富了。 它以一个厨师的身份,为我提供各种健康美味的菜谱,以及干货知识、烹饪技巧等等,让我能够轻松地做出口感和营养都兼备的佳肴。 ChatGPT不仅为我提供各种各样的菜谱,包括…

ChatGLM-6B (介绍以及本地部署)

中文ChatGPT平替——ChatGLM-6B ChatGLM-6B简介官方实例本地部署1.下载代码2.通过conda创建虚拟环境3.修改代码4.模型量化5.详细代码 调用示例 ChatGLM-6B 简介 ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,基于 General Language Model (GLM) 架构&…

Bagging 和 随机森林(Random Forest,RF)

前面已经了解到集成学习有两个流派,一个是 Boosting 派系,它的特点是各个弱学习器之间有依赖关系。另一种是 Bagging 流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。而随机森林又是对 Bagging 的一个改进算法&#…

随机森林Random Forest

引言 在机器学习中,随机森林由许多的决策树组成,因为这些决策树的形成采用了随机的方法,因此也叫做随机决策树。随机森林中的树之间是没有关联的。当测试数据进入随机森林时,其实就是让每一颗决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果。因此随机…