2022年度十大AI技术盘点:AIGC风暴来袭,自动驾驶后会无期?

b9df33cc2fd744dec998aced47599327.gif

  “科学不能告诉我们应该做什么,只能告诉我们能做什么。”

——让-保罗·萨特《存在与虚无》

这一年,AI又有哪些前沿技术突破呢?通过汇总梳理2022年10大AI技术,AI科技大本营发现,这些突破主要集中在图像、视频和语音语义领域。从具体技术来看,虽然有像扩散模型等最新的模型范式,但GAN仍然占据着重要的地位。而卷积和神经网络,以及强化学习等深度学习算法,是被期待获得更多突破的领域。

然而,略微遗憾的是,前些年被寄予厚望的自动驾驶在这一年似乎没有显著进展,尽管Waymo和Cuise在凤凰城和旧金山开启了服务,但如何解决安全问题仍然是一大难题。对此,它们希望通过传统摄像技术附加3D点云同时实现物体和距离的双重感知保障,但是否有效还需验证。

整体上,当下的AI仍处于技术革新的验证阶段,离真正落地产业化看似还有一些距离。但大模型、多模态掀起的AIGC风暴,已经席卷了整个世界。

翻译 & 整理 | 杨阳

出品 | AI科技大本营

c107b4a053dc133d4e94c4a994c687b5.jpeg

7eb4e6f5f3ae907d48979c898c6a8912.png

傅立叶卷积:实现在线图片修复

你是否有过这样的经历,当和朋友拍了一张非常棒的照片后,突然身后有不适合的场景,比如有人在你身后抢拍。不论是不合适的人还是有一个垃圾桶,如果你在自拍之前没有避开,那这张照片似乎就毁了。

然而,如果有AI来辅助,你的这张照片很可能重新焕发生机。一项通过使用傅立叶卷积的掩模绘画技术可以自动删除图像中不需要的人或物,而且可以直接在Intasgram上修改后发帖。只需要点击一下,就可以像专业的PS设计师一样随时改图。

7ffa566da6b1f4242883509d2a3cc44f.png

“选中—删除”,效果堪比PS

论文地址:https://arxiv.org/pdf/2109.07161.pdf

d3a6d54f2f53263f97c192069a0f502c.png

基于GAN的面部编辑:遇见二十年后的自己

你想看看二十年后的自己长什么样吗?一项基于GAN的面部编辑技术,可以让你看到未来的自己。对于大部分图像设计师来说,进行面部“改良”并不是什么难事,但大多时候需要消耗很长的时间,少说也需要几个小时,多则数百上千小时。但如果你使用AI工具,这项工作很可能在几分钟之内就能完成。

6a7b8735949a94bb81856f2ca374e0ea.png

除了可以预测未来容貌,或者让自己看起来更年轻,这项技术也可以添加各类表情,包括微笑。目前这项技术主要应用于图片,也可以用于视频,包括应用在电影行业中。

论文地址:https://arxiv.org/abs/2201.08361

02028f12cadb0e37773b19d4fd7bc453.png

神经网络渲染:拍照生成虚拟3D图像和视频

当你在玩游戏的时候,有没有想过各个场景中的物体是怎么做出来的?确实可能是插画师画的。但如果有一台相机,可以从不同角度拍摄几张照片,通过神经网络的渲染,就可以在虚拟空间中生成逼真的物体、人物,或者是场景的3D图像。

652686e081905c054cabf429c9233e86.png

尽管目前这项技术还面临着诸如场景融合等方面的挑战,但从现实世界取材,生成虚拟3D世界的趋势已经势不可挡。

论文地址:https://arxiv.org/pdf/2201.02533.pdf

7aa48a29d9c0b4ad378b2e18f6b9b949.png

DALL·E2:文本生成图片火爆一整年

文本生成图像这一年的火爆无需赘言,掀起这一趋势的非DALL·E2莫属。在DALL·E生成图形的基础上,升级版的DALL·E2学会了图像修复的新技能。在一项对DALL·E2的测试中,它甚至可以理解场景中图像之间的相互关系,包括水可以反射影像,准确将不同方位的物体在水中实现位置精确的投影。

9dfbb20d5b5b524a3037f1f9c97096df.png

DALL·E2在水中反射火烈鸟

DALL·E2 扩散模型是一种从随机噪声开始学习并不断迭代,通过更改噪声以返回到图像的模型。相较GAN,通过扩散模型,文本生成图像得以更加快速地实现。

论文地址:https://cdn.openai.com/papers/dall-e-2.pdf

4d3d34cffa3193b4bc45d2469fe8692f.png

SpeechPainter:用AI进行语音和语法的修复

AI不仅可以修复图像,也可以修复语音。一款名为SpeechPainter的语音修复工具可以根据用户定义的修复目标进行音频的修复。具体来说,它不仅可以合成语音中的空白音轨,还可以纠正错误的语法表达和不标准的发音。

471577c5771ebfb2b602dee9469186b7.png

基于感知器IO的SpeechPainter模型

通过GAN的生成器和辨别器,一方面训练生成新的数据,输入音轨;判别器则对训练集中生成的样本进行真伪的判别。

论文地址:https://arxiv.org/pdf/2202.07273.pdf

384e64f2e469f6e9590bc96aa05e3ab6.png

ChatGPT:压轴出场,惊艳四方

前些天,AI的网络世界中充斥着ChatGPT。其实AI语音并不稀奇了,ChatGPT凭什么火爆网络?首先,是因为它的大模型属性,与它的前一代 GPT-3相比,ChatGPT理论上更擅长交谈;其次,“强化学习”是给ChatGPT赋予魔力的关键所在。最后,是算法的再训练。

基于以上特性,ChatGPT被寄予迈向对话式AI的第一步。不过,它确实有超越以往AI语音助手的更加强大的理解能力,甚至可以“自我”纠错。这让人产生错觉,怀疑它是否有意识,或者哪怕是高级智能,但实际上它还仅仅是算法而已。

07acf9a2188a2b20e408d8bb716e3e38.png

官网博客地址:https://openai.com/blog/chatgpt/

8e0cf196cd4557772defd7eb0756f8b5.png

语言翻译:如何将一个模型扩展到数百种语言?

像ChatGPT一样的语言模型确实很炫酷,但它们也有一个共同的问题——只适用于英语。而只要不是英语世界的人,就无法通过这些语言模型来做任何操作。然而,目前世界上已经查明的语言种类一共有5671种,如果每种语言都做一个模型显然是不现实的。

Meta AI的语言模型“不让任何语言掉队”可以通过一个模型翻译数百种不同的语言,目前已经可以翻译200种语言。如何仅通过少量的数据来提升低资源语言的性能?通过稀疏门控专家混合网络 (MoE)可以实现跨语言迁移和干扰之间的更为优化的权衡。

9162984b59cfa0408dfb076aa5127af3.png

相关阅读地址:https://www.louisbouchard.ai/no-language-left-behind/

9bdff198efaa98e2fda4e01477afa5e9.png

自动驾驶:结合激光雷达和摄像头进行3D物体检测

图像和语言太“闹腾”,终于轮到自动驾驶了。实际上,自动驾驶这两年的热度骤降,离成为人工智能的皇冠似乎越来越远,甚至有知名的从业者非常悲观,认为现有的技术不可能实现真正意义上的自动驾驶。

能否实现自动驾驶更加准确的视觉识别,决定了它的安全程度。特斯拉只使用摄像头来探寻外界,但大多数自动驾驶,比如Waymo,会同时使用摄像头和3D雷达传感器。这些雷达传感器的作用路径很容易理解,它们不像摄像头一样产生图像,而是通过点云。

2a22fce1c639c956c75c08930d976798.png

和摄像头呈现图像作用机制不同,雷达传感器主要通过计算脉冲激光投射到物体上的传播时间来测算物体之间的距离。通过传统摄像头和雷达传感器的结合,同时显示物体信息和距离信息,可以让自动驾驶更加安全。

论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

082edc8792872ad144429af65d6e544c.png

人工智能多面手Gato,为什么说它很厉害?

Gato是Deepmind创建的多模态代理,它可以控制机械臂,代玩Atari游戏,标注图片标题,以及和人聊天,可以说是AI模型界的变形金刚。

793433d551b9d5aee418bcb6f2f8ea35.png

相较于其他AI模型,Gato不仅精通某个领域,它还接受了604项具有不同模式、观察和动作规范的任务训练,使其成为完美的多面手。Gato的精进似乎预示着通用人工智能 (AGI) 的到来。

论文地址:https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf

8ce800e0c360389177bff12fc103d5fd.png

“看到”声音:观察不可察觉的高频振动

你没有看错,这项AI技术就是要让你“看到”声音。卡耐基梅隆大学的博士后研究员发明了一种让人们看到声音的方法。通过一种新型的摄像系统和成像设备,能够让我们看到肉眼所看不到的声音。

该系统的工作原理是分析使用卷帘快门和全局快门拍摄的图像的斑点图案的差异。算法计算两个视频流中斑点模式的差异,并将这些差异转换为振动以重建声音。通过更好地观察到不可察觉的高频振动,为计算机视觉开辟了新的应用。

23c5b90f387844d5f63499ef546dfeec.png

论文地址:https://www.louisbouchard.ai/cvpr-2022-best-paper/

参考链接:

1、https://github.com/louisfb01/best_AI_papers_2022

2、https://www.louisbouchard.ai/lama/

3、https://www.louisbouchard.ai/stitch-it-in-time/

4、https://www.louisbouchard.ai/neroic/

5、https://www.louisbouchard.ai/speech-inpainting-with-ai/

6、https://www.louisbouchard.ai/waymo-lidar/

7、https://www.louisbouchard.ai/deepmind-gato/

8、https://www.louisbouchard.ai/no-language-left-behind/

9、https://www.louisbouchard.ai/cvpr-2022-best-paper/

10、https://www.louisbouchard.ai/chatgpt/

1635bad8782d21ac2be3b216780bb52d.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20494.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算网时代新思考,2023 移动云大会重磅来袭!

4 月 20 日,中国移动发起微博话题 #算力网络如何助力数字中国建设#并重磅预告“云擎未来 智信天下”2023移动云大会即将启幕。“为什么大家如此关注算力网络的发展”,今天我们就着这个话题聊起。 算力作为发展数字经济的关键支撑,正改变我们…

超炫酷项目来袭!DragGAN 火爆开源社区!

你在 Github 上见过一个空仓库在短短几天内就斩获 10K star 的项目吗? 今天树先生给大家介绍一款超炫酷的项目——DragGAN,来一起看看它为何如此火爆。 DragGAN 是什么? 不同于之前大火的 Stable Diffusion 与 Midjourney 使用的扩散模型&a…

Hotel booking酒店预订——数据分析与建模

Hotel booking酒店预订——数据分析与建模:https://zhuanlan.zhihu.com/p/196757364?utm_sourcewechat_session 写文章 Hotel booking酒店预订——数据分析与建模(转载翻译自kaggle) 海上泊舟 数据分析师 数据源: https://www.sc…

Android开发酒店预定预约管理系统

基于Android平台开发的名宿酒店管理系统 现代酒店组织日益庞大,服务项目多、信息量大已经成为酒店行业的一大特点。想要提高工作效率、提高服务质量、降低成本就必须借助现代计算机技术实现高效率的管理模式。作为一个现代化的酒店,要想在激烈的竞争中夺…

基于android的酒店客房预订客户端app

随着社会的脚步的加快,人们的生活节奏也变得越来越快,在这同一时代中盛行的产品便是手机,各种高端的手机的出现,为人们的生活增添了很大的乐趣,也为人们的日常生活带来了相当大的便利。各种在手机上出现的应用被大家所…

国内酒店预定接口

酒店预订,在线订房,酒店信息查询 一、接口介绍 通过用户输入的关键词对特定及周边酒店信息进行查询,获取酒店门头照片、地址、房价、入住时间等酒店信息,同时提供创建、取消、支付订单并输出订单详情信息等服务。广泛应用于在线订…

【转载】用 ChatGPT+LangChain 部署到服务器,打造专属 GPT知识库

原文链接:https://www.bilibili.com/read/cv23216734 本地部署 安装 python,小白自己去找安装教程 pip install llama-index,安装 llama-index 库 pip install langchain,安装 langchain 库 pip install gradio,安…

音视频技术开发周刊 | 283

每周一期,纵览音视频技术领域的干货。 新闻投稿:contributelivevideostack.com。 基于隐扩散模型的高分辨率图像合成 本文提出的隐扩散模型(LDM)在图像修补和类条件图像合成方面具有一定优势,并且在各种任务(包括文本到图像合成、无条件图像生…

智能摩尔定律?Sam Altman被Marcus怼了;再也不用学Excel了?自愿降薪 40% 的库克,要被“踢出”董事会?...

本周AI业界又有哪些新鲜事? ChatGPT 肯尼亚工人为ChatGPT标注数据,2美元/小时 作为近年来AI领域的爆炸技术,ChatGPT热度一直不减。然而,就和视频数据需要标注一样,ChatGPT在构建内容过滤器时也需要进行数据标注。这些数…

OpenAI 的外包数据标注员,时薪不足2美元,称工作是“精神创伤”

这是「进击的Coder」的第 810 篇技术分享 译者:核子可乐 策划:李冬梅 来源:infoQ “ 阅读本文大概需要 3 分钟。 ” ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士…

ChatGPT用transformer算法在训练么

transformer算法是什么 Transformer 算法是一种用于序列处理的神经网络架构,首次在 2017 年的论文 "Attention is All You Need" 中提出。 它的主要特点是使用了注意力机制,能够自动学习到序列中重要的信息,并在计算时给予更多的…

推特营销引流入门指南

一、关注 当您关注另一个Twitter用户时,您进行订阅,即可立即阅读其内容分享。因此,请评估您关注的人,尤其是刚开始时。跟踪新用户的一种简单方法是找到他们的个人资料,然后单击“关注”按钮。 Twitter对于那些疯狂点…

亚马逊、阿里国际、Shopee、Temu等跨境电商平台测评自养号经验分享

对于亚马逊、temu、阿里国际等平台商家来说,流量非常重要。商家需要想办法提高流量。卖家店铺没有流量怎么办? 获取流量的第一点:自然搜索 自然搜索流量的来源实际上是通过站点的优化来提高排名的效果。站点优化有很多维度,如选择合适的关键…

跨境电商 | Facebook营销推广全攻略

Facebook 现已成为各种规模公司的强大营销工具,并提供不同的营销方式,包括 Facebook Business Page、群组和 Facebook 广告,帮助企业在目标受众中建立意识,与 客户并以有效且具有成本效益的方式推动销售。 本文将介绍营销策略、…

亚马逊、速卖通、temu、国际站卖家如何做自养号测评?干货分享

在跨境出口平台电商中,相信“刷单”是永远不会有消失的一天! 珑哥突然想到,如果我们中国没有“某宝”,会不会改变下我们国人做电商走捷径的思维呢!其实就算没有某宝,相信只要我们国人做,刷单的…

Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究...

导读 自2023年以来,Google旗下两大顶级人工智能研究团队 DeepMind 与 Google Brain 被不断推上风口浪尖,如何应对OpenAI与微软强强联合?如何组织不被看好的 DeepMind 与 Google Brain 团队合并?Google和OpenAI都没有护城河吗&…

Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究

Demis Hassabis:毕业于伦敦大学学院,DeepMind创始人。游戏开发者、神经学家和人工智能企业家,AlphaGo的创造者,帮助Google展开一场全新的人工智能革命。 DeepMind Google Brain 科学 工程 N 指代 Nilay Patel,Verg…

一周 AIGC 丨北京市率先出台 AIGC 产业政策,百度“放弃”元宇宙转向 AIGC

风口的转变是迅猛的、措不及防的、毫无情感的。2021 年是元宇宙元年,然而轰轰烈烈不到两年就成“昨日黄花”。曾经紧随 Meta 步伐,推出元宇宙“希壤”的百度转身将对标对象换成 OpenAI,发布文心一言大模型。地方政府及时调整产业政策&#xf…

大语言模型速查表;ChatGPT发展路线图;11条市场营销ChatGPT Prompt;使用Midjourney制作专属头像 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 大语言模型速查表 Large Language Model Cheat Sheet ShowMeAI知识星球资源编码:R115 本份速查表的制作目的,是…

CVPR2023论文速递(2023.3.23)!已接入ChatGPT总结!共26篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…