谷歌年度AI技术总结来了!Jeff Dean执笔,附赠27个开源工具和数据大礼包

杨净 梦晨 发自 凹非寺
量子位 报道 | 公众号 QbitAI

Jeff Dean亲笔盘点谷歌AI研究成果,已经成了一年一度的保留节目。

今年也不例外,还是他抽出一部分假期时间完成的。

过去一年,谷歌研发投入依然是全球最高,在一整年的时间里产出不少成果。

光论文数就达750+篇,让人眼花缭乱。

如果你担心自己错过了一些的话也不用担心,这位谷歌AI掌门人都帮你总结好了。

8fc40d0e4bfd4452d8593998d85f768a.png

Jeff本人亲眼目睹了AI过去几十年的诸多进展,对当下最大的感触是:

早期机器学习方法往往不尽如人意,不过终于催生出了很多非常成功的现代方法,这些进步最终将惠及数十亿人的生活。

他把2021年机器学习进展总结成五大趋势,另外还给读者送上一份大礼包——

一年来谷歌发布的27个开源工具和数据集汇总

涵盖多语言文本、医学、建筑、舞蹈动作、电影标题、文本到表格生成等众多领域。

如果你有需要可在公众号后台回复关键词“姐夫2021”获取。

下面就先来看一下,这个被誉为行业风向标,Jeff眼中的机器学习五大趋势都有哪些。

简单速览:

  • 趋势1:模型更大让AI能力更通用

  • 趋势2:机器学习效率持续提高

  • 趋势3:AI应用对个人更有益

  • 趋势4:AI推动科学研究和医学健康

  • 趋势5:对机器学习的理解加深

趋势1:模型更大让AI能力更通用

过去一年中,语言模型的参数规模仍在不断增长,纷纷超过1750亿的GPT-3。

例如DeepMind的Gopher有2800亿,微软英伟达联合推出的威震天-图灵到了5300亿。

谷歌自己的GShardGLaM模型更是达到6千亿和1.2万亿。

训练这些模型用到的数据集规模也在同步增长。

数据集和模型大小的增加让AI在传统NLP任务上的准确性显著提高,还在更多新能力上有所突破。

代表性的研究有Quoc Le团队提出新的微调方法Instruction Tuning

新模型FLAN在没训练过的任务上的零样本学习能力超过GPT-3少样本版本的表现。

以及谷歌I/O大会上所演示的LaMDA模型,在开放式多轮对话上有所突破。

3fdcb7af7b229d386ce6d5193f2c4fee.gif

除了语言模型,图像、视频方面这一年都被Transformer架构同时刷新了模型规模和性能基准。

谷歌在这方面代表性的研究便是Vision Transformer(ViT)以及Video ViT

另外还有一个重要的结论是,同时用图像和视频数据训练可以提高模型在视频任务的性能

444447d68d4c0967b53ef05f01d27719.png

图像生成上,这一年里扩散模型 (Difusion Model)成了GAN的有力竞争对手。

级联(Cacade)扩散模型SR3以低分辨率图像为输入,便可从纯噪声中构建出对应的高分辨率图像。

b6e2c54cbb17f92e801a47ce9d28b4fb.gif

多模态模型方面,模型规模的增大还让机器人get新能力。

机械臂只需要学会自然语言描述的“把葡萄放在碗中”这项任务,便可执行“把水瓶放在托盘中”的全新任务。

d604ce7f9e395e1d0785e2bdd9271796.gif

Jeff总结到,这些大模型通常使用自监督学习方法,这个趋势令人兴奋。

一方面可以大大减少工作量,另一方面在长尾任务中也能取得更好表现。

谷歌AI下一步的努力方向是研发一个叫Pathway的稀疏模型新架构,把它训练成可以执行成千上万种任务的通用模型。

7e3094e2970883c819e011677cd43e85.gif

趋势2:机器学习效率持续提高

参数规模和数据量的扩大,对模型的训练效率提出了新的挑战。

作为应对,谷歌在加速芯片、编译器、模型架构和算法方面分别取得了进展。

芯片方面,新发布的TPUv4与上一代相比性能提高2.7倍,用高速网络连接在一起可以支持超大模型的训练。

移动设备上,新一代Pixel6手机上搭载全新的Tensor处理器,在手机上做到4k60帧视频处理,以及实时机器翻译。

9f59a62d019e757a6d831065ccefa7fc.png

编译器方面,谷歌推出基于XLA编译器的自动并行化系统GSPMD

即使硬件没有进步,也能做到在150种模型上性能全面提高5%-15%,甚至个别情况下提高了2.4倍。

620c9f06144484e33356dca3be1f828b.png

这一成果已经用在了GShard-M4、LaMDA、ViT等多个大模型上。

架构方面,一种提升效率的方法是靠人类的创造力设计。

这里还是要说到Transformer的各类变体在这一年中大放异彩,同时在NLP和CV领域频频刷榜。

另一种方法便是机器驱动的神经架构搜索(NAS),大大减少算法开发的工作量。

虽然NAS本身的计算量很大、成本高昂,但总体上可以显著降低下游开发和生产环境中的计算量。

如NAS方法搜索出来的Evovled Transformer,在参数减少37.6%的情况下获得0.7%的英德翻译性能提升。

视觉任务上,NAS方法得到的Efficientnetv2模型训练速度比之前的SOTA模型提高了5-11倍。

除了模型架构,AutoML-Zero还使用NAS方法来寻找新的、更有效的强化学习/监督学习算法。

f9b83311faa7ec8742073121b7b6607a.gif

算法方面,增加对稀疏性(Sparsity)的利用是一个重要进展。

谷歌稀疏的Switch Transformers与密集的T5模型相比,训练效率提高了7倍。

GLaM模型把Transformer与Mixer of Expert风格的层结合起来,训练和推理成本与GPT-3相比分别减少了3倍和2倍。

另外,BigBird模型用稀疏性降低了Transformer的核心机制——注意力模块的计算成本。

01aa785e93a09eb384c8d85a637d1396.png

尽管稀疏性取得如此多成绩,Jeff Dean还是认为目前的研究仅触及了这个方向上的皮毛

未来更继续深入研究还有更高的潜在回报。

趋势3:AI应用对个人更有益

除此之外,Jeff Dean还关注到移动设备上的个性化AI应用。

得益于ML的发展与处理器的创新,手机可以更加连续有效地感知周围环境,用户体验也更加丰富。

对一些日常使用的功能,比如计算摄影、实时翻译等都带来了改变。与此同时,还加强了隐私保护。

计算摄影HDR+功能为例,即便在非常暗的光线下拍照,也能展现更真实的情况。

f6c9b021a66658ba96767835d1eda77f.png

跨语言实时交流也成为一大趋势。由于自监督学习、noisy student training自训练算法等技术的发展,语音识别的准确性继续取得重大进展,嘈杂、重叠语音等环境以及跨语言的效果有了明显改善。

日常交互也变得越来越自然,比如自动呼叫、机器学习代理,即使经常执行的简短任务,也可通过智能文本选择工具进行改进。

还有一些小例子也体现出AI的有益之处,比如注视识别技术,防止你看手机屏幕时变暗。

6a4a57c1c467ab977a0ff810ba75138e.png

机器学习在确保个人和社区安全上也提供新方法。

比如“可疑信息警告”来应对疑似网络钓鱼攻击,“安全路线”可以帮助识别和检测什么时候该踩刹车,提示备用路线。

鉴于构成这些新功能的数据具有敏感性,隐私计算也就搬到了台前。

安卓系统可确保私有计算核心处理的数据不被任何APP共享,与此同时还阻止了其内部的任何功能直接访问网络。

e7cadc3e236e69e6b5503c8ab085ce10.png

趋势4:AI推动科学研究和医学健康

近年来,我们已经看到机器学习对基础科学的影响越来越大,从物理学到生物学,有很多令人兴奋的实际应用。

计算机视觉作为典型,已经应用于解决个人和全球范围的问题。

它既可以帮助医生进行日常工作,扩展对神经生理学的理解,也可以提供天气预报预测以及救灾工作的优化。

去年,谷歌与哈佛合作展开了第一个大规模人类大脑皮层突触连接的研究,重建了人类大脑组织成像

99558627be2d57b67ac6fd55042e7413.png
ps:图中显示了成人大脑860亿个神经元中的6个

而若向外延伸,计算机视觉在应对全球挑战上也有突出的作用,比如基于深度学习的天气预测,预报12小时内的天气和降水,比传统的物理模型更准确。

7d8e2696f0f3ffcf5f735e0c154bed8a.gif

还有像在文档游戏,包括芯片上的自动化设计布局,以及在医学、人类健康、应对气候变化上的关键作用也不容忽视。

医学健康为例,在基因组学的研究中机器学习可以帮助处理序列数据,看到基因组数据的隐藏特征,还能加速对个性化、健康的基因组信息的使用。

Jeff Dean还强调在疾病诊断,尤其是在医学成像上的应用,比如在改善乳腺癌筛检、检测肺癌、加速癌症的放射治疗、标记异常X射线和前列腺癌期活检等领域。

23c398b10508b88b7c4a534395e6e777.png

另一个值得关注的方向就是利用NLP技术来分析结构化数据与医疗记录,辅助临床医生提供更准确的诊断护理。

尽管机器学习对于扩大获取途径和提高临床诊断的准确性非常重要,但我们看到一个同样重要的新趋势正在出现:智能手机上的健康功能,帮助用户对自己的健康状况进行评估。

趋势5:做负责任的人工智能

随着机器学习越来越广泛地应用于社会中去,保证其更公平公正的使用正成为下一个技术出发点。

一个重点领域就是基于用户活动的推荐系统,最近工作揭示了如何提高单个组件和整个推荐系统的公平性。

在机器翻译上的应用也同样重要,因为大多数机器翻译系统是孤立地翻译单个句子的,没有附加的语境。

它们往往会加强与性别、年龄或其他领域有关的偏见。去年谷歌发布了个数据集,用于研究翻译维基百科传记时的性别偏见。

d9022331a19c019df4a7aed06c18e28d.png

部署机器学习模型的另一个常见问题是分布转移。如果模型所依据的数据统计分布与所输入的数据统计分布不一致,那么模型的行为可能是不可预测的。

在最近的工作中,谷歌Deep Bootstrap框架可以帮助比较、理解模型在这两种情况下的表现,使得模型更好适应未知环境,并对固定的训练数据集不会产生太大的偏见。

除此之外在机器学习上游——数据收集和数据集管理上,也有相应的探索。

还有像处理网上辱骂行为、模型的交互式分析和调试、机器学习的可解释性(以AlphaZero国际象棋系统为典型),以及改善社区生活等维度都是谷歌解决的方向。

8bd6c1fe49faf16bee1ab1f59e91a7e3.png

总之,再三强调一个愿景:做负责任的人工智能。

One More Thing

在这篇博文下互动区,看到了熟悉的身影。

那就是让Jeff Dean陷入歧视风波的那位前员工Timnit Gebru,她也转发了一波~

不过,这画风……嗯,就有点尴尬。

a8104486342f094758772db3a92fc46c.png

好了,感兴趣的旁友,可戳下方链接看详细报告~

以及别忘了到公众号后台回复“姐夫2021”,获取27个谷歌开源工具及数据集汇总。

直达链接:
https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50227.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高空抛物悲剧频出,AI 监控系统:让我来「罩」着你

来源|HyperAI超神经 文|神经小兮 近年来,因高空抛物、坠物造成的伤害事件屡上报端。水瓶、西瓜皮、易拉罐,甚至菜刀,都可能冷不丁地从天而降,砸向无辜的路人。轻则致伤,重则致命,让人…

OpenCV综合练习1——水瓶水位线合格检测

数字图像处理综合练习——水瓶水位线合格检测 马上就要转到学习深度学习的主干线了,这也是大势所趋,但不能忘本,传统图像处理的知识也是非常重要的,特此记录一下之前学习时做过的小练习。 整个项目的资源放在:水瓶水…

2022年中国便携水瓶市场现状研究分析报告

据我们的分析师调研显示,2021年中国便携水瓶市场销售收入达到了 万元,预计2028年可以达到 万元,2022-2028期间年复合增长率(CAGR)为 %。中国市场核心厂商包括Newell Brands、CamelBak、Tupperware Brands、Cascade Designs和BRITA等&#xff…

【实例篇】怎样测试一个矿泉水瓶

今天我们来分析关于实例的测试,测试一个矿泉水瓶。在测试的时候,需要从以下几个方面进行测试,比如说它的外观功能性能、安全性、易用性还有兼容性。 也可以不从这几个方面进行测试,这样的话能想起来的方面比较少,因为…

java为什么不能多继承_为什么Java不支持多继承

最近我的一个朋友进行了几次面试,碰到了一个很容易被问的问题:为什么Java不支持多重继承,尽管他回答Java可以通过实现多个interface的方式实现多重继承,但面试官却依然为什么不支持。也许我的朋友仅仅是阅读了一些相关的博客&…

我的世界服务器物品不堆叠,我的世界不可堆叠物品怎么堆叠

来源:游戏园日期:2019-05-11 04:03:07 我的世界不可堆叠物品怎么堆叠。那在我的世界里面怎么制作堆叠的不可堆叠物品,怎么感觉这个问的这么绕口呢?那不管了,下面就一起来看看下面的这个教你怎么堆叠不可堆叠物品的方法…

【花雕动手做】有趣好玩的音乐可视化系列小项目(14)---水杯水瓶灯

偶然心血来潮,想要做一个声音可视化的系列专题。这个专题的难度有点高,涉及面也比较广泛,相关的FFT和FHT等算法也相当复杂,不过还是打算从最简单的开始,实际动手做做试验,耐心尝试一下各种方案,…

我的AI不可能这么傻:深度学习的致命弱点

转载自 Nature 点击上方“迈微AI研习社”,选择“星标★”公众号 原作者: Douglas Heaven 关注公众号阅读原文,这个排版太差。 人工智能专家正在想办法修复神经网络的缺陷。 一辆自动驾驶汽车正在靠近一个停车让行标志,它非但没有停下&…

水瓶效果制作

前言 提示:这里可以添加本文要记录的大概内容: 本次分享主要为水瓶效果,思路借鉴于https://www.patreon.com/posts/quick-game-art-18245226 该链接,不过部分内容较难理解,所以打算使用自己的思路实现一下 提示&…

读书笔记:深度学习进阶-自然语言处理(俗称鱼书二)

文章目录 前言一、神经网络的复习二、自然语言和单词的分布式表示2.1什么是自然语言处理2.2同义词词典2.3基于计数的方法2.3.1基于python的语料库的预处理2.3.2单词的分布式表示2.3.3分布式假设2.3.4共现矩阵2.3.5向量间的相似度2.3.6相似单词的排序 2.4基于计数的方法的改进2.…

隐私计算将改变金融行业的游戏规则?

开放隐私计算 01 背景 2月底,相关部门印发《数字中国建设整体布局规划》提出,到2025年,基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展;到2035年,数字化发展水平进入世界…

【ChatGLM】使用ChatGLM-6B-INT4模型进行P-Tunning训练记录及参数讲解

文章目录 模型训练步骤参数含义名词解释欠拟合泛化能力收敛性梯度爆炸 初步结论 小结 模型训练 首先说明一下训练的目的:提供本地问答知识文件,训练之后可以按接近原文语义进行回答,类似一个问答机器人。 步骤 安装微调需要的依赖&#xf…

几个潜在的AI科研助手

最近看到一个新闻说ChatGPT被某科研文章列为作者之一。以自然语言处理和深度学习为基础的人工智能在语言修改润色和翻译方面表现优异,似乎还将改变一些传统的论文阅读和写作方式。本文记录几个最近了解到的几个工具。 Scispace 地址:https://typeset.io/…

客户体验词汇表:需要了解的最重要的术语

无论如何,当我们说客户体验时,是什么意思? 这是最终的客户体验词汇表,可帮助指导您。 客户体验,也称为 CX,会影响从客户参与度、保留率、忠诚度、终生价值到最终盈利的方方面面。 难怪获得正确的客户体验是…

免费的chaGPT安利给大家 ,体验了一下还是不错的!!!分享下感受

第一点: 确实很智能、聪明 ,知道你想问的问题,即使问题不清楚,比传统的单一搜索具有连贯性,能根据上几次问题进行连贯回答 。第二点: 用来搜索代码确实真的方便,代码注释都写的清清楚楚、详细 &…

ChatGPT这么火,你会被取代吗?

前言 ChatGPT爆火后,“程序员要失业了”、“程序员要下岗了”之声不绝于耳,引得程序员们不由得一阵惊慌。 ChatGPT这么火,以后是不是不需要那么多程序员了。 这个话题太过于火热,我也不由的试用了下,但是经过使用、和…

炸裂了!3分钟用GPT4做一个PPT!

GPT4有多强了,相信体验过的同学都知道,一个字爽!无论是速度,还是数据集还是功能都比3.5要强大很多。现在越来越多的人开始用GPT4了,可以大幅的提高我们的工作和学习的效率,今天小编就用GPT4快速做一个PPT&a…

CPU、GPU与算存互连的复杂比较与重要性分析

LLM | AMD | Intel | NVIDIA GLM | ARM | AIGC | Chiplet 随着深度学习、高性能计算、NLP、AIGC、GLM、AGI的快速发展,大模型得到快速发展。2023年科创圈的顶尖技术无疑是大模型,据科技部新一代人工智能发展研究中心发布的《中国人工智能大模型地图研究…

[YOLO] yolov3 博客学习笔记汇总

pip下载速度太慢,国内镜像: 国内镜像解决pip下载太慢https://blog.csdn.net/weixin_51995286/article/details/113972534 在线卷积计算器: 在线卷积计算器http://www.sqflash.com/cal.html 网络学习 IOU: 机器学习知识总结 —— 11. 关…

多种UI和界面设计汇总(一)

下面汇总了一些不错的UI设计的效果图,让我们看看多种UI布局和界面设计。它们风格迥异,也基本上都是Web页面上的。下面请看: Old Paper Layout/旧纸张布局 Professional Modern Web Layout/专业现代网页布局 Photography portfolio Design/影集…