来源:数据观综合(转载请注明来源)
编辑:蒲蒲
5月10日周三举行的谷歌年度开发者大会Google I/O 2023上,谷歌亮出了人工智能(AI)领域开发的最新成果。
谷歌CEO Sundar Pichai开场就指出,过去一年,AI成为热议话题,有了生成式AI,我们将迈出下一步。他说,要让AI对人人都有帮助,通过AI增加知识,提升学习能力、创造力、生产力,让他人能创新,负责任地创造和配置。
01
与 GPT-4 对打的 PaLM 2
在本届 I/O 开发者大会上,谷歌发布了其最新大语言模型(LLM)PaLM 2。PaLM 2 是⼀种基于 Transformer 的模型,使⽤类似于 UL2 的混合⽬标进⾏训练。
谷歌于 2022 年 4 月首次宣布推出 PaLM 模型。PaLM 的应用在这一年取得了很大的进展,今年 3 月,该公司推出了一款适用于 PaLM 的 API 以及一系列人工智能企业工具,帮助企业“通过简单的自然语言提示生成文本、图像、代码、视频、音频等”。这次大会上,Pichai 宣布推出 PaLM 2 预览版本,改进了数学、代码、推理、多语言翻译和自然语言生成能力。
多语言能力
谷歌声称,PaLM 2 是一种最先进的语言模型,具有改进的多语言、推理和编码功能。PaLM 2 在所有数据集上都优于 PaLM,并取得了与 GPT-4 竞争的结果。
之前的大型预训练语言模型通常使用以英语文本为主的数据集,谷歌设计了一个更多语言和多样化的预训练混合模型,扩展到数百种语言和领域(例如编程语言、数学和并行多语言文档)。更大的模型可以处理更多不同的非英语数据集,而不会导致英语语言理解性能的下降,并应用重复数据删除来减少记忆。
PaLM 2 在多语言文本方面接受了更多的训练,涵盖 100 多种语言,显著提高了其在多种语言中理解、生成和翻译细微差别文本(包括成语、诗歌和谜语)的能力。根据基准测试,对于具有思维链 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基准评估,PaLM 2 的部分结果超越了 GPT-4。
PaLM 2 还通过了“精通”级别的高级语言能力考试。其中,PaLM 2 的日语水平达到了 A 级,而 PaLM 是 F 级。PaLM 2 的法语水平达到了 C1 级。
PaLM 2 和 PaLM 在最新的专业语⾔能⼒考试中的表现
不仅如此,PaLM 2 还了解重要的语言细微差别。在一篇描述 PaLM 2 功能的研究论文中,谷歌工程师声称该系统的语言熟练程度“足以教授该语言”,并指出这是由于其训练数据中非英语文本更为普遍。
PaLM 2 的广泛数据集包括科学论文和包含数学表达式的网页,因此它还展示了逻辑、常识推理和数学方面的改进能力。
PaLM 2 推理能力示例
支持 20 种编程语言
PaLM 2 还改进了对编写和调试代码的支持。该模型使用 20 种编程语言进行了训练,包括 JavaScript 和 Python 等流行语言,还包括 Prolog、Verilog 和 Fortran 等语言。PaLM 2 构成了 Codey 的基础,Codey 是谷歌用于编码和调试的专业模型,它也作为其代码完成和生成服务的一部分推出。
代码语⾔模型是当今最具经济意义和被⼴泛部署的 LLM 之⼀。为了在开发⼈员⼯作流程中进⾏低延迟、⾼吞吐量部署,谷歌通过在扩展的、代码密集型、多语⾔的数据混合上继续训练 PaLM 2-S 模型,构建了⼀个⼩型的、特定于编码的 PaLM 2 模型,谷歌将⽣成的模型称为 PaLM 2-S* 。
PaLM 2-S* 在大量公开可用的源代码数据集上进行了预训练。它擅长 Python 和 JavaScript 等流行的编程语言,但也可以生成 Prolog、Fortran 和 Verilog 等语言的专用代码。
PaLM 2-S在除了两种语言之外的所有语言上都优于 PaLM,同时在像 Julia 和 Haskell 这样的低资源语言上几乎没有下降。例如,PaLM 2-S在 Haskell 上比更大的 PaLM-Coder-540B 提高了 6.3 倍,在 Julia 上提高了 4.7 倍。值得注意的是,Java、JavaScript 和 TypeScript 的性能实际上比原始语言 Python 更高。
PaLM 2 可以跨编程和自然语言生成代码和自然语言。大会上,Pichai 还展示了在修改代码 Bug 后,PaLM 2 给出的韩语评论。
谷歌内部已经有超过 70 个产品团队正在使用 PaLM 2 构建产品,包括分别针对安全知识和医疗知识微调而成的 Sec-PaLM 和 Med-PaLM 2。
其中,Sec-PaLM 是专注于安全用例的版本,使用 AI 帮助分析和解释具有潜在恶意脚本的行为,并检测哪些脚本对个人或组织构成威胁。Med-PaLM 2 是基于健康数据训练的版本,可以轻松通过美国医学执照考试,达到“专家”水平。
02
Bard 的进化
在谷歌内部,PaLM 2 已经被用于支持 25 种功能和产品,包括该公司的实验性聊天机器人 Bard。Bard 在图像功能、编码功能和应用程序集成等方面都做了大幅更新。
Bard 将更加直观地响应用户问题。比如对于“新奥尔良有哪些必看景点?”之类的问题,除了文本之外,用户还将看到丰富的图片视觉效果。用户还可以在自己的要求中附加图像和文本:
编程方面,谷歌也将开发人员的反馈整合到了一些关键的编码升级中,包括:
来源引用:从下周起,代码引用将更加精确。如果 Bard 引入了一段代码或引用了其他内容,只需单击注释,Bard 就会在相应内容下划线并链接到源代码。
深色主题:这是开发人员要求的另一项功能,谷歌希望以此让开发人员更轻松地与 Bard 互动。
“导出”按钮:谷歌即将与合作伙伴 Replit 一起推出导出和运行代码的功能,首先会从 Python 开始。
另外,由于人们经常要求 Bard 抢先起草电子邮件和文档,谷歌大会上推出了两个导出操作,用户可以轻松将 Bard 的回复直接转移到 Gmail 和 Docs 中。
继微软 5 月 4 日宣布公司旗下基于 ChatGPT-4 的 Bing Chat 功能面向所有用户开放后,谷歌在本次大会上也宣布,Bard 将向 180 多个国家和地区开放,其他更多国家和地区也将陆续开放。Bard 现在有日语和韩语版本,谷歌表示很快就会支持 40 种语言。
03
生成式 AI 加入谷歌搜索
发布会上,谷歌推出了一款 AI 驱动的搜索引擎,其总体目标是“让搜索更智能,让搜索更简单”。
这款搜索引擎现可接收用户输入的提示词,整个使用过程更趋近人们在现实生活中的问询过程。而在我们熟悉的搜索结果列表之上,将出现由 AI 针对用户问题生成的概括性回答。
谷歌高管 Cathy Edwards 在大会上指出,不同于以往直接搜索“哪个国家公园最好玩”的用法,现在用户可以像跟朋友聊天那样询问 Google 引擎哪处公园更适合带小孩和遛狗。例如,用户向搜索引擎提问,“对于带 3 岁以下小孩和宠物狗出行的家庭来说,布莱斯峡谷公园和拱门国家公园哪个更适合?”
Edwards 强调,“虽然问题本身没有变化,但以往的搜索引擎可能没法直接消化完整的查询。用户会把它拆分成多个更小的部分、筛选信息,然后再自行拼凑起来——现在,搜索功能本身将为您搞定这些麻烦。”
Edwards 将谷歌生成的摘要称为“AI 驱动的快照,能帮助您快速了解关于某个主题的概况。”摘要中将包含来源链接,用户可以选择不同的查看格式来进一步剖析摘要背后的来源。AI 生成的摘要还提供可点击的建议问题以鼓励交互,整个体验跟 AI 聊天机器人颇为相似。
AI 驱动的定制化结果,也有望重塑消费者的线上购物体验。例如,谷歌在演示中询问了关于适合日常出行的自行车款式,结果不仅包含指向自行车商品的链接、价格和评论,还提供关于适合特定用途的自行车建议,以及理想车型应当具备的几大特点。Edwards 提醒观众,在 AI 生成的摘要下方仍然保留了传统的搜索结果列表,继续将用户引导至已发布的原始内容处。她认为正是这种可溯源性,帮助维持着“网络的蓬勃发展”。
搜索生成体验未来将登陆美国用户的 Chrome 桌面,还有 Android 和 iOS 系统上的 Google App,且仅提供英文版本。谷歌表示将在未来几周开放测试邀请。
04
Gmail、谷歌地图和相册的AI功能
Pichai介绍,AI已经结合到谷歌的一些产品中,谷歌还将融入新的产品。其中一种是,Gmail将利用生成式AI推出实现“帮我写”(Help Me Write)的功能,帮助用户写邮件。
Pichai展示了一个例子,通过写一封信,获得航空公司的全额退款。谷歌有些设置能让生成的文本更长或更短,并且可以用之前的消息作为上下文,帮助AI编写内容。他说:“只要输入你想要的提示词,点击创建,就会出现一个完整的草稿。”
谷歌地图将提供名为“沉浸式视图”(Immersive View)的AI工具。该工具将获取空气质量和天气的信息,为谷歌地图用户选出一条路线,并将路线可视化。
Pichai展示了一条位于曼哈顿的自行车骑行路线。用户可以看到,走这条路线,沿着西区高速公路骑车会有什么情景,其中有AI支持的交通、天气和路线本身的渲染图。从演示中可以看到具备了flyover功能,可以帮助将出行信息叠加到用户界面。
Pichai说,沉浸式视图将在未来几个月内推广到十几个大城市。
谷歌相册将推出名为“神奇编辑”(Magic Editor)的功能,用生成式AI 帮助用户重新构建照片,可以选择编辑照片的任何一部分,无论是画面的主角、天空还是背景,都可以编辑,可以抓取可以移除。
比如用户主要想拍的是瀑布,可以把瀑布边的人挪开些,拍照时人忘了取下背带,可以把拍到的背带抹去,可以把拍出的天空调得更明亮。
神奇编辑功能将于今年晚些时候在谷歌相册上线。
05
Workspace的Duet AI AI搜索功能Converse
谷歌称,谷歌的协作与生产力工具Workspace将很快能让用户借助AI生成完整的文档,并填写电子表格。这种AI服务名为Duet AI,将在今年晚些时候面向订阅者推出。
Duet AI可以让用户在文档、表格和幻灯片中融入AI服务。比如用户可以要求AI帮助撰写简历、整理企业图表或者为幻灯片生成图像,可以帮用户写文章和销售宣传材料,将它们放在谷歌文档中给所有人共享。谷歌幻灯片可以在App内生成AI图像。
谷歌为搜索服务推出了名为Converse的生成式AI功能。过去,用户想知道一个问题的回答,会在谷歌得到多个搜索结果,得自己综合这些结果。Converse可以为用户合成式的搜索结果。具体来说,它能提供一种“快照”,其中包括一些搜索结果文本或图片的生成式AI内容块,在它的下方是相关的链接。
谷歌称,Converse的搜索结果里会融入广告。和Workspace的一些AI功能一样,Converse 将提供一种“对话模式”,用户可以在其中“提出”后续问题。
虽然谷歌没有透露具体何时上线Converse、哪些地区的用户可用,但这种功能属于搜索生成体验 (SGE)的部分成果。谷歌称,Labs的用户可以在未来几周内使用,可以通过点击谷歌App或桌面版Chrome中的Labs图标访问。
06
谷歌云推出Duet AI服务和A3超级计算机虚拟机
谷歌云也有自己的Duet AI服务。
谷歌云的CEO Thomas Kurian称,所有谷歌的云服务合作伙伴都可以付费使用谷歌的AI模型,以及算力。
今年夏季,连锁汉堡餐厅Wendy’s将运用谷歌的技术,在俄亥俄州的一家门店接受用户订单,避免用户排长队。谷歌强调,经过其调整的大语言模型可以理解Wendy’s的产品名,比如简称JBC的产品是一种培根芝士汉堡。
谷歌推出了一个名为Tailwind的项目。它可以记录开发者的笔记,并可以在云端网盘中整理不同的笔记。它还能建一个学习指南,提取笔记中的关键概念。用户可以要求Tailwind 整理信息,或根据所做的笔记向它提问。它也显示引用内容。
谷歌云还宣布,推出A3超级计算机虚拟机,旨在为语言模型提供优异的训练性能。这些虚拟机将搭载英伟达H100 GPU、第四代英特尔Xeon可扩展处理器,与谷歌专门的数据中心结合,可提供高达26 exaFlops 的算力,将有助于减少训练更大模型的时间和成本。
07
升级安卓系统查找设备功能 安卓手机可用生成式AI定制壁纸
谷歌将在今年夏季为安卓系统用户升级查找、锁定或清空设备的功能“找我的设备”(Find My Device)。这种新功能将利用安卓设备的网络,同多种生态系统的设备合作,帮助用户寻找设备,和苹果的FindMy功能依赖其他苹果设备定位遗失设备类似。
本月初,谷歌和苹果宣布,将联手为用户提供受到非必要跟踪的警报,作为重视隐私和安全的部分工作。谷歌将在今年夏天晚些时候上线这一服务,让用户知道,是否被未知的追踪方式跟踪。
此外,安卓手机将很快能依靠谷歌的生成式AI技术,根据用户的提示词,生成可定制的壁纸。该功能将在今年秋季上线。
08
谷歌发布新手机Pixel 7a、首款可折叠手机Pixel Fold 平板电脑Pixel
在硬件方面,谷歌发布了新一代安卓手机Pixel 7a,售价499美元,搭载谷歌自研的Tensor G2芯片,运行内存8GB,比Pixel 7和Pixel 7 Pro更平价。
谷歌还发布了首款可折叠手机Pixel Fold,售价1799美元,也搭载Tensor G2芯片,全部展开时手机显示屏为7.6英寸大小,本周三开始接受预订,下月发货。
谷歌宣布从本周三起,新版平板电脑Pixel接受预订,同样配置Tensor G2芯片,起售价499美元,有128GB和256GB两种内存的版本可选。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”