谷歌Gemini时代来了!加固搜索护城河、赋能全家桶,Gemini 1.5 Pro升级至200万token

3 月中旬,谷歌宣布 Google I/O 定档北京时间 5 月 15 日凌晨 1 点。而当大会开幕时间临近,本应是讨论度最高的时候,「宿敌」OpenAI 却半路杀出,抢先一天,仅耗时 27 分钟就发布了颠覆性巨作 GPT-4o,将新一轮 AI 争霸带入了「Her 时代」。

正如英伟达科学家 Jim Fan 在评价 GPT-4o 时所言,在 Google I/O 大会之前,OpenAI 发布 GPT-4o 是争取更多时间的明智之举。

抛开双方在公关策略上的博弈不谈,OpenAI 的突然发力或许也预示着,谷歌的 Gemni 也同样来到了语音交互段位。在 Google I/O 开幕前,谷歌官方账号发布了一段与 Gemini 语音交互的视频,在展示 demo 中,Gemini 不仅能够通过手机摄像头实时识别场景,还能够进行流畅的语音交互。

谷歌发布这段 demo 的用意不言而喻,但评论中也不乏质疑其视频造假的声音,毕竟早有「前科」。而在今天的主题演讲中,劈柴哥也并未带来「语音交互」功能的实测,而是再度通过 demo 展示了与 GPT-4o 类似的能力。

具体而言,谷歌 CEO Sundar Pichai 及一众高管在将近 2 小时的主题演讲中一口气介绍了:

  • Gemini 1.5 Pro 的更新
  • Gemini 2.5 Flash
  • Project Astra
  • AI Overviews
  • Veo 和 Imagen 3
  • ……

点击观看完整直播回放:【【中英】Google I/O 2024 Keynote 大会完整版|Gemini 1.5 Pro 重塑搜索引擎,升级到200万tokens!

Gemini 1.5 Pro:拓展至 200 万 tokens

经历了昨天凌晨的 GPT-4o 发布,大家已经基本从「大模型实时通话」的震惊中走出来了,这也意味着,OpenAI 成功将行业竞争拉至新的制高点,所以,谷歌也必须跟上。而作为自家「最大、最强」的 AI 模型,Gemini 必须为公司搭建好天梯。

在这里插入图片描述
Gemini 1.5 与其他模型的上下文长度对比

今年 2 月,谷歌宣布推出了 Gemini 1.5,其中的 Gemini 1.5 Pro 最高可支持 100 万 token 超长上下文,在 token 数量上一度拉开了与同期大模型之间的差距。今天 ,谷歌再次突破上下文窗口限制,Pichai 宣布将 Gemini 1.5 Pro 的上下文窗口扩展到 200 万 tokens,并向开发人员提供私人预览版 (private preview)。

图片

同时,Pichai 宣布将向全球所有开发人员提供改进版的 Gemini 1.5 Pro,其 100 万 token 上下文版本现在可以直接在 Gemini Advanced 中供消费者使用,该版本可用于 35 种语言。

此外,Pichai 还表示 Gemini 1.5 Pro 在过去几个月中通过改进算法得到了增强,在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面都有了很大改进。在 Gemini API 和 AI Studio 中,除了图像和视频,Gemini 1.5 Pro 还能对音频进行推理,并通过一种名为系统指令的功能进行引导。

图片

随后,Pichai 还介绍了 Gemini 在 Google Workspace 中的更新,包括 Gmail、Docs、Drive、Slides 和 Sheets 中的 Gemini 将升级至 Gemini 1.5 Pro,Gmail 移动端 APP 推出了新功能(总结邮件、上下文智能回复、Gmail Q&A),「Help me write」支持多语音写作。

Gemini 1.5 Flash:100 万 tokens 超长上下文、多模态

就当大家以为 Gemini 1.5 的更新「仅此而已」时,DeepMind CEO Demis Hassabis 缓步登场,带来了今天的第一个惊喜——Gemini 1.5 Flash。

图片

具体而言,轻量级模型 Gemini 1.5 Flash 是 Gemini 1.5 Pro 的精炼版本,针对大容量、高频率的大规模任务进行了优化,服务成本效益更高,并具有突破性的长上下文窗口。同时,Gemini 1.5 Flash 与 Gemini 1.5 Pro 一样是多模态的,这意味着其可以分析音频、视频和图像以及文本。

Demis Hassabis 表示,Gemini 1.5 Flash 擅长汇总、聊天应用、图像和视频字幕、从长文档和表格中提取数据等任务。这是因为 Gemini 1.5 Pro 通过蒸馏 (distillation) 对其进行了训练,将较大模型中最基本的知识和技能转移到了更小、更高效的模型中。

图片

除此之外,Demis Hassabis 还介绍了关于 Gemma 的更新,谷歌宣布推出新一代开放式人工智能创新模型 Gemma 2,其采用全新架构,旨在实现突破性的性能和效率,并将在 6 月正式发布时推出新尺寸。

Project Astra:实时、多模态 AI Agent

在 Google I/O 开幕前的一众爆料与猜测中,AI Assistant Pixie 呼声极高。有媒体称,预计谷歌将推出一款由 Gemini 支持的全新 Pixel AI Assistant,名为 Pixie,其可能具备多模态功能,可以通过用户设备上的信息,如地图或 Gmail,提供更加个性化的服务。

然而 Pixie 并未如预期般露面,取而代之的是具备多模态理解与实时对话能力的 Project Astra。

图片

Demis Hassabis 表示,在开发能够理解多模态信息的 AI 系统方面,谷歌已经取得了喜人的进展,**但如何将响应时间缩短到可进行实时对话的程度却颇具挑战。**在过去几年中,团队一直在努力改进模型的感知、推理和对话方式,使交互的节奏和质量感觉更加自然。

目前,团队基于 Gemini 开发了 Agent 原型 (prototype agents),通过对视频帧进行连续编码,将视频和语音输入结合到事件时间轴中,并缓存这些信息以便高效调用,从而加快信息处理速度。

图片

谷歌 AI 助手可实时语音交互

同时,**谷歌利用其语音模型,增强了 Agent 的声音,使其具有更广泛的语调,**从而在识别使用环境后,在对话中做出快速反应。

这不禁令人联想到 OpenAI 昨日凌晨展示的新版 ChatGPT,同样是实时对话、可根据情境或用户要求转换语调。不同于谷歌的视频演示,ChatGPT 在直播现场进行了实测,并回答了网上呼声较高的多个问题。如今,基于 GPT-4o 的 ChatGPT 已经免费开放给所有用户,但音频视频功能却出于隐私考虑仍未上线。

Veo 和 Imagen 3:视频+图像双管齐下

谷歌还推出了最新的视频生成模型 Veo 和高质量的文本到图像模型 Imagen 3。

其中,**Veo 是谷歌最强大的视频生成模型,**不知道是否为对标 Sora 而来。

Veo 可生成各种电影和视觉风格的 1080p 分辨率视频,视频时长可超过一分钟。谷歌表示,凭借对自然语言和视觉语义的深入理解,其所生成的视频可完美呈现用户的创意构想,准确捕捉提示语的语气并呈现较长提示语中的细节。

同时,Veo 创建的镜头是一致的、连贯的,因此人、动物和物体在整个拍摄过程中的移动都显得更加真实。

在技术层面,Veo 基谷歌多年的生成视频模型经验,融合了 GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,将架构、缩放规律等技术相结合,以提高质量和输出分辨率。

图片

同样地,Imagen 3 也是谷歌最高质量的文本到图像模型,**能够更好地理解自然语言和 Prompt 背后的意图,并将较长提示中的小细节融入其中,**这种高级理解能力也有助于该模型掌握各种风格。

AI Overviews:谷歌搜索的大模型时代

25 年前,为了帮助人们更好地理解网上繁杂的信息,谷歌搜索由此诞生,人们可以在该引擎上检索各类问题的答案。现如今,Gemini 的出现将谷歌搜索推到了一个新的高度,重新定义了人们获取知识与解答疑惑的方式。

对此,谷歌在会议中表示:「无论您心中有什么,无论您需要完成什么,只要提问,谷歌就会为您搜索。」

图片

谷歌拥有超过万亿关于人、地点和事物的实时信息,搭配其备受信赖质量系统,可以为用户提供网络上最好的内容。而 Gemini 的加入,则进一步解锁了搜索中的新 Agent 能力,拓展了谷歌搜索更多的可能性。

其中,最让人关注的莫过于 AI Overviews 功能的推出。「有了 AI Overviews,用户提出问题后无需自己拼凑所有信息,谷歌搜索将会为你列出信息的概览,包括多种观点和链接进行更深入的探索。」

谷歌搜索业务副总裁 Liz Reid 在会议中讲道,「AI Overviews 将从今天开始在美国向所有人推出,预计到今年年底,AI Overviews 将为全球超过 10 亿谷歌搜索用户提供服务。」

「事实上,这只是第一步,我们正在让 AI Overviews 解锁更复杂的问题,为了使其成为可能,我们在 Google 搜索中引入了多步骤推理 (Multi-step reasoning)。」

图片

简单来说,多步骤推理就是将用户的总问题分解成各个部分,并确定需要按什么顺序解决哪些问题,然后,Google 搜索会基于现实的实时信息和排名等,使用最优质的信息来进行问题的推理。

例如,当用户询问地点时,Google 搜索会根据现实世界的信息,包括超过 2.5 亿个地点,以及它们的评分、评论、营业时间等来进行问题的回复,这些信息用户需要经过几分钟甚至更久的时间进行研究,但 Google 搜索几秒钟就能完成。

图片

除了提供基本的信息检索,Google 搜索也能执行高级推理和富有逻辑的规划任务,帮助用户完成餐饮、旅行、派对、约会、锻炼等活动的规划,让用户的生活更轻松。

图片

最后,**对于那些用文本或图片也无法准确表达的问题,谷歌也给出了解决方案——即将推出视频提问功能,**这意味着未来 Google 搜索的界面将会变得更加多元化。

Trillium:每个芯片的计算性能提高 4.7 倍

据路透社报道,在人工智能数据中心芯片市场上,英伟达占据了大约 80% 的市场份额,剩下的 20% 绝大部分是谷歌各种版本的 TPU。不过谷歌本身并不销售芯片,而是通过其云计算平台出租芯片。

**图片**

作为公司的重要业务,宣布新一代 TPU 似乎已经成为了 Google I/O 的传统。今天,Pichai 发布了谷歌第六代 TPU Trillium,并称这是公司迄今为止性能最好、效率最高的 TPU,**比上一代 TPU v5e 在每个芯片的计算性能上都提高了 4.7 倍。**同时还承诺将在 2024 年底向云客户提供 Trillium。

据 Tech Crunch 报道,在一定程度上,谷歌是通过扩大芯片的矩阵乘法单元 (MXU) 并提高整体时钟速度来实现性能提升的。此外,谷歌还将 Trillium 芯片的内存带宽提高了一倍。

此外,Pichai 还补充介绍了公司上个月发布的全新 Axion 处理器,这是谷歌首款基于 Arm 的定制 CPU,具有业界领先的性能和能效。

图片

随后,Pichai 还宣布谷歌将与英伟达达成合作,将在 2025 年推出与英伟达合作的 Blackwell 芯片。

AI for Science:AlphaFold 3 或将开源

DeepMind 创始人 Demis Hassabis 介绍道,「为了探究计算机能否像人一样思考,构建通用人工智能,我们创立了 DeepMind。」

图片

回顾之前的成果,从将视觉和语言转化为机器人行动的 RT-2、可以遵循自然语言指令在各种视频游戏环境中执行任务的游戏 AI 智能体 SIMA,到可以解决奥赛级别数学问题的 AIphaGeometry、甚至发现新材料的 GNoME。Demis Hassabis 表示:「我一直相信,如果我们能负责任地构建 AGI,它将会以难以置信的方式造福人类。」

图片

此外,在会议中,Demis Hassabis 还重点强调了近期推出的 AlphaFold 3,该模型以前所未有的精确度成功预测了所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用,在模拟多种不同类型的分子相互作用方面取得了重大突破,这对精准确定药物靶点等研发项目至关重要。

事实上,最初发布 AlphaFold 3 时,Google 没有开源其完整代码的计划,只是为该模型发布了一个支持非商业性研究的 AlphaFold Server 的公共接口,向全球科研人员敞开了大门。

图片

然而,仅仅离发布不到一周的时间,Google DeepMind 研究副总裁突然宣布:「我们将在 6 个月内发布 AF3 模型(包括权重),供学术界使用!」Google 在 I/O 大会开始的前一天突然宣布这个开源计划,无论是迫于 OpenAI 的压力,还是为大会造势预热,AlphaFold 3 的开源都对生命健康领域的发展具有深远的意义。

近期,HyperAI超神经还将对谷歌 AI for Science 的最新布局进行追踪,感兴趣的小伙伴可以关注公众号,蹲一波深度报道!

写在最后

至此,连续两日的 AI 狂欢落下帷幕。但 OpenAI 与谷歌的对垒不会停歇——GPT-5 的性能天花板在哪?Gemini 的超长上下文限制能否再有突破?OpenAI 的搜索引擎是否会冲击谷歌的地位……

英伟达科学家 Jim Fan 评价道,「谷歌正在做的一件事是正确的:他们终于在认真努力地将人工智能整合到搜索框中。我感觉到了 Agent:规划、实时浏览和多模态输入,所有这些都来自登陆页面。谷歌最强大的护城河是分销 (distribution)。Gemini 不一定要成为最好的模型,也可以成为世界上最常用的模型。」

诚然,纵览整场发布会,笔者最大的感受是「在大模型时代,搜索或许依旧能够成为谷歌最大的底气」。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/327702.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java项目之企业资产管理系统(springboot+vue+mysql)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的企业资产管理系统。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 管理员功能有个人中心&…

【学习笔记】C++每日一记[20240513]

简述静态全局变量的概念 在全局变量前加上static关键字,就定义了一个静态全局变量。通常情况下,静态全局变量的声明和定义放在源文件中,并且不能使用extern关键字将静态全局变量导出,因此静态全局变量的**作用于仅限于定义静态全…

数据库学习之select语句练习

目录 素材 练习 1、显示所有职工的基本信息。 结果 2、查询所有职工所属部门的部门号,不显示重复的部门号。 结果 3、求出所有职工的人数。 结果 4、列出最高工和最低工资。 结果 5、列出职工的平均工资和总工资。 结果 6、创建一个只有职…

C语言----斐波那契数列(附源代码)

各位看官们好,当我写了上一篇博客杨辉三角后,有一些看官叫我讲一下斐波那契数列。对于这个大家应该是有了解的。最简单的规律就是f(n)f(n-2)f(n-1)。就是当前是前两项之和,然后下标1和0都是1.从第三项开始计算的。那么我们知道规律&#xff0…

学习神经网络基础架构

今日学习了解了常见的几种神经网络基础架构。 1.卷积神经网络 卷积神经网络CNN是一种人工神经网络,旨在处理和分析具有网格状拓扑结构的数据,如图像和视频。将 CNN 想象成一个多层过滤器,可处理图像以提取有意义的特征并进行推理预测。 想…

风电功率预测 | 基于RF随机森林的风电功率预测(附matlab完整源码)

风电功率预测 风电功率预测完整代码风电功率预测 基于随机森林(Random Forest, RF)的风电功率预测是一种常用且有效的方法。以下是基于RF的风电功率预测的一般步骤: 数据准备:收集与风电场发电功率相关的数据,包括风速、风向、温度、湿度等气象数据以及风电场的历史功率数…

从零开始:C++ String类的模拟实现

文章目录 引言1.类的基本结构2.构造函数和析构函数3.基本成员函数总结 引言 在C编程中,字符串操作是非常常见且重要的任务。标准库中的std::string类提供了丰富且强大的功能,使得字符串处理变得相对简单。然而,对于学习C的开发者来说&#x…

ICode国际青少年编程竞赛- Python-5级训练场-多参数函数

ICode国际青少年编程竞赛- Python-5级训练场-多参数函数 1、 def go(a, b):Spaceship.step(2)Dev.step(a)Spaceship.step(b)Dev.turnRight()Dev.step(b)Dev.turnLeft()Dev.step(-a) Dev.turnLeft() Dev.step(3) Dev.step(-3) go(3, 2) go(6, 1) go(5, 2) go(4, 3)2、 def go(…

ip addr 或 ip address 是 Linux 系统中的一个命令,用于显示或修改网络接口的地址信息。

ip addr 或 ip address 是 Linux 系统中的一个命令,用于显示或修改网络接口的地址信息。这个命令是 iproute2 软件包的一部分,通常在现代 Linux 发行版中都是预装的。 当你运行 ip addr 或 ip address 命令时,你会看到系统上所有网络接口的地…

吴恩达深度学习笔记:优化算法 (Optimization algorithms)2.3-2.5

目录 第二门课: 改善深层神经网络:超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第二周:优化算法 (Optimization algorithms)2.3 指数加权平均数(Exponential…

QT学习(1)——创建第一个QT程序,信号和槽,打开关闭窗口的案例

目录 引出规范和帮助文档创建第一个Qt程序对象树概念信号signal槽slot自定义信号和槽1.自定义信号2.自定义槽3.建立连接4.进行触发 自定义信号重载带参数的按钮触发信号触发信号拓展 lambda表达式返回值mutable修饰案例 打开关闭窗口案例 总结 引出 QT学习(1&#…

3.TCP的三次握手和四次挥手

一、前置知识 TCP是一种面向连接的、可靠的、基于字节流的传输层通信协议。在传输数据前通信双方必须建立连接(所谓连接,是指客户端和服务端各自保存一份关于对方的信息,比如ip地址,端口号等)。TCP通过三次握手建立一个…

软件工程期末复习(6)需求分析的任务

需求分析 需求分析的任务 “建造一个软件系统的最困难的部分是决定要建造什么……没有别的工作在做错时会如此影响最终系统,没有别的工作比以后矫正更困难。” —— Fred Brooks 需求难以建立的原因&#x…

【计算机毕业设计】基于SSM++jsp的高校专业信息管理系统【源码+lw+部署文档+讲解】

目录 第1章 绪论 1.1 课题背景 1.2 课题意义 1.3 研究内容 第2章 开发环境与技术 2.1 MYSQL数据库 2.2 JSP技术 2.3 SSM框架 第3章 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 系统流程 3.2.1 操作流程 3.2.2 登录流程 3.2.3 删除信息流…

复利效应(应用于成长)

应用 每个人在智力、知识、经验上,复利效应都一样,只要能积累的东西,基本上最终都会产生复利效应。 再来看一下复利公式:FP*(1i)^n P本金;i利率;n持有期限。在使用时,一定要注意4个限定条件&a…

在线音乐系统

文章目录 在线音乐系统一、项目演示二、项目介绍三、部分功能截图四、部分代码展示五、底部获取项目(9.9¥带走) 在线音乐系统 一、项目演示 音乐网站 二、项目介绍 基于springbootvue的前后端分离在线音乐系统 登录角色 : 用户、管理员 用…

Git 基础使用(2) 分支管理

文章目录 分支概念分支使用查看分支分支创建分支切换分支合并合并冲突分支删除 分支管理快进模式分支策略内容保存错误处理 分支概念 (1)分支概念 Git分支是指在版本控制系统Git中,用来表示项目的不同工作流程或开发路径的一个重要概念。通过…

知识图谱 | 语义网络写入图形数据库(含jdk和neo4j的安装过程)

Hi,大家好,我是半亩花海。本文主要介绍如何使用 Neo4j 图数据库呈现语义网络,并通过 Python 将语义网络的数据写入数据库。具体步骤包括识别知识中的节点和关系,将其转化为图数据库的节点和边,最后通过代码实现数据的写…

css 步骤条虚线渐变色效果实现

效果如图所示&#xff1a; 思路&#xff1a; 使用元素覆盖的方式实现视觉上虚线的效果 实现代码&#xff1a; html布局 <ul class"details-cont"><li class"details-li" v-for"item in 3" :key"item"><div class&qu…

vue + element-plus 开发中遇到的问题

1.问题之路由守卫 初写路由守卫&#xff0c;对于next()的理解不是很透彻&#xff0c;就想着都放行&#xff0c;不然看不到效果&#xff0c;结果控制台出现了警告&#xff0c;想着报黄的问题就不是问题&#xff0c;但仔细一看发现他说&#xff0c;如果再生产阶段就会失败&#x…