[AI Google] 双子座模型家族迎来新突破:更快的模型、更长的上下文、AI代理等更多功能

Google发布了Gemini模型家族的更新,包括新的1.5 Flash模型,该模型旨在提高速度和效率,以及Project Astra,这是对未来AI助手愿景的展示。1.5 Flash是专为大规模高频任务优化的轻量级模型,具有突破性的长上下文窗口。同时,1.5 Pro模型也得到了显著改进,包括更长的上下文窗口、增强的代码生成和逻辑推理能力。此外,Gemini Nano现在能够理解多模态输入,而Gemma 2则是下一代开放模型,旨在促进负责任的AI创新。Project Astra展示了通用AI代理的未来,这些代理能够理解和响应复杂世界,并具有更自然的互动能力。


我们很高兴地介绍双子座模型家族的一系列更新,包括新的1.5 Flash——我们的轻量级模型,旨在提高速度和效率,以及Project Astra——我们对未来AI助手愿景的展示。

一张复杂的AI模型网络连接到另一个更加精简的模型的插图,展示了Google DeepMind如何通过大型模型教授和训练小型模型。

去年12月,我们推出了首个原生多模态模型双子座1.0,包括Ultra、Pro和Nano三种尺寸。仅仅几个月后,我们发布了1.5 Pro,它具有增强的性能和突破性的长上下文窗口,可容纳100万个令牌。

开发者和企业客户已经开始以令人惊叹的方式使用1.5 Pro,发现它的长上下文窗口、多模态推理能力和总体表现非常有用。

我们从用户反馈中得知,某些应用需要更低的延迟和更低的服务成本。这激励我们继续创新,因此今天,我们推出了双子座1.5 Flash:一个比1.5 Pro更轻量级的模型,旨在快速且高效地大规模服务。

1.5 Pro和1.5 Flash都可通过Google AI Studio和Vertex AI的公开预览版获得,拥有100万个令牌的上下文窗口。现在,1.5 Pro还可通过等待名单向使用API的开发者和Google Cloud客户提供,拥有200万个令牌的上下文窗口。

我们还介绍了双子座模型家族的更新,宣布了我们的下一代开放模型Gemma 2,并分享了未来AI助手的发展,通过Project Astra。

与双子座1.5的200万令牌能力相比,领先的基础模型的上下文长度

双子座模型家族的更新

新的1.5 Flash,专为速度和效率优化

1.5 Flash是双子座模型家族的新成员,也是通过API提供的最快的双子座模型。它专为大规模的高容量、高频率任务而优化,服务成本更高效,并具有我们突破性的长上下文窗口。

虽然它比1.5 Pro轻量级,但它在处理大量信息的多模态推理方面表现出色,并为它的尺寸提供了令人印象深刻的质量。

解释新的双子座1.5 Flash模型的三个关键特性——速度和效率、多模态推理和长上下文窗口的图标和文本的插图。

新的双子座1.5 Flash模型专为速度和效率优化,在多模态推理方面表现出色,并具有我们突破性的长上下文窗口。

1.5 Flash在摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等方面表现出色。这是因为通过一种称为“蒸馏”的过程,由1.5 Pro训练而来,将更大模型的最关键知识和技能转移到更小、更高效的模型中。

在我们的更新后的双子座1.5技术报告、双子座技术页面以及了解1.5 Flash的可用性和定价中关于1.5 Flash的信息。

显著改进1.5 Pro

在过去的几个月里,我们显著改进了1.5 Pro,这是我们在广泛任务上表现最佳的模型。

除了将其上下文窗口扩展到200万个令牌之外,我们还通过数据和算法进步改进了它的代码生成、逻辑推理和规划、多轮对话,以及音频和图像理解。我们在每个任务的公共和内部基准上都看到了强大的改进。

1.5 Pro现在可以遵循越来越复杂和细微的指令,包括那些指定产品级行为涉及角色、格式和风格的指令。我们改进了对模型响应的控制,以适应特定用例,如打造聊天代理的个性和响应风格,或通过多个函数调用自动化工作流程。并且我们允许用户通过设置系统指令来引导模型行为。

我们在Gemini API和Google AI Studio中添加了音频理解,因此1.5 Pro现在可以对在Google AI Studio上传的视频进行图像和音频推理。我们正在将1.5 Pro集成到Google产品中,包括Gemini Advanced和Workspace应用。

在我们的更新后的双子座1.5技术报告和双子座技术页面上关于1.5 Pro的信息。

Gemini Nano理解多模态输入

Gemini Nano正在从仅文本输入扩展到包括图像。从Pixel开始,使用Gemini Nano与多模态的应用将能够像人们一样理解世界——不仅仅是通过文本,还通过视觉、声音和口语。

在Android上关于Gemini 1.0 Nano的信息。

下一代开放模型

今天,我们还分享了一系列对Gemma的更新,这是我们基于创建双子座模型相同的研究和技术构建的开放模型家族。

我们宣布Gemma 2,我们下一代开放模型,用于负责任的AI创新。Gemma 2拥有新的架构,专为突破性的性能和效率而设计,并将以新的尺寸提供。

Gemma家族还通过PaliGemma扩展,这是我们受到PaLI-3启发的首个视觉语言模型。并且我们已经升级了我们的负责任生成式AI工具包,加入了LLM Comparator用于评估模型响应的质量。

在开发者博客上信息。

开发通用AI代理的进展

作为Google DeepMind使命的一部分,我们一直希望负责任地开发能够造福人类的通用AI代理。这就是为什么今天,我们分享了构建未来AI助手愿景的进展,通过Project Astra(高级视觉和对话响应代理)。

要真正有用,代理需要像人们一样理解和响应复杂和动态的世界,并吸收和记住它看到和听到的内容,以理解上下文并采取行动。它还需要是主动的、可教的和个性化的,以便用户可以自然地与它交谈,没有延迟或延迟。

虽然我们在开发能够理解多模态信息的AI系统方面取得了令人难以置信的进展,但将响应时间降低到对话级别是一个困难的工程挑战。在过去几年中,我们一直在努力改进我们的模型如何感知、推理和对话,以使互动节奏和质量感觉更自然。

Project Astra的两部分演示,我们对未来AI助手的愿景。每部分都是在单次拍摄中实时捕获的。

在双子座的基础上,我们已经开发了原型代理,它们可以通过连续编码视频帧、将视频和语音输入结合成事件时间线,并缓存这些信息以供高效回忆,来更快地处理信息。

通过利用我们领先的语音模型,我们还增强了它们的声音,赋予代理更广泛的语调范围。这些代理可以更好地理解它们被使用的上下文,并快速、流畅地回应。

有了这样的技术,很容易想象一个未来,人们可以拥有一个专家级的AI助手,通过手机或眼镜随时待命。其中一些功能将在今年晚些时候来到Google产品,如Gemini应用和网页体验。

持续探索

到目前为止,我们的双子座模型家族已经取得了令人难以置信的进展,我们总是力求进一步推进最前沿的艺术。通过投资于不懈的创新生产线,我们能够探索前沿的新想法,同时也解锁了双子座新颖和令人兴奋的用例的可能性。

了解更多关于双子座及其功能的信息。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/343950.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

积累常用css

1、封面文字,垂直居中,可以两列并排 font-size: 20px;font-weight: 600;color: #333;line-height: 20px;display: block;word-wrap: break-word;writing-mode: vertical-lr;height: 160px;margin: 0 auto; 2、宽border效果 .dashed-box { margin: 80px…

超详解——识别None——小白篇

目录 1. 内建类型的布尔值 2. 对象身份的比较 3. 对象类型比较 4. 类型工厂函数 5. Python不支持的类型 总结: 1. 内建类型的布尔值 在Python中,布尔值的计算遵循如下规则: None、False、空序列(如空列表 [],空…

webapi跨越问题

由于浏览器存在同源策略,为了防止 钓鱼问题,浏览器直接请求才不会有跨越的问题 浏览器要求JavaScript或Cookie只能访问同域下的内容 浏览器也是一个应用程序,有很多限制,不能访问和使用电脑信息(获取cpu、硬盘等&#…

YOLOv5车流量监测系统研究

一. YOLOv5算法详解 YOLOv5网络架构 上图展示了YOLOv5目标检测算法的整体框图。对于一个目标检测算法而言,我们通常可以将其划分为4个通用的模块,具体包括:输入端、基准网络、Neck网络与Head输出端,对应于上图中的4个红色模块。Y…

java 类加载器及双亲委派机制

1、 有哪些类加载器 还有自定义类加载器。最上面的为父加载器,加载类的路径是不一样的 2、 什么是双亲委派机制: 1. 加载时,先去找父类,父类无法加载时,在由儿子加载 3、 为什么用双亲委派: 沙箱安全&…

旧衣回收小程序开发,轻松回收旧衣物

随着环保理念的增强,回收市场得到了快速发展,吸引了不少年轻人进入到市场中创业。除了传统的废品回收外,旧衣回收也受到了大众的重视,市场规模迅速扩大,大众浪费的衣物也获得了归处。 目前旧衣回收的方式主要是线上与…

D-Day 上海站回顾丨以科技赋能量化机构业务

5月31日下午,DolphinDB 携手光大证券,在上海成功举办 D-Day 行业交流会。三十余位来自私募机构的核心策略研发、量化交易员、数据分析专家们齐聚现场,深入交流量化投研交易过程中的经验、挑战及解决方案。 DolphinDB 赋能机构业务平台 来自光…

标准发布实施 |《新能源电池工业废水处理技术指南磷酸铁锂电池》

T/ACEF 130-2024《新能源电池工业废水处理技术指南磷酸铁锂电池》欢迎各单位引用执行!有课题也可联合立项! 发布日期:2024年02月04日 实施日期:2024年03月01日 主要起草人:刘愿军、孙冬、丁炜鹏、何小芬…

网络基础_02

1.ARP协议 地址解析协议(Address Resolution Protocol) 已知对方的三层ip地址,需要二层mac地址 当一台设备(请求方)需要知道某个 IP 地址对应的 MAC 地址时,会使用 ARP封装一个数据帧。这台设备的网络层以…

论文高级图表绘制(Python语言,局部放大图)

本文将通过一个具体的示例,展示如何使用Python语言和Matplotlib库来绘制高级图表,包括局部放大图的制作。适用于多条曲线绘制在同一个图表中,但由于数据量过大,导致曲线的细节看不清,需要对细节进行局部放大。如下图: 环境准备 首先,确保你的Python环境中已经安装了以…

Three.js——粒子效果、粒子水波、粒子组成立方体

个人简介 👀个人主页: 前端杂货铺 ⚡开源项目: rich-vue3 (基于 Vue3 TS Pinia Element Plus Spring全家桶 MySQL) 🙋‍♂️学习方向: 主攻前端方向,正逐渐往全干发展 &#x1…

【启明智显彩屏应用】Model3A 7寸触摸彩屏AGV小车应用方案

一、AGV小车概述 (一)介绍 自动导向车(Automated Guided Vehicle,简称AGV),也称为自动导向搬运车、自动引导搬运车。AGV广泛应用在自动化的生产当中,大大节约劳动力和提高生产效率。 (二)现状…

MySQL——C语言连接数据库

MySQL Connection ​ 连接数据库的客户端除了命令行式的还有图形化界面版本,网页版本,当然也包括语言级别的库或者是包,能够帮助我们直接连接数据库; 一、语言连接库下载 方式一:不建议使用,需要自己配置…

PDF编辑与修正 提高工作效率 Enfocus PitStop Pro 2022 中文

Enfocus PitStop Pro 2022是一款专为Mac用户设计的强大PDF编辑和校对工具。它支持添加、删除、合并、分割PDF页面,以及文本和图像的编辑,如文字替换、字体更改、颜色调整等。内置自动修复功能,能快速检测并修复缺失字体、重叠文本等常见问题。…

技术架构的发展

技术架构的演进 主要方向: ​ 1.提高单位时间内的吞吐量,提高并发度; ​ 2.对应用服务代码进行解耦合,使得开发效率得到提高; ​ 3.运维成本降低; ​ 4.成本降低,如购买云厂商资源&#xf…

【计算机网络】对应用层协议中HTTPS协议的总结

˃͈꒵˂͈꒱ write in front ꒰˃͈꒵˂͈꒱ ʕ̯•͡˔•̯᷅ʔ大家好,我是xiaoxie.希望你看完之后,有不足之处请多多谅解,让我们一起共同进步૮₍❀ᴗ͈ . ᴗ͈ აxiaoxieʕ̯•͡˔•̯᷅ʔ—CSDN博客 本文由xiaoxieʕ̯•͡˔•̯᷅ʔ 原创 CSDN 如…

数据结构_手撕八大排序(计数,快排,归并,堆排,希尔,选择,插入,冒泡)

✨✨所属专栏:数据结构✨✨ ✨✨作者主页:嶔某✨✨ 排序的概念 排序:所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。 稳定性:假定在待排序的记录序…

算法学习笔记(7.7)-贪心算法(Dijkstra算法-最短路径问题)

目录 1.最短路径问题 2.Dijkstra算法介绍 3.Dijkstra算法演示 4.Dijkstra算法的代码示例 1.最短路径问题 图论中的一个经典问题,通常是指在一个加权图中找到从一个起始顶点到目标顶点的最短路径。 单源最短路径问题:给定一个加权图和一个起始顶点&…

Python易错点总结

目录 多分支选择结构 嵌套选择 用match模式识别 match与if的对比 案例:闰年判断 三角形的判断 用whlie循环 高斯求和 死循环 用for循环 ​编辑continue​编辑 whlie与else结合 pass 序列 列表(有序) 元组(有序&…