谷歌发布 3 款 Gemini 新模型;字节开源 FLUX Dev Hyper SD Lora,8 步生图丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

在这里插入图片描述

昨日,谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)在 X 平台发布推文,宣布推出 3 款 Gemini 实验性模型。3 款实验性 Gemini AI 模型如下:

Gemini 1.5 Flash-8B

  • Gemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。

Gemini 1.5 Pro Exp-0827

  • 主要增强编程、复杂提示词,现已通过 Google AI Studio 和 Gemini API免费提供,名称为「gemini-1.5-pro-exp-0827」。

  • Kilpatrick 表示,新的 Gemini 1.5 ProExp 0827 型号在各方面都优于 8 月初发布的实验型号,目前在 LMSYS 上的排名为第 2 位,仅次于 OpenAI 的GPT-4o-latest 模型。

  • 谷歌将于 9 月 3 日起,将 gemini-1.5-pro-exp-0801模型的请求,自动重定向到新的 gemini-1.5-pro-exp-0827 模型上。gemini-1.5-pro-exp-0801模型将从 Google AI Studio 和 API 中删除。

Gemini 1.5 Flash Exp-0827

  • Gemini-1.5-Flash (0827) 版本在性能方面有明显提升,在 LMSYS 上的排名从此前的 23 位提高第 6 位。

用户可以通过 Gemini API 和 Google AI Studio 访问上述两个模型,名称分别为 gemini-1.5-pro-exp-0827 和 gemini-1.5-flash-exp-0827。(@IT 之家)

2、Freepik Mystic 发布,号称是目前最先进的 AI 图像生成器

Magnific AI 和 Freepik 联合推出了 Freepik Mystic,宣称是目前最先进的 AI 图像生成器,也是唯一可以直接生成全高清图像的 AI 图像生成器。

与 Midjourney 和 OpenAI 的 Dall-E 不同,Mystic 并非基础模型,而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。

Mystic 能够生成高质量的图像,包括写实肖像、动物、风景、奇幻场景、室内设计和建筑概念、像素艺术、游戏元素、表情包等多种类型的图像。这些图像由顶尖摄影师、数字艺术家、VFX 专家和设计师精心策划,并由 Magnific AI 和 Freepik 的内部专家进行微调。Mystic 可以生成分辨率高达 1,664 x 2,432 的 AI 图像,并能够很好地遵循所给定的提示词生成符合要求的图像。

目前,Freepik Mystic 可以通过 Freepik Premium 订阅使用。此外,Mystic 也将登陆 Magnific AI 平台。(@AI 未来)

3、字节开源 FLUX Dev 的 Hyper SD Lora,8 步生图

在这里插入图片描述

字节跳动开源了 FLUX Dev 的 Haper SD Lora,大幅度缩短了 FLUX 图片生成的时间。Hyper-SD 提供了一系列基于不同基础模型的 LoRA 检查点,支持 1 到 8 步的推理过程,并且提供了与 ComfyUI 集成的工作流程,以及相关的技术报告和演示。尽管 8 步模型相较于原始版本效果有所下降,但是效果是可接受的。

项目还包括了如何使用这些模型进行文本到图像的生成,以及如何与 ControlNet 结合使用,以实现更精细的图像控制。用户可以通过 Hugging Face 的演示来体验 Hyper-SD 的性能,并且可以通过 ComfyUI 使用 Hyper-SD 的工作流程。(@雷锋网)

4、SlowFast-LLaVA:苹果推出的无需训练多模态模型

在这里插入图片描述

SlowFast-LLaVA 是苹果推出的无需训练多模态大语言模型,专注于视频理解和推理。该模型旨在在不超出常用 LLM 的 token 预算情况下,同时捕捉详细的空间语义和长距离的时间上下文。该项目无需对任何数据进行微调,在广泛的视频问答任务和基准测试中,其性能与最先进的视频 LLM 相当甚至更好。(@机器之心 SOTA 模型)

5、安卓 / macOS 版 ChatGPT AI 应用现支持「@」,可无缝切换不同 GPT 模型

科技媒体 testingcatalog 昨日发布博文,报道称安卓版和 macOS 版 ChatGPT 现支持 Mentions 功能,用户在聊天对话中使用「@」字符来调用不同的定制 GPT 模型。

Mentions 是 ChatGPT 的一个重要工具,让用户在一次对话中与多个专门的人工智能模型互动,每个模型都能提供独特的功能来丰富对话内容。

在安卓版 ChatGPT 应用中,用户输入「@」符号之后,会弹出一个窗口,让用户选择不同的 GPT,在保持聊天上下文的时候方便用户无缝切换。

苹果 macOS 平台最新版 ChatGPT 也已上线该功能,但目前 iOS 平台 ChatGPT 仍未上线。(@IT 之家)

02 有态度的观点

1、宇树创始人王兴兴:做机器人,中国缺乏 AI 人才

2024 年不少厂商开始将人形机器人搬到工厂「打工」,比如马斯克让擎天柱在特斯拉工厂「自己造自己」。但从世界机器人大会中会发现,人形机器人距离成为真正的「打工人」还有不小的一段距离。它们并没有展现出能够替代人类劳动力的能力,有的人形机器人连行走都比较困难,需要在吊杆辅助下才能顺利挪步,而有的人形机器人虽然能够演示其检修作业能力——例如对轮胎进行质检,但实际汽车工厂的场景更复杂、工序流程更多。就单纯的轮胎质检环节而言,有一个成本更低的、有视觉感知功能的设备就能完成,而不需要一个成本更高的人形机器人。而在诸如车辆内外饰装饰、道路测试等更复杂并且更耗人力的场景里,机器人的泛化能力不够,尚无法代替人类。

与其说机器人们「进厂打工」,不如说他们是「进厂学习」。目前,机器人企业们还需要进入工厂不断完善数据采集工作,来帮助提升产品的泛化能力。

在世界机器人大会之前,王兴兴分享了他对人形机器人产业现状的观点,他认为,AI 能力不够是机器人行业发展最大的瓶颈。「只有机器人 AI 的能力能突破一个临界点,工厂里的一些工序才能跑起来,机器人才能比人效率更高」,但是「中国的 AI 人才欠缺,对 AI 的人才培养力度不太够」,并且王兴兴认为「跟通用 AI 的发展相比,机器人 AI 的整个行业,落后了 10 年左右。」

虽然硬件层面也会对机器人发展形成桎梏,但王兴兴认为「硬件没有理论上的门槛,它是工程上的问题,在工程上把成本做得更低,做得更好,外观也做得更加极致,硬件功能也更加丰富。」

虽然机器人行业存在软硬件困境,但王兴兴表示行业会越来越好,因为「这个行业越来越热了,有更多的聪明人,更多的钱,更多的关注参与进来。(@腾讯科技)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/411722.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Seata执行原理分析-AT、XA、TCC、SAGA比较

分布式事务简介 1.1 本地事务 大多数场景下,我们的应用都只需要操作单一的数据库,这种情况下的事务称之为本地事务(Local Transaction)。本地事务的ACID特性是数据库直接提供支持。本地事务应用架构如下所示: 在JDBC编程中,我们…

priority_queue模拟

一、什么是priority_queue? priority_queue是C标准库中的一个容器适配器,用于实现优先队列(priority queue)的数据结构。优先队列是一种特殊的队列,其中的元素按照一定的优先级进行排序,每次取出的元素都是优先级最高…

从零开始掌握Vue实例

从零开始掌握Vue实例:深入理解数据绑定与生命周期的核心秘诀 引言 简要介绍主题: 在学习Vue.js的过程中,Vue实例是最基础也是最关键的部分。Vue实例是Vue应用的核心,它是数据、DOM元素和Vue组件之间的桥梁。掌握Vue实例的使用对于…

文件上传面板中限制需要的文件格式,并且隐藏“所有文件”选项

直接说需求:需要实现在文件上传面板中限制需要的文件格式,并且不想展示“所有文件”这个选项,应该怎么做嘞?效果如下图: 这里用到了 window.showOpenFilePicker 方法实现,首先定义接受的格式及限制&#xf…

格行“信号增强技术”引领行业创新,格行随身WiFi带你感受不一样的速度与激情,行业第一的随身WiFi并非浪得虚名!

近年来,随着市场保有量的不断提升与相关技术的不断扩展,我国随身WiFi市场已经到了发展质量更高的“2.0”阶段,消费者对随身WiFi的需求变得多元且“高级”。与之对应的供给端,品牌之间的竞争也从未停止,有的品牌选择卷价…

如何使用ssm实现实验室仪器设备管理系统

TOC ssm354实验室仪器设备管理系统jsp 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范化…

快来尝尝,食家巷荞面甜甜圈超赞

当荞面与甜甜圈相遇,便诞生了食家巷荞面甜甜圈,一种独具特色的美食体验。 食家巷荞面甜甜圈,外形圆润可爱,色泽金黄诱人。那精致的环状造型,仿佛是一个小小的魔法圈,散发着迷人的魅力。 与传统甜甜圈…

计算机网络面试真题总结(七)

文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 文章收录在网站:http://hardyfish.top/ 什么是对称加密、非对称加密? 对称加密是一种常用的加…

探索AI智能问答:改变未来交流的新动力

人工智能(AI)是当今科技领域中最具潜力和影响力的技术之一,AI智能问答系统更是这一领域中的一颗璀璨明珠。随着大数据和机器学习的发展,AI智能问答系统已经不仅仅是科幻小说中的幻想,而是正逐步融入我们的日常生活,从客户服务到教…

生成式AI扩散模型-Diffusion Model【李宏毅2023】概念讲解、原理剖析笔记

目录 一、Diffusion的基本概念和运作方法 1.Diffusion Model是如何运作的? 2.Denoise模块内部正在做的事情 如何训练Noise predictor? 1)Forward Process (Diffusion Process) 2)noise predictor 3.Text-to-Image 4.两个A…

入门Java第一步—>IDEA的下载与安装与JDK的环境配置(day01)

1.JDK的下载与安装 jdk的安装链接分为不同操作系统如下,点击链接跳转下载页面: windows操作系统JDK下载链接(按住键盘ctrl键单击链接即可): 链接7天有效,有需要的评论区找我哈 通过网盘分享的文件:jdk-8u271-windows-x64.exe 链…

人工智能如何将人机交互提升到新水平

随着人工智能模型在语音识别和合成、文本处理和多模态性方面的卓越表现,终极语音用户界面可能很快就会无处不在。欢迎来到雲闪世界。 添加图片注释,不超过 140 字(可选) 那是一个典型的星期五下午,我们刚刚结束了一个…

如何用wireshark分析找出url接口和param参数???

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

Linux 内核源码分析---IPv6 数据包

IPv6是英文“Internet Protocol Version 6”(互联网协议第6版)的缩写,是互联网工程任务组(IETF)设计的用于替代IPv4的下一代IP协议,其地址数量号称可以为全世界的每一粒沙子编上一个地址。 由于IPv4最大的…

Tapd敏捷开发平台的使用心得

Tapd敏捷开发平台的使用心得 一、Tapd 简介 TAPD(Tencent Agile Product Development),腾讯敏捷产品研发平台行业领先的敏捷协作方案,贯穿敏捷产品研发生命周期的一站式服务,了解敏捷如下图 二、几个核心模块概念 需求迭代缺陷故事墙前期项目需求的管理,可以按类别建…

22AP10 SS524 平替 海思HI3521DV200 可提供开发资料

22AP10 是针对多路高清/超高清(1080p/4M/5M/4K)DVR 产品应用开发的新一代专 业 SoC 芯片。22AP10 集成了 ARM Cortex-A7 四核处理器和性能强大的图像分析工具 推理引擎,支持多种智能算法应用。同时,22AP10 还集成了多路 MIPI …

【可兼容的】protobuf、streamlit、transformers、icetk、cpm_kernels版本号

搞大模型训练的工作不可避免地需要很多库,但是非常讨厌的事情是这些库动不动就不兼容。最近在做文本分类训练的时候又遇到了这个问题,为了避免后面再安装包的时候把我之前的环境破坏了,所以特地来记录一下:protobuf、streamlit、t…

排序算法见解(2)

1.快速排序 1.1基本思想: 快速排序是通过一趟排序将待排序的数据分割成独立的两部分,其中一部分的所有数据都比另一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以…

解决Springboot项目Maven下载依赖速度慢的问题

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

智能客服系统:提升客户体验与企业效率的革命性工具

在当今数字化时代,企业与客户之间的互动方式正在迅速改变。智能客服系统作为一种新兴技术,不仅在提高客户满意度方面发挥着重要作用,还能够大大提高企业的运营效率。本文将详细探讨智能客服系统的工作原理、优势、实施步骤以及未来发展趋势。…