谷歌Gemini造假始末

💡大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、读书和自媒体。

在过去一年中,OpenAI ChatGPT引发了一股AI新浪潮,而谷歌则一直处于被压制的状态,迫切需要一款现象级的AI产品来证明自己的实力。

自ChatGPT发布以来,人们一直对谷歌声称的竞品Gemini模型的能力非常好奇。这款大型模型早在今年3月就传出了风声,在5月的I/O大会上进入了“即将推出”的状态。

发布

12月7日凌晨,谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线,并表示这是“谷歌迄今为止最大、能力最强的AI模型”。

与此同时,一段大约6分钟的Gemini演示视频[1],也在各个自媒体平台疯传。最个视频展示在在视频下的人工智能,不仅能听会说,还是能看得清、看得懂,丝滑的交互,让我们感觉离AGI又进了一步。

loading

质疑

收获了各方赞誉之后,然后过了一个晚上,演示视频造假的消息也成这个模型新的热度,后来谷歌也发推承认,只是在「剪辑」上,加快的反应速度。“出于本演示的目的,为了简洁起见,延迟已减少,Gemini输出也已缩短。”

loading

混淆跑分,GPT4测试标准不一致

仅仅是视频作假吗?后来有人发现,在与GPT4的对比数据中也存在玄机。

从谷歌对Gemini的宣传信息来看,他们声称Gemini在32项标准性能指标中有30项比GPT-4更优秀,取得了90%以上的高分。但实际上,差距微乎其微,而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本思维链的方法。对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。

loading

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算,在5-shot的标准下,Gemini的得分实为83.7%,比GPT-4更低。

loading

也就是说,只有当CoT(思维链)达到32个例子时,Gemini Ultra才能达到90分以上,超过GPT-4;当例子数量减少到5个时,Gemini Ultra的得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4强多少的问题,因为它们只是在不同的标准上“强”。

就像谷歌在5月份发布Palm-2的时候,也挑出了两个优于GPT-4的指标,但是后来这个大模型怎么样,大家都清楚。

斯坦福大学基础模型研究中心主任Percy Liang也谈到,虽然Gemini有很好的基准分数,但由于不知道训练数据的内容,因此很难解释这些数据。华盛顿大学计算语言学教授Emily Bender也指出,谷歌宣传Gemini是一台万能机器,是一个可用于多种不同用途的通用模型。但是谷歌却使用狭隘的基准来评估它期望用于这些不同用途的模型,这意味着它无法得到彻底的评估。

实力or造假

前两天,又有网友爆料:在谷歌 Vertex AI 平台使用该模型进行中文对话时,Gemini-Pro 直接表示自己是百度语言大模型。

loading

也就是说Google的这个年度最优的作品的中文训练语料,就直接调用百度的文心一言。之前文心一言推出来的时候,当时也被怀疑是翻译外网的文本,进行模型训练。对于美帝来说,也上演了一把出口转内销的闹剧。

但对于押宝人工智能最早,投入最高的互联网老大哥谷歌,在新的AI时代的竞争,确实有些乏力了。我们期待Gemini的更新版本,期待谷歌更多的作品。

📎

解锁更多ChatGPT、AI绘画玩法。备注:chatgpt

参考资料

[1]

演示视频: https://www.bilibili.com/video/BV12M411d7He/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/224463.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mysql(2)

目录 一.外键约束属性 创建主键表: ​编辑 创建外键表: 插入数据,先插入主表在插入外表: 删数数据记录时,要先从表再主表: 删除外键属性: 二.数据库的用户权限管理 看数据库中的用户&a…

Flutter详解及案例代码

概念 Flutter是由Google开发的开源UI框架,旨在快速构建高质量的移动应用程序。与传统的移动应用开发方式不同,Flutter使用单一代码库构建应用程序,可以同时在iOS和Android上运行。 Flutter的核心是使用Dart语言编写的,并且具有自…

C语言操作符if语句好习惯 详解分析操作符(详解4)

各位少年: 前言 还记得我们上一章讲过一个比较抽象的代码,它要比较两次都是真的情况下才能打印,那么很显然这样写代码是有弊端的?哪我们C语言之父丹尼斯.里奇,先介绍一下上次拉掉了if语句的好习惯 好再分享一些操作符…

大数据Doris(三十九):Duplicate 模型中的 ROLLUP

文章目录 Duplicate 模型中的 ROLLUP 一、前缀索引

SPFA算法总结

知识概览 SPFA算法是Bellman_Ford算法的优化。时间复杂度一般是O(m),最坏时间复杂度是O(nm)(遇到网格图、菊花图),其中n是点数,m是边数。SPFA算法其实是单源最短路限制最小的算法,只要图中没有负环&#xf…

C++ Qt开发:Charts绘制各类图表详解

Qt 是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍TreeWidget与QCharts的常用方法及灵活运用。 …

Java之Synchronized与锁升级

Synchronized与锁升级 一、概述 在多线程并发编程中 synchronized 一直是元老级角色,很多人都会称呼它为重量级锁。但是,随着 Java SE 1.6 对 synchronized 进行了各种优化之后,有些情况下它就并不那么重了。 本文详细介绍 Java SE 1.6 中为…

《运维人员的未来:IT界的“万金油“如何继续闪耀光芒》

文章目录 每日一句正能量前言35岁被称为运维半衰期,究竟为何?如何顺利过渡半衰期运维的职业发展路径后记 每日一句正能量 凡事顺其自然,遇事处于泰然,得意之时淡然,失意之时坦然,艰辛曲折必然,历…

详解Java反射机制reflect(一学就会,通俗易懂)

1.定义 #2. 获取Class对象的三种方式 sout(c1)结果为class com.itheima.d2_reflect.TestClass 获取到了Class对象就相当于获取到了该类 2.获取类的构造器 3.获取全部构造器对象 2.根据参数类型获取构造器对象 类型后必须加.class 3.构造器对象调用构造器方法 4.暴力访问 4.获…

Maven私服

1 Maven私服简介 Maven 私服是一种特殊的Maven远程仓库,它是架设在局域网内的仓库服务,用来代理位于外部的远程仓库(中央仓库、其他远程公共仓库)。 1.1 下载构件顺序 建立私服后,当局域网内的用户需要某个构件时&a…

图灵日记之java奇妙历险记--输入输出方法数组

目录 输入输出输出到控制台从键盘输入使用 Scanner 读取字符串/整数/浮点数使用 Scanner 循环读取 猜数字方法方法定义方法调用的执行过程实参和形参的关系(重要)方法重载 数组数组的创建数组的初始化动态初始化静态初始化 数组的使用元素访问遍历数组 数组是引用类型null数组应…

esp32-s3训练自己的数据进行目标检测、图像分类

esp32-s3训练自己的数据进行目标检测、图像分类 一、下载项目二、环境三、训练和导出模型四、部署模型五、存在的问题 esp-idf的安装参考我前面的文章: esp32cam和esp32-s3烧录human_face_detect实现人脸识别 一、下载项目 训练、转换模型:ModelAssist…

Django之DRF框架三,序列化组件

一、序列化类的常用字段和字段参数 常用字段 字段名字段参数CharFieldmax_lengthNone, min_lengthNone, allow_blankFalse, trim_whitespaceTrueIntegerFieldmax_valueNone, min_valueNoneFloatFieldmax_valueNone, min_valueNoneBooleanFieldNullBooleanFieldFloatFieldmax_…

sql_lab之sqli注入中的cookie注入

Cookei注入(gxa的从cookei注入) 1.打开控制台 2.验证id2时的值 document.cookie"id2" 3.判断是上面闭合方式 document.cookie"id2 -- s" 有回显 说明是’单引号闭合 4.用order by 判断字段数 5.用联合查询判断回显点 接下来的…

复分析——第1章——复分析准备知识(E.M. Stein R. Shakarchi)

第一章 复分析准备知识 (Preliminaries to Complex Analysis) The sweeping development of mathematics during the last two centuries is due in large part to the introduction of complex numbers; paradoxically, this is based on the seemingly absurd no…

python三大开发框架django、 flask 和 fastapi 对比

本文讲述了什么启发了 FastAPI 的诞生,它与其他替代框架的对比,以及从中汲取的经验。 如果不是基于前人的成果,FastAPI 将不会存在。在 FastAPI 之前,前人已经创建了许多工具 。 几年来,我一直在避免创建新框架。首先&…

python dash 的学习笔记1

dash 用python开发web界面 https://dash.plotly.com/ 官方上支持jula F# python一类。当然我只会python只学习python中使用dash. 要做一个APP,用php,java以及.net都可以写,只所有选择python是因为最近在用这一个。同时也发现python除了慢全是优点。 资料…

Redis缓存常见问题之预热、雪崩、击穿、穿透

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码、Kafka原理、分布式技术原理、数据库技术🔥如果感觉博主的文章还不错的…

MongoDB数据库本地部署并结合内网穿透实现navicat公网访问

文章目录 前言1. 安装数据库2. 内网穿透2.1 安装cpolar内网穿透2.2 创建隧道映射2.3 测试随机公网地址远程连接 3. 配置固定TCP端口地址3.1 保留一个固定的公网TCP端口地址3.2 配置固定公网TCP端口地址3.3 测试固定地址公网远程访问 前言 MongoDB是一个基于分布式文件存储的数…

处理etcd源码包编译异常

1、下载etcd包,执行go build报异常: client\v2\example_keys_test.go:1:1: expected package, found . client\v3\example_auth_test.go:1:1: expected package, found . client\v3\concurrency\example_election_test.go:1:1: expected package, found…