文章目录
- 1 前言
- 2 Google I/O 发布者大会
- 3 PaLM 2模型
- 3 Bard项目
- 4 其他AI工具
- 4.1 AI 图片编辑 Magic Editor
- 4.2 Duet AI 办公
- 4.3 Universal Translator 翻译工具
- 4.4 Google 沉浸式导航
- 4.5 Google 搜索引擎
- 5 讨论
1 前言
每年必看两大会,苹果发布会和谷歌发布会,除了英语听力磨耳朵,看看库克飞檐走壁,吃瓜掉链子外,关注前沿技术,更是为了感受科技改变生活,本篇文章仅围绕人工智能AI方面
进行描述:
谷歌其实一直都是AI的老牌公司,眼看这一年被ChatGPT力压火的一塌糊涂,抢尽风头。去年OpenAI的ChatGPT突然发布确实是波**“偷袭”,措不及防。谷歌在2月才匆匆发布第一代Bard“应付”**一下,但是首次亮相就自信的出错。当时示例是“我可以告诉我 9 岁的孩子关于詹姆斯·韦伯太空望远镜的哪些新发现?”查询读取。机器很快吐出三个想法,包括最后一个想法,“JWST 拍摄了我们太阳系外行星的第一张照片。但并非JWST拍摄的。2004 年,这一荣誉属于欧洲南方天文台的甚大望远镜 (VLT),美国宇航局证实了这一点。
有小伙伴就会问,**怎么这么扣细节?ChatGPT不也经常语无伦次吗?**非也,关于ChatGPT可以回看这篇文章,排除个别网友故意训练错误信息(即保证数据库纯净)外,需要正确的提问(引导)才能得到正确的回答:https://mp.weixin.qq.com/s/o4MeE_x0YwPVzSrybyoEVg
还有的小伙伴可能觉得AI这个话题年年谈,年年有,是不是要近饱和了?也不是,打个比喻,人们在冰海上远远的发现一块“浮冰”,有破冰船了接近一看发现是个冰山,等有条件下潜了才渐渐发现“真理面纱”。确实是越探索,知道的越多越觉得无知。
AI从未接近饱和,甚至可以说是刚开始,才刚摸到门槛。
2 Google I/O 发布者大会
北京时间5月11日凌晨,**「Google I/O 发布者大会」**亮相,全会围绕“Making AI more helpful for everyone”让人工智能对各个领域各尽所长。
目前还未恰到饭,侧重点在于PaLM 2模型、Bard和其他相关的AI工具。
3 PaLM 2模型
OpenAI的GPT-4模型现在公认一家独大,现谷歌宣布PaLM 2可以一战,下述内容基于谷歌发表的技术报告
其中提到三大亮点:
- 多语言性: PaLM 2 在多语言文本方面接受了更多的训练,涵盖 100 多种语言。这显着提高了它在多种语言中理解、生成和翻译细微差别文本(包括成语、诗歌和谜语)的能力,这是一个很难解决的问题。PaLM 2 还通过了“精通”级别的高级语言能力考试。
- 推理: PaLM 2 的广泛数据集包括科学论文和包含数学表达式的网页。因此,它展示了逻辑、常识推理和数学方面的改进能力。
- 编码: PaLM 2 在大量公开可用的源代码数据集上进行了预训练。这意味着它擅长 Python 和 JavaScript 等流行的编程语言,但也可以生成 Prolog、Fortran 和 Verilog 等语言的专用代码。
这里是对比于PaLM1代,也是在文件中提到放在第一位的就是语言能力。按照CEFR定义,每场写作考试都由三位专业的母语人士进行评分,PaLM 2的日语达到了A/特别A级,在法语方面达到了C1级。这个是很有用的,做科研的都知道,一定条件下机翻是永远替代不了原生语言,不然润色服务也不会这么盆满钵满了。
解释翻译的波斯谚语的含义,挺有意思的,能理解深意,还是着重在**“会思考”**,这是区别人工智能和人工机器的一大关键点。
这是各语言下1代和2代的一个ROC评分,可以理解为是准确性,越高越好
横向对比12
种编程语言评估,可以理解为与人工作的一个编码的准确性,也是越高越好
3 Bard项目
Bard是和ChatGPT一样是个语言模型,中文名字叫巴德,就是在今天凌晨,谷歌已经取消wait list
名单了,直接开放于180个国家和地区,和微软一样重磅,微软是在五一期间开放了New Bing
,但是每天只能问20个问题,笔者还在测试中,埋个伏笔。
Bard是搭载了PaLM2模型
的,按技术报告来看应该是挺牛的,据说编程能力更胜一筹,大家可以体验一下,不过暂不支持中文,Bard网址:https://bard.google.com/
有意思:
4 其他AI工具
4.1 AI 图片编辑 Magic Editor
这一张是调色,然后把长椅移到画面中间以保持空间填充,精神抖擞。不过还是小有瑕疵,观察一下长椅的阴影,但是笔者认为比起iPhone14Pro的高度锐化和三星的“创造月球照片”好多了:
Google 分享了几个 Magic Editor 的实际应用示例,它们都非常酷。在一张人在瀑布前的照片中,谷歌将人完全移到照片的一侧,抹去背景中的人,并使天空更蓝。
无法上传GIF,可移步到下方公众号查看原文
听说该工具会优先登陆于谷歌的Pixel手机。
4.2 Duet AI 办公
涵盖了一系列适用于 Google 生产力应用程序的生成式 AI 工具。正如我们今年早些时候详述的那样,这包括 Docs 和 Gmail 中的写作帮助、幻灯片的图像生成、Meet 的自动会议摘要等等。但在谷歌 I/O 上,唯一真正的新闻是写作辅助也将出现在移动版 Gmail 中,它将被标记为“帮我写”——Smart Compose 的升级版。
- 轻松生成专业化的岗位描述
- 在Gmail将会议记录转换成电子邮件
- 还有很多~~~~
但是使用仍需加入workspace的waitlist,只能等了
网址:https://workspace.google.com/labs-sign-up/
4.3 Universal Translator 翻译工具
该工具旨在将视频从一种语言翻译成另一种语言,同时保留整体基调和氛围。这意味着该实用程序不仅可以将音频从一种语言翻译成另一种语言,还可以模仿说话者的声音、语气和面部表情。输出的人说话视频会根据目标语言的发音同步嘴唇的动作。
如上图所示,Universal Translator 首先检测单词并进行翻译。然后,它会检查说话者的语气以及他们强调的内容。结合这两个方面后,它会生成目标语言的语音。最后,它会根据 AI 生成的语音的发音同步视频中说话者的嘴唇。
但是一向注重版权的歪果仁肯定会考虑到安全这点,所以会限制一般用户,需要授权通过才能使用。
4.4 Google 沉浸式导航
谷歌地图一直都很牛,不少人用过Google Earth
,好评连连吧。这一次升级体现在**“沉浸式”,新视图将填充 3D 建筑、植被,为用户提供更好的视角,在展示街道及其周围环境的同时提供更多细节。用户不仅可以实时查看所有这些信息,还可以调整时间以查看天气和交通在过去几个小时内可能发生的变化,实现真正的云游**。
这个功能在夏季推出,到 2023 年底将在 15 个城市推出。
4.5 Google 搜索引擎
这个功能放在最后,与 Microsoft 的Bing
体验类似,这个新面板中有一些东西,所有这些都是为了让你在输入更自然的搜索提示时一目了然的信息。
该体验即将登陆谷歌实验室,并将在未来几周内推出,还是要申请waitlist
。
5 讨论
人工智能的发展其实在第一波ChatGPT惊雷后是没有太大感觉差异的,因为后续的更新换代和接二连三的同台竞技产品(文心一言、阿里的AI、和鲸的AI等),即便是很多镜像的,“国产ChatGPT”,都是大语言模型
,一代又一代只是算法上的优化和扩大模型,在我们的基础使用体验上并没有太大差别。
笔者觉得人工智能现在掀起的波浪其实遍布各个方向,只不过我们大多数人都只关注于文本聊天模型,所以还没接触到真正的“AI改变生活”
,不过这个交给专业团队,交给工业界了,外行看热闹,内行看门道,作为不涉及研发,不涉及开发的我们,看着门道的热闹也是可以的