文字生万物,AI极简史

e89ed059e64a4a42f0e1964f943d1ffe.jpeg

AI 算法就像一个人类婴儿

哈罗德·科恩花了 42 年把 AARON 铸成“另一半自己”。它是一段被画家造出来的计算机程序,或许也可以叫做 AI 系统。先是花了 20 年学会黑白简笔画,1995 年,它第一次表演上色,以一个庞大的机器模样(长 2.4 米,宽 1.8 米)。它先用机械臂上的钢笔勾勒线条,然后在调色板上混合颜料,创造出自定义的颜色,再使用笔刷进行涂抹,就好像在机床上织布。2016 年,科恩去世,AARON 也停止了呼吸。

他们都没见到《太空歌剧院》的诞生,这幅 AI 作的画在艺术比赛上拿了一等奖。2022 年,使唤 AI 画画变得格外简单——只要会打字就行。AI 画画也不再是一笔一笔地勾勒线条、涂抹颜色,而是像一台反应有点迟缓的彩色电视机,从一片灰白雪花噪声中慢慢地腾出画面。

77f91971dd3faf5f1f1540ef8b91fddc.png

AARON创作的首幅上色作品,1995

794ccc6c1200a58fc3808c2cbac558e9.png

《太空歌剧院》,使用AI工具Midjourney创作,2022

不过,恰好是在科恩去世的 2016 年,AI 画画所依托的“文本生成图像”(text to image)技术在深度学习领域迈出了第一步,小小的一步——生成比豆腐块还小的极模糊的图像,仔细一看,还很拙劣。比方说让它画一只站在草地上的羊,它就在绿色背景中放置一个灰色的不明形状的物体,就像一块污渍。

04137a90e3a2413c6ddb8e722d8310a2.png

Generative Adversarial text to image synthesis, 2016

这些小豆腐块儿的光芒还是太微弱了。

但 AI 的步速很快。2017 年,基于 GAN 的伪造人脸已经可以以假乱真。2020年,扩散模型(Diffusion Model) 降低了图像生成模型的训练难度,还能生成比 GAN 更多元的图像。2021 年,OpenAI 推出了 CLIP,它学到了文本和图像之间的对应关系。2022 年,AI 画家诞生,不过没想到,这不是 2022 年最重要的 AI 新闻。

还是先让我们回到 2016 年吧。这一年最大的新闻是,谷歌旗下的人工智能公司 DeepMind 创造的 AlphaGO 以 4:1 击败了韩国传奇棋手李世石,人们仿佛看到原本只存在于科幻小说的强大的人工智能,在棋盘上空活了过来。

同一年,或许普通人没有太过在意,一家成立仅有半年的新公司 OpenAI(尽管它出身煊赫,是由特斯拉的创始人马斯克联合其他硅谷明星投资人注入 10 亿美金创立的非营利机构)宣布,他们的长远目标之一,是开发对人类友好的通用人工智能系统,简单来说,这个系统能像人一样推理和反应从而让人以为它是人。作为一个非营利组织,该公司的第一份声明称,公司要“为所有人而非股东创造价值”。

技术在往前发展。2017 年诞生了 Transformer,如今看来,那是个极其重要的时刻。

这个和变形金刚同名的小玩意儿是由谷歌团队创造的一种全新的模型结构,同样威力巨大。它能更好的理解上下文,更重要的是,此前 NLP (自然语言处理)的主流模型 RNN 天生是个时序结构,处理起句子来就好像在只开了一个窗口的银行排长队,处理完上一个词才能处理下一个,而 Transformer 对句子里的每个词可以同时进行处理,也就是所谓的并行化。它为后来的暴力出奇迹的大模型时代提供了可能性。

此前深度学习的主流仍是使用有标签的数据进行训练,效果好,但代价高昂。比如说一句话的情绪是积极还是消极?为了打上准确的标签,研究者必须付钱请人来做。于是数据集的规模一直没法大幅度提升。既然 Transformer 能很好地消化上下文的内容,2018 年,GPT、BERT 开始利用大规模的无标签的数据对模型进行预训练,在这个阶段,它们或是给定一串词让模型预测下一个词是什么,或是干脆在句子中间挖掉一个词,让模型重新给填上,如此这般,把价格更为低廉的无标签的文字引入了模型的训练。

OpenAI 的创始人之一 Sam Altman 接受《纽约客》采访时曾说:“成为一台机器有一定的优势。人类被输入-输出率所限制,每秒只学习 2 比特,丢失大量数据。而对机器而言,我们看起来肯定像是被减速的鲸歌。” BERT 用了 3300M 的文字来做预训练,这些文字来自书本和维基百科,质量较高,即使对人来说可能要看上几年时间,对机器来讲,仍算克制。

和 Open AI 推出的初代 GPT 相比,谷歌研发的 BERT 是更风光的那个,因为经过有标签的数据微调之后,它的表现更佳。BERT 很快被用来改进谷歌的搜索引擎,被谷歌描述为“搜索历史上最大的飞跃”。

模型更大,效果就会更好,用于取得突破性成果的计算资源每 3、4 个月翻一番。OpenAI 需要足够的资本来匹配或超过这种指数级增长,“在经济上维持一个非营利组织是站不住脚的”。2019 年 3 月,OpenAI 通过设立一个利润上限(投资者的回报率不得超过 100 倍)掀掉了 “非营利组织”的帽子。不久之后,它宣布了微软的 10 亿美金投资。从此也背上了一定的商业化压力。

4a5778ce0d608521ea6dbd79780833d8.jpeg

OpenAI 在 2019 年推出了 GPT-2,一个更大版本的 GPT-1,反响平平,在 2020 年推出了 GPT-3,一个更大版本的 GPT-2,终于大力出奇迹,激起千层浪。据专业测算,训练一个 GPT-3 模型的第一阶段需要“355 个 GPU 年”,仅这一阶段的训练费用高达 450 万美元。

微软为 OpenAI 提供着资金和算力支持。2021 年 OpenAI 发表的 CLIP 模型学会了图片和其文字描述的对应关系,启发了很多后续应用,包括 AI 画画。

2022年中,OpenAI 放出了它神乎其技的 AI 画家,DALL-E 2,但只进行了小规模内测。于是它的低配版——DALL-E mini 变成了网友们趁手的新玩具,它听得懂人话,生成的图片虽然粗糙但是有趣,一时间成了互联网上的“梗图之王”。当时少有大众觉得 AI 能做出真的艺术创造,顶多拿来解闷罢了。仅过了一个多月,Midjourney、Stable Diffusion 和 DALL-E 2等 AI 画画工具接连向公众开放,人们终于意识到,AI 能画画,而且画得超乎想象的好。设计师会失业么?画家又如何看待这件事?到处都是这样的讨论。

但站在 2022 年的末尾谈 AI 画画,已经感到有些过时了。ChatGPT 抢走了这些 AI 画家的风头。

这个聊天机器人是鬼精灵,玩游戏、写代码、讲心灵鸡汤,无所不能,甚至还能写点小诗(尽管很平庸)。它能记住对话,进入情景,遵从指令,还展现了初级的推理能力,让人感叹“图灵测试已经被画上了句点”。有研究者评论“ChatGPT / GPT-3.5 是一种划时代的产物,它与之前常见的语言模型的区别,几乎是导弹与弓箭的区别”。

ChatGPT 当然还不完美,也谈不上能马上取代搜索引擎,因为它生成的答案还时有错误。也有消息称,此前谷歌内部已经开发出了强大的聊天机器人,但出于安全考虑,尚未对公众开放。大公司的谨慎给了小公司机会,Stability AI,这家公司 8 月份推出“文本转为图片”的生成器(Stable Diffusion),已经融资 1.01 亿美元。

无论如何,OpenAI 离他们 2016 年立下的那个长远目标更近了。人们因为看见了 ChatGPT 所以相信。2016 年 Sam Altman 接受《纽约客》采访时把一个人工智能算法比作一个人类婴儿,“婴儿学习任何有意义的事情都要好几年”,而他认为 OpenAI 的使命是“照顾好自己的「神童」,一直等到他可以由世界来「抚养」”。按照这个约定,他们已经照顾了 GPT 系列 4 年。

人工智能的奇点临近了,很多人这样讲。就好像站在一块不断隆起的土地上,不知道明天它会把你带向何方。或许我们每个人都要经历那个在自己最引以为傲的事情上被 AI 打败的时刻,正如 6 年前李世石和 AlphaGO 交锋的第一局,他抚摸棋盒边缘,终于落白子投降的那一刻。那一场的裁判,同样被 AlphaGO 打败的欧洲围棋冠军杯的冠军樊麾说,AlphaGo 是面镜子,在它面前棋手不得不直面赤身裸体的自己。

或许通用人工智能到来的时候,所有人都不得不直面那个最简单的问题,我是谁?

ecf4d5b1e202d7c8ba803b295cfbca63.png

文本还可以生出这些……

文本生文本、文本生图像,已然不稀奇。让我们来谈点更时髦的吧,那些快要破土而出的新技术,文本可以生出万物。

首先,逃离平面,文本能生成 3D 模型了。

b2f8123f1e613ca9825373f2136dc4e4.gif

OpenAI, Point·E

不仅如此,谷歌声称,他们能用极少的图片(甚至单张图片)生成 3D 模型,拳打脚踢摄影测量法。

Google, 3DiM

稍微偏离一点儿轨道,写一段描述,AI 能生成对应的声效。比如,“在风中吹口哨”“警报声和嗡嗡作响的引擎接近后又走远”。

Meta AI, AudioGen

不管你信不信,AI 还能根据配乐起舞。或许不久之后,AI 就能给 KPOP 编舞了。

Stanford University, EDGE

步子迈得大一些,当然,已经有人在让 AI 做视频了,尽管还很短。

Google, Imagen Video

为视频创作者提供 AI 工具的网站 Runway 宣布举办第一届 AI 电影节,要求电影的核心需要为 AI 生成。是的,AI 已经走到这一步了。

毫无疑问,未来,AI 的文本炼金术能让创作的成本变得更低,人们可以不太费力地得到符合工业水准的产品。Joe Penna,一个电影导演,为了生成电影需要用到的特定的演员、地点、道具,他和朋友们一起开发了 DreamBooth 的民间版本,它能够做到输入文字,生成关于特定事物(比如你家沙发上的一只玩具小熊)的一组图像。漫画家,或者画工拙劣的编剧,也完全可以将 AI 当做自己的草稿本,由此掀开他的“宏伟巨著”。

1a556680d2760928158247e8211d8c35.png

我们还做了这些……

这一年,我们做了一系列关于 AI 的报道。其中一些,可能已经过时了。

dd2dc3d25bbab98a115c7b4baf7bc9b3.png

天下苦标题党久矣。以 AI 为镜子,我们能从标题中看出人们怎样的无意识偏见?

bb73d4f3d7a13679f7bd29ec1b1499f6.png

AI 生成的照片已经能以假乱真,你能分辨得出来吗?(连事实核查记者都错了一道!)

f43ab8bb88b7966a04772bfe8fe25ee9.png

AI 飞入寻常百姓家,首先飞进促销电话里。

782b768eee8774e9a879514a767cdc8e.png

AI 还是我们通往人工客服路上的恶狠狠的绊脚石。

f1afa67789e195d30ed677428cd56929.png

AI 帮学生写论文拿了 A ,于是我们便去试了试它。AI 生成观点型文章大差不差,但是对于事实却时常有错漏。已经有新技术在帮助解决这个问题,比如 RETRO Transformer 和 WebGPT。

编辑| 舒怡尔 

设计| 张泽红

7ffff3150fe192f506b14e5ff593f517.png

往期推荐

e4b99b86585a9f2228ab556e1f7f77ff.png

6614c90be25b5842857385268ff51341.png

36f8eb65b437a698870bb15700e3c946.png

3fcaaa6df3aabaec6b5b05fab154aaf4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37189.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WindTerm使用(暂停更新)

作为一个经常和代码以及服务器打交道的人,连接远程服务器所使用的工具肯定是越方便越好。目前,我使用的是xshell5和MobaXterm两个。Xshell最新的是7,破解版的我懒得去找,那xshell7免费使用一段时间后,就得付费&#xf…

【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取

【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取 【论文原文】:Multimedia Event Extraction From News With a Unified Contrastive Learning Framework 【作者信息】:Liu, Jian and Chen, Yufeng and Xu, Jinan 论文&#xff…

JoVE微生物组专刊征稿,写方法拍视频教程发SCI(宏基因组公众号专属福利)

JoVE 视频实验杂志 官网:https://www.jove.com/ 包括上万个实验和分析方法视频,还有几十个领域的数百个专业视频教程资源。 这个杂志被SCI收录了吗?必须的。杂志在Web of Science中JCR信息如下: 2年影响因子 1.1,5年影…

2020年, video captioning论文汇总

目录 CVPR2020:ORG-TRLCVPR2020:STG-KDTIP2020:OSTGTPAMI2020:SibNet(MM2018)WACV2020:DSDWACV2020:STaTS CVPR2020:ORG-TRL 题目 Object Relational Graph with Teache…

深度学习顶会论文投稿策略7步走(附资料)

科研论文,不同于毕业论文之处在于——科研论文是根据有价值的生产实践或科研课题写作的,具有原创性和独到性的论文。 在学术界,有人写论文是为了升硕士,升博士或者研究生博士顺利毕业。毕竟在学术界论文是工作和科研水平的直观体现…

最新最全论文合集——AAAI 历年最佳论文汇总

AMiner平台(https://www.aminer.cn)由清华大学计算机系研发,拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价、专家发现、智能指派、学术地图等科技情报专业化服务。系统2006年上…

论文分享:2020小样本学习综述

目录 题目与文章脉络S1 介绍1.1 FSL1.2 FSL应用场景1.3 FSL术语定义 S2 概述2.1 定义&分类&应用2.2 相关机器学习问题2.3 FSL核心问题2.4 FSL方法分类2.5 FSL方法研究现状 S3 数据3.1 数据扩充方法3.2 数据扩充方法的GAP S4 模型4.1 模型选择方法4.2 模型选择方法的GAP…

MICCAI2019论文分享 PART①

刚刚结束的 MICCAI2019 会议的论文集分为6个部分,这段时间刷了一遍 Part I,在这儿和大家做一个简单的分享交流 由于本人主要专注于分割领域和半监督弱监督等学习策略,下面给出的综述可能多涉及该方向。选出的文章主要突出其中的闪光点&#…

写论文有哪些神网站?

来源:https://www.zhihu.com/question/35931336 编辑:深度学习与计算机视觉 声明:仅做学术分享,侵删 作者:匿名用户https://www.zhihu.com/question/35931336/answer/66552275 1.学术网站大全推荐理由:包含…

分享几个写英文论文的网页和软件

多个批量修改英语写作语法错误的工具可以修改英文文章里的语法错误,修改效率极高,而且都是免费的。: 1.1Checker,使用地址:1Checker http://www.1checker.com/Home/Index 2.ginger http://www.gingersoftware.com/&…

你写论文时发现了哪些神网站?

周不润 ,神经科学 收录于 编辑推荐 • 18860 人赞同 神网站算不上,都是一些为写作带来便利的网站。而且作为一些最常用网站的替代品,这些网站有的更精确,有的更便捷。 (16.02.27 更新) 以下内容包括&#…

【论文推荐】了解《视频预测》必看的6篇论文(附打包下载地址)

论文推荐 “SFFAI135期来自中国科学院计算技术研究所博士在读的常峥推荐的文章主要关注于计算机视觉的视频预测领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦。” 关注文章公众号 回复"SFFAI135"获取本主题精选论文 01 推荐理由…

MICCAI2021论文合集

2021年的MICCAI论文合集来了!!! 在官网下完了以下合集: 百度网盘链接: 如果有人搞Alzheimer disease classification的可以一起交流!!! 链接2022.08.19更新: 链接&am…

我是如何从头写一篇顶级论文的

Datawhale干货 作者:重剑无锋知乎,剑桥大学,编辑:极市平台 原文丨https://zhuanlan.zhihu.com/p/538681254 极市导读 关于一篇顶会论文是如何产生的这件事—且看作者为你娓娓道来,如何从一形成routine的日常科研生活…

分享一个ai写论文的网站

场景: 直接输入需求,输入问题即可 链接 https://chatgpt.sbaliyun.com/

用计算机套路别人,套路计算器隐藏版

套路计算器隐藏版是款非常适合撩妹的神器,各种整蛊玩法,套路你的女朋友,操作简单,不需要root免费使用,轻松的哄女朋友开心。 套路计算器隐藏版特色 1.在这里都可以跟你的好友们设定任何的计算套路。 2.在使用的时候看起…

哈工大未来计算机院士,2017年中国高校新增工程院院士名单出炉,哈工大依然很强!...

原标题:2017年中国高校新增工程院院士名单出炉,哈工大依然很强! 院士是一个国家在科学技术方面的最高称号,不光在我们国家有,其他很多国家也有院士称号。而我国的院士一般都是指中国工程院院士和中国科学院院士&#x…

DetectGPT(斯坦福大学):利用概率曲率检测文本是否大模型生成

论文标题:《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》 论文链接:https://arxiv.org/abs/2301.11305 代码数据:https://ericmitchell.ai/detectgpt/ 作者通过分析超大模型生成文章与人类文章的…

淘宝API,商品详情的测试及使用

为了进行淘宝的API开发,首先我们需要做下面几件事情。 1)开发者注册一个账号, 2)然后为每个淘宝应用注册一个应用程序键(App Key) 。 3)下载淘宝API的SDK并掌握基本的API基础知识和调用,具体…