(1)注意三个东西
这个IT世界,一直要注意三个东西:
硬件:新的计算设备
软件:开源-免费
交互:新的交互方式
你看每一代新的计算设备:大型主机-小型机-工作站-PC机-智能手机,每一代新的计算设备出来,都会带起一个体系一个时代。本来我挺期待2025年的XR,新一代的计算平台设备。可惜微软、谷歌、Facebook都撤火了,硅谷资本也撤火了,大家又都扎回AI时代了,这给新时代的拉开又最少延迟3年。2025年的XR-新一代的计算平台,我只能祈求苹果公司别掉链子。
开源-免费:中国人是吃尽了这里的开放红利。当年日本人搞以人工智能为核心的第五代计算机体系时候,没有开源-免费这个环境,所以从芯片到操作系统到编程语言都得自己搞,虽然有美国人-欧洲人的加持,但也最后失败。
新的交互方式:我过去就说过,一代技术能不能流行起来大众商用市场普及起来,就看是否产生了新的交互方式,否则只能停留在小众专业市场无法做商业转化。你看从字符型命令式DOS到图形型点击式Windows,从寻找软件下载软件安装软件到Web访问网址网页,从九宫格键盘-触摸笔到多点触摸,这都开启了一个个的新时代。所以我前几篇文章就呼吁:ChatGPT是暴力美学,在AI内行眼里确实科学成分没那么多,但千万别小看,因为新的交互方式会带来大众市场的规模商业价值转化。
(2)模型:开源
上次2020年的GPT-3是有论文,没有开源。就如同谷歌在2003-2006年发布了三篇论文,后来-三年后,在2009年,开源界出现了大数据技术Hadoop、MR、Hbase。三年时间,这个时间长度大家要记住。咱们再想想移动时代,iOS是2007年发布的,安卓是2008年开源的,小米和微信是2011年出现的,这都已经过去3-4年了。所以说,三年这个时间长度,大家一定要等,不要太着急,我们仍然是2025年见,让子弹再飞一会,晚不了。
这次2023年的GPT-4,连论文都没有。嘿嘿嘿,彻底断了大家的念想。不过,有iOS就必然有安卓。商业世界就这么奇怪,反正就不让你一个人爽。
现在就乞求谷歌和Facebook别掉链子。谷歌有钱血厚、人才虽然养老但积累还在那里搁着,如果能像微软换CEO那样再焕青春也说不定。Facebook虽然经历了转型元宇宙的惨败、人才的流失、市值的下跌,但现金流还尚厚。谷歌拿着Tensorflow、Facebook拿着Pytorch。
(3)模型-尺寸:小模型是未来
这次GPT-4走的路子仍然是巨模型的路数。传闻2026年就可以把人类的知识都学完(听谷歌说互联网上60%的内容都是重复的)。
不过我挺喜欢Facebook的路数,Facebook在前不久变相发布开源模型(号称被泄露),表明了一件事:模型虽小,但只要数据量大、数据源质量高、专家人工精修质量高,效果就好。
模型小,意味着训练需要的算力资源-时间少,也意味着运行需要的算力资源-时间少。这很重要。毕竟,Facebook一直瞄准的是VR元宇宙,VR这个设备的算力、能耗、存储,VR要求的实时性,都要求模型必须小。
(4)模型:多模态
GPT-3的本质是文本生成,ChatGPT的本质是文本会话与问答。
在过去的一年里,Open AI已经出现了三个独立的东西:
视觉生成:Stable Diffusion
语音生成:Whisper
文本生成:GTP-3
现在,GPT-4是多模态。多模态意味着更聪明,也意味着输入-输出更丰富。大家想啊,你作为人,日常交流,往往是口说手比、面部有表情(虽说中国人喜欢利益输送-秘密交易-信息黑暗森林-喜怒不形于色)、眼睛观察。所以,多模态的信息意味着信息更多更全息也意味着更聪明。
现在预训练大模型还剩一道坎就是信息无法实时性,炼丹并精修一次的财力消耗-时间消耗都挺大。这道坎得科学突破了,暴力美学工程在这儿不好使了。所以我上回就说了微软New Bing用搜索爬虫的实时性+ChatGPT的知识性+参考索引的商业性,互补取巧绕弯了一下。但这个问题,未来仍需要直面。
但我想这个问题也实在不好解决。毕竟2017年Transformer这块标准砖一出来就大杀四方,不仅通吃多任务,而且通吃视觉语音NLP三大领域。这让过去专注各种领域各种任务进行精妙算法研究的科学家情何以堪。所以从2018年以来,科学家们又纷纷从工业界回归到学术界。没办法啊,工业界自从有了Transformer这块砖后,剩下的都是暴力美学工程事情,不需要科学家精妙算法了。
但Transformer这块标准砖溯源可以追溯到1990年代的LTSM,而且现在的大模型还都是预训练方式,源源不断的新信息,在这种方式下如何实时被接纳与处理,是我一直关注的,这应该是后续GPT版本要攻克的。嘿嘿嘿,咱专业力和创新力不够,只能期待大神了,只能期待2025年了。
(5)应用:能干嘛-核心竞争力是什么
GTP-3和ChatGPT的效果如此只好,而且还开放了API,让资本界、创业界一片兴奋,摩拳擦掌想怎么利用他们俩做一番事业。但一顿操作猛如虎,一看还是二百五。所以不少资本界人士现在有个困惑:这么好的技术到底能干嘛啊?如果基于这些大模型的开放API干应用,那这些应用的核心竞争力是什么?
毕竟,这是第三次人工智能热潮了。人类就是这么想象力匮乏、太阳底下没有新鲜事,过去两轮想干的事一直也没有干成。其实说穿了,AI走了70年,能干的事不外乎就是最初的几个想法:
视觉:识别-生成
语音:识别-生成
NLP:会话与问答-意图与情感-搜索与推荐-摘要与生成-机器翻译
本质上,这三类都是围绕:理解-生成这个本质,只是任务不同而已。
我也在思考应用的问题。想想移动互联网时代,2007年就出了iOS、2008年就出了应用商店,但我能干嘛呢?还是开发应用。而且现在回头来看,大量的移动app其实和移动特性没半毛钱关系,本质上还是把大象放在冰箱里。
我2010年成立创新研发中心的时候,给大家树立了一条原则:如果不能利用上手机硬件特性,就不要做成移动App,我们不干那种把大象放进冰箱里的事。
但现在回头遍看应用商店里的800万个应用,又有几个和手机硬件特性结合了呢?谁又充分应用了手机上的摄像头-麦克风、多点触摸屏幕、GPS定位、各种传感器。我平时就能感受到美团外卖-滴滴打车这样利用GPS定位特性的。另外还有个应用,就是银行-社保金,进行人脸-活体-语音认证检测,这是利用上了摄像头-麦克风。而其他的应用,只不过在智能手机设备上做了个应用,不外乎眼馋的是那12亿中国智能手机用户。想一想,中国自从三年疫情防控以来:因为要出示绿码-扫码,所以4G-智能手机-小程序,已经强制普及到社会各个角落各个人群,连我父母亲这样的老人都会了,连沙漠里的牧民都装备上了。想想没有智能手机的时代,我父母亲这样的老人怎么会用电脑的键盘、鼠标、开关机、操作系统、上搜索网站、寻找软件下载软件安装软件卸载软件呢?确实:智能手机简化了许多,可以卷入更多的用户。
(6)应用:元宇宙
小扎搞元宇宙,我很能理解他,我过去就写过:没办法啊,苹果和谷歌都不约而同、以人民的民意、釜底抽薪搞了数据隐私保护,Facebook赖以生存的广告个性化推送展示和归因分析不存在了,这一下子把Facebook的商业模式给颠覆了,所以Facebook的营收大跌。所以小扎才痛定思痛,这局是赢不了了,必须新开下一局,Facebook这次一定更要釜底抽薪,做VR新一代计算设备,控制了硬件。
AI确实是元宇宙VRAR的必然组件。视觉识别-生成、语音识别-生成、机器翻译-会话问答-摘要生成,都需要。一个平面视频抖音&TikTok已经让全世界玩High了,那3D全方位的-真实的如漫威电影的VRAR体验,那更会让人流连忘返。
有人说Web1是文本的、Web2是图片和视频多媒体的、Web3是3D全息的,这是从内容呈现角度看事的。
有人说Web1是可读、Web2是可写、Web3是生成。这是从内容存取技术角度看事的。
有人说Web1是PGC(记者写)、Web2是UGC(大众写)、Web3是AIGC(人工智能写),这是从内容生产角度看事的。
有人说Web1是集中化-统一门户信息和统一搜索入口信息、Web2是社交网络分散式中心(如微信和微博)、Web3是去中心化的(去年以太坊2.0性能合并完成,并且PoS代替了PoW),这是从内容组织角度看事的。
我个人感觉,这四个角度都对,大家看事不要非此即彼,多元化立体化看事才更能中和地看清楚一件事。
(7)说回中国
中国人在三纲五常-门当户对-非我族类其心必异的文化下,源创新是不行。但是我们擅长的是:把成熟的技术,可以做到全球规模最大-成本最低,还能根据用户需求快速修改满足,在修改中会出现一些意想不到的微创新。
我们现在正在把CentOS、AOSP、K8S、PostgreSQL、Open JDK、Prsto、Flink、Chromium等欧美开源-免费的软件换个名字,但我们也看到也越来越多的中国巨头IT公司的工程师在参与开源软件的贡献。
GPT-4是不开源了,但商业世界总会出现开源,而且未来的走向肯定是模型变小而不是变的更大。模型小,这对中国是好事啊。被封禁了GPU的中国,正愁没算力。中文数据量大不大这事不好说(英文互联网内容更多,中文互联网内容其实占比比较少),数据源质量高不高这事不好说,精修的专家水平到底高不高这事也不好说,但我感觉对普遍中国网民够了(中国网民人数不断放大,从90年代的大学学历少数人已经普及到文盲学历大多数人),一方水土养一方人,有什么样的甲方就有什么样的乙方嘛。