梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
没想到,第一批AI绘画产品已经开始倒闭了……
StockAI,成立仅4个月,在2022年底因用户付费无法覆盖成本,遗憾宣布关闭平台、退款。
以3月的付费AI绘画平台Midjourney推出为标志,AI绘画开始被职业画师重视起来。到8月的Stable Diffusion开源,AI绘画正式出圈并开启一场全民狂欢,这一过程只用了不到半年。
AIGC(利用AI技术生成内容)这一概念也被彻底带火,成为最热门的风口之一,刚刚过去的2022年也被形容为AIGC元年。
Stable Diffusion背后的公司StabilityAI融资1.01亿美元,AI文案生成公司Jasper融资1.25亿美元。
这一波热潮还没完全过去,ChatGPT横空出世,又把AIGC抬上了新高度。
人们开始认为它能抢走搜索引擎的生意,甚至谷歌自己都感受到了危机,在公司内部发布了“红色警报”。
以ChatGPT的火爆程度,从0到100万用户只用了不到5天。
这是什么概念?作为对比,Twitter用了2年,Facebook用了300天,Instagram用了将近75天。
据马里兰大学副教授Tom Goldstein粗略估计,如果100万用户平均每天只进行10次对话,Open AI就需要为ChatGPT每天烧掉10万美元(68万人民币)。
AIGC太烧钱该如何持续?OpenAI为什么能先后引领AI绘画与对话系统两波浪潮?成了行业热议的话题。
量子位在这段时间里也和一些学者、从业者交流了这些问题,其中,京东集团副总裁、IEEE Fellow何晓冬博士的观点很有启发性:
利用AI拓展人类认知边界和AI商业化落地,是两个不同的逻辑
商业巨头很难搞出ChatGPT这样的项目
我们2017年就做了AI绘画
在AI技术圈,何晓冬是公认的大牛。
他本科毕业于清华大学,硕士毕业于中国科学院,后赴美国密苏里大学哥伦比亚分校获得博士学位,在微软全球八大研究院之首的雷德蒙研究院工作十余年,2018年回国加入京东,并于2019年当选IEEE Fellow。
他先后发表了200余篇学术论文, 谷歌学术统计引用数超4万次,其中单篇论文最高被引用近5000次,h-index达到70。
早在2017年,何晓冬就在微软研究过让AI根据文字生成图像的技术,当时的模型AttnGAN登上CVPR,生成的一张“一只红羽毛白肚子的短咀小鸟”现在看来也不算过时,这也是早期AIGC和多模态智能领域重要的进展。
△AttnGAN 按照 “一只红羽毛白肚子的短咀小鸟” 生成的图像
语言模型方面,像ChatGPT一样不再一味追求大参数、无监督学习的类似思路之前也不是没人想到过,只是没能做到极致。
那么其他人离做出DALL·E和ChatGPT这样的产品还差些什么?
何晓冬认为,不差在思路,也不差在资源,而是差在决心。
两大独立AI研究机构,DeepMind和Open AI做的事,都是在拓展人类认知边界,并不能直接带来商业价值。
要下这样的决心,和技术负责人的品味、组织的使命和生存模式都离不开关系。
像谷歌虽然手里也有LaMDA这样的超强对话语言模型,却迟迟不面向公众大规模开放,甚至被内部员工吐槽是“起了个大早,赶了个晚集”。
△谷歌LaMDA概念图
这其中的原因,有谷歌在AI伦理道德议题上不敢冒进,也有对自身现有商业模式颠覆的顾虑——广告是谷歌的核心收入来源之一,当人们不再用搜索引擎而改用AI对话时,广告是无处安放的。
要让AIGC产生商业价值,就要遵从一套完全不同的逻辑。
AIGC如何产生商业价值?
在微软开发的这个AI绘画技术当年终究是没能做成产品上线,但作为技术初心和拓展人类认知边界的一个尝试,AI画出的这只鸟一直被何晓冬当作手机壁纸。
不过,另一项技术“AI看图说话”就成功找到了自己的位置。
现在的Office里,插入一张图片就能自动生成一段描述文本(alt text),可由系统语音读出为视力障碍者提供方便。
技术结合场景,在产业真实落地,就能发挥更大的价值。
2018年,何晓冬离开工作了十余年的微软雷蒙德研究院,选择回国加盟京东,这之中也是有离场景更近方面的考量。
在京东,何晓冬带领团队打造了京东云言犀人工智能应用平台,服务京东5.8亿用户和17.8万商家,也将系列AI产品服务落地到了金融、政务、交通等各个领域。
仅在开放给第三方商家使用服务与导购产品的京小智上,就帮助商家带来了上千亿元GMV。
另一套商品文案生成系统,目前已覆盖3000+品类,累计“种草”30亿字,带来超过3亿的GMV。
光是线上购物这一个场景,就支持了这么多种技术落地的可能性,而更大的发挥空间在背后的设计、生产、仓储、物流等供应链上下游场景。
这也是京东云产业AI的推进路线,一面保持对前沿技术的探索,一面依托自身的场景推进AI技术产业化、规模化落地。
经过反复迭代打磨后,再将技术以模块化、组件化、产品化的方式,基于言犀人工智能应用平台对外开放,成为产业上下游的超复杂协同的最佳“助手”,助力产业数智化升级。
相比于一些其他公司,京东的供应链场景丰富,更重要的是京东的“价值标准”,如同正品行货、物流配送一样,AI产品也必须满足客户的价格、产品、服务等方面的综合体验,又要满足京东在技术商业化过程中自身的成本与效率。
深入产业AI,不可避免的会遇到更低频、长尾的复杂场景和产业大规模协同的需求。
这些场景的数据样本少、数据分布不均,研发成本更高,同时定制化程度高、难以复制。如此一来,就需要迁移成本低、基础数据样本丰富、灵活弹性、适用能力强的综合性AI系统。
对于AIGC这一具体方向来说,同样如此。
何晓冬拿智能客服场景来举例,用于京东自营时模型是高度定制化的,直接开放给几十万第三方卖家使用很难满足所有人需求,又很难靠人力去适配所有需求。
后来的解决办法是定义好产品的边界,预训练大模型提供基础能力,同时结合在京东沉淀的丰富领域知识图谱,把知识接口开放给卖家,无论是卖食品还是化妆品都可以把产品知识填进去,让AI能力方便的迁移到不同领域。
这个过程中模型免不了牺牲一些性能才能做到最终产品的标准化、开箱即用,因为产业AI到了这一步,很多用户都不是技术专家。
把AI能力组合成产品对传统行业客户太有挑战性了,直接提供开箱即用的AI产品和应用才能让不懂技术的客户也能快速组成解决方案,满足自己的需求。
在这套体系下,京东云还进行了AIGC的多方向探索,如联手中央美术学院的AI书法生成。
以及一键生成店铺专属数字人。在数字人领域,言犀平台上推出了2D真人、3D卡通、3D超写实等多种类型数字人,近期还上线了大姿态(侧脸、转头等)数字人。目前言犀平台已有100+形象,30+音色选择,为电商直播、金融、政务等领域提供媲美真人的服务体验。尤其是电商直播领域,百变的形象、专属的音色,智能脚本实时撰写,丰富的“知识体系”等同于一名金牌销售,推出后已为客户带来显著的GMV提升。
△京东云言犀数字人演示
甚至对实体仓库、实体零售店做一个数字孪生。京东物流研发了京东物控 3D Scada 智能仓储数字孪生平台大大提升了仓库作业的效能,相比于传统人工作业的方式效率可以提高3~8倍;京东也在探索一种具有未来感的零售模式,构建柔性店铺,让店铺的功能随着消费者时间不同、需求不同而实时改变,革新线下零售的购物体验。
要说AIGC如此多的方向中,最有商业价值潜力的是哪个?
何晓冬还是最看好数字人,加入了视觉形象、人物表情,交互更自然,使用体验有很大提升。
而且他预测,2023年AIGC一个可能的技术突破方向也在这里。
AI绘画最常用的技术是扩散模型,有天马行空的创造力,但是容易失控。超写实数字人常用的是神经辐射场,可以根据物理特性重构三维环境。
如果两者能结合起来,可能把可控性和真实性再提高一个数量级,到时候应用场景也会进一步打开。
One More Thing
如何让AIGC产生更大价值,是全行业都在关注的热点,相关讨论层出不穷。
比如在量子位举办的MEET2023智能未来大会上,小冰公司CEO李笛分享了他对数字人的思考。
如数字员工会使toB和toC的界限变得模糊,比如银行的数字客户经理可能会与客户变成朋友。
未来数字人也将不再隶属于某一平台,人们在客服、手机、汽车场景上与同一个数字人交流,能获得更加无缝、24小时、持续连贯的服务。
OpenAI的CEO Sam Altman最近则发表了他对ChatGPT进一步发展的想法。
ChatGPT这样的技术,随着时间推移一定会造成一些重大的破坏……但是不让技术接触现实世界是无法获得改进办法的。
探索人类认知边界与产生商业价值,2023年你更期待AI在哪方面的进展?
— 完 —
点这里👇关注我,记得标星哦~