点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
随着ChatGPT、GPT-4、Copilot的火热出圈,大模型已经成为AI领域的研究热点与必争之地。2023年3月28日,由AI TIME、清华校友总会AI大数据专委会联合主办,有孚网络、智谱AI、金地集团智汇港湾孵化器赞助支持的“大模型为什么是AI领域的‘兵家必争之地’?”大咖思辨活动,邀请了中国人民大学高瓴人工智能学院教授、博士生导师卢志武,新加坡国立大学校长青年教授、潞晨科技创始人、董事长尤洋,北京智谱华章科技有限公司CEO张鹏,金沙江创投主管合伙人张予彤,上海有孚网络股份有限公司联合创始人兼CTO臧云峰。五位嘉宾围绕大模型的技术革新、道德伦理、商业价值等方面进行了深度探讨。本次活动共吸引了来自线上线下的专业领域观众约4.2万人次参与。
01
大模型为什么能够风起云涌?
AIGC的快速迭代演变,让大模型技术席卷全球,而3月也是语言大模型集中爆发的一个月,这让我们看到AI技术的飞速前进,而大模型受到前所未有的关注,原因究竟在哪?对此,不同领域的专家分享了他们独到的见解。
尤洋:这是一件顺其自然的事情,AI从2011年发展到现在已经十多年了,深度神经网络这方面的技术积累也经历了很长的时间,最近几年Transformer架构的出现,是一种爆发式的体现。过去一年AI之所以引起这么大的关注,是因为它以产品的性能说话,确实让人们看到了好的效果。
张予彤:在16年投资AI的公司非常多,但是17年的市场热度又有所减退,科技的发展是与人们的预期是有差距的。在2022年3月份之前,国内外关于AI的投资量是很少的,而今年则上升到了50%。对于技术的发展来讲,是有一定的发展周期的,很期待能够穿越周期去做很多新的事情。
卢志武:无论是ChatGPT还是其他模型,都应该关注出圈的本质原因,即它们能够深入理解NLP的各种任务,达到前所未有的水平,使普通人也能够享受技术发展的红利。OpenAI已经将AGI的发展推向了一个新的水平,但未来还有很多的工作需要完成,例如让数字人在具体应用场景中能够与人类正常交流。从学术的角度来看,在GPT-4发布后,比如在多模态方面国人还是有可能去做出一些特色成果的。
张鹏:ChatGPT通过其卓越的自然语言水平让人们更容易认同它。虽然预训练模型等工作在学术圈已经得到了很多研究,但很少走入产品和日常生活中,所以人们对技术的体感比较弱。ChatGPT的出现让人们切身感受到之前的很多研究成果,需要长期的坚持、耐心和投入才能实现技术的进步。
臧云峰:人工智能的快速发展需要足够的算力支持,现在的神经网络层数已达数百层,这也是“大力出奇迹”的体现。随着ChatGPT的深度使用,相信人工智能的时代已经到来,它能够深刻地改变我们的生活,这是超过以往大语言模型让我们感到震撼的地方。
02
未来大模型面对哪些技术难点和壁垒?
● 大模型在短时间内会有哪些突破?
臧云峰:神经网络可能已经接近人类语言的边界,但这不一定是最终的边界。当前的ChatGPT比单一的语言辞藻堆砌更好,但还远未实现深度思维,因此逻辑训练很重要。在这方面,可以通过算力的帮助做得更好,发挥更大的创造性。关于小模型是否可以有卓越的性能,模型蒸馏和语料训练已证明是可行的,未来也期待更多的创新。
张鹏:就技术探索和应用实际两个方面来看,大模型在能力上明显高于小模型,但要在实际应用中取得平衡,不能只追求大模型的能力提升而忽略经济实惠,也不能停留于享受当前红利。应该从技术探索的角度看待大模型的潜力,从实际应用的角度讲究性价比,探索更适合的模型。
卢志武:从学术角度来看,探索上限是值得的。语言模型需要至少达到60B参数规模才能涌现,但是进一步增加模型大小可能会遇到数据不足的问题。单纯追求万亿参数可能没有意义,因为数据无法支撑。另一方面,大模型需要落地,需要用户检验其真实性能。从这个角度,小模型也有研究价值,未来可以更多地在落地应用中探索模型蒸馏和多模态学习。
张予彤:随着模型参数的增大,性能会提升,但在足够大的情况下,要想进一步提升性能,需要探索不同的优化方向。DeepMind证明了一个更小的模型使用更多的训练数据,能够取得更好的性能。目前模型参数规模和数据获取能力还是瓶颈,模型基于所有人类历史上沉淀的文字数据,未来需要更多地关注高质量的数据源。多模态可能会带来新的数据来源,未来的突破可能在于标注数据、训练过程和预训练的数据源。
● 大模型在到达一定的瓶颈之后还会有发展空间吗?
尤洋:评价一个模型大小和好坏往往是凭经验,大模型训练本质上是优化问题,但现在训练的模型都没有收敛,理论证明上还有很多事情无法解释,无法确定大模型是否已经到达上限。理论上,参数越多的大模型效果肯定越好。随着像ChatGPT这样的更好的数据处理工具的出现,能够探索的边界会更多。未来想要更好地解决这个问题,主要的优化点在于软件如何更好地规划数据和移动通信,只有将效率大幅提升,才能达到更好的模拟效果。
张予彤:现在还处于早期阶段,大模型展示了通用泛化能力,超出了以往任何一个垂直的子任务。很多人认为中国的AI目前与美国相比是有差距的,这个观点是从算力角度出发的。AI的基础设施需要大量算力,因此需要更好的分布式并行计算架构来提高运行效率,弥补硬件上的差距。虽然现在在很多领域是有局限性的,但是未来有希望实现突破。
卢志武:OpenAI和谷歌等公司已经深入探索了人工智能语言方面的路径图,因此短期内,大家的思路基本会沿着这个方向走。但在视觉领域,尚未发现真正有效的大模型底层架构。如果能够在这方面进一步突破,就可以将文本、多模态等领域真正联系起来。总之,未来在多模态大模型合理架构上还有探索很多空间。
张鹏:在解决这件事情时,可以从几个方面入手。首先是硬件条件,芯片是训练模型的关键,同样模型的训练也可以反哺芯片性能。其次是软件方面,包括训练框架等方面的创新,不一定按照打造ChatGPT的思路走,创新可能会带来意想不到的收获。最后,需要更多关注大型模型的最终应用结果,而不仅仅是理论和学术上的证明。因此,需要学术、产业、开源社区的共同努力,集体做出贡献,努力解决这些限制的问题。
臧云峰:首先国产硬件有潜力,例如可以将transformer标准化固化到硬件,这会有很大的发展潜力;其次要将学术成果应用到产业化中,用新数据反哺模型,产生更好的效果,以形成良性互动;最后开源也是必不可少的,比如可以把开源的一些小模型嫁接在大模型之上,实现增值服务应用。
03
大模型如何赋能产业应用?
随着大模型在技术上产生更多的突破,会对应用系统落地产生更好的促进作用,而它又将如何在不同的业界内绽放光彩?
臧云峰:大模型的智能化与AI应用是相辅相成的。大模型需要深入了解人类表达和创作背景,其中会涉及到隐私数据问题,因此保障数据安全尤为重要。通用的人工智能模型国家之间共享的可能性非常小,我们需要拥有自己的人工智能大模型平台。基于大模型平台,可以发展出很多领域的小模型,来对接不同领域的AI应用开发。
张鹏:底层模型平台的发展会赋能AI应用,但也可能挤压到上层应用的空间,机遇和危机并存的。大模型技术的发展会淘汰一些行业,但也会催生新业态的发展。AI能力的提升会带来应用新形态的变化,我们需要往前看,加快前进的步伐,不被过去的成本束缚。大模型的发展是在加速的,预计还会更快。新的技术能够给大家的工作和生活带来更多的新体验。
卢志武:现在的大模型应用于企业中,能够带来生产力的提升,但是却又受到应用场景的限制。客户的需求是不断增长的,大模型在具体场景中的应用也是需要做出很多的调整。新技术的发展固然会淘汰掉一些职业,但也会带来新的职业发展机会。
张予彤:历史的角度来看,新技术的出现会带来机遇与挑战,但最终人和工具还是会有一个更好的融合。大模型实现了超级UI和端到端的交互,可被看作一个新的操作系统,提供了之前基础设施所不具备的智能能力。基于小模型的公司如果大模型的加持,有助于实现性能大幅提升并进行业务模式升级。无论是基础设施层还是模型层的企业,不断关注和探索,会带来巨大的应用机会。
尤洋:大模型可能会引领AI进入一个新的范式。回顾互联网带来的变革,可以分为3个阶段:搜索引擎阶段、智能推荐阶段、高度定制化阶段。大模型有很大机会将所有东西串联汇总起来,进入高度命令式的时代。未来可能会出现一个私人定制化的“诸葛亮”,这将会在应用层面带来很大的空间。高度智能虽然是很难量化的,但随着产品体验以及其他行业的发展,会是一个逐渐变好的过程。
04
大模型未来“路在何方”
卢志武:在AGI这一点,中国人还是有很多机会的。
张予彤:希望未来能够实现边际成本为0的智能生产力。
尤洋:用AI去解放生产力,释放创造力。
臧云峰:很多的岗位不是最终被取代,而是被升华。
刘道全:整个AI产业都在重构,一个新的格局正在诞生。
何芸:希望ChatGPT推动我们思考未来要走什么样的路,应该成为什么样的人,怎样去拥抱AI。
整理:陈研
审核:卢志武 尤洋 张鹏 张予彤 臧云峰
提
醒
点击“阅读原文”跳转可以查看回放哦!
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1000多位海内外讲者,举办了逾500场活动,超500万人次观看。
我知道你
在看
哦
~
点击 阅读原文 查看回放!