11月22日,AI与数字经济领域一年一度的科创盛会,2023 IDEA大会在深圳举行。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成果;在大咖云集的论坛环节,多位领军科学家、企业家、创业者同台论道,碰撞“学研产投”灵感。
2023年,AI技术给人类生活所带来的撼动已无需赘言。一个个看似散点状的技术突破相继爆发,将人工智能推向主流。回顾历史,技术变革无疑都伴随着产业重塑与经济发展。然而,AI在以前所未有的力度冲入市场的同时,在研究上仍存在大量空白。
此次IDEA大会上,沈向洋从技术创新、技术创业、技术驱动新产业三个角度,介绍了IDEA研究院在AI新篇章下,对科创的实践与思考。
技术创新:见其所见,思所未思
谈及技术创新,沈向洋认为,“在大家都看到的问题里,找到大家都找不到的方法”是创新者的必备品质。本次大会上,IDEA研究院就发布了几项独具技术品味的研究成果。
视觉提示模型T-Rex
用图片代替语言prompt,是什么体验?
在计算机视觉领域,检测类任务有着极为广泛的应用场景。今年4月,IDEA研究院曾推出能够“一句话检测、分割一切”的Grounded SAM,通过文字提示实现精准的目标检测,极大降低了技术使用与落地门槛,在Github上火爆出圈。
此次,同个研究团队带来新作,视觉提示(visual prompt)模型T-Rex。团队表示,在真实应用场景中,许多罕见、复杂物体难以用文字充分描述,视觉提示的加入能够有效解决这一痛点。直观的视觉反馈与强交互性,也有助于提升检测的效率和精准度。
值得一提的是,T-Rex是一个开箱即用的模型,无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。活动中,沈向洋还发布了T-Rex的模型实验室(playground),Interactive Visual Prompt(iVP),用户可亲自试玩解锁“一图胜千言”的prompting新体验。
沈向洋在演讲中指出,计算机视觉领域在呼唤通用大模型的来临。以GPT-4V为代表的多模态大模型,是在语言能力上增加视觉能力;IDEA研究院的计算机视觉团队则选择了另一条路径,先将基础的视觉能力做到极致,再增加语言能力
“我们认为,物体级别的理解(object-level understanding),也就是检测、分割、识别,是连接语言和视觉这两种最重要的模态的基石。”沈向洋表示,只有对物理世界有了更为精准的、物体级别的视觉理解,才有可能做出真正的多模态智能。IDEA团队将通过让模型言之有据(grounded)、开放词表(open-set)、可提示交互(promptable),来探索视觉大模型之路。
Think-on-Graph知识驱动大模型
大模型虽好,但“一本正经的胡说八道”怎么解?
众所周之,大模型存在深度推理能力差、知识不可追溯、实时更新代价高等局限性,这也成为其在许多严肃领域落地的主要瓶颈。如何弥补大模型的这部分缺陷,是当下AI应用的重要课题。
为此,IDEA研究院团队研发了Think-on-Graph(思维图谱)技术,让大模型和知识图谱强强联合。总体来说,大模型更擅长意图理解和自主学习;而知识图谱因其结构化的知识存储方式,擅长逻辑链条推理,具有更佳的可解释性与可实时更新性。
Think-on-Graph通过实现两者的紧耦合交互,驱动大模型agent在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。每一步推理中,大模型都亲自参与,与知识图谱相互取长补短。
在大会现场,研究团队也通过多个实例与产业化场景演示,展示了Think-on-Graph应对复杂提问时优异的深度推理能力。
懂语言者得天下
除了在人工智能方向上一往无前,IDEA研究院还十分重视计算机科学领域中其他分支的创新。沈向洋在会上重点介绍了两个语言类项目。
今年8月,一个中国团队开发的编程语言在Hacker News(由Y Combinator创办的知名科创社区)登上头版头条,这正是由IDEA研究院推出的MoonBit月兔。
MoonBit 是由Wasm驱动,专为云计算与边缘计算设计的开发者平台,同时利用AI大模型赋能传统工具链,提升代码生成效率。MoonBit不仅提供通用程序语言设计,还垂直整合了编译器、构建系统、集成开发环境(IDE)、部署工具等版块,提升开发体验与效率。
IDEA研究院展示的另一门新语言,是区块链并行智能合约语言GCL。该语言的研究团队已连续两年获批国家重点研发计划项目。
GCL旨在打造区块链系统上的最优解决方案。不同于传统的“数据跟着代码跑”的方案,GCL设计了“代码执行跟着数据跑”的编程模型,以减少因数据传递造成的麻烦。分布式编程模型能够实现复杂的区块链应用逻辑,并高效适配底层的多链系统。
技术创业:自由碰撞,严谨产出
近年来,技术创业已然成为许多技术创新者的下一站。在演讲中,沈向洋用Transformer架构开山之作《Attention is All You Need》举例,这篇论文的八名作者如今全部在创业。“很多我的前同事也找到我说,‘Harry,我想创业’。”他打趣道。
沈向洋指出,IDEA研究院一直致力于创造一个架构,让科学家头脑、企业家素质、创业者精神能够自由碰撞,严谨产出。成立刚满三年,IDEA研究院也带来一批已经或正在走向大市场的优秀创业项目。
这些项目中,既有主打AI for Scientists的AI科研产品ReadPaper,也有为数据要素可信流通提供硬件级安全保障的SPU机密计算协处理器、SPU-G异构AI协处理器,还有基于自研知识图谱与生物医学领域大模型的脑卒中智能防护产品StroCare。
其中,AI科研助手ReadPaper上线一年,收获了不少科研从业者的喜爱。在大会上,团队公开了全新升级的ReadPaper 2.0版本,并现场演示阅读copilot、润色copilot等新功能。值得一提的是,支撑ReadPaper 2.0超强体验的学术大模型Eureka也在现场首次公开。
除了让跨学科、跨界人才在IDEA的平台上碰撞出火花,IDEA也积极与产业伙伴合作,将技术应用到场景,深入到业务中去。
今年,万科IDEA联合实验室推出了自主研发的几何建模与约束引擎,填补在工业设计软件领域的国产空白。自2021年宣布成立以来,该实验室已在深圳、上海建设起一支集合图像学、几何计算、视觉技术、机器学习等领域顶尖人才的研究队伍。
此外,IDEA研究院还通过CTO Labs平台与一批独角兽企业和瞪羚企业联合创新,合作伙伴包括数说故事、晶泰科技、翼方健数等。本次IDEA大会上,IDEA视见睿来实验室发布了HiveNet可控人像视频生成平台,实现AI技术方案对传统视频拍摄流程(编、导、拍、演、剪)的全面替代。
技术驱动新产业:勇闯无人区,低空经济再进一步
2022年的IDEA大会上,沈向洋发布《低空经济发展白皮书——深圳方案》,吹响IDEA勇闯低空无人区的号角。
过去一年,低空经济在全国发展迅猛,IDEA研究院也再进一步,在其智能融合低空系统(Smart Integrated Lower Airspace System,SILAS)中,提出时空进程(Temporal Spatial Process)新概念。
与此同时,《低空经济发展白皮书(2.0)——全数字化方案》也在活动上发布。
11月23日,由IDEA研究院联合承办的第五届世界科技与发展论坛——世界低空经济论坛将在深圳举行。届时,IDEA研究院将深度分享“异构、高密度、高频次、高复杂度”低空飞行安全和效率问题的解决思路,以及低空空域实现从“可通达”到“可计算”再到“可运营”转变的数字化路径。
“技术创新从来就不是一蹴而就的。”沈向洋说,人类历史就是一部勇闯无人区的历史,当我们回顾那些伟大的创新,今天看来有多震撼,起步时就有多困难。因此,做科研既要有耐心,也要对趋势有足够深刻的思考,还要建立让创新能够开枝散叶、生生不息的机制。演讲的最后,沈向洋呼吁,生逢大时代,IDEA研究院愿与各界同仁一道,创新智能技术,创造伟大企业,推动数字经济。