4月1日,由开放原子开源基金会(以下简称“基金会”)举办的首期“开放原子开发者工作坊”在北京圆满举办。“开放原子开发者工作坊”旨在让志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势,是基金会特别发起的面向广大开发者的线下开源交流活动。
“开放原子开发者工作坊”第1期邀请到了四位来自开源领域、AI领域的资深技术大咖,他们分别是基金会TOC成员仝永波、基金会高级顾问郭晧、微软MVP/软积木CEO刘海峰、中兴通讯AI平台资深研发专家赵洋,以及CSDN企业服务社区运营总监赵萌(主持人)。针对近来大火的ChatGPT热潮的背后,聊聊大语言模型和开源那些事儿。
ChatGPT发布仅两个月用户便突破1亿,在全球技术圈掀起了一股新的AI热潮。而在这场技术浪潮中,开源同样是其中十分重要的一部分。AI与开源如何结合?大语言模型、AIGC领域又将迎来怎样的发展?中国企业如何在这场“AI风暴”中找准自己的定位?还有哪些新的方向?针对这些问题,现场的嘉宾们纷纷提出了自己的观点。
一、AIGC领域的开源和闭源,有哪些优势和弊端?
AIGC是开源文化孕育的典型产物。无论AI还是其他技术,开源和闭源都是相辅相成、互相作用和成长的。基金会TOC成员仝永波就大模型的应用解释了开源与闭源的区别。他认为,大模型与传统系统有着很大的不同,需要大算力和大数据等前置的条件,商业闭环路径较长。如OpenAI前期开源,如今闭源,原因就是发展过程中需要借助资本力量以及商业模式的闭环快速迭代。考虑到大模型技术中最敏感的是“智慧”,因此闭源是不可避免的,未来的终极形态是:基于安全和合规方面的考量,大模型中至少有一部分内容将以开放/开源的形态存在。
开放原子开源基金会TOC成员 仝永波
AIGC领域的开源和闭源并非两个对立的阵营,而是互相成就的关系。基金会高级顾问郭晧认为,开源的自由度相对更高,获取资源的速度也更快。如今每个项目都会应用大量的基础框架、基础组件,并能够在前期快速取得阶段性成果,如果没有开源项目社区就不会有今天的AI浪潮。而闭源的控制度较高,但如果想要得到精细化、持续性的发展,还需要将开源和开放生态的商业模式结合起来。
开放原子开源基金会高级顾问 郭晧
微软MVP/软积木CEO刘海峰表示,AIGC、ChatGPT不仅是代码开源、模型开源,甚至连 Prompt也是可以开源的,这与传统开源有很大区别。所以软积木借助微软OpenAI开源技术孵化了ChatU产品,并积极协助ChatU参与OpenAI生态做前端项目,同时帮助开发者进行GPT的开发,支持以插件/应用的方式接入ChatU平台,并将其转化为商业价值。他表示,单纯依靠开源是不可持续的,最终一定要与商业应用结合起来,使得开源和闭源相结合。
微软MVP/软积木CEO 刘海峰
“个人比较主张大家拥抱开源。”中兴通讯AI平台资深研发专家赵洋说道。赵洋表示,无论开源闭源都有各自优势和缺点,如开源在安全性方面的问题,OpenAI已明确指出GPT3包括训练数据在内的技术细节,短期内不会开源,主要是担心安全问题,以及可能引发的法律风险,这些都是开源终要考虑的问题。
中兴通讯AI平台资深研发专家 赵洋
二、没有开源大模型,AI发展相对缓慢
早期开源、后期闭源、部分开源,是目前开源软件的发展趋势。开源大模型与AI的发展息息相关,如果没有开源大模型,AI的发展是否会受到阻碍?
开源大模型意味着用户可以自己搭建自己的训练模型。郭晧认为,没有开源,未来可能会形成数字鸿沟,相互之间的差距越来越大,最后难以跨越,让整个AI生态领域失衡。对此,刘海峰也补充道,没有开源大模型将会对闭源生态本身造成很大的影响,如许多企业都有数据传输的问题,涉及到《国家安全保密法》,在数据的隔离和安全性方面都有很大影响。
仝永波则认为,即使没有开源,AI本身的技术发展也是建立在开源基础上的。如今我们使用的ChatGPT还是限制在AIGC领域,“C”更多的是偏娱乐、偏大众化,而业内需要的是原理和技术框架,以及高可靠性的场景,才能更好地推动技术的进步。大模型最终是一种智慧的形态,其自身的可解释性很弱,因此需要构建一个闭环的流程、机制和系统帮助其快速迭代;或通过开放-闭源的循环,逐步迭代训练模型或构建生态,让大家贡献、集成。实际上开源闭源没有优劣之分,只有适合或不适合。
“如果没有开源的支撑,我们不一定能体验到ChatGPT这款产品。”赵洋说。ChatGPT的研发依赖各类组件和外部相关能力,有意无意中使用到了很多开源相关技术,包括操作系统训练模型、推理模型、内部操作系统、编译器、训练框架等。如果没有开源的全面支撑,上层大模型的应用大厦将变得不稳定。因此大模型的发展必须高度依赖开源,否则发展的整体进程会不断延长。ChatGPT逐渐趋向闭源也是有原因的,在新生事物刚出现的早期阶段,会存在很多未知风险,如道德风险和法律风险,部分功能不开源也是一个谨慎的态度。由于技术发展非常迅猛,相关的认知和支持不能跟上技术快速发展的脚步,因此需要适度放慢节奏。
三、用开源社区模式做大语言模型,有哪些优势?
自从ChatGPT大火之后,许多互联网巨头纷纷官宣,宣布将投入大语言模型的研究与开发。虽然其没有明确表明是开源还是闭源,但就目前来看,似乎还没有开源的迹象,这与ChatGPT早期开源的发展路线并不一样。那么,在开源社区的环境下做大语言模型,有哪些优势?
对此,郭晧认为,不仅是大模型,开源社区在技术突破方面有自己的独特优势,代码开源后,可以让更多的人提前对代码Review、使用和反馈,从而推动项目的优化。一方面,推进人工智能发展的难度很高,可能只有少数顶尖科学家和开发者才能做出真正意义的贡献,开源有着很大的优势;另一方面还存在算力成本较高的问题。因此一个公司的技术到底是否要开源,需要从商业的逻辑去思考。
仝永波表示,AI技术区别于传统信息技术,技术的传播往往是“短期内高估、长期内低估”。开源如何推动大模型发展?上一个成功应用的技术是AI领域的神经网络,将智能分为认知智能和感知智能,处理起来相对简单。而AIGC则是一种意料之外的进化,并不是在规划中进化出来的智能。因此开源社区能够带来的是集所有人智慧的演化,就像人的智商遗传,充满着不确定性,既有继承也有突变,智慧演化不是一条路,而是N条路,不断探索、演变、进化。而大模型有两个特点一定要重视:一是未来大模型一定会基础设施化;二是价值观问题。它和知识一样,都是公共基础设施,不应该被垄断。应通过国家、基金会和开源社区等方面,共同解决如何链接、如何训练等问题,帮助以上两个特点得以生存,而不是最后只有算法,没有训练。
虽然OpenAI目前把ChatGPT转为了闭源,但它仍然是一个开源组织。在开源项目上可以算是比较经典的呈现,像这样得到支持和爆发的社区屈指可数。郭晧表示,如今部分人工智能社区、云原生技术社区等等,实际上有着开源和商业之间的关联。有些商业公司可能会基于开源社区的源代码去发展,在企业商业化过程中拿出一定比例的利润或资金反哺社区,促成社区的可持续发展,让开源社区摆脱单纯依靠社会捐赠来维持发展的局面。这种模式已经非常成熟,许多社区都得到了基金会的扶持。
仝永波也认为国内的开源文化有待培育,对开源的认知仍然有继续提升的空间。我们要意识到通过开源社区和平台不仅能够贡献,同时还可以反哺我们的商业。正如OpenAI最初就是要做开源,用人工智能做开放的平台服务于全人类,这是很大的使命感。
四、开源的力量与发展,在于共同创造
AIGC和开源的新机遇刚刚来临,这是全人类的机遇,即便现在相较于国外,目前仍有一定差距,但最终还是能够赶上。
为了让更多人参与到开源生态中、推动开源生态繁荣发展,基金会发起了“开放原子校源行公益项目”,致力于培养学生的科学精神、原创精神、奉献精神、协作精神,将开源理念深入广大院校。同时针对在职的开发者,提供了如本期的工作坊,以及后续更多线上线下交流机会。与此同时,基金会也发起了开源导师计划,指导开发者积极参与开源项目,帮助大家参与开源社区。导师计划共分为三个级别,分别是开源大使、开源讲师、开源导师。此外,基金会还将与垂直领域和国家公共部门,包括金融行业、电子行业、新闻行业、医疗行业等成立开源工作组,让更多开源技术和项目在真实的应用场景中得到验证和使用。
历史总是被前瞻者和实干家推动着加速前行,面对当下这个如同移动互联网浪潮一般具有巨大影响的AI浪潮,我们携手共进,终将共同建造出新的历史巨轮。后续“开放原子开发者工作坊”系列线下交流会将定期举办,每期将开展不同的技术话题,与大家面对面交流学习,近距离倾听社区的声音,欢迎持续关注和参与。
现场开发者积极提问
现场开发者认真学习
分享嘉宾回答观众问题,现场交流氛围浓郁