“2023知乎发现大会”上,知乎创始人、董事长兼CEO周源和知乎合作人、CTO李大海共同宣布了知乎与面壁智能联合发布“知海图AI”中文大模型。
周源据介绍,知乎与面壁智能达成深度合作,共同开发中文大模型产品并推进应用落地。目前,知乎和面壁智能合作自研的“知海图AI”中文大模型已经运用进了知乎热榜,知乎首个大模型功能“热榜摘要”上线并开启内测。
“知海图AI”借力知乎语言数据库优势,称与GPT-4效果持平
在知乎创始人、董事长兼 CEO 周源看来,AI 时代的生产力要素可以分为三层,从上到下依次是应用场景、专有数据、基础模型。“知海图AI”具备必须的生产力要素基因。
基础模型方面,在知乎与面壁智能合作自研的“知海图AI”中文大模型面世之前,面壁智能已在 2020 年底发布了首个中文大语言模型 CPM-1,之后又陆续发布了 CPM-2、CPM-3 和 CPM-Ant 等模型。在应用场景在上,以问答形式为主,知乎搭建了专业、多元、有价值的“讨论场”。专有数据方面,知乎的运营模式决定了其积累了大量高质量的内容、关系和知识图谱,在当前国内互联网高质量内容匮乏的情况下,知乎的优势得天独厚,的确具备构建一个大模型的数据量。
目前,知乎和面壁智能合作自研的“知海图AI”中文大模型,已经运用进了知乎热榜,知乎首个大模型功能“热榜摘要”上线并开启内测。
在知乎这个场景里面,答主的回答千奇百怪、非常开放,甚至会出现观点跟提问没有关系的情况。这对整个大模型很有挑战。知乎称,“知海图AI”利用超强的语言理解能力对知乎热榜上的问题回答进行抓取、整理和聚合,并把回答梗概展现给用户,给大家直观清晰的回答。
面壁智能联合创始人、CTO 曾国洋表示,“在这个场景(知乎凌乱的问答区)下抽了40个提问去做评测。评测以后,发现跟GPT-4在这方面基本持平,我们稍微差一些,但还是蛮不错的。
国产大模型开启乱斗,资源禀赋各不相同
人工智能激战正酣,当前各个大厂、创业企业开启乱斗,根据统计,目前国内至少有 15 个大大小小的 AI 大模型正在研发,当然各家资源禀赋各不相同。
国内已经宣布AI大模型项目的企业/机构
阿里系AI大模型“通义”系列,特点在于“借力阿里超强的中间件优势,构建完整生态”,“通义”系列大模型将深入到电商、设计、医疗、法律、金融等行业,服务超过200个场景。阿里通义大模型打造了国内首个AI统一底座,根据研报梳理,阿里大模型相关受益标的主要包括:恒生电子、千方科技、石基信息、众信旅游、卫宁健康、金桥信息、亚康股份、神州数码、易点天下、丝路视觉等。
腾讯系的混元AI大模型于2022年12月推出,是目前国内首个低成本、可落地的NLP万亿大模型,且登顶自然语言理解任务榜单CLUE。腾讯的数据、人才和硬件储备是布局AIGC领域的三大优势:数据方面,腾讯现有产品或带来多样化、真实度高的数据和应用场景;此外硬件方面腾讯拥有高性能网络平台、成熟的太极机器学习平台,为模型训练提供坚实基础。在生态链方面,腾讯系持股或与腾讯有重要合作标的,其中互联网传媒领域的有:世纪华通、完美世界、三七互娱、巨人网络、掌趣科技、电魂网络等;版权领域的有:华策影视、新媒股份、博纳影业、中文在线、平治信息;计算机领域的有:金山办公、泛微网络、四维图新、博思软件、长亮科技、超图软件等。
华为系的盘古大模型,首次兼顾了图像判别与生成能力,能同时满足底层图像处理与高层语义的理解需求。盘古NLP大模型的可以赋能智能营销领域,比如,盘古NLP大模型可以通过文本匹配、意图识别等关键技术更好地服务销售环节,取代目前逐渐上升的人力成本和低成功率的智能客服与营销系统,帮助服务人员快速提升业务水平。对于华为盘古大模型生态链,在算力环节主要关注的是给华为做AI芯片服务的整机厂商,主要有神州数码、拓维信息、四川长虹、同方股份、广电运通、紫光股份等。
百度系的“文心千帆”大模型平台,不仅包括文心一言,还包括百度全套文心大模型、相应的开发工具链。未来,文心千帆还会支持第三方的开源大模型。从平台定位上看,文心千帆为一站式企业级大模型平台,平台作为文心大模型服务的唯一入口,为B端企业用户,提供数据管理、自动化模型定制微调以及推理服务云端部署一站式大模型定制服务,并提供文心一言企业级推理云服务。从应用场景上看,文心千帆可应用于智能对话、智能输入法等通用场景以及电销领域商品介绍、推广文章等特定场景。根据研报梳理,目前百度AI生态链主要受益标的包括三六零、科大讯飞、拓尔思、万兴科技、格灵深瞳、云从科技、淳中科技、海康威视、大华股份等。
目前,BAT 其中两家 AI 大模型已经进入试用阶段,压力给到其他厂商研发团队。在这场军备竞赛中,不乏有赶这场“AI 淘金热”的队伍,也有想“给淘金者卖水”的组织,训练 AI 大模型需要大量的计算资源和数据进行训练,这时候各家大厂/初创团队便要凭本事吃饭,这些平台将在竞争中重新审视系统性、结构工整的知识类内容,这有利于我国科技和生产力的发展,所以大模型竞争越多越好,最终由用户来做选择。
大厂拿所掌握数据投喂AI模型,引发数据安全担忧
形势一片火热,不乏理中客。
互联网分析师张京科指出,如今由ChatGPT所引领的大模型浪潮,是科技领域的一次跨时代进步,但也存在巨大的用户隐私安全风险。
ChatGPT于2022年11月发布后,其母公司OpenAI估值已涨至290亿美元,上线两个月后,用户数量达到1亿。伴随“尝鲜”热潮而来的是潜在安全风险的讨论。ChatGPT是一个生成式预训练变换模型,该模型前期的训练过程是基于人类反馈的监督学习和强化学习,在与用户大量的交互过程中聊天模型本身会将用户“喂”给它的数据作为训练数据,从而不断“进化”。
“如今,互联网公司正在尝试用自己掌握的大数据投喂AI模型,很多时候厂商会以格式条款的协议获得用户各种隐私信息的授权,面对这些APP签订的协议,用户几乎没有选择的余地。各大互联网巨头源源不断地以用户信息投喂献祭,很多用户也不介意类似的隐私安全风险。”
张京科指出,这意味着用户所有的隐私、喜好、聊天、关系链,甚至密码等等,未来有可能因为一个小小的安全漏洞或者运营事故,而大白于天下。为此,应制定更严格的用户大数据使用标准等措施提前进行预防。