科技云报道:垂直大模型竞争,能突破数据“卡点”吗?

科技云报道原创。

AI大模型火遍全球,中国产业也激发了对人工智能应用的新热情。

随着各大厂商参与竞逐,市场正在分化为通用与垂直两大路径,两者在参数级别、应用场景、商业模式等方面差异已逐步显现。

在这里插入图片描述

企业涌入垂直大模型赛道

通用AI大模型像ChatGPT,能够处理各种领域和场景的自然语言,但由于需要巨大的计算资源和数据量,已经成为国内外大厂的重点项目。

这类企业往往有着强大的技术团队和资金支持,且有着自己的场景和流量优势。比如百度、阿里、腾讯、字节、华为等,在搜索、社交、电商、办公等领域都有着自己的通用AI大模型。

相较之下,创业公司、细分领域企业很难在这样的竞争中获得先发优势或者差异化优势。

而垂直AI大模型只关注某个特定的领域或者场景,它能够利用行业的数据和知识,提供更精准和高效的解决方案,更好地满足用户在某个领域或者场景下的需求和期待,如:医疗、金融、教育等。

同时,它可以利用一些开源或者闭源的通用AI大模型作为基础,然后在其上进行指令微调(instruction tuning),来适应自己的目标领域或者场景。

因此,它的参数规模比通用大模型低一个量级,如果让数据飞轮和模型训练能够很好结合,在某些特定领域甚至比通用大模型的效果更好、成本更低。

在这样的背景下,越来越多的企业加入了垂直大模型的赛道。

5月18日,深信服发布国内首个自研安全大模型,成为安全领域GPT技术应用首秀;

5月5日,学而思宣布正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构;

3月,达观数据公布正在开发曹植系统,专注于金融、政务、制造等垂直领域的大语言模型。

明确的商业化落地场景和更低的算力成本,为各类企业打开了进军垂直大模型的大门。

垂直大模型的考验

垂直大模型的优势在于不够大:算力不够大、算法难度低,但并不代表垂直大模型谁都能做。

众所周知,AI大模型三要素:算力、算法、数据,都是喂养AI的“饲料”。

先说算力。

大模型之所以“大”,就是因为参数众多和数据量庞大。AI大模型所需要的计算量,大致上相当于参数量与数据量的乘积。

过去5年,AI大模型的参数量几乎每年提升一个数量级,例如GPT-4参数量是GPT-3的16倍,达到1.6万亿个。

随着图像、音视频等多模态数据的引入,大模型的数据量也在飞速膨胀。这意味着想要玩转大模型,必须拥有大算力。

而一套垂直大模型的训练和推理成本,做个参考,在数字人垂类技术场景中,可以做到比Open AI同参数规模的模型低一个量级,像启元世界的战略总监王思捷就曾提到:先构建更小的垂类模型(比如百亿参数、十亿参数),让数据飞轮和模型训练能够很好结合,垂类模型在某些领域可能比Open AI的效果更好成本更低。

即便垂直大模型在算力要求上已远远低于通用大模型,但对算力基础设施的投入依然会阻挡部分小公司的入局。

再说算法。

在三要素中,算法的研发难度相对较低,每家公司都有自己实现大模型的路径算法,且有众多开源项目可作为参考,中国公司最容易缩短甚至抹平差距。

最后说数据。

高质量的数据是助力AI训练与调优的关键,足够多、足够丰富的数据,是AI大模型的根基。

OpenAI此前披露,为了AI像人类那样流畅交谈,研发人员给GPT-3.5提供多达45TB的文本语料,相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等,甚至还将代码开源平台Github纳入其中。

但是聚焦到细分行业,数据的获取就没那么容易了。

兴业证券公开表示,要训练专业的行业大模型,优质的行业数据、公共数据至关重要。

就国内数据市场而言,据发改委官方批露,我国政府数据资源占全国数据资源的比重超过3/4,但开放规模不足美国的10%,个人和企业可以利用的规模更是不及美国的7%。

而行业数据更是非常核心的私域数据,私域数据量越大,质量越高,就越有价值。

比如,一个医疗公司拥有大量医疗数据、病例数据,那么它就能开发出医疗垂直大模型类的产品。同理,建筑行业的项目数据、金融行业的用户画像数据、海运行业的船位数据等,都是赋能垂直大模型的关键。

但是这些私域数据都攥在企业自己手中,而且为了数据安全和合规,绝大部分机构是要本地化部署才会尝试大模型训练,很难想象企业会把自己的核心数据拿给别人去训练。

此外,如何合理地给数据打上分级标签、做好标注也非常重要。数据分级分类能够帮助产品提效,而高精度的标注数据能够进一步提升大模型的专业表现。

但现阶段垂直行业想要获取高精度标注数据的成本较高,而在公开数据库中,行业专业数据也较少,因此对垂直大模型的建构提出了很高的要求。

总体而言,想要做好垂直大模型,数据的重要性,远超过算力和算法。

数据,已成为企业突破垂直大模型的“卡点”。

手握行业数据领先一步

垂类大模型讲求应用与场景先行的逻辑,而在国内更是强调产业侧的价值。

一方面,在当前中国的智能化浪潮下,产业侧数字化革新本就有广阔的市场需求;另一方面,在toB生态下,基于垂直应用的实践也有利于形成数据飞轮与场景飞轮。

而这一切的前提,是推出垂类大模型的公司在该行业已建立技术壁垒与护城河,即“人无我有”的竞争优势。

如此看来,在垂直行业深耕多年的企业或将有更大的赢面。

这类企业在数据层面、大模型以及知识图谱方面都有较为深厚的积累,对于大模型的优化更具优势。同时,它们对于to B客户需求和落地场景有很深的理解,能够更好地保证垂直大模型产品的可信和可靠,满足企业级对于安全可控合规的需求。

目前,已有一些垂类大模型在金融、教育、医药、营销等场景中得到试炼。

例如,彭博社利用自身丰富的金融数据源,基于开源的GPT-3框架再训练,开发出了金融专属大模型BloombergGPT;

网易有道则面向教育场景,推出自研的类ChatGPT模型“子曰”;

在ChatGPT发布后仅几周,谷歌公布了一个专门用于回答医疗保健相关问题的大型医用语言模型Med-PaLM…

相信随着越来越多企业入局,垂直大模型在各个行业和细分领域中将大量涌现。而那些能将一个垂直领域做专、做透,用高质量的数据持续优化模型,跑通商业闭环,构建起产业生态的企业,最终将把价值链做到足够长。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45508.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【人工智能】论未来人工智能的大模型生态:重塑技术前景与应用

目录 未来人工智能大模型生态:重塑技术前景与应用 引言 OpenAI 的 AGI 愿景

创造之境:Stable Diffusion + chatGPT下的自动绘图探索

什么是Stable Diffusion Stable Diffusion 是在2022年发布的深度学习文本到图像生成模型。它主要用于根据文字的描述生成详细图像,尽管它也可以应用于其他任务,如内插绘制、外插绘制,以及在提示词(英语)指导下生成图生…

工具 | ChatPDF:与PDF对话!

工具 | ChatPDF:与PDF对话! 本文首发微信公众号:全副武装的大师兄 ChatPDF是什么? 它是一个在不到一周时间里,就让10万份PDF学会了聊天的应用!无需注册,登录,通过上传PDF文件到Ch…

微信公众号 接口配置

1、登录微信公众平台-->设置与开发-->基本配置页面,打开服务器配置 2、在网站后台添加两个接口get请求验证和post请求消息转发,url为上图填写的url, RestController RequestMapping("/officialAccount/") public class Offic…

亚马逊评论和销量的关系都有哪些呢?

评论和销量的关系非常密切。当然不是评论越多越好,更合理的评论对产品的关键词排名帮助更大。就连亚马逊也会推荐一些资源,所以推荐和曝光越多,销量也会增加越多。这也是为什么卖家都在努力增加Review数量,甚至花钱找人做评测还免…

亚马逊评论的类型有哪些?都该怎么操作呢?

亚马逊评论对于亚马逊卖家店铺来说很重要的,评论又多又好的产品自然更受欢迎,但是评论肯定不只一种,那么亚马逊评论的类型有哪些?都该怎么操作呢? 亚马逊评论分为以下几种: 1、直评 直评是买家可以不用购…

视频会议解决方案-最新全套文件

视频会议解决方案-最新全套文件 一、建设背景二、建设思路业务挑战 三、建设方案四、获取 - 视频会议全套最新解决方案合集 一、建设背景 随着中国经济的迅速发展,很多企业的发展也进入快车道,分支机构越来越多,形成了遍布全国范围甚至全球范…

微软:明年 7 月之前,所有会议线上举行

By 超神经 内容提要:这场疫情对科技行业带来了重大影响。自 2 月以来,被迫取消或转至线上的科技峰会已经数不胜数。现在,微软已经决定,将明年下半年之前的所有活动转至线上,科技会议或许就此迎来变革? 关键…

智能会议纪要生成,从音视频到一键生成会议特征数据

★★★ 本文源自AI Studio社区精品项目,【点击此处】查看更多精品内容 >>> 零.项目背景 目标:针对会议场景的长视频或者长语音,自动生成会议记录并通过摘要生成技术形成会议摘要。 一.技术流程 1.通过moviepy 提取视频中的音频&am…

本地电脑腾讯会议PPT演讲者模式

在腾讯会议中进行PPT汇报的时候,有些情况我们是想要看到备注的,即如何实现对自己是演讲者模式,而对其他人展示的是报告全屏内容呢? 不同操作系统的电脑实现方式还不同,下面分别介绍: 对于mac系统&#xf…

会中切换网络总掉线?腾讯会议用这种方案让你好好开会

👉腾小云导读 也许你有这样的体验:当你加入腾讯会议开会,老板正在发布重要任务时,你恰好要进电梯时 wifi 切换成了 cellular,画面开始「转菊花」,网络断开重连却需要好久,最终老板的指示你一个字…

腾讯会议的各种使用办法

如何关闭某一成员突然打开的麦克风 1.点击管理成员 2.点击关闭麦克风或者关闭视频即可 如何更换背景 1.点击设置 2.点击虚拟背景和美颜 3.选择已有背景或者点击支持图片/视频从本地进行上传 调整声音 1.点击设置 2.点击音频 3.点击音量调节

Zoom会议使用指南

一、使用手册 1、加入会议 1.1 下载ZOOM 下载ZOOM客户端:https://ruanshi1.8686c.com/prod/4.4.55389.0716/ZoomInstaller.exe 1.2 点击加入会议 1.3 点击会议URL或输入会议ID https://cnegroup.zoom.us/j/768131602 1.4 开始会议 2、召开会议 2.1登录Zoom 2.…

使用 Microsoft Teams 开会到底有多少途径——建会

疫情原因公司开始远程办公,过程不赘述,最终选择了 Microsoft Teams 作为开会的工具。 通过这几个月的摸索,终于算是上手了,开始时被 Teams 开会整懵圈了,每天收到各种工单,问怎么开会。后来发现 Teams 开会…

使用 Microsoft Teams 开会到底有多少途径——参会

上一篇关于Teams建会的文章发完之后,总想着把参会的赶紧写了,结果发现两个月就这么过去了,趁着最近不忙,赶紧更新 接前文 使用 Microsoft Teams 开会到底有多少途径——建会添加链接描述 和建会一样,参会也是条条大路…

油猴脚本尝试

现在是这样的,我这边有个运维系统,里面有个日志,我们经常要复制,然后我们复制的时候需要打开内容,然后去选中复制。 类似于这种,我觉得这个时候,去选中复制就很麻烦,右边这里不是有…

油猴插件/脚本还不会使用?看这篇文章就够了, 各种实用的插件/脚本使用技巧

本文是众多使用技巧中其中的一篇, 全部使用技巧点击链接查看, 或直接查看本专栏其他文章, 保证你收获满满 我主页中的思维导图中内容大多从我的笔记中整理而来,相应技巧可在笔记中查找原题, 有兴趣的可以去 我的主页 了解更多计算机学科的精品思维导图整理 本文可以转载&…

油猴插件安装以及好用的脚本推荐

现在浏览器不搞几个插件和IE浏览器有啥区别,因此今天推荐一下及其强力的油猴(Tampermonkey)插件。 一、Tampermonkey插件安装 想使用插件首先要安装插件,我这里以Edge浏览器举例。 1、先打开浏览器的扩展项,然后在搜…

Tampermonkey油猴脚本的简单实现教程

先把上面的描述信息修改成自己的 这里假装你已经在浏览器上安装好了油猴插件,并且点击了 号进入了新增脚本页面 重点修改 *name 自定义一个脚本名称 *include 目标网址 *connect 目标网站域名 *require 可以在这里加载jQuery *grant 会用到的方法,一…

Tips【油猴Tampermonkey】脚本安装教程

前言 我本人喜欢在百度网盘上存一些东西,但是网盘的下载限速真的恶心到惊人,于是搜索了知乎等处,发现油猴这个扩展程序,其中百度网盘下载助手是我最中意的,但是我的chrome浏览器不好用,不知道为什么哈&…