科研团队如何探索商业化落地?这家语音AI公司用十年科学试验打了样

白交 发自 凹非寺
量子位 | 公众号 QbitAI

现在,大家都在谈硬科技创新、产学研转化。

AI作为最引人注目的赛道之一,通常有两种发展模式:

  • 互联网及传统行业巨头,利用自身业务与资源优势,通过AI降本增效、拓展新应用。

  • 科学家创业,从零探索实验室技术的商业化路径,打造全新的产品、方案及商业模式。

AI虽然前景广阔,但技术和市场却是一个逐渐发展成熟的过程。

不可否认的是,在深度学习驱动的第三轮AI浪潮之初,有一些科研人员从实验室冒险出走,先后成立了旷视、云知声、商汤、云从、地平线、寒武纪等,陆续发展成为AI独角兽,当中有企业已成功上市……

科学家创业,有着他们独特的技术优势,也面临着特有的商业化挑战。

具备扎实的技术功底只是必要的基础条件,商业化洞察和执行力很关键,某种程度上决定了企业发展的大方向。

以语音赛道为例,这当中也有这样一家公司案例值得关注。

ecd49e6c38e1267e2472d26e89b9eeaa.png

云知声,十年时间,在智能语音赛道上发展为估值近百亿的AI独角兽,如今商业模式比较清晰,聚焦于智慧物联智慧医疗两大业务。

创业之初,团队80%均为中科大、中科院的AI博士,他们抱负很高,打算用自己所学,推动整个产业发展。

甚至于,直接将这种理想抱负体现在公司名称上——

云知声,从语音技术切入,在云端构建感知和认知智能,推动产业升级。

如今站在云知声十年发展节点上,以它为样本,聊聊科研团队如何以科学态度探索到AI技术商业化落地发展之路。

云知声,理工男的文艺构想

十年前,深度学习在视觉评测中初露锋芒,在语音识别技术上也刚刚取得突破,第三次AI产业浪潮开始悄然滋长。

少部分科研人员看到了当中技术的商业价值决定创业。

中科院出身梁家恩博士就是其中之一。

当时他在语音技术的研究积累已经超过十年,在产业应用上也有五年以上的实战经验。与他同行的,基本上都是中科大、中科院AI专业的博士。

或许正是因为团队深厚的科研和理工背景,“云知声”这样略有诗意的公司名,直接让大众摸不着头脑。

如今回想起来,梁家恩博士笑了笑说,当时有人觉得很奇怪,有人觉得这个词有些文艺范。

但其实这个生造的词,蕴含着他们创始团队由点及面对技术及产业的思考和洞察。

,未来智能一定在云端上实现集大成;,代表了从感知到认知的智能体系;,则是以这个团队最擅长的语音技术作为切入点。

b1177d05f02787c7f939711ca6461e22.png

这些论断放在现在看似平常,但放在当时这种思考也未免太大胆了些。

不由让外界怀疑他们构想的局是否太宏大了,但也有资本市场看到当中的决心和勇气,磐谷创投成为了他们的天使投资人。

很快,他们一系列实际举措打消了外界的疑虑。

2012年9月底,创办不到3个月,梁家恩团队就搭建了个开放语音云平台,并开始支持搜狗语音助手发布。

2012年12月底,经过3个月的攻关,云知声深度学习语音识别技术上线,加上线上数据迭代,直接将识别率从80%出头提升至90%以上,放在当时已经属于国内一流水平,成为国内最早的深度学习商业化应用之一。

值得一提的是,背后的算力,是靠两张游戏显卡支撑。

梁家恩透露,当时虽然没有上百台服务器的资源实力,就靠淘宝上购买两张英伟达显卡,攒出了云知声第一台超算。

云知声的这条深度学习升级之路,正是其核心技术团队追求卓越的实战精神体现。

随后,在2013年初,云知声发布了一个微信语音输入插件,一周即登顶APP Store免费工具排行榜首位。日激活量接近4万,使用该插件的用户很快接近100万规模。

efe8d3af71192053792cfeafa08e652b.png

与此同时,在锤子发布会和LeTV超级电视上的亮相,引发业内和各方资本关注。

创业不到一年,云知声就获得了启明创投领投的亿元级A轮融资。

这时,云知声在业内已经小有名气。但在梁家恩博士看来,他们只是打了个技术基础

简言之,就是AI三驾马车基本成型:云平台积累海量真实数据,基于GPU的超算能力,还有深度学习技术。

而与行业伙伴合作、推出微信语音输入插件,则属于是完成技术应用的初步验证。

但要想实现创业初心——推动语音产业的发展,光打好技术基础还不够。

按照科学思维,还需要商业化求证和举一反三。

这时候,云知声已经想好了下一步的路。

云端芯:全栈AI能力的构建

云端芯。

2014年年初,云知声官宣了这一战略。

三个字拆解来看,云端智能解决业务深层问题;终端应对各类应用场景的差异化需求;物联网专用芯片,则支持规模化应用。

如今已被公认为行业热词,但放在当时,却属于业内首次。

而启发云知声提出这一前瞻性战略的,正是基于开放云平台的应用数据和用户反馈的综合分析。

一方面,开放云平台运行期间,有开发者反馈能否用语音解决车载导航、病历录入、英语学习等场景。

另一方面,实际应用中也发现,LeTV超级电视语音助手与搜狗智能手机语音助手之间的活跃度有十倍以上的差异。

以手机语音助手为例,如果没有充足的资源去宣传和推广,那么大概就只有2%的活跃度。但如果在智能电视,不需要任何推广,全年基本上保持接近40%的活跃度。

对于梁家恩团队来说,这是一个关键的发现:

智慧物联也许是个更刚需的智能交互应用场景

但物联网并不是一个新鲜的概念,1999年就提出来了;行业巨头IBM,在2008年又提出了智慧地球,但也始终停留在概念阶段,可见挑战之大。

8a70821c5ebe318f0d43fd8fd1e1a730.png

对云知声而言,既是机遇也是挑战。顶层构想有了,在具体实践上又该如何破局呢?

云端芯,简单来说,就是构建软硬件一体的全栈技术与服务能力。

全栈?这时候质疑声音又来了:大公司巨头都不一定能完成的能力,却成为他们正在实践的目标。

面对质疑,梁家恩用他们在A轮融资发布会上引述道德经的名言 “图难于其易,为大于其细”做了回应——从解决实际问题出发,各个击破。

最先发力的技术,就是远场降噪与识别技术,这是智慧家居中一个关键技术问题。

通过声学结构设计和麦克风阵列降噪技术,解决3-5米范围内的目标语音提取和背景噪声消除问题,实现真实场景下的语音交互,从而使得感知技术能力得到更大范围拓展,在更多真实应用场景下达到实用效果。

cf16bbc904b4ec3a652445cd602bd683.png

与此同时,为更好支持对话式交互的体验,云知声还发布了语用计算平台

简单来说,就是能结合上下文语境去做语义理解,跟用户进行可快速配置的多轮对话,从而更顺畅完成复杂场景的人机交互任务。加上后续拓展的知识图谱技术,实现了从感知到认知的技术能力跨越,能解决更加复杂的业务深层问题。

接着就是硬件能

他们遇到了史上最大的挑战之一,智能芯片

一则团队内部没有相应的硬件人才,二则芯片研发成本高昂,一旦失败对创业公司来说无异于釜底抽薪。

这时候云知声严谨求证的科研作风再一次凸显,经过讨论他们决定不要一上来就做芯片。

而是先以通用芯片切入,验证他的商业应用价值和技术可行性。

经过两年打磨,以通用ARM芯片为基础,支持远场降噪和识别的语音交互模组在格力高端空调上出货。

当时在业内取得积极反响,也获得了2016年的智能家居AWE“艾普兰核心奖”。梁家恩回忆称,客户非常满意,但通用模组“价格贵”,成为了智能语音交互模组走向主流机型的主要障碍,芯片自研也就成为题中之义。

2016年,云知声就正式启动了芯片的研发。

2018年4月,中兴事件爆发一个月后,云知声一次流片成功,发布了第一款AI语音芯片——雨燕,让业界眼前一亮,该芯片后来获得了“吴文俊人工智能科技进步奖”,当时很多公司才开始意识到 AI 边缘计算芯片的重要性。

f15581c6f5747ad6e7e085adc515968e.png

除了“云端芯”全栈技术能力拓展,云知声还实现了底层超算平台的全面升级。

在启动芯片研发同一年(2016),当时还有个行业大事件:AlphaGo击败李世石震惊全球,也将深度学习和AI技术推到了全民关注的风口浪尖。

915f01b3aa9dbefd13605d9965c7c898.png

这件事被梁家恩看在眼里,不只是因为深度增强学习算法的精妙只是其一,但当时最让他好奇的点,是它如何通过调度上千块GPU去做如此高复杂度的深度增强学习计算的?

放在国内,当时没有任何系统可以干成这件事。

为了寻找答案,梁家恩二话不说就买机票前往硅谷调研。

在硅谷巨头超算专家的启发和支持下,经过近一年的研发和优化,实现了支持上千块GPU同时调度的大规模机器学习的超算平台,称为Atlas(希腊神话中的大力神)。

云知声以Atlas超算平台为共享基础支撑,加速了云知声AI技术体系的演进速度,迅速拓展端到端语音合成、人脸识别、机器翻译等技术能力,并取得语音合成BC2020评测第一、机器翻译WMT2018评测前三等行业前列成绩。

直到2018年,BERT、GPT-3等大规模预训练语言模型的出现,超算平台的价值才得到行业的充分认识。而云知声则依托Atlas超算平台和“云端芯”战略,形成了全栈AI技术及产品化能力,内部有着更为形象的表述:AI六边形能力

e6c1a16e5244922221a20123d1e5c4d9.png

一是算法方面,确保对主流技术架构的密切跟进,通过全栈AI技术打造整体智能解决方案,并通过工程优化降低部署和交付成本;

二是数据方面,以大规模训练为基础,解决小样本的快速迁移问题,并建立高效真实数据迭代闭环,提升模型精准度及应用适配能力。

以全栈AI技术及产品化能力为依托,云知声能高效调度研发资源,在更多场景中快速探索和验证行业应用,包括车载、医疗、教育等领域。

云端芯从战略到现实,不光意味着他们对技术产业的预判再次成功,也更为云知声下一步深入行业、迭代发展奠定了基础。

U+X:约纵连横,深耕两大业务

在全栈AI能力构建和应用验证后,在云知声内部已经达成新的共识:

要真正深入行业了解业务Know-how,少不了与行业玩家联合互补,跟他们共同打造出真正解决问题、创造价值的整体智能解决方案。

这时候,也就来到了云知声新的战略阶段:U+X

U,云知声(Unisound);X,即为行业。

他们将诸多前期应用场景探索的成果,整合为两大商业化路径——智慧物联和智慧医疗

智慧物联方面,实现从单品智能(通过芯片模组升级)到整体智能的演进,并采取与房地产、交通、养老、酒店等行业合作,提供软硬一体的整体智能体验。

智慧医疗方面,从最初的语音电子病历、语音导医分诊等效率工具,到以医疗知识图谱为基础,提供病历质控、医保控费及诊疗决策支持等医疗整体解决方案。

3f991bb12a825d1f4537a03516de0242.gif

2019年推出的智能病历质控系统,还荣获当时北京科技突破一等奖。

如今回过头来看,一个是互联网大厂、家电、房地产商等多领域公司争相竞逐的赛道。

另一个则是正快速发展、并始终被外界看好的赛道,巨头如微软,仍在去年花197亿美元买下AI医疗的门票——完成对语音巨头Nuance的收购。

但对于云知声来说,并非偶然的选择,也并非跟随行业热门。

反倒是根据自身实践和推演顺其自然的选择,被后来的市场所验证。

梁家恩博士向量子位解释,云知声对智慧物联和智慧医疗业务的布局,刚好代表着语音产业两大发展方向,也充分检验底层技术的能力和实用性:

广度和深度

广度方面如智慧物联,触及尽可能多的真实用户和应用场景,在多场景、多用户中,拓展感知技术和智能交互的应用边界。

深度方面如智慧医疗,则是以行业知识图谱为核心,挑选最具挑战性、知识体系最强大的应用场景,深入解决医疗质量和效率提升的问题,同时拓展认知技术能力的应用边界。

一横一纵,不同路径发展方式,但目的只有一个,解决真实应用问题,推动产业发展,同时,也拓展和检验云知声从感知到认知的底层智能技术能力。

技术创新公司,从产学研技术创新开始,到商业模式实现、成熟。

云知声给出的周期时间是十年

8ad2021b77e5fb4c5ad170a65cf5f946.png

而在未来,横纵融合,除了技术产品本身的持续迭代和完善外,也将激发出更多服务与生态出来。

梁家恩提到了未来新方向的一些设想。

比如在服务方面,智慧物联与智慧医疗的交叉——智慧养老服务;

还有像生态方面,以云芯一体化平台为基础,将拓展出更多智能应用生态,如:音视频分析、辅助决策、辅助创作等;依靠自身在智慧物联、智慧医疗上的行业实战经验,与行业合作伙伴互补拓展,也存在很大的空间。

十年的云知声,提供了一个样本

从公司起名和大胆构想,到务实严谨的商业探索和快速迭代验证,聚焦行业真实应用问题解决,而非盲目刷榜、炫技以吸引资本眼球。

从前期客户沉淀积累,到敏锐的嗅觉确认方向——智慧物联。

云知声的每一步似乎都踩在点子上,但又比行业风向快了那么一步:

比如AI三驾马车、云端芯战略、智能芯片,到如今巨头相争的智慧医疗和智慧物联。

梁家恩表示,科研团队跟风既无趣也无前途,可能正是基于团队谋定而后动,在实践中不断思考,超越算法能力边界,构建软硬一体和全栈AI能力,认准的事情即使再困难也坚决去做,才造就了今天云知声全栈AI技术及产品化能力以及纵横两大商业化路径。

无疑,这是一次独特的科技商业化探索的试验。

而像云知声这样的案例,并非孤例。

随着硬科技创新、产学研转化越来越响亮,更多的科研团队投身于商业价值转化,但不论方向如何、技术落地情况如何,面对的一些难题却是共通的。

比如,实验室技术该如何转化成规模化、普及化的实用技术?企业又该如何助力产业升级,走一条更长更远的路?

十年的云知声,只是提供了一个样本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16056.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

要刹车?生成式AI迎新规、行业连发ChatGPT“警报”、多国考虑严监管

4月13日消息,据中国移动通信联合会元宇宙产业工作委员会网站,中国移动通信联合会元宇宙产业工作委员会、中国通信工业协会区块链专业委员会等,共同发布“关于元宇宙生成式人工智能(类 ChatGPT)应用的行业提示”。提示内…

泛在的AI与数字上帝—AI视野(五) 张江

真正厉害的东西往往是那些隐藏在幕后的无形存在,AI也是如此。那些有形有像的机器人不算什么,而真正的高手是那些无处不在的智能算法,我们将这些没有实相的程序总体称为泛在的AI。它们虽没有硬件,甚至没有用户界面,但却…

启英泰伦三代离线语音AI芯片及AIoT芯片介绍

2022年,启英泰伦发布了三代离线语音AI芯片及AIoT芯片。此系列芯片算力更强、集成度更高、成本更低、功耗更低,将会使语音识别应用推向一个新高点。 下面简单介绍一下。 语音AI芯片CI130X系列 2021年,启英泰伦推出语音AI芯片CI130X系列&…

python毕业论文参考文献格式范例_2015毕业论文参考文献格式及范例

2015毕业论文参考文献格式及范例 1.期刊类 【格式】[序号]作者.篇名[J].刊名,出版年份,卷号(期号):起止页码. 【举例】 [1] 王海粟.浅议会计信息披露模式[J].财政研究,2004,21(1):56-58. [2] 夏鲁惠.高等学校毕业论文教…

理科一般的女生可以学计算机吗,理科女生怎样选择专业 理科女生适合学的专业有哪些...

对于理科女生来说学什么专业好呢,哪些专业比较适合理科女生去学吗,在选专业的时候有什么限制吗,下面小编为大家总结一下,仅供大家参考。 理科女生怎样选择专业 对于理科女生来说选择专业的时候首先要看自己的兴趣,有一…

理工科Word论文排版(章节自动标号、公式自动标号、图片自动标号、表格自动标号、标号交叉引用、公式参数介绍等),持续更新

最近在完成论文的写作,无论是硕博士的大论文还是日常发布的小论文,精美的排版都会让评阅人心情舒畅,一个良好的word模板也会让论文写作变得简单容易。 正所谓工欲善其事必先利其器,拿出半天的时间去制作一个“自动化”的word模板&…

python毕业论文参考文献格式范例_毕业论文参考文献规范格式及范例

毕业论文参考文献规范格式及范例 一、参考文献的类型 参考文献(即引文出处)的类型以单字母方式标识,具体如下: M——专著 C——论文集 N——报纸文章 J——期刊文章 D——学位论文 R——报告 对于不属于上述的文献类型,采用字母“Z”标识。 对…

理科有计算机类哪些专业吗,计算机专业有哪些。 是文科还是理科

计算机专业有哪些。 是文科还是理科以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 计算机专业有哪些。。 是文科还是理科 包括企业资讯计算机管理、电子商务、经济资讯管理与计算机应用、资…

理科女生学计算机好还是财经好,女生理科选什么专业好就业

选什么专业不要贴上性别的标签,不要受刻板印象的限制,就如选文理科一样,不要认为女生就不适合学理科。事实证明,行行出状元,不分男女,特别是现代社会分工越来细,男女分工更是弱化。 理科女孩什么…

考计算机专业要理科好吗,大学想念计算机系是不是该高中读理科?

大学想念计算机系是不是该高中读理科?以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 大学想念计算机系是不是该高中读理科? 是的。最好读理科,而且对于你…

理科体育生可以报计算机专业吗,理科生可以报哪些专业?

相对于文科生来说,理科生能选择的专业数量要多的多,范围也比较大,而且大多为技术型的专业,一些大众化的专业很多院校都会开设,招生人数也不少,就业相对比较容易。 为什么说理科生选专业的范围大呢?众所周知…

理科生浪漫java表白代码_理科生独特的公式表白大全

如果在你的印象里,理科生就是智商高情商低,那只能说明你遇到的理科生不够多!到底什么才是理科生的浪漫?他们的浪漫没有华丽的辞藻却并不比文科生差。不过想要读懂他们的浪漫,也需要一定的智商。 说起理科生的浪漫&…

大学工科理科都要学计算机,大学工科和理科有什么区别

小编今天为大家介绍一下理科和工科的区别 ,便于大家在报考专业时有更清晰的概念。 理工类学科是大学专业分类中最广的学科,以自然学科为基础,着重分析自然科学领域和生产应用领域内所有的方面和应用方向。理工科专业都是面向高考理科考生招生…

小学教育怎么选择特别容易写的论文选题?

大家好,因为最近在帮学小学教育的学弟学妹整理、总结合适的论文选题,意外收获了一些有效的经验,所以打算把它们记录下来,分享给更多有需要的小伙伴。 我想推荐的小学教育专业的论文选题主要包括以下3个方向: 1. 教学…

硕士论文怎么寻找创新点?

看到周边的同学和朋友,经常为找不到论文创新点而烦恼,于是,我觉得这个问题估计对大家都有帮助。创新是论文的灵魂,有的科研文章可以很快被录用并被见刊,而有的文章屡次被拒稿,迟迟不能发表,很重…

硕士毕业论文框架怎么搭建?

硕士毕业论文框架怎么搭建?这是所有学术人确定选题后,着手写文必须要面对的第一个难题。毕竟搭好一个好的框架,可以为之后的论文内容撰写省去特别特别特别多的麻烦,相信我,要是一个一开始论文框架就没有搭好&#xff0…

计算机教研组教研活动记录表,理科教研组教研活动记录表

理科教研组教研活动记录表 (23页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.90 积分 理科教研组教研活动记录(1)活动内容制定教研组工作计划活动时间活动地点办公室参加人员全体…

layui插件里的4种对话方式

开发工具与关键技术:VS jQurey 作者:黄海滨 撰写时间:2019年4月3日 最近做项目中一直在用插件,发现插件真的很实用,可以少打很多代码。 下面我来跟大家说一下layui插件里比较实用的四种对话方式 首先,我们要引入layui插件才能使用它,下面进入正文,先来说第一个Layer.…

Java实现调用相关接口(删减版)

目录 1.0.简单版2.0.升级版2-1.call.timeout()怎么传入新的超时值2-2.timeout(10, TimeUnit.SECONDS)两个参数的意思,具体含义 3.0.进阶版3-1.java.net.SocketTimeoutException: 超时如何解决 4.0.终极版 1.0.简单版 以下是一个使用 Java 实际请求“第三方”的简单示…

ChatGPT会取代低代码开发平台吗?

编程作为一种高端技能,向来是高收入高科技的代名词。近期,伴随着ChatGPT在全球的爆火,过去通过窗口“拖拉拽”的所见即所得方式的低代码开发模式,在更加智能和更低成本的AI搅局之下,又面临了更深层次的影响。 低代码平…