“智联世界,生成未来”,7月6日至8日,第六届世界人工智能大会(WAIC 2023)在上海举办。4位图灵奖得主与80多位国内外院士等1400位嘉宾齐聚一堂,共同探讨人工智能赋能产业发展的全新变化,展望技术新趋势。
图1:2023世界人工智能大会
小米集团技术委员会AI实验室大模型团队负责人栾剑与小米集团技术委员会AI实验室语音专家工程师张俊博受邀出席本次大会并参与圆桌讨论。
两位专家分别就生成式AI、大语言模型;AI技术无障碍应用进行深入交流,从技术发展、企业战略等多维度,探讨在以人工智能为代表的新一轮技术浪潮之下,我们应该以何种态度迎接人工智能带来的新机遇与新挑战。
01
全力以赴、坚决拥抱
ChatGPT的诞生激起前所未有的创造浪潮,其背后的技术——生成式AI和大语言模型正在改写各行各业。
7月8日上午,在2023世界人工智能大会期间,小米集团技术委员会AI实验室大模型团队负责人栾剑出席由埃森哲与第一财经携手举办的“生成式AI:重塑企业”专题论坛,探讨在新一轮技术浪潮之下,企业应如何立足前沿、全面重塑,实现高质增长。
图2:2023世界人工智能大会“生成式AI:重塑企业”专题论坛
从ChatGPT向上追溯,生成式AI已经在很多领域便利了我们的生活。比如语音合成技术,小爱同学有多款拟人度很高的音色和声音商店的定制音色可以选择,这些音色不仅可以对话还可以唱歌。又如手机拍照的各种AI功能,近几年小米发布会屡次提到的超分辨率增强、魔法换天、魔法分身、超级月亮和魔法消除等都是很好的应用案例。
生成式AI对公司内部也会带来许多变化,比如文生图的软件帮助平面设计师提高了工作效率和成品质量,代码生成软件帮助程序员提升了软件开发效率,语言大模型帮助员工写文案等。
小米集团创始人、董事长兼CEO雷军曾在微博表示:小米对大模型将“全力以赴、坚决拥抱”。我们不仅要做面向用户的应用,也要与企业内部的工作场景结合提高工作效率。大模型团队,通过内部的需求分析和提炼,抽象出两大类应用场景:一是将各团队自己积累的知识做成对话机器人,帮助新人更快上手;二是让大模型学会各团队已有的各种工具,可以通过规划组合来自动完成较复杂的任务。
不过,这些应用还处在早期阶段,需要和使用者一起不断切磋打磨才能变得真正好用。正如栾剑所言,生成式AI的宝箱刚刚打开,我们现在看到的还只是表面一层闪闪发亮的东西,它对企业的真正价值,也许深入探索之后才能发现。
图3:小米集团技术委员会AI实验室大模型团队负责人栾剑
02
ChatGPT让通用人工智能
更深入走进大众视野
7月6日下午,栾剑出席由第一财经主办的“AI TALK 数新风”沙龙活动,与中国信息通信研究院华东分院院长廖运发、华院计算董事长创始人宣晓华、美团无人机商业战略负责人刘硕共同讨论AI技术的“颠覆”与“辅助”。
图4:第一财经“AI TALK 数新风”沙龙,右二为栾剑
有观点认为,ChatGPT的出现标志着人工智能技术在全球实现了划时代的突破,进入了全新的发展阶段。机器学习从基于规则到基于统计再到深度学习,经历了三次变革,虽然前面两次变革不可谓不重要不深刻,但是在ChatGPT出现以前,整个行业都面临着一个问题:是否人工智能就仅限于“有多少人工就有多少智能”呢?
栾剑表示,对传统的人工智能来说,任何一项新任务都需要通过大量标注让AI学习,而通常一个AI只会一个任务,如果兼任几项,效果就会削弱。如何才能打造像人一样的人工智能一直困扰着技术专家们。
而ChatGPT的出现,让我们看到了通用人工智能的曙光——一个什么都会的AI是有可能实现的。虽然现在还只是早期阶段,但是它带来的信心比金子还要宝贵。
大模型不仅是一个产品和技术方案,它带来的是一套方法论。ChatGPT告诉我们,仅仅预测下一个字是什么这样简单的任务就蕴含着完成所有文字任务需要的智能。这一方法论很容易扩展到其他领域,从文字,到视觉,再到听觉,然后是其他传感器的数据感知。全部打通以后,AI的智能会比现在更进一步,这个意义非常深远。
图5:小米集团技术委员会AI实验室大模型团队负责人栾剑
不过深远的意义是否意味着行业的“颠覆”和对人的完全替代?面对这一问题,栾剑认为,一方面,如果我们将技术完成度看成一个进度条,左边是0,表示完全无效,右边是100%,代表完全替代,那么其实所有的技术应该都位于中间状态。ChatGPT给我们带来的看似“颠覆式”的体验,可能是由10%到50%或者由30%到60%的跨越,这是一个飞跃式的进步,但距离完全替代人类还有很长一段路。
另一方面,不同应用场景对AI替代的准确度要求会十分不同。比如娱乐场景中,语音合成读错一个字的发音,歌唱合成有一句跑调可能都无伤大雅,所以AI开始大量得以应用。但在金融、安防等领域,对准确度的要求就更高,声纹识别就无法进入。而在居家多人使用的场景中,任务相对简单,对准确度的要求也不像金融、安防等场景那样严苛,小爱同学就可以用声纹技术去检测用户是谁,从而在内容上提供差异化服务。
03
AI打破障碍,助力数字平权
技术的创新总能激发更多的畅想与对于美好前景的渴望,而与此同时,技术如何应用于实际场景,使所有人都能享受平等的数字生活更是重中之重。
图6:2023世界人工智能大会“科技无障碍:
AI普惠数字未来”高峰论坛
在2023世界人工智能大会“科技无障碍:AI普惠数字未来”高峰论坛中,小米集团技术委员会AI实验室语音专家工程师张俊博分享了AI技术与无障碍创新的经验与应用成果,持续探索AI技术如何助力更平等的信息交互。
图7:小米集团技术委员会AI实验室语音专家工程师张俊博(右一)
作为一个技术开发人员,张俊博参与无障碍工作的契机是2020年首届小米集团黑客马拉松,团队成员的一位脑瘫朋友——张大奎,因其特殊的病理腔发音而无法使用现有的语音识别服务。在意识到障碍朋友的需求后,团队发现这一需求在技术解决的路径上与方言识别有异曲同工之处,便以极少的语料量就完成了针对大奎发音的自适应识别系统。张俊博说:“有时技术并不难,但只是我们之前没注意到”。
图8:2020年首届小米集团黑客马拉松张俊博队伍与张大奎
此后,小米的语音团队持续有意识地将技术向无障碍需求上靠拢。在MIUI中上线了“小米闻声”,实现了对于听障用户语音与文字实时互转的支持;并关注到环境中的非语言信息,进行声音识别,当监测到环境中有婴儿哭声、报警声等重要环境声音信息时,声音识别功能就会以通知的形式发送到手机与可穿戴设备,让听障用户能够获取更全面的信息。
图9:(左至右)小米闻声、手机端声音识别、音箱声音识别与摄像头声音识别使用界面
在大会中,AI技术对于无障碍带来的可能性与突破受到广泛的重视,张俊博表示,其实理解无障碍,不应只包含障碍伙伴,所有人都会有面临情境性障碍的时候,比如在厨房炒菜,就可能听不到敲门声。因此要讨论AI技术对无障碍带来的改变,理应回归到一个人接收和传达信息的过程。
一个人接收与发送信息,不外乎是用耳朵听、用眼睛看、用嘴吧说、用手打字。可以将各渠道的信息形态视为一种模态。无论信息来源于哪种视觉、听觉、触觉哪种模态,最终都需经过大脑编码成人们能理解的信息。反过来,无论信息以哪种模态发送,都是把大脑中已编码的信息以某种形态解码出去。
对于残障人士,就可以看作某一个模态的输入或输出阻塞。这时AI技术就能把信息从一个模态转成另一个模态,在任意模态间互转,从而把障碍绕过去。而最近大模型和生成式AI的新能力,则是进一步让我们可以以更自然的语言与交互来实现模态转换的过程。
而在AI助力无障碍的过程中,并不是技术单向地在帮助障碍人士,相反,无障碍给技术提供了一个极致的应用场景,当我们的技术连障碍朋友的需求都可以解决,那对于普遍性需求的启不是更能满足。因此,无障碍可谓是给技术研发提供了很好的指向作用。
图10:小米集团技术委员会AI实验室语音专家工程师张俊博
最后张俊博也说道:我们公司常讲小米的使命,是“让全球每个人都能享受科技带来的美好生活”,显然这里的“全球每个人”不能把障碍朋友排除在外。所以我以自己是小米的员工而感到自豪。
-
小米一直致力于让AI技术渗透到更多场景中,助力科技给每个人带来美好生活。
2020年,雷总宣布:小米的核心战略从“手机+AIoT”升级为“手机×AIoT”。手机和AIoT生态布局不再是简单的加法与并列关系,而是能引起质能转化的方程式。
在“手机×AIoT”的战略指导下,小米逐步构建起全球最大的消费级IoT平台,截至2023年3月31日,小米AIoT平台已连接的IoT设备(不含手机、平板和笔记本电脑)数首次超过6亿,创下历史新高。小米的万物互联能力还在持续增强,目前,MIUI已经实现了视觉、听觉、肢体障碍的全方面支持,并扩展至AIoT设备,更实现了第一例声音配型捐赠的案例。
随着大模型、生成式AI等新AI技术的逐步落地,AIoT设备将被更好地组织起来,更准确的感知环境状态,通过规划和联动完成更复杂的任务,构建更多丰富且实用的智能场景,让用户拥有更极致的设备互联的体验,小米的AIoT平台将更懂人、更好地服务人。
小米将继续乘风破浪,以坚定的信心和坚决的态度拥抱AI,用更有温度的技术和更加智能的产品打造更加美好的未来。