《语音优先》智能语音技术驱动的交互界面设计与语音机器人设计（译者序）...

“言为心声,语为心境”，语言与对话是我们沟通与协作的重要方式。而智能语音技术是一种基于人工智能和自然语言处理技术的语音交互技术。它可以通过语音识别技术将用户的语音指令转换为文本，然后通过自然语言处理技术对文本进行分析和理解，最终生成相应的响应或执行相应的操作。

虽然智能语音技术由来已久，但直到亚马逊Echo智能音箱的诞生才再一次引发了业界对智能语音技术的广泛关注，因为这样的智能音箱带给了人们一种叫作“语音优先”的用户体验，为用户提供了一种更加便捷、高效的交互方式。

那么，什么是“语音优先”呢？

语音优先是指在设计产品或服务时，将语音交互作为主要的用户界面，以便用户可以通过语音指令来完成操作。这种设计方法可以提高用户的使用体验，特别是双手正在忙碌的场景下，语音交互可以更加方便和快捷。语音优先交互方式的优势在于：

其一是速度，每分钟可以说120-150个字。

其二是释放双手，做饭时通过语音可以完成一些期望做的事。

其三是直觉性，语言是人类的天赋，也是人类交际沟通的自然手段。

其四是同理心，语音中包含了语气、音量、语调和语速，这些特征传达了大量的信息。

智能语音交互离不开人工智能技术，在语音优先交互中所涉及的人工智能技术如下图所示。

如今，在为我们服务的智能语音设备背后，有一整套技术和流程，从语音唤醒到自动语音识别，再到自然语言理解，最终通过自然语言生成以及语音合成技术形成反馈，整套流程背后又有很多细分的人工智能技术在支持，如对话管理、深度学习、DNN、CNN、NLP、TTS等。

幸运的是，在2017年，我加入了宣称“All in AI”的百度，负责智能音箱的研发。伙伴们和我经受了88天的炼狱，终于诞生了百度第一款智能音箱Raven-H。而后，还参与了小度音箱、小度在家等产品的研发。后来，作为DuerOS首席布道师负责DuerOS的生态建设。DuerOS开放平台为开发者提供了开发智能语音应用的工具，使智能语音服务的开发更为便利。国外的谷歌与亚马逊，国内的小米、阿里等厂家，也都有着类似于DuerOS开放平台的开发者社区。

开发者在各种语音开放平台上开发智能语音服务的时候，普遍面临着对智能语音交互设计的认知不足的情况，尤其是语音优先设计的适用场景和独特性。作为一名布道师，非常想写一本关于智能语音交互设计与实现方面的书，但由于种种原因，未能成行。