从目前智能家居的发展史,我们可以将智能家居分成三个阶段:第一个阶段是互联网阶段,一些行业巨头通过玩的概念的方式来进入智能家居;第二个阶段是移动互联网时代通过手机的触摸进行交互,再通过WiFi、蓝牙等通讯方式,让智能手机、云服务、智能家居设备相结合,进行控制,那个阶段的智能家居开始有了些苗头,但真正的智能家居整个生态的构建逐渐清晰还是在最近两年——物联网时代。整个物联网时代,大家都在分享技术的成熟,包括人机交互成熟,以及整个供应链、垂直产业链各个环节的成熟。
回头看智能家居这三个阶段,对应着人机交互发生了怎样的变化?在早期的互联网时代,还是按键的物理操作,移动互联网时代,改成了手机的触摸交互,手机可以用来控制智能家居中一台或多台设备,包括通过手机来享受后端各类服务,生活也开始方便起来。但是用手机控制起来还不是最自然的交互方式,物联网时代的语音交互让事情得到大大改变,当然智能家居其实是需要语音为主的多模态交互,从技术服务上,以及相关WiFi/蓝牙、硬件云服务商能够协同起来,让语音识别,结合包括人脸识别、虹膜识别、图象识别等等交互技术,使得人机的交互越来越方便。一些调研数据显示,近年来语音交互在智能硬件中所占比重越来越大,接近50%。未来智能家居的交互一定是多模态,我个人觉得自然语言的交互一定是核心的交互轴,结合多模态的交互。
当前智能硬件大多面临着交互的难题,用户在家里躺在沙发上跟智能电器沟通、交互,很多是远场距离,也往往中间会有些噪音。还有回声的问题,我们在设备进行语音沟通的时候,往往设备自身正在进行讲话、发声、播节目,这导致了很多智能硬件的语音交互控制非常难。思必驰则在解决回声对消、噪声环境等问题下了很多功夫。
语音交互能够帮智能家居硬件打造怎样好的体验?为什么需要语音交互?我个人觉得,智能家居需要去中心化。很多巨头因为他们的优势在手机端,包括他们围绕手机生态构建的服务优势,因此他们希望通过手机为中心来控制智能家居的平台和生态。但是在智能家居这个生态里面,应是以用户还为核心,去中心化才能让用户操控起来更加方便、更具智能化。
目前市面上的智能硬件很多都采用了人机交互,思必驰在为众多合作伙伴提供语音交互解决方案的过程中,发现目前语音交互分为三种应用:一是实现控制交互,即实现简单的智能设备控制、查询,比如说搜歌等等;再一个是目前逐步与一些合作伙伴在做的,他们要求实现一些安全性的交互,比如说收音识别,鉴定说话人的身份,鉴定说话人身份才能打开设备等等。还有一个是趣味性需求,当然趣味性需求也有一定功能性成分,比如说语音唤醒设备,用户可以将智能设备更改为小孩的名字、小狗的名字等等。另外,思必驰还做了语音的个性化声音合成。
但是智能家居不仅仅是需要一个操控,或者简单的查询、简单的有趣,而是帮助用户完成任务。用户想要听音乐,还可以基于场景,基于心情,多维度查询,通过音响、电视可以实现定餐,因为是多重服务,比较复杂的服务,在智能硬件交互或者自然语言交互,一定会从简单的控制走向完成任务,从简单的UI走向AI,智能设备真的能懂你,能够跟你交流,能够理解上下问,他听不懂可以问,他知道怎么问会问,最终帮你完成任务。
思必驰在人机对话层面上算是做的比较早的,我们在剑桥大学做了第一个人机对话系统原形。另外,上文说到的个性化语音合成,思必驰跟上海交大合作有一个专门的实验室,用来研发个人的语音合成,未来用户都可以把家人朋友等你想要的声音上传一段,马上就可以下载一个合成的模型。还有歌曲合成,比如用户上传了一段声音,选择了邓紫棋的歌,就可以变成上传自定义声音演唱邓紫棋的歌。
再一点是情感交互,情感交互让我们的设备有温度、感情,富有个性化的背景。再往后是思想交互,当然情感交互里面涉及到不单是语音技术,通过语音情绪识别,如果我们不面对面,你不知道你隔壁跟你交流的是一个智能硬件,还是一个真人。
智能家居的硬件使用语音交互核心需求的强度不同,如电视的核心是语音的搜索,一些小的家电、灯泡、空调等的语音需求就相对比较弱,他们更多还需要云+端,特别是端的语音技术的需求,包括原厂识别。像音响、机器人,他们的需求则更为多一些。
思必驰专注人性化的智能语音交互技术,主要面向家居、车载、机器人、穿戴以及手机和平板,提供语音识别、合成等语音交互解决方案。思必驰希望能为智能硬件合作伙伴提供更好的、极致的体验,能够加快产业化的落地。