Facebook的CEO扎克伯格近日介绍,他所研发的人工智能管家系统“贾维斯”(Jarvis)已经上线,这个系统不仅能控制家中播放的音乐,还能辨识访客以决定是否打开家门。
虽然这人工智能助手大部分时候还比较不错,但在语音交互环节则不太理想,对此媒体做了如下报道:
扎克伯格还建立了响应语音指令的系统,并通过定制iOS应用控制。但这部分展示不太理想,他重复了四次指令才让系统弄明白:天黑前不要开灯。扎克伯格略显尴尬地说:“喔,这应该是它最失败的表现了!”。
不过,Jarvis播放音乐的展示还算成功。扎克伯格下令:“给我们放段音乐吧!”几秒钟后,大卫·库塔(David Guetta)的《Would I Lie to You》开始通过客厅扬声器响起来。他说了两次“把音量调高”后,系统照做无误。最后,他同样说了两次才让系统停止播放。
这非常有意思,因为从新闻来看“天黑前不要开灯”和“把音量调高”的失误显然都不是命令理解(语义)上有问题,否则你说八百遍Jarvis该不好使还是不好使。如果不是语义的问题,那显然就会和各大公司所宣称的已经被解决的问题:语音识别有关。
标准环境解决≠真实效果好
关于语音识别的精度2016年官方的报道一般是这样的:
2016年11月21日到23日,搜狗、百度和科大讯飞三家公司接连召开了三场发布会向外界展示了自己在语音识别和机器翻译等方面的最新进展。值得注意的是,这三家公司几乎在同一时段宣布了各自中文语音识别准确率达到了97%。
类似的报道也会发生在微软等的身上,我们假设Facebook做的不是太差,水平也与此类似达到97%的准确率。97%的具体含义是100个单词上只有3个错误(删除、被替换、被插入),那么问题就来了,如果真实环境里真的达到了这个精度,那么小扎的演示绝对不应该是上面这个样子。
那问题出在那里?
关键问题并不复杂,扎克伯格用手机当做家庭里的终端,这样距离稍微一远,环境稍微嘈杂一点,那再好的手机也没办法帮Jarvis听清楚你在说什么。手机本身是设计给近场用的,手机上的语音识别基本也是给近场优化过的,怎么也不能弥补远场上带来的不适应。
扎克伯格表示,语音识别更多时候是专门场景下好用,想做一个万能的版本仍然还很遥远。语音识别只能做限定场景的最佳。
但事实上扎克伯格仍然只认识到了部分问题,因为单纯靠改善语音识别比如做一个匹配远场的版本也还根本解决不了他遇到的问题(上面说的重复指示几次系统才起作用问题)。我们可以注意到开始播放音乐之后,报道中提到的两条命令都需要重复两次,这很可能是音乐自身对语音识别形成了干扰,这种情形下单纯的优化语音识别(不管远场还是近场)是解决不了问题的。
扎克伯格下面的路
如果扎克伯格不放弃这事,而是持续对此进行改善,那下面会发生什么?他可能会掉到坑里面。他用了150小时做到上面那程度,但很可能再花1500小时,效果并没有实质性改善。
整个语音交互事实上依赖于三层:声学的信号处理(麦克风阵列+声学算法),语音识别(SR),自然语言理解(NLU)。扎克伯格演示时的问题核心原因不在于自然语言理解(语义),而在于声学与语音识别。声学和语音识别的关系可以大致类比成耳朵和大脑,如果声学部分的信号很差,那相当于耳朵不好使,基本语音识别的算法再怎么好也不可能把命令是什么弄清楚。
扎克伯格如果要优化效果,那么基本方法有下面几类:
一种可能是扎克伯格觉得真实场景下的信号优化(声学、硬件等)也没什么,找几个人做做就完了,如果这么想Facebook可能会自己组建个硬件、声学团队来做Echo Dot那样的终端。但这么做很可能短期就不会有下次演示了。因为让语音识别匹配前端声学信号是容易的,但反过来让牵涉硬件和物理的声学来适应语音识别则基本会做挂。
而在互联网公司里通常后端偏算法的势力会大,所以很容易走到前面那条路上去。中国的大公司很容易走上这条路,但从分工习惯来看,国外公司更愿意在技术栈上卡住特定位置,非自己核心的部分会更愿意开放给其它人,所以扎克伯格这么干的可能性不高,除非他觉得自己也得搞Amazon Echo那种产品了。
一种可能是扎克伯格和深度学习科学家思路一致,认为所有东西都可以通过深度学习在云端算法层面来解决。这种思路下,就会通过深度学习来做降噪等信号层面的工作,用算法挑战各种物理层面的问题。
如果走上这条路,那估计短期也不会有下次演示了,因为他碰到的问题并非单纯的降噪问题,回声抵消、Beamforming、降噪、声源定向这些东西是关联在一起的,指望深度学习短期突破这些问题更像科研上的一种设想而非工程上的一种实践。“设想”是说可以成为一种探索的思路,但结果完全没谱,高度不确定,相当于把不确定性引入产品开发之中。
一种可能是扎克伯格走下一步的时候想的很清楚,知道自己这类公司的能力边界,因此把这部分开放出去,让专业的人做专业的事。物理的事情归物理,算法的事情归算法,这样的话就会满世界找声学和远场语音识别供货商,但这反倒是最快的一种方式。
不知道扎克伯格具体会走那条路,如果是最后一种,声智科技这样的公司应该会很快收到消息。
(如需转载,请注明来源自 科技世界网)