智能语音应用是移动互联领域的绝对热点之一。除了Siri、Google Now、微软必应添加的语音搜索功能外,从2012年到今年,中国市场陆续出现百度语音助手、搜狗语音助手、盛大的“百灵语音助手”、“讯飞语点”与“讯飞语音助手”、“灵犀”助手、虫洞语音助手、智能360等等。其中既有国际IT巨头、互联网大佬,也有二三十人的创业团队,市场堪称火爆。然而,无论是类似苹果的“大牛”,还是口碑相传的智能360,都没有带动语音成为移动互联的入口。语音应用能否成为下一个移动应用入口,还要经过技术和市场的双重考验。
搜索引擎企业是主力军
在进军智能语音应用的诸多企业中,不难发现,搜索引擎公司是主力军。
谷歌、百度、搜狗、微软相继在语音产品上投入大量人力物力,还不断更新和升级产品的多种形态。谷歌先是在桌面端推出了语音Google Now,后又在移动端推出了安卓版和iOS版的谷歌语音搜索,其语音搜索的功能甚至比苹果手机上的Siri还要强大。
百度在去年试水语音搜索之后,很快又在今年初发布了手机语音助手。百度多媒体部门负责人余凯接受《中国电子报》记者采访时表示,百度高度重视语音产品,甚至成立百度有史以来第一个研究院,专注于开发与语音识别密切相关的深度学习技术。目前,百度搜索APP的装机量破亿,语音搜索已经占整个移动搜索相当可观的流量。
搜狗的语音搜索面市比百度还要早,与谷歌、百度等巨头相比,目前它更多的是采用与第三方合作来解决自己缺少的语音识别这一技术前端。
虽然苹果的Siri最先入市,但是在搜索巨头们看来,它似乎后劲不足。例如谷歌在iPhone5里更新的iOS版谷歌搜索应用,增加了语音搜索功能。在用户的测试中,它的反映速度比Siri要快得多,语音识别功能也得到了加强。分析师们认为,谷歌的语音搜索已经有力渗入Siri市场,而苹果 Siri目前仍处于Beta阶段,时时会找不到用户需要的答案,失误的原因就在于它没有使用谷歌的技术。在它找不到答案时,就提示用户使用谷歌搜索引擎。
到目前,Siri的中文识别率效果依然不够理想。但苹果作为一家主要通过硬件销售来盈利的公司,成功地把Siri作为苹果产品的新亮点来吸引用户,提高市场销售量;而搜索引擎公司做语音应用是为了卖服务,用户体验好不好就成为服务是否畅销的关键。
说到语音产品,不能不提在语音技术上领先国内的科大讯飞。科大讯飞在2011年就紧跟Siri推出了语音云平台,希望藉此开放性的平台,一是吸引众多开发者开发语音交互产品,二是打造语音应用的生态圈,使自己成为平台型企业。科大讯飞副总裁江涛向《中国电子报》记者透露,到目前为止,讯飞语音云注册用户突破1.5亿。此外,讯飞语点、语音助手、和中国移动合作的“灵犀”产品相继问世,动作频频。
深度学习是技术突破关键
虽然苹果、谷歌、百度等这些巨型企业纷纷以非常认真的态度投入语音应用,语音用户市场还是发展缓慢,更谈不上达到流量变现的程度,主要原因是语音技术的高门槛和市场链条的高度复杂性。
语音应用分为几个技术环节:语音识别、语义理解、搜索,每个环节的技术难度系数很高。以百度的语音助手为例,用户对它的需求大致分为3类:第一类是指令性的需求,包括打电话、发短信、发微博等;第二类是搜索需求,其中分为垂直搜索需求、通用搜索需求、知识类搜索需求,例如用户如果希望播放某首歌,就进入百度音乐等垂直搜索,如果是综合类的搜索需求,就进入百度的搜索引擎,如果是知识类需求,例如“世界最长的河流是哪个”,语音助手就会进入知识库给出结果;第三类是调侃类的需求,百度有互动性的资源,例如“小黄鸡”等。
余凯告诉《中国电子报》记者,为了完成语音助手应用,百度集成了深度学习、自然语言处理技术以及搜索引擎处理技术。由于综合采用了各项前沿技术,百度的语音综合识别准确率大大提升,是国内语音识别技术最好的公司之一。
深度学习技术是关键。余凯坦言,相对于其他在语音技术上长期耕耘的公司,百度的语音团队规模较小,介入该领域才几年,能有如此自信心在语音市场广泛布局,就是基于百度的云基础、大数据和深度学习。云的硬件设施和大数据并不新鲜,但是深度学习为语音识别等多种技术带来了质的飞跃。“我们跟进的速度很快,有能力对大量的训练语料做很好地学习。”据了解,深度学习对于语音识别率的提升程度超过了过去20年所有提升的总和。
生态系建设是重大难题
除了技术方面的拦路虎,语音应用还面临商业模式、生态圈建设的重大难题。
从桌面时代转变到移动时代,全新的语音搜索和语音助手也需要新的商业模式。余凯告诉《中国电子报》记者:“页面搜索时代,主要是将结果找出来; 语音助手时代,更多是帮助用户完成一个任务,更加智能化。过去只是将网页给用户,搜索引擎就不管了,但是到了移动时代,搜索引擎需要将所有的信息源进行智能整合加工,返回综合的结果,让用户直接可以获取答案,打电话、购物等,这中间的环节涉及很多不同领域的企业和开发者,我们需要将所有的生态链打通,覆盖用户体验的完整路径。”在余凯看来,未来语音将是重要的入口,最后就看谁有足够的资源、足够的耐心和足够的能力。
因为要涉及所有的上下游环节,语音产品就需要和很多开发者、企业合作。语音助手现在仅仅是移动终端的一个APP,并没有嵌入到终端的操作系统中去。例如打电话的需求,语音助手要调用本地API。需要指出的是,谷歌凭借强大的Android系统,具备将语音功能在操作系统层面实现的能力。
显然,相对百度和谷歌这样的全方位发展,科大讯飞就专注于自己擅长的领域了。江涛告诉《中国电子报》记者,讯飞只做语音识别、自然语言理解这些入口层的技术,后端的服务就转给擅长处理该需求的合作伙伴来做。