错误率仅3.7%!百度深度语音识别技术超谷歌
2016-06-14 10:19:00   来源:中国新闻网
内容摘要
更多人使用语音命令是市场发展的一个方向,尤其是在物联网领域,语音识别技术的研究是把握市场先机的一个必要手段。百度硅谷人工智能实验室研发的新一代深度语音识别系统Deep Speech2技术已经超过谷歌,错误率为3.7%,低于谷歌的8%。

错误率仅3.7%!百度深度语音识别技术超谷歌 科技世界网


谷歌和百度在竞相开发语音识别技术,希望能成为这一市场上的领头羊。不过,最新报道指出,尽管谷歌有巨大的投资和技术,但是目前能进行语音识别的百度已经超过其美国竞争对手。

根据最新报告,百度的Deep Speech 2错误率仅为3.7%,而谷歌则在8%左右。还入选《麻省理工评论》2016年十大突破技术。

由于汉字通过微型触摸屏进行输入的过程耗时且十分繁琐,因此,中国是发展语音接口的理想市场。但是,汉语语音识别字符数据量大,声调的不同往往还会影响词的意思,技术上很难进行准确识别。而百度通过收集整理大量数据,省去复杂的预处理环节,直接输入音频文件,再通过深度神经网络输出字符,从而大大提高系统运算效率。目前该系统还在收集更多方言及口音信息,扩大训练数据。

利用深度学习算法,Deep Speech 2能实现英-汉互译。另外,Deep Speech 2还能处理“混合语言”,比如人们在说中文时会夹杂着英文。

据悉,百度深度语音识别系统于2015年12月推出,当时百度曾宣布文字显示比谷歌的技术更有效。

另外,阿里巴巴和腾讯是中国另外两家开发语音识别技术的公司,对它们技术的关注和媒体报道不如百度。


探讨人工智能、深度学习、大数据等术语


错误率仅3.7%!百度深度语音识别技术超谷歌 科技世界网个人计算机已经不再酷了,所有都是与“云”、“大数据”以及“深度学习”有关的东西。这些新术语让你困惑了?那么让我们一起去重新定义这些术语,并看看他们对投资者又意味着什么。


“The cloud(云计算)”——在这里,这个概念并不是指购买应用然后将其安装至你的计算机上,而是根据你的需求租赁应用并使用互联网访问它们。就是这样,这就是“云计算”。你可能听过“software as a service(软件即服务)”这个术语,它有个很酷的缩写“Saas”。本质上是一样的。它是一种集中式托管软件,可以通过订阅来获得服务。如今这条船已经开始为投资者扬帆起航,CRM Saas提供商Salesforce.com表示在10年里返利高达780%。对于投资者而言,“云计算”和“Saas”已经是过时的新闻了,他们正在寻找计算领域中下一个大目标。


“Big Data(大数据)”——“大数据”指的是新技术带来的海量数据,比如“物联网”和基因组学。这些数据集如此之大,如此复杂,以至于我们不能用传统的应用程序对其进行分析。我们需要建立新的应用程序来分析这些“大数据”。在最近一篇文章里,我们看了看5大数据存储公司的收入,寻找“picks and shovels(镐和铲子,指的是那些在特定行业或商品中提供重要工具、产品或服务的公司)”在这个行业中扮演的角色。这些公司做的投资,似乎只有一家可行。也许如今这个领域最大的玩家是Palantir Technologies,一家估值高达250亿美元的私人企业,这应该更能诠释“大数据”的含义。众所周知,存储数据是一回事,分析它则又是另一回事,因为现在80%的数据都不是结构化数据,如新闻文章,研究报告,和企业数据。这将引出下一个术语。


“Deep Learning(深度学习)”——本质上,我们可以让计算机存储所有非结构化的大数据,然后使用不同的方法,如“人工神经网络”,来模仿人类大脑的工作方式。深度学习在“大数据”中使用算法寻找复杂的关系,然后我们进一步完善这些算法,使它们表现的更加出色。计算机可以在已有经验的基础上随着时间不断学习更多的能力,就像大脑会自然而然地做一些事情,也称作“认知计算”。我们大概都听说过IBM的认知计算平台Watson,它将深度学习技术应用到翻译以及语音和文本的相互转换领域。虽然还没有人纯粹地将“深度学习”应用到我们熟知的股票行业,但如今已有相当多的初创公司正在尝试将深度学习应用到不同行业。深度学习或认知计算是人工智能的一种形式,它将带我们进入下一个术语。


错误率仅3.7%!百度深度语音识别技术超谷歌 科技世界网Artificial Intelligence(人工智能)——在这个领域,计算机开始处理数据,并从中推断复杂的关系,就像人类那样。那么我们应该如何去衡量结果的好坏呢?最常用的方法也就是“图灵测试”,尽管一些研究人员认为这是业余爱好者才会感兴趣的问题。虽然IBM是人工智能专利的领先持有者(500+),但在人工智能领域仍有许多其它初创公司,比如我们之前强调的Vicarious公司,几乎所有人都支持它。Vicarious公司主要是创建软件代码,然后使用相对小的数据量和计算能力来复制人类大脑。然而现在使用极小的计算能力很有意义,如果我们可以掌握量子计算,那么这将不是一个问题。


Quantum Computing(量子计算)——我们可以利用奇妙的量子物理,建立一台比我们今天所拥有的任何东西更为强大的计算机。我们可以开始讨论“量子纠缠(quantum entanglement)”以及把东西冻结到绝对零度需要什么,可谁会关心这些呢。量子计算有什么潜力?我们今天又在哪里呢?就在最近,谷歌宣布,他们利用D-Wave 2来解决一个优化问题(有1000个变量),比传统计算机快1亿倍。形象的来说,传统计算机需要处理10000年的事情D-Wave 2只需1秒就能完成。所以你该如何投资量子计算?商界没有太多的游戏,但在这篇文章我们会给你提供一个投资方式。


语音识别的未来

错误率仅3.7%!百度深度语音识别技术超谷歌 科技世界网


正确识别语音,完成输入和控制,这个东西有一定前途,但是限于其他模式不方便的时候,譬如智能家居,汽车上面,距离太远不便动手,或者手在忙着的时候。

而语义理解,人机对话则是革命性的东西。这个东西集合上简单的机器控制,意味着人类大部分服务业与窗口行业都可以被替代。

未来,KFC可能只要现在10%的人手,复杂把原料按照规定投进机器就可以了。点餐加工送餐收款全部由人工智能完成。一家超市,除了保安需要人类以外,可以用无人仓库加人工智能收银员。

语音识别的未来将我们的生活将发生颠覆性的改变。而把握住这个机会的企业,也将成为下一个时代的弄潮儿。(如需转载,请注明来源自科技世界网)