国内外语音识别行业最全盘点及技术分析和预测

君临天下 · 发表于 2016-8-25 09:42:29

国内外语音识别行业最全盘点及技术分析和预测

随着机器学习和人工智能的热闹，国内语音行业也可谓是百花齐放，尤其是最近几年，不仅涌现了很多国内外的小公司，而且巨头们也开始加速语音识别行业的布局。本文就详细盘点一番国内外的大型公司，并对他们掌握的技术进行分析，同时预测一下未来的语音识别趋势，期望带给行业内外的专业人士些许参考，借此更进一步推进整个行业的发展。

1 国外语音识别行业收购盘点和技术分析

传统语音识别行业贵族Nuance逐渐没落

任何时候提到语音识别，都不能避过Nuance这家公司，这家公司曾经在语音领域一统江湖，世界上有超过80%的语音识别都用过Nuance识别引擎技术，其语音产品可以支持超过50种语言，在全球拥有超过20亿用户，几乎垄断了金融和电信行业。就算现在，仍旧是瘦死的骆驼比马大，Nuance依旧是全球最大的语音技术公司，掌握着全球最多的语音技术专利。苹果语音助手Siri、三星语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心，刚开始都是采用他们的语音识别引擎技术。Nuance已经登陆了纳斯达克，三星、苹果和百度都和它传过绯闻，传言多次收购，但是全都无疾而终。

事实上，Nuance有点过于自大了，语音技术即便冠绝全球，但是在具体应用上，差距就没有那么大了。语音识别技术并非高不可攀，实际上一款用户体验较好的语音识别系统，很大程度上依靠数据和经验，专利和算法什么的并没有那么重要。聪明人自然很多，所以巨头们只需考虑挖到专业人士或者收购初创公司，自主研发出不逊于Nuance的语音识别技术也不是太难的事情，又何必花费巨资看Nuance脸色呢。

苹果收购Siri、NovaurisTechnologies、VocallQ和Emotient

苹果的Siri已经鼎鼎大名了，也算世界上语音识别的执牛耳者。Siri并不是苹果自己研发的技术，而是2010年苹果收购Siri Inc.公司的产品，2011年苹果将该技术融入到iPhone 4S中并发布了Siri语音助理。Siri Inc.这家公司成立于2007年，原本核心技术是CALO人工智能项目。当然Siri刚开始发布的时候语音识别的体验还很差，众多果粉也是四处吐槽。因此2013年苹果又收购了语音识别公司NovaurisTechnologies。Novauris是一种可识别整个短语的语音识别技术，这种技术并非简单识别单个词句，而是试图利用超过2.45亿个短语的识别辅助理解上下文，当然这是很有难度的一件事情。不管怎样，这次收购也让苹果进一步完善了Siri的功能。

但是这还是不够，因此2015年苹果又收购了英国语音技术初创公司VocalIQ。VocalIQ开发的人工智能软件，能够帮助计算机与用户进行更为自然的对话。VocalIQ使用机器学习（machinelearning）开发虚拟助手，将语音处理和机器学习技术整合到可穿戴设备、家庭联网设备当中的同时，这家公司还特别关注车载应用的开发。这次收购也证实了苹果将来迈入汽车领域的决心。Siri应该是通用语音识别领域用户体验当前较好的产品，特别是在儿童语音识别领域，这也得益于苹果极易上手的特性吸引了众多小朋友，也包括笔者家里的小朋友。

当然，Siri还是距离我们的实际应用需求还差很远，因此苹果最近又收购了美国圣地牙哥AI 技术公司 Emotient，接收其脸部表情分析与情绪辨别技术。据悉，Emotient开发的情绪引擎可读取人们的面部表情并且预测其情绪状态。

君临天下 · 发表于 2016-8-25 09:43:08

谷歌收购SayNow，PhoneticArts，Wavii，SRTech Group及出门问问

这个领域当然少不了大名鼎鼎的谷歌，但是谷歌动作稍微迟缓，2011年谷歌才出手收购语音通信公司SayNow和语音合成公司PhoneticArts。SayNow可以把语音通信、点对点对话、以及群组通话和Facebook、Twitter、MySpace、Android和 iPhone等等应用等整合在一起，而PhoneticArts可以把录制的语音对话转化成语音库，然后把这些声音结合到一起，从而生成听上去非常逼真的人声对话。

当然，这才只是开始，实际上语音技术远没那么简单，因此2013年谷歌以超过3000万美元收购了新闻阅读应用开发商Wavii。Wavii擅长“自然语言处理”技术，可以通过扫描互联网发现新闻，并直接给出一句话摘要及链接。但是谷歌忙活了这么久，似乎还没真正介入语音识别行业，因此谷歌还收购了SRTech Group 的多项语音识别相关的专利，这些技术和专利谷歌也很快应用到市场，比如YouTube已提供标题自动语音转录支持，GoogleGlass使用了语音控制技术，Android也整合了语音识别技术等等，GoogleNow更是拥有了完整的语音识别引擎。但是相比苹果的战略布局，谷歌总喜欢玩花样，似乎战略考虑上欠缺一些。谷歌似乎也意识到了这个问题，因此2015年入资了中国的出门问问，这是一款以语音导航为主的公司，最近也发布了智能手表，出门问问也有国内著名声学器件厂商歌尔声学的背景，谷歌的这个动作也被认为是谷歌重返中国的策略。

亚马逊收购Yap，Evi，IvonaSoftware

Amazon放在此处凸显重要，这可是一家最有可能把语音识别落地到消费市场的巨头。Amazon的语音技术起步于2011年收购语音识别公司Yap，Yap成立于2006年，主要提供语音转换文本的服务。2012年Amazon又收购了语音技术公司Evi，继续加强语音识别在商品搜索方面的应用，不得不提的是，Evi这家公司也曾经应用过Nuance的语音识别技术。2013年，Amazon继续收购语音技术公司IvonaSoftware，Ivona是一家波兰公司，主要做文本语音转换，其技术已被应用在KindleFire的文本至语音转换功能、语音命令和Exploreby Touch应用之中，其最近推出的智能音箱Echo也是利用了这项技术。

Facebook收购MobileTechnologies和Wit.ai

Facebook也是巨头了，任何视频平台无论如何都不能忽略了声学技术，因此Facebook在2013年收购了语音识别公司MobileTechnologies。MobileTechnologies是一家创业型的小公司，其产品Jibbigo允许用户在25种语言中进行选择，使用其中一种语言进行语音片段录制或文本输入，然后将翻译显示在屏幕上，同时根据选择的语言大声朗读出来。这一技术使得Jibbigo成为出国旅游的常用工具，很好地代替了常用语手册。当然这远不能满足Facebook的野心，Facebook继续收购了语音识别公司Wit.ai。Wit.ai是一家语音交互解决方案服务商，允许用户直接通过语音来控制移动应用程序、穿戴设备和机器人，以及几乎任何智能设备。简单来说，就是“能把语言转化为可操作的数据”。当然Facebook的想法也很简单，将这种技术应用到定向广告之中，这种巨头更希望将技术和自己的商业模式紧密结合在一起。

君临天下 · 发表于 2016-8-25 09:47:11

微软战略发展Skype、Cortana和微软小冰

微软这个总是以发论文为自豪的公司，技术自然很牛，也给国内这个行业培养了很多人才。例如SkypeTranslator，起初是为英语和西班牙语用户提供实时翻译服务，后来开始支持汉语和意大利语两种语言。Skype计划在所有相关的平台上翻译尽可能多的语言，从而带来与电影《星际迷航》中一样的智能翻译工具，这个宏伟目标也只有这种不差钱的土豪才能说出来，万一实现了呢？

当然微软最吸引眼球的并非Skype，而是微软的Cortana和微软小冰。Cortana是一款个人用户助理，是微软在机器学习和人工智能领域方面的尝试。Cortana可以记录用户的行为和使用习惯，利用云计算、搜索引擎和“非结构化数据”分析，读取和学习包括手机中的文本文件、电子邮件、图片、视频等数据，来理解用户的语义和语境，从而实现人机交互。而微软小冰是微软亚洲研究院2014年发布的人工智能机器人，微软小冰除了智能对话之外，还兼具群提醒、百科、天气、星座、笑话、交通指南、餐饮点评等实用技能，实际上，这个被微软亚洲研究院定位于18岁少女的小冰，被训练的更具有女流氓气质。

国外其他行业的巨头也加入收购

另外还有一些巨头也相继进入语音这个行业，例如2013年英特尔收购了西班牙的语音识别技术公司Indisys，同年雅虎也收购了自然语言处理技术初创公司SkyPhrase。而美国最大的有线电视公司Comcast也开始推出自己的语音识别交互系统。Comcast希望利用语音识别技术让用户通过语音就可以更自由控制电视，并完成一些遥控器无法完成的事情，例如用户可以对着电视说出一些关键词，就可以从他们的DVR中找出相关的视频，而且这也将支持Comcast直播的电视节目。

2 国内语音识别行业的发展和技术分析

科大讯飞：中科院典范，站稳教育市场

科大讯飞是目前国内最有影响力的语音技术公司，成立于1999年底，依靠中科大的语音处理技术以及国家的大力扶持，很快就走上了正轨。在2008年的时候就已经挂牌上市，目前市值接近500亿，根据2014年语音产业联盟的数据调查显示，科大讯飞占据了超过60%的市场份额，绝对是语音技术的龙头企业。一提到科大讯飞，可能大家想到的都是语音识别很牛，但其实它最大的收益来源是教育，特别是在2013年左右，收购了很多家语音评测公司，包括启明科技等，对教育市场形成了垄断，经过一系列的收购后，目前所有省份的口语评测用的都是科大讯飞的引擎，由于其占据了考试的制高点，所有的学校及家长都愿意为其买单。这种局面很难打破，所以其霸主的地位也很难撼动。

百度语音：有钱任性，技术实力很强大

百度语音这个怎么描述才好呢，百度语音其实很早就被确立为战略方向，2010年与中科院声学所合作研发语音识别技术，但是市场发展相对缓慢。百度几乎成为了很多归国人员刷简历的跳板，包括一些高层，其简历表上都被各大巨头公司排满了。但这对公司来说，有个卵用。因此直到2014年，百度重新梳理了战略，终于找对了人，请来了人工智能领域的泰斗级大师吴恩达，正式组建了语音团队，专门研究语音相关技术，由于有百度强大的资金支持，到目前为止收获颇丰，斩获了近13%的市场份额，其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。

捷通和信利：也是老牌，发展却很坎坷

同样也是在2000年左右，还有两家公司也相继成立，这就是捷通华声和中科信利。捷通华声凭借的是清华技术，成立初期力邀中科院声学所的吕士楠老先生加入，奠定了语音合成的基础。中科信利则完全依托于中科院声学所，其成立初期技术实力极为雄厚，不仅为国内语音识别行业培养了大量人才，而且也在行业领域，特别是军工领域发挥着至关重要的作用。中科院声学所培养的这些人才，对于国内语音识别行业的发展极为重要，姑且称之为声学系，但是相对于市场来说，这两家公司已经落后了科大讯飞一大段距离。中科信利由于还有行业市场背景，目前基本上不再参与市场运作，而捷通华声最近也因为南大电子“娇娇”机器人的造假事件被推上了风口浪尖，着实是一个非常负面的影响。声学相关类公司不同于其他行业，技术才是其发展壮大的根基。

君临天下 · 发表于 2016-8-25 09:47:27

思必驰：放弃教育市场，进军智能硬件

在2009年左右，DNN被用于语音识别领域，语音识别率得到大幅提升，识别率突破90%，达到商用标准，这极大的推动了语音识别领域的发展，这几年内又先后成立许多语音识别相关的创业公司。成立较早一点的是思必驰，2007年成立，创始人大部分来源于剑桥团队，其技术有一定的国外基础，当时公司主要侧重于语音评测，也就是教育，但经过多年的发展，虽然占有了一些市场，但在科大讯飞把持着考试制高点的情况下，也很难得到突破。于是在2014年的时候，思必驰痛下决心将负责教育行业的部门剥离，以9000万卖给了网龙，自己则把精力收缩专注智能硬件和移动互联网，最近更是集中精力聚焦车载语音助手，推出了“萝卜”，可市场反响非常一般。虽然思必驰最近获得了阿里战略注资，但是笔者访问其官网的时候，却发现放在首要位置的竟是小智音箱，不知道这个卖了没几台的音箱能带给思必驰什么？

云知声：融资迅猛，就是不见落地

借着2011年苹果Siri的宣传势头，2012年云知声成立。云知声团队主要来源于盛大研究院，凑巧的是CEO和CTO也是中科大毕业，与科大讯飞可以说是师兄弟。但语音识别技术则更多的源于中科院自动化所，其语音识别技术有一定的独到之处，有一小段时期内语音识别率甚至超越科大讯飞。因此也受到了资本的热捧，B轮融资达到3亿，主要瞄准智能家居市场。但至今已经成立了3年多，听到的更多是宣传，市场发展较为缓慢，B2B市场始终不见起色，B2C市场也很少听到实际应用，估计目前还处在烧钱阶段。但是这样个烧法总是危险，科大讯飞已经上市暂且不论，思必驰和出门问问也怀抱巨资试图落地，而且语音识别行业这个玩法，国内巨头必然也会学习国外巨头的思路，显然收购初创企业拥有更多话语权，相对更为实在。

出门问问：歌尔和谷歌入资，主打移动

出门问问也是成立于2012年，其CEO曾经在谷歌工作，在拿到红杉资本和真格基金的天使投资之后，从谷歌辞职创办了上海羽扇智信息科技有限公司，并立志打造下一代移动语音搜索产品——“出门问问”。出门问问的成功之处便是苹果APP的榜单排名，但是笔者不知道有那么多内置地图的情况下，为啥还要下载这个软件，显然有时候比直接查找地图还要麻烦。出门问问同样也具有较强的融资能力，2015年更是拿到了Google的C轮融资，融资额累计已经7500万美元。出门问问主要瞄准可穿戴市场，最近自己也推出了智能手表等产品，但也是雷声大，雨点小，没见得其智能手表的销量如何。

再数数其他的一些业界公司

语音识别的门槛并不高，声学在线很多文章里提到过，因此国内各大公司也逐渐加入进来。搜狗开始采用的是云知声的语音识别引擎，但很快就搭建起自己的语音识别引擎，主要应用于搜狗输入法，效果也还可以。腾讯当然不会落后，微信也建立了自己语音识别引擎，用于将语音转换为文字，但这个做的还是有点差距，想必大家也都体验过。阿里，爱奇艺，360，乐视等等也都在搭建自己的语音识别引擎，但这些大公司更多的是自研自用，基本上技术上泛善可陈，业界也没有什么影响力。

君临天下 · 发表于 2016-8-25 09:47:35

3国内外巨头布局语音识别的策略差异

上面历数了国内外各个巨头陆续建立语音识别引擎的过程和优势技术，有一点我们还是要特别留意一下：国外巨头欲进入语音识别行业，首先想到的就是收购初创的团队，这些团队大都也在5-20人之间，掌握着一定的优势技术。显然收购一家初创团队很难满足其战略发展，因此一旦技术与公司业务融合以后，这些巨头都会频繁出手再次收购以补齐短板，逐渐建立起适合自己公司发展的语音识别优势。

对于技术相对重要而且技术点又比较分散的科技型公司，国外巨头一般不会采取收购商业模式公司的那种大手笔来收购，这也是导致Nuance最终无人问津的重要因素。想想也是，巨头自然不会用别人家引擎以免将来掣肘，何况收购技术类的大型公司无疑也是给自己找了个麻烦。

国内的语音识别发展脉路没有那么清晰，刚开始各个巨头也都是采用专用公司比如科大讯飞、中科信利、云知声等公司的引擎。后来醒悟过来，纷纷谋求自建，但是除了百度不断砸入重金后获得了一定的效果外，其他自建的各大公司没有啥实质性进展。这一点从他们试图低薪聘请语音识别相关人才的策略上，也可知道其战略上没什么可发展的。语音识别行业属于声学和计算机的交叉技术，本来培养的人才就很稀缺，而从上述分析可以看出，国内外的技术源头实际上大概集中，无非就是业界相关的研究机构和拥有研发实力的巨头公司。

4 语音识别行业平衡之下的技术发展趋势

语音识别行业现在似乎维持着最大的平衡，因为国内外各家的引擎识别率都基本在同一个水平线上，差不多达到了当前语音识别技术的极限，彼此之间差距不是那么明显。本来苹果发布Siri被寄予厚望，这是将语音技术进行大众推广的绝佳良机，但是Siri的表现却与预期相差甚远。即便国内非常火热的微信，其中又有几人使用，甚至知道其中的语音识别技术呢？倒是同样源自声学技术的微信摇一摇功能非常火热。

这个技术相对语音识别来说，简直就是小巫见大巫，但是应用场景契合的很好。因此，传统的语音识别行业公司都在谋求转型发展，比如Nuance、科大讯飞等，转型失败或者技术储备不足的，或许将来就是最早倒下的，而且这几年也有不少家类似公司倒下了。

未来的语音识别市场，预计将会有越来越多的公司参与，以后语音识别的性能可能更多的体现在前端技术和语义理解上。机器要与人自然交流，当然就不能重复手机这套语音对话规则，必然就要考虑到用户说话的环境、周围环境的噪音、用户发音不准或者方言等等诸多因素，这就要求前端技术更加精准的模拟人体结构，仿真出机器人听觉系统，以实现解放双手自由对话的目的。

另外，机器能不能与人自由的交流，不仅需要机器能将语音转换成文字，更需要机器从文字中理解说话人的含义，这一方面是基于大样本的机器学习需要更进一步，另外一方面也需要小样本的自主学习，没有举一反三的功能，似乎语义理解也无法自主适应陌生的环境。这两个新兴的技术领域，或许又会孕育出几家独角兽企业，将真正推动语音从识别走向交互的自然体验，从而向着人工智能再次迈进一步。

君临天下 · 发表于 2016-8-25 09:48:28

相关知识：语音识别

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

简介
与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。　语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

发展史

1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。
大规模的语音识别研究是在进入了70年代以后，在小词汇量、孤立词的识别方面取得了实质性的进展。
进入80年代以后，研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化，即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM）的技术思路。此外，再次提出了将神经网络技术引入语音识别问题的技术思路。
进入90年代以后，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展。
DARPA(Defense Advanced Research Projects Agency）是在70年代由美国国防部远景研究计划局资助的一项10年计划，其旨在支持语言理解系统的研究开发工作。
到了80年代，美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划，其中包括噪声下的语音识别和会话（口语）识别系统，识别任务设定为“（1000单词）连续语音数据库管理”。
到了90年代，这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分，识别任务设定为“航空旅行信息检索”。
日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标，虽然没能实现预期目标，但是有关语音识别技术的研究有了大幅度的加强和进展。
1987年起，日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。

中国发展
中国的语音识别研究起始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。
进入80年代以后，随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去。
1986年3月中国高科技发展计划（863计划）启动，语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在863计划的支持下，中国开始了有组织的语音识别技术的研究，并决定了每隔两年召开一次语音识别的专题会议。从此中国的语音识别技术进入了一个前所未有的发展阶段。

识别模式
这一时期的语音识别方法基本上是采用传统的模式识别策略。其中以苏联的Velichko和Zagoruyko、日本的迫江和千叶，以及当时在美国的板仓等人的研究工作最具有代表性。
· 苏联的研究为模式识别应用于语音识别这一领域奠定了基础；
· 日本的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式之间进行非线性时间匹配的方法；
·板仓的研究提出了如何将线性预测分析技术（LPC）加以扩展，使之用于语音信号的特征抽取的方法。

数据库
在语音识别的研究发展过程中，相关研究人员根据不同语言的发音特点，设计和制作了以汉语（包括不同方言）、英语等各类语言的语音数据库，这些语音数据库可以为国内外有关的科研单位和大学进行汉语连续语音识别算法研究、系统设计、及产业化工作提供充分、科学的训练语音样本。例如：MIT Media lab Speech Dataset（麻省理工学院媒体实验室语音数据集）、Pitch and Voicing Estimates for Aurora 2(Aurora2语音库的基因周期和声调估计）、Congressional speech data（国会语音数据）、Mandarin Speech Frame Data（普通话语音帧数据）、用于测试盲源分离算法的语音数据等。

技术发展
目前在大词汇语音识别方面处于领先地位的IBM语音研究小组，就是在70年代开始了它的大词汇语音识别研究工作的。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验。这一研究历经10年，其成果是确立了如何制作用于非特定人语音识别的标准模板的方法。
这一时期所取得的重大进展有：
⑴隐式马尔科夫模型（HMM）技术的成熟和不断完善成为语音识别的主流方法。
⑵以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候，除了识别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解。同时在语音识别研究领域，还产生了基于统计概率的语言模型。
⑶人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播算法（BP算法）的多层感知网络。人工神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分。特别是在电话语音识别方面，由于其有着广泛的应用前景，成了当前语音识别应用的一个热点。
另外，面向个人用途的连续语音听写机技术也日趋完善。这方面，最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力，新用户不需要对全部词汇进行训练，便可在使用中不断提高识别率。
中国的语音识别技术的发展：　⑴在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。
⑵现在，国内有不少语音识别系统已研制成功。这些系统的性能各具特色。
· 在孤立字大词汇量语音识别方面，最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。
· 在连续语音识别方面，91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。
·在非特定人语音识别方面，有清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。

君临天下 · 发表于 2016-8-25 09:49:01

分类应用
根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别（isolated word recognition），关键词识别（或称关键词检出，keyword spotting）和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。
根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。显然，非特定人语音识别系统更符合实际需要，但它要比针对特定人的识别困难得多。
另外，根据语音设备和通道，可以分为桌面（PC）语音识别、电话语音识别和嵌入式设备（手机、PDA等）语音识别。不同的采集通道会使人的发音的声学特性发生变形，因此需要构造各自的识别系统。
语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

识别方法
语音识别方法主要是模式匹配法。
在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。
在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。
主要问题
语音识别主要有以下五个问题：
⒈对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位，其次要建立一个理解语义的规则。
⒉语音信息量大。语音模式不仅对不同的说话人不同，对同一说话人也是不同的，例如，一个说话人在随意说话和认真说话时的语音信息是不同的。一个人的说话方式随着时间变化。
⒊语音的模糊性。说话者在讲话时，不同的词可能听起来是相似的。这在英语和汉语中常见。
⒋单个字母或词、字的语音特性受上下文的影响，以致改变了重音、音调、音量和发音速度等。
⒌环境噪声和干扰对语音识别有严重影响，致使识别率低。

前端处理
前端处理是指在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波，该方法在噪声较大的情况下效果好于其它滤波器。

声学特征
声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

声学特征
LPC
线性预测分析从人的发声机理入手，通过对声道的短管级联模型的研究，认为系统的传递函数符合全极点数字滤波器的形式，从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS，即可得到线性预测系数LPC。对 LPC的计算方法有自相关法（德宾Durbin法）、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
CEP
利用同态处理方法，对语音信号求离散傅立叶变换DFT后取对数，再求反变换iDFT就可得到倒谱系数。对LPC倒谱（LPCCEP），在获得滤波器的线性预测系数后，可以用一个递推公式计算得出。实验表明，使用倒谱可以提高特征参数的稳定性。
Mel
不同于LPC等通过对人的发声机理的研究而得到的声学特征，Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现，当两个频率相近的音调同时发出时，人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界，当两个音调的频率差小于临界带宽时，人就会把两个音调听成一个，这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
MFCC
首先用FFT将时域信号转化成频域，之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积，最后对各个滤波器的输出构成的向量进行离散余弦变换DCT，取前N个系数。PLP仍用德宾法去计算LPC参数，但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。

声学模型
语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
HMM声学建模：马尔可夫模型的概念是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关，这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模，一个音素就是一个三至五状态的HMM，一个词就是构成词的多个音素的HMM串行起来构成的HMM，而连续语音识别的整个模型就是词和静音组合起来的HMM。
上下文相关建模：协同发音，指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为Bi- Phone，考虑前一音和后一音的影响的称为Tri-Phone。
英语的上下文相关建模通常以音素为基元，由于有些音素对其后音素的影响是相似的，因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应，通过回答一系列前后音所属类别（元/辅音、清/浊音等等）的问题，最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。

君临天下 · 发表于 2016-8-25 09:49:49

语言模型
语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律，其中N-Gram简单有效，被广泛使用。
N-Gram：该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
语言模型的性能通常用交叉熵和复杂度（Perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。
搜索
连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。
Viterbi：基于动态规划的Viterbi算法在每个时间点上的各个状态，计算解码状态序列对观察序列的后验概率，保留概率最大的路径，并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下，同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别，从而使这一算法成为语音识别搜索的基本策略。
由于语音识别对当前时间点之后的情况无法预测，基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性，同一时刻的各条路径对应于同样的观察序列，因而具有可比性，束Beam搜索在每一时刻只保留概率最大的前若干条路径，大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。N-best搜索和多遍搜索：为在搜索中利用各种知识源，通常要进行多遍搜索，第一遍使用代价低的知识源，产生一个候选列表或词候选网格，在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典，这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解，往往要利用一些代价更高的知识源，如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析，进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。
N-best搜索产生一个候选列表，在每个节点要保留N条最好的路径，会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选，但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径，保留k条。词候选网格以一种更紧凑的方式给出多候选，对N-best搜索算法作相应改动后可以得到生成候选网格的算法。
前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后，搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中，因而可以使用启发式的A算法进行后向搜索，经济地搜索出N条候选。

系统实现
语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。
听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。
对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。

适应强健
语音识别系统的性能受许多因素的影响，包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性，是要提高系统克服这些因素影响的能力，使系统在不同的应用环境、条件下性能稳定；自适应的目的，是根据不同的影响来源，自动地、有针对性地对系统进行调整，在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。
解决办法按针对语音特征的方法（以下称特征方法）和模型调整的方法（以下称模型方法）分为两类。前者需要寻找更好的、高鲁棒性的特征参数，或是在现有的特征参数基础上，加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关（SI）模型，从而使其成为说话人自适应（SA）模型。
说话人自适应的特征方法有说话人规一化和说话人子空间法，模型方法有贝叶斯方法、变换法和模型合并法。
语音系统中的噪声，包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征，模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波，模型方法有倒谱平移。

识别引擎
微软在office和vista中都应用了自己开发的语音识别引擎，微软语音识别引擎的使用是完全免费的，所以产生了许多基于微软语音识别引擎开发的语音识别应用软件，例如《语音游戏大师》《语音控制专家》《芝麻开门》《警卫语音识别系统》等等软件。其中《警卫语音识别系统》是唯一可以控制单片机类的硬件设施！！
2009年微软发布windows 7操作系统，语音识别软件得到了更好的推广！

性能指标
指标
语音识别系统的性能指标主要有四项。①词汇表范围：这是指机器能识别的单词或词组的范围，如不作任何限制，则可认为词汇表范围是无限的。②说话人限制：是仅能识别指定发话者的语音，还是对任何发话人的语音都能识别。③训练要求：使用前要不要训练，即是否让机器先“听”一下给定的语音，以及训练次数的多少。④正确识别率：平均正确识别的百分数，它与前面三个指标有关。

小结
以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果，但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入，但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点，针对英语提出的技术在汉语中如何使用也是一个重要的研究课题，而四声等汉语本身特有的问题也有待解决。
最新进展
近几年来，特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技术得到突飞猛进的发展。
1、技术新发展
1）将机器学习领域深度学习研究引入到语音识别声学模型训练，使用带RBM预训练的多层神经网络，极大提高了声学模型的准确率。在此方面，微软公司的研究人员率先取得了突破性进展，他们使用深层神经网络模型（DNN）后，语音识别错误率降低了30%，是近20年来语音识别技术方面最快的进步。
2）目前大多主流的语音识别解码器已经采用基于有限状态机（WFST）的解码网络，该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络，大大提高了解码的速度，为语音识别的实时应用提供了基础。
3）随着互联网的快速发展，以及手机等移动终端的普及应用，目前可以从多个渠道获取大量文本或语音方面的语料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能。在语音识别中，训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一，但是语料的标注和分析需要长期的积累和沉淀，随着大数据时代的来临，大规模语料资源的积累将提到战略高度。
2、技术新应用
近期，语音识别在移动终端上的应用最为火热，语音对话机器人、语音助手、互动工具等层出不穷，许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用，目的是通过语音交互的新颖和便利模式迅速占领客户群。
目前，国外的应用一直以苹果的siri为龙头。
而国内方面，科大讯飞、云知声、盛大、捷通华声、搜狗语音助手、紫冬口译、百度语音等系统都采用了最新的语音识别技术，市面上其他相关的产品也直接或间接嵌入了类似的技术。

用户名		自动登录	找回密码
密码			立即注册

[机器人与智能制造] 国内外语音识别行业最全盘点及技术分析和预测

相关帖子