语音识别是什么技术技术是人道计算机和计算机道人的两部分信息交换是人工智能领域重要的

一个月前2016年9月14日,微软的对话語音识别是什么技术技术在产业标准Switchboard语音识别是什么技术基准测试中实现了词错率(word error rate, 简称WER) 创造当时该领域内错误率最低纪录。

一个月後10月18日,微软进一步将词错率降低至5.9%首次达成与专业速记员持平而优于绝大多数人的表现:上周末,微软人工智能与研究部门的研究員和工程师在论文中展示了他们这一创纪录的语音识别是什么技术系统如需查阅论文可到文末点击“阅读原文”,或按以下信息检索:Achieving Human Parity in Conversational Speech

這5.9%的词错率是什么概念

在行业标准Switchboard语音识别是什么技术任务测试中,人类对照组(由专业速记员组成)将对话语音转录成文字目前有記录的最低词错率就是5.9%,这就意味着微软的语音识别是什么技术系统的语音识别是什么技术能力已经高于世界上绝大多数人而与人类专业高手持平创造了一项新的世界纪录。

更加令人感到兴奋的是从6.3%到5.9%,微软人工智能与研究部门只花了一个多月的时间这让我们有理由楿信,计算机真正超越人类语音识别是什么技术能力那一天已经不远了

微软首席语音科学家黄学东博士表示,“在对话语音识别是什么技术中我们已经实现了和人类同等的水平,这是一个历史性的突破意味着有史以来第一次有计算机能像人类一样识别对话中的每一个單词。并且我们团队花了不到一年时间就实现了这个目标,这远远超出大家的期望”就连负责微软人工智能与研究部门的微软全球执荇副总裁沈向洋博士也笑言,“要是在五年前我是绝对不敢相信我们可以实现这个目标的。”

针对语音识别是什么技术的研究可以追溯箌上个世纪七十年代DARPA(Defense Advanced Research Projects Agency美国国防部先进研究项目局,主要致力于美国国防高新技术的研究、开发和应用)资助的一个相关项目此后几┿年,越来越多研究机构和大型公司陆续加入其中“这次突破是过去二十多年语音识别是什么技术技术不断积累的结果,”微软主管语訁及对话研究组的研究员Geoffrey

此次语音识别是什么技术的里程碑式突破将对消费者和商业产品产生深远影响因为语音识别是什么技术技术能夠显著增强人们的日常计算体验。这些产品包括像XBOX的娱乐设备、像微软小娜(Cortana)的生产力工具以及能实现实时语音到文本转录的个人人工智能助手“这项技术将使小娜变得更强大,切实地让小娜的助理服务更智能”沈向洋补充道。

Geoffrey Zweig将他们这一系统的成功归功于他们采用嘚最新的神经网络技术;让研究实现质的飞跃的关键就在于他们采用了一种神经语言模型该模型在空间中被表现为连续的向量,计算机能通过该模型得知比如“fast”和“quick”是具有紧密联系的近义词“这让模型能充分概念化每一个词汇。” Zweig解释道

随着深层神经网络在语音識别是什么技术和图像识别等领域大显身手,这一技术正变得炙手可热

深层神经网络使用大量数据(称为训练集)来训练计算机系统识別来自图像或声音等输入的模式。为达到和人类同等识别水平的里程碑微软团队使用微软基于多年技术积累开发的一个本地化深度学习系统CNTK,CNTK工具包已于一年前在GitHub上开源目前包括微软人工智能个人助理小娜和混合现实全息眼镜HoloLens的语音识别是什么技术都是基于CNTK实现的。

黄學东博士表示CNTK跟其他开源软件最大的区别是它能做大规模、分布式的机器学习,同时保证强大的性能;可以说微软的语音识别是什么技术技术可以一次又一次刷新纪录,在很大程度上就要归功于CNTK这个开源工具它极大地提高了团队的研究速度,最终在今天实现了与人类專业能力看齐的目标

回报来得如此迅速,从事语音识别是什么技术研究已有三十多年的黄博士告诉我们“5.9%的结果是在凌晨三点半取得嘚,我直到几小时后一大早醒来才得知当时已有团队成员第一时间在社交媒体上分享自己成功的喜悦……这对我来说简直是多年梦想一朝成真。”

与此同时来自微软亚洲研究院视觉计算组的研究员也实现了自己所在领域的里程碑式突破,在图像识别MS COCO(Microsoft Common Objects in Context常见物体图像识別)图像分割挑战赛中获得第一名。这项挑战赛主要考察在图像中确定某些对象的位置的技术微软亚洲研究院常务副院长郭百宁博士表礻,图像细分技术的难度远超人们的想象因为计算机必须精准标识出物体在图像中出现的边界,“这应该是图像识别中最难的部分”

該团队去年设计了一个极深的深层神经网络系统,称为深层残差网络(简称ResNetdeep residual networks)。该系统一出手就屡获殊荣比如此次在图像分割上的突破成果也是基于该系统,成绩比第二名高出11%并且,相较于去年COCO图像分割挑战赛第一名的成绩也有飞跃性的进步对此,郭百宁博士自豪哋表示“微软一直以来都是图像识别领域的领导者。”

从识别到真正理解“我们不会止步于5.9%”

尽管近年来科学家们在计算机视觉和语喑识别是什么技术等方面都取得了巨大突破,但他们深知前面还有许多工作要做

仍以对话语音识别是什么技术技术为例,微软团队的词錯率虽然实现了与人类专业速记员持平的5.9%但这并不代表计算机就能完美识别出每一个单词。事实上即使是人类也无法做到完美,计算機的错误率就意味着计算机一样会在人类常常难以准确辨别的内容面前败下阵来:无论是计算机还是人类都会发现“蓝瘦”、“香菇”(“难受”、“想哭”)不好对付。

“必须继续努力!”Zweig说他们接下来的努力方向之一,就是确保语音识别是什么技术技术能在类似人聲喧哗的朋友聚会或背景声嘈杂的高速公路上开车这样一些更复杂的现实生活场景都能判别准确同时重点关注如何完善实现的方法,帮助计算机在多人说话的场合为每位发言者分配名字还要确保计算机能不论发言者的年龄、口音和音量大小而识别出各种语音。

从长远来看研究人员将重点研究如何教计算机不仅将人们嘴里发出的声音信号变为文字,更要理解人们话语中的含义这样一来,计算机就能准確回答用户的问题或采取相应行动“下一个前沿技术就是从识别到理解。“Zweig 说

从更宏观的角度,沈向洋博士指出我们正在远离我们必须了解计算机的世界而逐步接近计算机必须了解我们的世界,真正的人工智能仍在遥远地平线那一边“在计算机能真正明白我们的语訁或示意之前,我们还有很长的路要走”

我要回帖

更多关于 语音识别是什么技术 的文章

 

随机推荐