首页  中心介绍  语言业态信息  语言科技信息  一带一路政策  一带一路人文  一带一路论坛  学术研究  大数据  在线智库 
当前位置: 首页>>一带一路>>语言科技信息>>语言技术应用>>人工智能>>正文
智能语音识别技术,能撬起人工智能新爆点吗?
2016-11-23 18:01  

未来的科技发展,人工智能是主要潮流之一,而人工智能的交互核心在语音。语音识别技术正逐步成为计算机信息处理技术中的关键技术,成为一个具有竞争性的新兴高技术产业。到底发展中的人工智能识别技术的出现是一种造福还是革命呢?它能撬起人工智能新爆点,点燃整个人工智能领域吗?今天我们学问君将对话清华大学人文学院计算语言学学科带头人江铭虎教授,为我们独家解读当前人工智能识别技术的行业突破与今后面临的发展与挑战。

记者/童瑶

学问君:如果谷歌这样的大公司拥有alphago这样的顶级深度学习AI,又有顶级的语音识别系统(类似国内讯飞),您认为这两者能擦出怎样的火花,您对今后人工智能的进化和融合抱有怎样的态度和期待?

江铭虎教授:1956年在美国的Dartmouth College第一次召开了为期2月的AI会议,Artificial Intelligence这一术语由图灵奖得主John McCarthy提出,1997年采用IBM Deep Blue击败了白俄罗斯的国际象棋特级大师Garry Kasparov。国际象棋的特点是从开局、中局到残局,每一步棋是通过一个状态不断搜索最合理的走法达到下一个状态,最后达到最终的目标状态。而围棋的棋子无大小,通过合适的布局形成优势,围住对方吃掉对方的子,过去AI一直没有解决这一问题。自2006年随着深度学习技术的提出,机器学习领域取得了突破性的进展,深度学习可依赖于云计算对大数据进行并行处理,目前对于图像的识别可以将海量数据运行于算法之中,自动从数据中学习,取得了较好的效果。微软采用深度神经网络学习技术成功地应用于全自动的同声传译,讲演者用英文演讲,计算机自动完成语音识别、英中机器翻译和中文语音合成,取得了非常流畅的效果。百度也成立了深度学习研究院,主要从事自然人机交互、深度学习、大数据分析、3D视觉、图像识别和机器人等技术的研究。深层神经网络接近人脑的结构,其特征学习能力优异,通过逐层的无监督学习,将低层特征逐层组合至高层特征,使深层表征越来越抽象,最终得到数据的本质特征,实现复杂函数逼近,可有效地表征输入数据的分布,并可从少数样本中学习数据的本质特征。AlphaGo根据其特点采用深度学习,从棋局的大局出发,采用逻辑与形象思维并举的策略,落棋棋子选择(Move Picker)采用Policy Network观察棋盘布局找出最佳落棋棋子,棋局评估(Position Evaluator)采用Value Network计算局面,AlphaGo取得了能够挑战并战胜世界围棋冠军的好成绩,解决了AI领域一直未解决的问题,在国际上引起了轰动。

科大讯飞公司拥有国内最强的语音技术,最初的强项是语音合成产品,目前其语音云拥有国际领先的连续语音识别技术,可将听写结果迅速反馈进行动态实时修正,使得识别准确率优于95%,有较好的语音听写市场。科大讯飞语音产品支持汉语、英语、粤语、藏语和维吾尔5个语种,并支持四川、河南、东北等地的方言,同时推出了一些较实用的语音产品。百度语音识别引擎Deep Speech 2,通过大规模深度神经网络,采用端对端的深度学习技术,基于数百万转录语言库通过学习训练将声音和语句联系起来,语音识别率已达97%,已接近极限了。

谷歌公司与科大讯飞、百度等公司实行强强联合,运用深度学习、云计算技术及大规模网络语音数据库对大规模语音数据进行并行统计训练处理,相信能够推出具有国际竞争力的语音技术产品,将科大讯飞、百度的语音技术与谷歌公司的知识图谱和智能搜索引擎技术,与人工智能技术相结合将会在人机交互、语音理解、内容推荐、车音系统、语音导航、远程医疗、智能社区以及各类语音咨询平台发挥重要作用。

学问君:当前已经有一些类似于特斯拉无人驾驶汽车和语音录入软件,您能不能再给我们介绍几种应用方向?它们或许已经出现但大众还不了解,或者还在孕育今后却必定成为不可或缺一部分?

江铭虎教授:上世纪80年中期图灵奖获得者D. R. Reddy(1937-)等人就开始研制无人驾驶汽车Navlab,路行车速为80~110 km/h可跨越原野的自动驾驶车辆,Navlab在计算机视觉、机器人路径规划、自动控制、障碍识别,防止高速公路上的事故等方面均取得了技术性突破。当前特斯拉生产的汽车装载了无人驾驶功能,这对安全性要求很高,故障率达到极低时才能获得政府的上路许可。因为仅北京目前就有500-600万辆汽车,几百万辆车若均用无人驾驶每天在路上跑,即使故障率在十万分之一也是很高的事故概率了。目前的无人驾驶技术在自驾汽车的前、后部均有图像感应器,并采用了声呐雷达等测距技术,如装载若干摄像机及超声感应器,360度视角,前后置雷达,可视范围达数百米,可检测汽车周围的各类物体,并可在暴雨,大雾,沙尘等恶劣环境中前行,无人驾驶汽车在未来有很好的发展空间。

D. R. Reddy上世纪主持的另一个语音处理项目Sphinex,由其博士生李开复先生完成了不依赖于话者的大词汇连续语音识别,在理论和技术上取得了突破。上世纪90年代中期IBM在中国开发了汉语ViaVoice语音识别系统,之前IBM成功开发了美式和英式英语、法语、德语、意大利语、西班牙语和日语的语音识别系统。ViaVoice汉语语音识别系统基于中文自身的特点,即同音字多、有声调、词界不明、新词不断出现等实际问题,实现了不依赖于话者的大词汇表(32000词,可扩至65000词)连续语音识别,其声学层使用离散参数的隐马尔可夫模型(HMM),通过对54名男女普通话发音,3万多条语句/每人,经大量的统计训练而成。语言模型也是基于HMM,其n-gram文法概率通过对300兆的汉语文本语料统计得到,平均识别率为95%。该系统可将新用户少量的发音特点映射到系统的参数空间中去,以较少的训练数据获得较好的识别效果,汉语ViaVoice语音识别系统是中国市场上最成功的语音识别系统,给人留下了深刻的印象。

语音录入或语音识别面临的两大挑战,一是声学层需要解决的语音社会学现象,即地方方言、口音问题。在中国各地方的口音问题比美国各地方的口音严重的多,尤其是中国南北方的地方口音相差较大,限制了语音识别或录入系统的应用及市场的推广使用。实际上就单一地方口音的男女老幼的语音离散度就很高,不同音之间的特征重叠率较高,适应不依赖于话者的语音识别系统需要大量的语音数据训练来改善系统的性能。虽然IBM公司根据中国市场的需求和特点,又陆续开发了适合粤语和四川话的语音识别系统,但随着中国的改革开放,具有各地地方口音的人员流动增加,如在北京就聚集着全国各地口音的人,增加了语音训练的难度,这在某种程度上限制了语音识别性能,使其难以推广使用。另一挑战是语言模型,人机交互系统需对整句语言的理解率要高,需顽健的用户或对话模型,需要对话的背景知识和语言的语用知识,包括:角色、职位、场所、时间、氛围、工作职责、业务范围,谈话人的特点(学识,看法,感情状态、人际关系),谈话氛围、对话题的了解、看法和兴趣等均影响交互的效果,交互系统需结合会话的语用知识和上下文信息进行推理,填补话语中的空缺信息,建立起连贯的内容,从而准确地了解会话的含义,使交际双方可以达到有效的交流。虽然近年来语言信息处理的主流研究方法越来越倾向于基于大规模语料的统计,然而在语用层面的研究还比较少见,其主要原因是缺乏适应于语用研究的,可有效提取语用知识的较大规模的语料库。

随着Web 2.0和Semantic Web的兴起,越来越多的大规模网络资源:维基百科、百度百科和Freebase等具有半结构化、知识覆盖率广、可信度高和质量好的信息源,为构建基于认知的语言模型和大规模语用知识提供了坚实的资源基础。为了让用户能够更快更简单地获取新的信息和知识,建模人脑中的世界知识,Google公司于2012年5月份发布了“知识图谱”(Knowledge Graph)——通过将搜索结果进行知识系统化,任何一个关键词都能获得完整的知识体系。目前,Google的“知识图谱”中已经包含了超过5亿个事物,以及35亿条不同事物之间的关系。另外,社交网络和搜索引擎的兴起为我们收集到海量的关于人的行为数据,百度和搜狗等搜索引擎公司也相继推出了中文知识图谱,为构建大规模汉语语用知识提供了坚实的资源基础。知识图谱构建是计算机建模人类知识的代表性工作。由语义和句法规则解码文字信息获得字面意义,在对人类知识进行归类总结的基础上产生知识图谱的机读语用特征信息,运用语用背景知识来解决语言理解中的各种歧义,由机器自动理解语言的真实含义。Hinton(2006)和Bengio(2007)等人提出了深度学习,是模拟人脑认知世界过程的最有效模型,大数据知识搜索、中文知识图谱和深度机器学习三者结合,可有效促进语言模型和会话模型的发展。这些进展,以及随着AI中的深度学习技术、自然语言处理技术的飞速发展,未来车载语音系统中的汽车语音导航技术,辅助声控驾驶技术,语音机器人、手机人机交互等技术将有更大的应用市场,并创造出更大的发展空间。

学问君:相比国外,国内在人工智能语音识别方面的优势和差距有多大?

江铭虎教授:上世纪90年代,主导语音识别发展方向的主要研究机构是IBM、AT&T的Bell Lab和微软,所使用的技术均是基于统计模型HMM,其成功之处主要是它具有较强的对时间序列结构的建模能力。1997年IBM在中国市场推出不依赖于话者的大词汇连续汉语语音识别系统ViaVoice,对32000词的平均识别率达到95%,这一性能指标维持了很多年。2006年Hinton(2006)和Bengio(2007)等人提出了深层神经网络的深度学习技术,为语音识别提供了新的技术思路,百度公司采用端对端的深度学习技术,基于数百万转录语言库通过学习训练将声音和语句联系起来,语音识别率已达97%,已接近极限了。语音识别包括声学模型和语言模型,声学模型已经没有太多的研究空间,语言模型在利用各种知识提升理解能力还有很大的研究空间,其关键点是语言(语音)理解需要各种知识。

人类认识世界是通过把外界各种独立的刺激联系起来构成一个整体,以获得全面的信息和含义。语言是具有层次性的,在多重层面上按照词法、句法、语义和语用原则,进行字组词、词组短语和句子。人脑可以有效地处理并理解语言(语音),计算机语言(语音)信息处理没有人类那样有效。根据人脑理解语言过程的认知机理,人类理解语言(语音)需要知识(包括世界知识、历史知识、常识性知识、各学科门类的专业知识等)。在过去的几十年里计算机自然语言处理几乎都是用句法和语义信息进行自然语言理解的,而语用知识是人类理解自然语言不可或缺的重要组成部分,缺少这部分语用信息使语言的理解能力大大受限,很多歧义的词句和篇章只有在充分利用这些语用知识时才能有效地得到解决。要准确理解自然语言,需要把句法分析和语义理解与具体语境的语用信息相结合。语用信息研究的瓶颈是如何用计算机将人类的各种知识进行有效的特征提取和形式化的知识表达,过去这一挑战性工作一直困扰着我们,导致计算机无法像人脑一样灵活运用语用背景知识来解决自然语言中的各种歧义。

随着互联网及云技术的飞速发展,给人类知识的形式化表征带来了新的曙光。当前谷歌、百度、中科院软件所和清华大学等单位正在建立与人类知识相对应的大规模知识图谱,包括语言知识图谱,事实性知识图谱(Freebase已建立4000多万个实体,上万个属性关系,24亿多个事实三元组,百度百科的词条数已1000万个),其目的就是建模人脑中的世界知识,让计算机能够简洁快速地获取新的信息和知识,包括机读的语用特征信息,运用语用背景知识来解决语言理解中的各种歧义,由机器自动理解语言的真实含义。知识图谱可应用于问答系统、智能搜索引擎和自动推理等。将可机读的知识图谱融入到语音识别中的语言模型之中,为语音理解提供消除歧义的各类知识,相信会取得一些突破性的进展。

相比国外,国内在人工智能语音识别方面差距不大,其原因是在当前的互联网和云计算时代,各种信息和资源共享给国内外各研究单位提供了便利,加速了研发周期,在每年的AAAI,ACL,ICASSP等会议提供了理论和技术上交流,有些会议还定期提供语音识别、机器翻译等系统评测平台。中科院声学所、自动化所以及清华大学等单位比较突出的博士生在理论和技术水平上也接近欧美的水平,百度、亚洲微软研究院等国内高技术互联网信息研究单位提供高薪为高技术人才提供了与国际接轨的研究平台。相信AI和语音识别等领域的发展将会对社会的发展和人类生活的改善发挥越来越大的作用。

江铭虎,男,1962年生,江苏省苏州市人,现任北京清华大学计算语言学博士点学科带头人、教授、博士生导师。电子工程博士,曾在北京清华大学计算机系智能技术与系统国家重点实验室和比利时(荷兰语)鲁汶大学电机工程系做博士后研究,2005年在德国海德堡大学医学院交叉学科计算中心任客座教授,清华大学心理学与认知科学中心兼职教授。主持多项国家自然科学基金面上项目和重点基金项目二级课题,主持国家社会科学重大基金项目,清华大学985基础研究基金和985认知科学基地项目,教育部留学回国基金,教育部优秀青年教师资助计划等项目20多项;是国家自然科学基金、国家社会科学基金、霍英东青年科学基金、中国博士后基金、教育部博士点基金、教育部人文社科基金和北京市自然科学基金等各类基金的评审专家或专家组成员,是国家科技进步奖评审专家和教育部长江学者的通信评审专家,曾任中美两国教育部网络语言教学项目专家组成员和中国党建网专家组成员,先后担任十余次IEEE国际学术会议的分会主席。1998年获海峡两岸交大四校优秀博士论文奖(导师袁保宗教授),2000年获全国优秀博士后论文奖,2004年获清华大学学术新人奖,2010年获IEEE Award in recognition of the contributions to ICSP。在欧美主流学术刊物上发表语言计算、生物认知与计算和人工智能方面的SCI和SSCI论文40多篇,累计SCI影响因子近百,并在国家顶级及权威学术刊物发表论文十多篇,在德国Springer和LAMBERT Academic Publishing出版英文学术专著三部,出版中文著作《语言信息处理》(人民出版社),编译教材《脑与语言认知》(清华大学出版社)和《自然语言处理》(高等教育出版社)。

部分发明专利:

[1].朱小燕、江铭虎等,“汉语盲文到汉字的自动转换方法”,国家知识产权局专利号:ZL01118674.7,国际专利主分类号:G06F17/28。

[2].朱小燕、江铭虎等,“中文汉语到盲文的自动转换方法”,国家知识产权局专利号:ZL01118675.5,国际专利主分类号:G06F17/28。

近年来作者在国内外发表的部分学术刊物论文目录:

[1]Dengfeng Yao, Minghu Jiang, et al. Study of Sign Segmentation in the Text of Chinese Sign Language. Universal Access in the Information Society,DOI 10.1007/s10209-016-0506-8, (SCI Impact Factor 0.656), pp.1-13, First Online Nov., 23, 2016, Springer.

[2]Ding Liu, Minghu Jiang, et al. Analyzing Document with Quantum Clustering: A Novel Pattern Recognition Algorithm Based on Quantum Mechanics. Pattern Recognition Letters, 1 July, 2016, 71: 8-13, SCIIDS 号:DM7VP(SCI Impact Factor 1.551)

[3]Renkui Hou, Minghu Jiang. Analysis on Chinese quantitative stylistic features based on text mining. Digital Scholarship in the Humanities, Doi: 10.1093/llc/fqu067, SSCI (SSCI Impact Factor 0.475) SSCI IDS号: DY0BZ, 31(2): 357-367. June, 2016

[4]Renkui Hou, Jiang Yang, Minghu Jiang. A Study on Chinese Quantitative Stylistic Features and Relation among Different Styles Based on Text Clustering. Journal of Quantitative Linguistics, 2014, 21(3): 246-280. SSCI IDS Number: AJ9KM (SSCI Impact Factor 0.622)

[5]Wang, L., J. Huang, M. Jiang, et al. "Adenosylmethionine Decarboxylase 1 (AMD1)-Mediated mRNA Processing and Cell Adhesion Activated & Inhibited Transition Mechanisms by Different Comparisons Between Chimpanzee and Human Left Hemisphere" Cell Biochemistry and Biophysics,2014, 70(1): 279-288 SCI IDS Number: (SCI Impact Factor 4.312), 被引2次,1次[20.pdf](脑与语言的分子机制研究)

[6]Liu Ding, Xiaofang Yang, Jiang Minghu. A novel text classifier–based on quantum computation.Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 484–488, Sofia, Bulgaria, August 4-9, 2013. EIAccession number: 20143718160282,计算机类顶会(CCF之A类国际会议)论文

[7]Lin Wang, Juxiang Huang, Minghu Jiang, Hong Lin. Signal Transducer and Activator of Tranion 2 (STAT2) Metabolism Coupling Postmitotic Outgrowth to Visual and Sound Perception Network in Human Left Cerebrum by Biocomputation. Journal of Molecular Neuroscience, 2012, 47: 649-658, SCI IDS Number: 958DV (SCI Impact Factor 2.922), 被引20次,11次[13.pdf] (脑与语言的视听感知的分子机制研究)

[8]Lin Hong, Wang, L., Jiang, M., Huang, J., Lin, H., Lianxiu, Q., Haijing, W. P-glycoprotein (ABCB1) Inhibited Network of Mitochondrion Transport along Microtubule and BMP Signal-Induced Cell Shape in Chimpanzee Left Cerebrum by Systems-Theoretical Analysis, Cell Biochemistry and Function, 2012, 30(7): 582-587, SCI IDS Number: 015BH (SCI Impact Factor 2.134), 被引8次,6次[19.pdf] (脑与语言的分子机制研究)

[9]Lingjun Sun, Lin Wang, Minghu Jiang et al,“Glycogen Debranching Enzyme 6 (AGL), Enolase 1 (ENOSF1), Ectonucleotide Pyrophosphatase 2 (ENPP2_1), Glutathione S-Transferase 3 (GSTM3_3) and Mannosidase (MAN2B2) Metabolism Computational Network Analysis Between Chimpanzee and Human Left Cerebrum”, Cell Biochemistry and Biophysics, 2011,61(3): 493-505, SCI IDS Number: 849ZE (SCI Impact Factor 4.312), 被引21次,次[2.pdf](脑与语言的分子机制研究)

[10]Minghu Jiang, Georges Gielen. Analysis of Quantization Effects on High-Order Function Neural Networks. Applied Intelligence, 28(1): 51-67, Springer, 2008. SCI IDS Number: 246GG (SCI Impact Factor 1.88), EI Accession number: 080211012270, 被引3次, 1次

---------------------------------------------------------------

[声明]本站系本网编辑转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本站文章版权归原作者所有,内容为作者个人观点,本站只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

 
 

Copygight 2016 by Collaborative Innovation Center for One Belt One Road Language & Culture Service All Rights Reserved
版权所有:“一带一路 ”语言文化服务协同创新中心        制作:吉林外国语大学信息技术中心