期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

语音识别技术模板(10篇)

时间:2023-03-23 15:22:39

语音识别技术

语音识别技术例1

中图分类号:TP312 文献标识码:A文章编号:1007-9599 (2010) 05-0000-01

Summarization on Speech-Identification Technology

Liu Yu1,2,Ma Yanli1,Dong Beibei1

(1.Hebei North University,Information Science and Engineering College,Zhangjiakou075000,China;2.Tianjin University,Electronics and Information Engineering College,Tianjin300072,China)

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献:

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

语音识别技术例2

该文主要致力于解决通话中的语音识别技术,长期可推广至QQ语音聊天等即时聊天软件中,相较于目前大多数语音识别软件需要手动打开更为主动,让用户感觉不到软件的存在,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,大大提高了效率,并对听力有障碍的人士有更为重要的意义。

一、语音识别基本原理

语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板,然后根据此模板的定义,通过查表就可以给出计算机的识别结果。 [1]

二、通话中语音识别技术

2.1技术原理:

1、基本架构:Smartalk通话系统基于“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务,并加以对手机GPS位置、通讯录、社交软件信息的分析,在“云”的辅助下对之进行处理和交换。Smartalk架构分为4个部分:客户端、语音视频服务、语音识别服务、云数据处理分析。利用“云之讯”开放平台提供的语音视频通话服务和“科大讯飞”开放平台提供的语音识别服务可将用户在通话中涉及的地点、人名、电话号码等关键词提取出来并加以分析对行程和下一步操作提供帮助。

2、基本平台:本系统基于APIcloud开发,兼容云端和第三方SDK,可跨平台(Android、IOS、Windows等)使用,采用标准的c++语言实现。

2.2功能实现:

1、基于“云之讯”开放平台的通话系统:云之讯融合通讯开放平台为企业及个人开发者提供各种通讯服务,包括在线语音服务、短信服务、视频服务、会议服务等,开发者通过嵌入云通讯API在应用中轻松实现各种通讯功能。

2、基于“科大讯飞”开放平台的语音识别系统:。讯飞开放平台使用户可通过互联网、移动互联网,使用任何设备方便的介入讯飞开放平台提供的“听、说、读、写”等全方位的人工智能服务。目前开放平台向开发者提供语音合成、语音识别、语音唤醒、语义理解、移动应用分析等多项服务。

3、语音识别与云端大数据结合分析:。利用基于“云之讯”通话系统和“科大讯飞”语音识别系统实现了实时的语音识别,加以云端大数据的结合,和实时的分析用户当前的需求和问题,及时的跟用户产生交流反馈,并根据用户长期的使用时间分析智能提前推送相关信息。

2.3未来展望:

基于大数据和互联网+技术的日益发展与完善,并随着通信传输速度的逐渐提高,可在实时的条件下分析与推送更多丰富的内容,加以与即时聊天软件的结合,将该技术深度整合到系统或QQ服务中在通话结束后针对通话中涉及的电话号码、地点、时间等关键信息进行信息的推送,并对听力有障碍的人士有更为重要的意义,未来的市场前景广阔。

三、语音识别技术应用

3.1 语音指令控制在汽车上的应用:

语音控制人员只需要用嘴说出命令控制字,就可以实现对系统的控制。在汽车上,可用于汽车导航、控制车载设备。如车灯、音响、天窗、座椅、雨刮器等。

3.2语音识别技术在医疗系统中的应用:

医疗语音识别技术,已有厂商开发了基于云平台的语音识别系统,可直接内嵌到医院电子病历系统中,让医生通过语音输入病人信息,填写医疗记录,下达医嘱信息。

四、相关市场调研

1、国内外市场分析:2015年全球智能语音产业规模达到61.2亿美元,较2014年增长34.2%。其中,中国智能语音产业规模达到40.3亿元,较2014年增长增长41.0%,远高于全球语音产业增长速度预计到2016年,中国语音产业规模预计达到59亿元。[2]

2、相关应用发展:拉斯维加斯消费电子展(CES)上展示的MindMeld。在通话中,如果参与者点击应用的一个按钮,那么MindMeld将利用Nuance的语音识别技术,分析此前15至30秒对话。随后,MindMeld将确定对话中的关键词,以及其他多个信息来源,查找具有相关性的信息,并在屏幕上向用户提供图片和链接地址。[3]

参 考 文 献

语音识别技术例3

中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如图所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

语音识别技术例4

中图分类号TP391.4 文献标识码A 文章编号 1674-6708(2010)26-0216-02

语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。本文就语音识别的发展及趋势作简单的阐述。

1 语音技术的发展历史

50年代,研究人员多数致力于声学和语音学的基本概念。1952年,在AT& T Bell实验室实现了一个单一发音人孤立发音的10个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。1956年,RCA Lab 开展了另外一项独立研究,试图识别单一发音的10个不同的音节,同样采用了度量共振峰的方法。1959年,英国University College的研究人员开始尝试另外一种思路,用谱分析和模板匹配方法构建音素识别器,用来识别4个元音和9个辅音。60年代,相继出现并发表了语音识别的几个重要的思想。1962年,东京大学进行了另一个音素识别器的硬件实现的尝试。它使用过零率方法分离语音信号的不同部分,并进行识别。1963年,日本NEC Lab对数字进行语音识别的尝试可以算得上最值得注意的工作,因为它不仅是NEC研究语音识别的开端,还导致一个长期的和卓有成效的研究计划。在60年代中,3个研究项目的开展对其后20多年的语音识别研究和开发产生了重大影响。第一个研究项目在RCA Lab开始于60年代后期,目的是研究语音事件在时间刻度上不均匀性的现实解决办法。在能够可靠检测出语音事件的始末点的基础上,发展了一套时间归正的基本方法。

2 语音识别技术的发展现状

语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。

由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。

目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。

3 语音识别技术发展趋势

虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:

1)提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。

2)增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。

3)应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。

4)降低成本减小体积。微型化是语音识别技术商业应用的另一个重要途径,其推广程这取决于语音识别技术本身进步的程度,同时与微电子芯片技术的进一步发展关系密切。将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以大幅度降低产品成本和体积,产品必然受到消费者的青睐,语音识别系统和微电子芯片技术的发展是会引领我们的信息技术革命到一个新的台阶。

21世纪是信息和网络的时代,Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

语音识别技术例5

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

语音识别技术例6

语音芯片的应用

近年来语音芯片应用越来越广泛,主要包括:

1.电话通信中的语音拨号。特别是在中、高档移动电话上,现已普遍具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。

2. 汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的门、窗、空调、照明以及音响等设备,同样也可以由语音来方便地进行控制。

3. 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。

4. 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。

5. 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于语音芯片价格的降低。

6. 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控制起来,这样,可以让令人头疼的各种电器的操作变得简单易行。

语音识别专用芯片系统有如下几个特点: 1. 多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才有连续数码或连续字母语音识别专用芯片实现。2. 一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习就可直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。3. 由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4. 多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5. 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

语音识别技术发展

在发达国家各种各样基于语音识别技术的产品已经可以买到,如具有声控拨号电话,语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用前景。

说话者自适应技术近年在语音识别系统的研究中也备受重视,这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度,说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。

静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理,如分男女声的识别系统就是其中的一个典型,但实际上仅仅从男女声上对模型分类还是太粗,可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。

动态处理方法。对预先训练好的与人无关识别系统,通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正,从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统,这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易,而算法实现则是由易到难。采用何种策略取决于应用背景,对识别率的要求等因素。对于听写机等应用来说,最具吸引力的是累进、无监督的自适应方式,也称在线自适应。

语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的,典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上,通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型,然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型,如基于类的语言模型,而不是基于词的语言模型,类可以是词性类,词义类,以及由一定的数据驱动的聚类算法产生的各种类。

由于不同词可以属于同一类,这样类比较大,构成的语言模型就比较稳健。其关键的问题是如何决定词的分类,由于词的分类比较复杂,同一词可能属于不同的类,特别是解决如何通过计算机实现自动分类的算法,即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题,因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。

目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化,缩小搜索空间算法,减少计算机的内存需求方法,以及结合计算机结构特点的编程技术的应用。

语音识别技术例7

中图分类号:TP242 文献标识码:A

1语音识别技术的研究意义

人们使用的声音语言是一种人在特定高度思维和意识活动下的产品。语言是人类最直接以及最理想的交流方式,也是人机通信是最方便的方式。在机器人发展的高级发展阶段中,机器人的智能语音识别与人类的活动是密切相关的,有声语言的人机交互信息成为重要的手段。例如,语音识别获取外界信息很自然,没有特殊的训练方法,随着机器人技术的发展和广泛应用,有越来越多的机会来接触人类和机器人,所以人们希望通过语音识别和机器人去处理,不管谁能能准确安全,方便地操纵机器人。机器人和人类之间的信息交互,表现在两个方面,一是对更高层次的机器人操作,方便软件的设计开发,这种多为教学机器人,另一种是在实际操作的要求下完成信息交互任务的机器人。智能机器人作为机器人技术发展的高级阶段,其发展趋势是:不仅要求机器人具有高度的自治能力,还要使机器人和人类之间的协调也具有一定的智能性。这就要求机器人具有不同的高性能主动做事能力,而不是被动地接受任务,为了实现这一目标,自然语言作为人机信息交换将发挥越来越重要的作用。目前,智能机器人已成为机器人研究领域的一个热点。工业机器人是智能机器人的一个重要研究领域。当今,工业机器人的发展方兴未艾,巨大的市场潜力,使真正的工业机器人的已经在市场上崭露头角,以满足人们日益增长的需求,我们不能没有一个高性能的语音识别系统。由于工业机器人是面向生产实际的需要,最好的工作方式是让机器人能顾听懂最常见的人类语言,完成指定的工作,并能与人交流。机器人语音识别是机器人研究领域中的语音识别应用,最终的目标是让机器人了解人们的口头语言,然后按照人们的命令来行动或反应,从而形成一个良好的人机对话系统。为了能够进一步推动智能机器人的开发应用,因此,在语音识别机器人的研究领域中,机器人语音识别系统是工业机器人的实际推广应用,具有重要的意义。

语音识别技术在智能机器人中的应用已经有很多年的历史,作为智能机器人的一个分支,工业机器人得到了迅速发展,工业机器人通过语音识别从工业噪声中提取有效的语音命令。为了实现机器人在一些特殊工业环境中工作的目的,机器人要能够识别命令意图。语音识别技术,可以实现人机对话,从而让机器能模仿人类完成所有工作的分配,使其在各行各业中能够得以应用。目前所面临的实际问题是:噪声和干扰环境下对大型工业机器人的语音识别有严重的影响。在机器人识别领域,工业环境中的实时性是一个非常重要的任务。机器人在工业环境下应用的听觉识别是使智能机器人发展速率低的瓶颈。

2语音识别系统的发展

2.1语音识别系统的发展方向

语音识别系统是基于一套应用软件系统的硬件平台和操作系统的一些。语音识别一般分为两个步骤。第一步是学习或培训。这一阶段的任务是建立基本单元的声学模型来进行识别和模型的语音语法分析等。第二步是识别或测试。根据识别系统的类型可以满足一个识别方法的要求,使用语音分析的方法来分析语音特征参数,并建立了比较和测量系统模型,根据一定的标准,鉴定结果。

语音识别系统的应用可分为两个发展方向,其中一个是大词汇连续语音识别系统,主要应用于计算机的听写机,以及结合电话网或互联网的语音信息服务系统,这些系统是在计算机平台上的一个重要发展方向。其次是应用的小型化,便携式音频产品,如无线移动电话的拨号,语音控制车载设备,智能玩具,家用电器和其他方面的应用的远程控制,这些应用系统大多采用特殊的硬件系统来实现,特别是语音信号处理芯片和语音识别芯片,最近几年快速发展,为其广泛应用创造了极为有利的条件。

2.2语音识别系统的模型与模式

语音识别系统的核心是声学模型和模式分类。首先通过学习算法,训练语音声学模型的特点是通过学习过程来生成声学模型,这是识别潜在的模型的前提,是最关键的语音识别系统的一部分。声学模型的目的是提供一种有效的方法来计算特征向量的声音序列和每个发音模板之间的距离。人的发音在每一刻发音之前和之后都会受到影响。

为了模仿自然连续的协同发音和识别不同的发音,通常需要使用复杂的声学模型。声学模型和语言的发音特点的设计是密切相关的。声学模型单元大小与单词发音,音节模式和音位语音训练数据大小有关,故要求其系统识别具有很大的灵活性。大词汇量语音识别系统,通常采用较小的单元和少量的计算,该模型只有较小的存储容量,减少训练数据的数量,但相应的声音定位和分割问题就显得更加困难,规则识别模型变得越来越复杂。通常大型模型中识别单元包括协同发音,这有利于提高系统的识别率,但训练数据也相对增加。必须根据不同语言的特点来识别词汇,词汇量大小决定单位大小。

语音识别技术例8

市场调研机构Opus Research的高级分析师兼创始人丹?米勒(Dan Miller)表示,提供语音技术的公司已投入巨资,研发“个人数字助理”概念,比如苹果的Siri以及出现在许多谷歌手机上的谷歌语音操作(Google Voice Actions),它们懂自然语言命令。他表示,实际上最近在语音识别技术方面的突破大多出现在移动设备端的基于云计算的自然语言搜索领域。

主要进展就是,语音工具现在离用户更近了――出现在我们日常使用的手机和平板电脑上,许多工具在云端使用,这提供了立即处理功能和不断扩展的语言数据库。不像老式的桌面端软件,这些新工具不需要语音训练,这归功于算法方面取得的进步。

当然,今天的语音识别技术并非尽善尽美。即使在移动设备上,语音识别软件也并不适用于每个人。而有些自然语言句子仍然让智能化程度最高的语音控制系统都犯难,比如“告诉我的老板我开会要迟到”。Nuance、微软和苹果等公司已建立了庞大的语言数据库,供自己的语音识别产品使用。但即使在今天,这类软件有时还很难懂得牛肉制品“汉堡包”(hamburger)与德国城市“汉堡”(Hamburg)之间的区别。

米勒说,我们需要在云端运行更高程度的人工智能。他说:“我们离目标越来越近。各个层面都面临挑战,但正在取得进展――不过可能永远不会尽善尽美。”

可是,虽然越来越好的结果正在促使移动设备采用语音识别技术,但这项技术在工作场所还没有产生太大的影响:步入美国的随便一个企业园区,很难看到有员工在下达语音命令。我们将探讨什么因素在阻碍语音识别技术,并介绍这项技术在办公桌前和办公室都有望造福员工的几个方面。

工作站前的语音

对于视力欠佳的用户或患有重复性劳损(如腕管综合症)的那些人来说,通过语音控制电脑大有意义,可用于浏览及操控界面和应用程序、进行搜索以及口述内容很长的电子邮件和工作文档。其他用户也能从中受益,尤其是打字很慢的人、移动用户以及想记录会议纪要的与会人士。

米勒表示,该技术现在就出现在世人面前。基本的语音控制功能多年前就内置到Mac OS X和Windows中。今年夏天,苹果将为其OS X美洲狮版本添加语音到文本口述功能。去年,谷歌往台式机和笔记本电脑上的Chrome浏览器引入了最初出现在移动设备上的语音发起的搜索这一功能。

至于更高级的口述和个人电脑控制功能,专用的语音识别软件(如Nuance公司的Dragon NaturallySpeaking)这些年来逐步改进。在美国某杂志的测评人员拉蒙特?伍德(Lamont Wood)进行的测试中,最新版的NaturallySpeaking Premium从语音到文本的转换准确率超过99%。

伍德表示,对他来说,通过语音写东西的速度大约2倍于通过打字写东西。其他用户获得的效果有所不同,这取决于他们的打字速度以及使用语音软件的熟练程度。他还指出,使用最新的降噪耳机意味着这种软件不会受到背景声音的困扰,在过去这常常是个问题。

那么,为什么没有更多的人通过语音与电脑进行交互呢?米勒说,人们往往很怕难为情。在办公室环境,不是每个人都习惯于脱口说出自己的想法和言语,要是只有少数人在这么做,更是如此。

不过,他认为移动设备语音搜索有助于让语音技术总体上更受欢迎。他表示,最近的一项调查显示,11%的调查对象称自己习惯于将Siri用于语音搜索。目前这个比例并不高,但是随着越来越多的人采用,而且越来越习惯,在办公室使用语音应用软件对许多人来说似乎更加切实可行。这将遵循总体趋势:人们先在家里或私下使用技术,然后希望在工作场所也能使用。

此外,研发人员在探究语音的新用途,尤其是在游戏和娱乐领域(比如在Xbox上开始播放电影)。语音命令在各个场合似乎都很自然,这只是个时间问题。米勒说:“人们很快会发现,同样可以通过语音控制CAD软件、个人电脑及其他个人设备和办公工具。”

值得关注的是,语音硬件在办公室已经很普遍。任何一台新购的办公笔记本电脑都已经内置了视频会议功能,带网络摄像头和高品质麦克风。当你步入许多公司的会议室,会看到带高级麦克风的免提电话。新机型甚至会对准讲话的那个人,降低背景噪声。

J. Markowitz咨询公司的著名语音技术专家朱迪思?马科维茨(Judith Markowitz)也认为,硬件不是阻碍语音技术在办公室流行起来的因素。他表示,问题在于让自然语言命令得到更广泛的应用。而自然语言命令只是另一种交互方式,就像我们敲打的键盘或点击的图标那样。

她说:“语音无法查明是否存在过热问题,也无法提醒你有约会。那是后端系统或应用软件的任务。Siri的语音识别部分也没有这种功能。自然语言理解能力、人工智能和应用程序的功能共同造就了Siri这款出色的个人助理。语音技术把语音输入转换成Siri的后端及其他iPhone应用软件能使用的一种形式。”

马科维茨表示,如果开发人员决定为企业应用软件添加语音命令和声音提醒,语音在办公室就派得上用场。米勒赞同这个观点,不过他指出,这有点像先有鸡还是先有蛋的情况。开发人员将语音功能添加到应用软件之前,希望知道企业环境的用户习惯使用的语音(而且不会妨碍同事),但是只有这些功能广泛出现,用户才有可能习惯使用它们。

米勒表示,想让语言更被办公室环境的用户所熟悉,一个简单的方法就是为企业应用软件添加语音提醒。比如说,应用软件可能告诉你数据中心存在一个问题,而不是显示文本提醒信息。用户可以根据需要,将提醒由语音方式改为文本方式。

当然,两位专家都一致认为,语言并不是在每种计算环境下都是最合适的输入方法。它给艺术家、摄影师、视频编辑和程序员带来的帮助不像给普通的办公室员工、管理人员和IT人员带来的帮助一样大。Photoshop中精细的像素级编辑可能根本无法得益于语音输入,不过人工智能可能会发展到这个程度:我们说“修复照片的左下角1/4部分”,Photoshop就会进行相应的操作。

办公室周围的语音

Nuance公司总经理彼得?马奥尼(Peter Mahoney)认为,遍地开花的云计算将有助于推动语音技术,从电脑扩大到工作场所的其他地方。比如设想一下:能够使用内嵌式麦克风在会议室口述电子邮件,或者坐在大厅等待时查阅日程表,哪怕你把移动设备落在办公桌上。

他表示,这一幕要成为现实,语音系统就要连接到其他办公室系统。比如说,语音系统可能连接到公司的联系人和日历系统,知道你的会议日程表(及其他与会者的日程表)。它还可能连接到建筑物的安全和网络管理系统,那样它能告诉你是否在办公室、登录到办公电脑上。

互连系统可以在白天收集关于你的数据,而且正如人的大脑保留短期记忆那样,它会确定你的具体背景。这可能意味着,语音系统知道你晨会要迟到,因为你没有登录到电脑上;它可以查阅你的会议日程表,找到相应的一个或多个联系人,告知你会迟到。

马奥尼表示,如今这些信息往往是孤立的。但他预测,在今后一两年,语音技术会逐渐变得有更强的互连性。“它可能会先联系日历程序,知道你要会见约翰,然后日历程序会通过语音联络联系人数据库。”

米勒表示,许多公司已经在现有的系统中拥有关于联系人和角色的信息,比如活动目录列表和人力资源数据;许多公司还有内部建筑图。那么,到底是什么因素在阻碍这一切呢?

马奥尼表示,自然语言命令正在改进,但系统不是足够清楚地明白信息的上下文。他说:“需要构建数据模型,找到人们可能会问的前100个问题,然后找到合适的信息源,以明白那些问题,比如地图应用软件。”毕竟,这与Siri等虚拟助理在移动设备上进行的操作没什么太大的不同:查询不同的信息源(基于云和本地),找到相关信息,发送提醒信息,等等。

马奥尼设想,随着互连系统在将来扩大语音技术的应用范围,它们还有望改进语音软件的准确性和理解能力。借助无处不在的云连接,语音系统可以根据你所在的位置、所做的事情、身边的人以及接下来要做的事,明白你想表达的意思。“即使你没有明说,系统也知道你想表达的意思。”

链接:语音应用软件如何知道你说的是什么?

Opus Research公司的丹?米勒表示,今天的语音识别系统使用统计语言建模,这本质上是一种最佳猜测,结合你整个句子的上下文,猜测想要说的意思。比如说,今天的系统借助前后单词,知道你想说的是“you’re”(你是),而不是“your”(你的)。

要是说话者口音重,或者采用罕见的方言,这些系统还是经常无能为力。为了明白这些人说的话,语言系统必须建立一个发音库、去除任何背景噪音,并不断拿所说的单词与已正确识别的那些单词进行比对。

语音识别技术例9

语音识别技术使人与机器的交流成为现实,它开创了口语移动学习的全新教育方式,受到越来越多的关注。借助互联网,移动学习以其学习时间灵活,学习内容丰富、精炼且片段化等特点,开辟了学习的新理念,让口语学习真正摆脱了时间和空间的限制,使任何人在任何时间、任何地点根据需要进行自主学习成为可能。目前,已有的基于PC的智能英语学习软件,能提供基于计算机的辅助技术,让学习者及时得到发音质量评分的智能化功能,但是基于手机端的口语学习应用不多。

本终端是一款基于Android系统开发的,进行英语口语学习的安卓语音软件。产品结合Google语音识别技术,使用GPRS或WiFi进行移动终端与Google云服务端之间的数据交流,并通过对语音识别结果的处理,最终设计成一个可以进行英语口语专线训练和自主训练的应用Oral Storm。

1 研究基础

Android平台自底层向上由四个层次组成:Linux内核层、Android运行时库与其他库层、应用框架层、应用程序层。它采用软件堆层(software stack),又名软件叠层的构架,主要分为3部分:底层以Linux内核工作为基础,由C语言开发,只提供基本功能;中间层包括函数库Library和虚拟机(virtual machine),用C++开发,最上层是各种应用软件。

2 应用架构及功能说明

专项训练模块主要是对英语口语比较重要的四个发音类别进行系统训练,这4个发音类别分别是清辅音、浊辅音、摩擦音和爆破音。在进入训练界面之前,有对各类发音方法和技巧的介绍,利于用户方便快速地学习口语的正确发音。我们将每种发音训练模式中的单词都分成10个小组,这些单词都是由学校专业英语教师挑选的有代表性的词,适合用于英语口语基础训练。用户在进行完每个小组的单词训练后,系统都会对用户的发音作出评价和打分,对经常出现发音错误的单词,用户可以选择保存,用于以后专门的训练。

自主学习模块是用户根据自身实际需求进行训练的板块。用户先输入想要训练的单词或语句,如果不知道如何发音,可以求助于应用中的英文朗读功能。英文朗读功能是将文本转换成语音信号,帮助用户轻松方便地学习每一个英语发音。用户还可以选择性地保存输入的学习内容,方便以后复习使用。

总之,专项训练模块针对学生英语学习中的四大类发音难题设计,通过专题式的学习、测试和智能评分,给用户提供随身的英语单词学习和测试环境;自主训练模块则专注于为用户提供可定制的英语单词学习专题,通过学习内容的自定义给用户最大限度的学习自由度。

3 研究技术

应用功能的实现主要使用了两大技术,获取语音识别技术和语音合成技术。

3.1 获取语音识别技术

单词发音练习需要使用Google语音搜索服务,因此必须判断当前用户手机是否支持该服务,所采用的方法是通过queryIntentActivities()方法,查询Android系统所有具备RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的应用程序,点击后能启动该应用。

在Android语音识别应用研究与开发的同时,Google语音服务需要网络支持,所以也需要判断当前用户的网络连接状况,在类中写一方法check--NetWorkStatus()引用ConnectivityManager cwjManager来判断网络是否连接正常。

3.2 语音合成技术

语音合成技术,是一种将文本转换为语音输出的技术,其主要工作是将文本按字或词分解为音素,然后将音素生成的数字音频用扬声器播放或者保存为声音文件,然后通过多媒体软件播放。

Android手机平台,绑定了英文语音引擎,对英文语音提供内置的支持。要将文本转换为语音,首先要检查TTS数据可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回结果为真,表明TTSEngine可以使用。除此之外,还有语音数据损坏和缺少发音数据等原因导致TTSEngine不能使用,这些因素都要考虑。之后是初始化TTS接口,这部分要设置发音语言引擎setLanguage(Locale.US)、发音音量Len(Volume)等。在这个过程中,还需要检测设置的发音语言类型是否可用。

4 结束语

我们开发的口语学习软件Oral Storm,可为训练单词发音提供专业、智能及终端化的一体化学习和测试环境,专题分类科学、全面,涵盖了爆破音、摩擦音等发音难点,可在专题学习后提供智能评分和语音纠正。用户使用这款应用,可以方便快速地学习英语口语的正确发音。

参考文献

[1] 邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛:下半月,2010(3):62-63.

[2] 詹青龙,张静然,邵银娟.移动学习的理论研究和实践探索[J].中国电化教育,2010(3):1-7.

[3] 周丽娴,梁昌银,沈泽.Android语音识别应用的研究与开发[J].广东通信技术,2013,33(4):15-18.

语音识别技术例10

中图分类号:TN912 文献标识码:A 文章编号:1007-9416(2012)02-0082-01

由于生活节奏的加快,汽车已经成为了人们生活中重要的工具,人们在车内的时间也更多。同时也希望能够在车内接收到外界的信息继续进行工作,还要求汽车有娱乐功能,因此促进了车载多媒体的发展。而车载多媒体传统的人机交互方式会增加潜在的驾驶危险,为此将语音识别应用于车载多媒体系统中,将会是车载多媒体发展的重要方向。端点检测、特征参数提取以及识别是语音识别的主要内容,本文也将从这三个方向对车在多媒体系统的语音识别进行研究。

1、端点检测

在进行语音识别时,首先需要通过端点检测来对语音信号中的无声片段和有声片段进行分割。目前,语音端点识别已经从开始的单一门限发展到了基于模糊理论的判决。但是对于车载多媒体而言,计算量较大、识别响应时间较长端点检测的方法显然不使用,所以主要采用基于短平均过零率和短时间平均幅度的方法来进行语音端点检测,这种方法利用短时间内幅度的检测和过零率来作为语音端点的检测。

首先,利用短时幅度可以有效判断语音端点,同时语音的浊音部分平均幅度会明显大于噪声的平均幅度,然后同时再辅以短时过零率的方法来判断语音开始的浊音,从而进一步对端点检测进行校准,两者的结合能够更加精确的判断语音端点,并且两种算法都较为简单,能够满足车在多媒体的需求。

2、特征参数提取

在完成语音的端点检测之后,需要提取语音的特征参数,然后进行语音识别。目前用于语音特征参数提取的算法主要有LPCC(线性预测倒谱系数)和MFCC(Mel频率倒谱),由于MFCC具有更强的抗干扰能力等特点,更适合与噪声较多、司机不能离输入设备很近的车载环境。

分析MFCC的语音特征参数提取可以分成预加重、加窗、FFT(快速傅里叶变换)、滤波、自然对数提取、自然对数DCT计算这六个步骤。由于MFCC其计算精度以及计算量都较大,因此,使用MFCC作为车载系统的语音特征参数提取时,需要进行相应的改进:

(1)在MFCC实现的六个步骤中,例如加窗等步骤就可以实现进行计算,然后存储在数组中,在使用时进行查表提取,从而避免每一次语音识别时重复计算,从而加快了计算速度。

(2)FFT需要花费大量的时间(据统计,FFT需要花费MFCC56.32%的时间[2]),由于FFT算法是对复数进行处理,而语音信号的处理只涉及到实数部分,其虚数部分为零,因此增加了运算时间,因此可以利用文献3所提出的FFT运算方法,将长度为N的FFT预算降低到长度为N/2的FFT运算,从而提高了语音特征参数提取效率。

3、识别模式

语音识别的原理是模式匹配,通过计算现有语音模式与语音模板库中的模板的距离,来获得最佳的匹配模式。匹配的方法主要有DTW(动态时间规整)、HMM(隐马尔科夫模型)和ANN(人工神经元网络)。由于ANN计算量较大,因此不适合用于车载多媒体系统中,HMM需要繁杂的程序结构,包含众多功能模块,需要大量的计算。因此, DTW模式更适合用于车载多媒体系统中。能够满足车载系统孤立词、小词汇量的语音识别。

为了更好的在车在多媒体系统中的嵌入式平台上实现DTW,对DTW进行进一步的改进:

(1)由于在语音识别汇总,对音头和音尾的判断存在一定的误差,因此,使用传统DTW方法在进行固定端点匹配时会存在一定的误差,从而降低了语音匹配成功率。为此,可以采用放宽端点限制的方法来使用DTW进行语音识别。其主要的思路是取消传统DTW中对音头和音尾严格对其的限制。从而,只要两次语音在开始的W帧内能够匹配成功,同时在结束的W帧内匹配成功,即认为两次语音匹配成功。在降低了对端点检测的精度要求,符合车载系统小词汇量的特点,不会降低车载系统语音识别效率。

(2)在使用DTW进行语音模板匹配时,需要计算两个模板各帧的距离来计算模板之间的距离。加入模板库中的某个模板T有N帧,待识别的语音R有M帧,那么通常需要申请M×N长度的空间,再根据两个模板所有帧间距离计算整体长度。但是在实际的应用中,只需要M长度的空间来存放模板T第n-1帧与模板R中M帧之间的距离,在计算完第n帧与模板R中M帧之间的距离对M长度空间的数据进行替换,从而进行模板T第n+1帧与模板R中M帧之间的距离,从而节省了(N-1)×M的存储空间,这对车载系统有限存储空间的系统中有着非常重要的意义。

4、结语

相比于传统的按钮式、触摸屏式人机交互系统,语音识别对于车载多媒体系统有着非常重要的意义,将是车载多媒体系统重要的发展方向,本文针对车载多媒体系统对低CPU运算时间和地存储空间的特点,对语音识别中的端点检测、语音特征参数提取以及识别模式的实现和优化进行了研究。

参考文献

[1]方敏,浦剑涛,李成荣.嵌入式语音识别系统的研究和实现[J].中国信息学报,2004,(6):73~78.

[2]万春,黄杰圣,曹煦晖.基于DTW的孤立词语音识别研究和算法改进[J].计算机与现代化,2005,(13):4~6.