期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

语音识别系统模板(10篇)

时间:2022-11-27 07:57:00

语音识别系统

语音识别系统例1

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

语音识别系统例2

在这个高科技的信息时代,计算机占着极为重要的地位,人机通信是人与机器之间进行信息通讯,使机器按照人的意愿工作,传统的人机通信是通过键盘、按钮以及显示器等机器设备实现的,在许多场合都不是很方便,其最理想的通信方式就是通过语音进行识别。实现人与机器通过自然语音的方式进行信息通讯,不仅可以简化日常工作,更可以提高工作效率,带给人们极大的方便。而实现这个理想最关键的部分就是语音识别技术。

1语音识别概述

1.1语音信号的产生

物体的振动产生声音,正在发声的物体叫做声源,声音在介质中以声波的形式传播。语音是指人的发声器官振动所发出的负载一定语言意义的声音,发音器官主要有肺部、气管、喉部、咽、鼻腔、口腔和上下唇,每个人的声道各不相同,从而各自发出的声音也不相同。

语音信号主要有模拟信号和数字信号两种表现形式。模拟信号是人直接通过耳朵听到的信号,是时间和幅值均连续的物理量,由于其数据量过大、有较多的随机因素等原因不能直接被作为计算机的识别信号。数字信号是时间和数值均离散的二进制数字量化的模拟信号,是计算机语音识别技术的基础。数字信号相比模拟信号有以下优点:可以实现很多复杂的信号处理工作;具有可靠性高、价格低廉、反应迅速等特点;有利于区分出干扰信号等。所以要想使计算机按照人类的自然语言要求工作,关键的就是将模拟信号转换为数字信号。

1.2语音信号的处理

根据讨论,若要对语音信号进行处理必须先对此信号进行预处理,即将模拟信号转换为数字信号,再整理、分析、理解转换后的数字信号,并过滤掉多余的信息。主要包括数字化、预加重和加窗分帧三部分。

数字化就是把语音模拟信号转换为数字信号的采样与量化过程,采样是在相同间隔的时间内抽取信号而得到离散的序列,并将其转换为数字。量化则是在有限的区域内分布采样后的信号。预加重是通过一个高通滤波器使频谱变得平坦,防止衰减作用,不受有限字长效应的影响。以“帧”为单位对语音信号进行截取,使信号有短时平稳的特征,加窗则可以让截取的信号波形更加平滑。

1.3语音信号的模块处理

在语音识别中,常使用的基本算法有:动态时间规整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

1)隐马尔可夫模型

隐马尔可夫模型(HMM)在当前语音识别系统中占据主流地位。它是一种随机概率模型,其使用大大降低了模型的复杂度。早在20世纪六七十年代就开始研究的统计信号模型。HMM是在Markov链的基础上发展起来的,但实际问题要更为复杂,所观察到的事件与一组概率分布相关。它是一个双重随机过程,一个是Markov链,这是基本随机过程,它描述状态的转移;一个是随机过程描述状态和观测值之间的统计对应关系,观察者不能直接看到状态,而是由感觉感知到的,因此称之为“隐”Markov模型,即HMM。

2)人工神经网络法

ANN现在已经成为了另一个热点,是非线性系统,具有DTW和HMM没有的对比、概括、推理能力。

3)动态时间规整技术

DTW是模板训练和模式匹配中出现最早的技术,使用动态规划技术在孤立词语音识别中具有良好的成果,但是其计算量较大,很难被使用到现实中的语音识别。目前已经被其他的算法所替代。

2语音识别系统设计思路

语音识别技术正在不断的发展中,在硬件平台上实现语音识别以取代繁琐的工作成为其发展的必然趋势。本文就是对基于单片机的语音识别系统的研究。由于单片机本身存在着处理速度慢、存储能力不强大的缺陷,所以此次设计是基于孤立词的语音识别系统。

语音识别系统的模型库训练工作原理是:特定人的语音信号进入系统,系统对进入的语音信号滤波,目的是为了消除需要的语音频率之外的其他杂音,进而数模转换,将输入的语音模拟信号数字化,有利于计算机进行识别。数字化后的语音信号再通过预处理、加窗分帧。对于剩下的语音信号送入HMM模板与模板库进行训练和匹配,再将最佳的结果传输给用户。

3系统模块设计及系统测试

此次设计是基于单片机的语音识别系统研究,有以下几点要求:该系统必须使完整的语音识别系统,有简单的显示功能,提高系统的识别性能,体积尽量减小。

工作原理首先采集语音信号,输入完成后通过滤波采集需要的语音信号,再通过数模转换器进入控制器,再与标准语音库中的语音信号进行对比,找出最接近该段信号的语音,再将识别出的语音通过LCD显示模块显示给用户。

系统检测首先确认是否有按键按下,当检测到有按键按下时,表示系统开始运行,如果没有按下,则表示系统处于非工作状态,只有当有按键时,才可以工作。进而开始接收语音信号,首先对语音信号进行滤波消除杂音,然后通过数模转换电路,将模拟信号转换为数字信号,预处理、端点检测后,与事先存储好的信号进行比对,得到最后的识别结果,将识别出来的结果,送往LCD液晶显示器上显示出来,展现给用户。

此次设计通过MATLAB软件实现对语音信号的调试。在接收语音信号时,有可能产生外界的干扰噪声,这就需要我们通过一系列复杂的公式计算,对该信号进行处理,进而在送由单片机进行下一步的工作。

4结束语

语音识别技术是实现人与计算机进行直接对话,让计算机自动对人所说的话进行识别、理解并执行的技术手段。语音识别技术的应用已经成为一个被受关注的新型技术产业,它的实现能够简化人们在以往工作中的繁琐,未来语音识别还要向低成本、高性能方向不断发展。

语音识别系统例3

1 前言

新一代特种车辆的车载显控系统对复杂噪声环境下的语音控制(语音识别与语音合成)组件提出了新的需求,当前的车载显控系统需要具备语音采集、识别和合成输出的功能,而特种车辆在任务中的复杂噪声的污染会使许多语音处理系统性能急剧恶化。由于特种车辆的车载强噪声环境的特殊性,现有的商用语音识别模块产品均难以满足其环境的使用要求。

本文基于特种车辆对语音控制设计需求,针对特种车辆座舱(以下简称车载座舱)殊的噪声环境,进行车载座舱噪声环境下语音降噪组件设计,实现了语音信号的降噪处理,并采用商用的语音识别模块进行测试验证。测试结果表明,此方案在车载座舱环境下具有很好的降噪效果。

2 系统构成及工作原理

2.1 系统构成

车载座舱语音降噪系统由硬件平台和语音降噪软件两部分组成,具体如下:

2.1.1 硬件组成

基于Freescalei.MX6 Dual SOC平台的语音降噪模块、XFV5310语音识别与合成模块;

2.1.2 软件组成

OS为Linux,内核为3.14.52,嵌入式语音降噪软件。

2.2 工作原理

车载座舱语音降噪识别系统的工作原理为:当驾驶员启动语音控制功能时,i.MX6D语音降噪模块向XFV5310语音识别模块发送语音识别启动命令,音频采集模块开始采集驾驶员说出的带噪语音指令,经由语音降噪模块实时处理后,将降噪后的语音指令传送给语音识别模块,根据识别结果进行相应指令的操作响应,从而执行驾驶员下达的语音指令。图1所示为车载座舱语音降噪系统的工作原理框图。

如图1所示,车载座舱语音降噪识别系统的工作原理如下:

(1)带噪语音源获取有两种方式:

1.由音箱播放特种车辆真实任务过程中的车内环境噪声文件来模拟车载噪声环境,噪声强度通过分贝测试仪的读数控制;通过MIC说出语音指令;

2.读取事先录制的并按照特定信噪比叠加的.wav格式带噪语音指令文件。

(2)通过音频编解码芯片STGL5000将输入的模拟带噪音频进行PCM编码,并将数字带噪音频输出给语音降噪软件;

(3)语音降噪软件对数字带噪音频进行降噪处理,生成数字降噪音频。

(4)降噪音频存储文件和播放输出:

1.数字降噪音频输出给STGL5000进行PCM解码和DA转换,生成模拟降噪音频,通过2.0音箱播放并输入给XFV5310模块进行语音识别;

2.数字降噪音频数据存储为wav格式音频文件。

(5)语音降噪软件的串口通讯:

1.通过RS232调试串口控制车载座舱语音降噪组件的工作状态:开始工作、录音模式(开始录音、停止录音)、读取wav文件模式、停止工作,并实时显示组件的工作状态和语音识别结果;

2.通过RS232通讯串口,根据XFV5310串口通讯协议,控制XFV5310模块的工作状态(初始化、开始识别、停止)并接收回传的状态信息和语音识别结果。

3 系统软件算法设计

车载座舱语音降噪识别软件(以下简称CSE软件)运行在嵌入式Linux操作系统下,用于采集模拟带噪语音信号,对采集的数字带噪音频信号进行降噪处理,并将降噪语音信号发送给语音识别与合成模块进行语音识别,最后处理识别模块返回的识别结果。CSE软件主要完成初始化功能、语音录音功能、WAV文件读取功能、WAV文件存储功能、语音播放功能、语音降噪功能以及RS232串口通讯功能。CSE软件执行流程图如图2所示。

初始化模块主要完成RS232串口初始化、录音配置、语音播放配置及信号量初始化。

录音模块主要完成音频采集。由于规定语音指令长度最大为5S,在录音时判断录音时间是否达到5S或是否收到结束信号,如两者均未发生,则采集一个周期音频样本,并保存至带噪音频数组中,如此循环,直至收到录音结束控制信号或录音时间达到5S。

WAV文件存储模块实现将音频文件以.WAV格式存储。首先存储WAV文件头,主要完成WAV文件文件头数据初始化,并检查文件头每个字节的合法性,最后将检测合格的WAV文件文件头存储在.wav文件中,WAV文件头存储后将音频数据写在WAV文件头数据后。

WAV文件读取模块实现读取WAV文件文件头,对文件头进行解析,并读取WAV文件的音频数据。

音频播放模块主要实现将降噪处理后的音频数据实时地通过声卡播放出来,以做识别处理。由于在ALSA音频驱动中,对音频设备的数据访问以及音频数据的存储都是以周期为单位进行操作,所以在播放时要判断已经降噪处理但未播放的音频数据是否达到周期样本数,如达到则播放音频数据,其次还要判断录音是否已经结束,如果结束,判断是否还有音频数据未播放,如有则播放剩余的音频数据。

语音降噪模块对采集或从文件中读取的带噪语音进行降噪处理。首先采用可移动的有限长度窗口实现对带噪语音分帧加窗,分帧加窗结束后,将每一帧带噪语音分别进行短时快速傅里叶变换,然后实现带噪音频的降噪。实现SMSS降噪算法的基本思想是基于统计模型更新信噪比和当前帧噪声功率谱,根据带噪语音频谱中不同频带的信噪比,确定噪声的谱减因子,然后用带噪语音减去噪声和谱减因子的乘积,得到降噪后的语音。在信噪比更新方面,主要采取由先验信噪比和后验信噪比决定SNR的方法,在噪声谱估计方面基于统计模型的VAD方法。降噪处理后再进行短时快速傅里叶反变换(ISFFT),得到时域的降噪语音信号数据,按帧续进行逆分帧重排后得到降噪后的语音信号,最后进行存储为.WAV格式文件或者直接播放输出。

串口通讯模块主要实现发送识别请求,获取识别请求响应结果以及对识别结果解析。在语音播放之前,需要启动XFV5310开发板的识别功能,由识别启动模块发送语音识别启动命令,开发板收到命令帧后会判断此命令帧正确与否,并回传结果,识别启动模块接收回传数据。发送识别启动命令后,如果识别启动模块在5.5S内未收到XFV5310开发板回传,则默认识别开发板无反应,识别启动模块将退出等待。当语音识别启动后,XFV5310开发板将会在识别处理结束后将相应的识别结果回传给CSE软件。回传的数据以“帧”的方式封装后传输。识别结果解析功能是当语音降噪软件接收到XFV5310开发板的回传的识别结果,根据通讯协议对XFV5310开发板发来的识别结果解码。

4 系统测试验证

4.1 测试环境

车载座舱语音降噪组件的测试验证试验中,各模块间的交联关系如图3所示。

4.2 测试方法及结果

在车载复杂噪声环境下,特定信噪比(-5dB、0dB、5dB)的语音指令,未经降噪前语音质量差,指令模糊,商用XFV5310语音识别与合成模块对指令识别率低于65%。经过本文设计的车载座舱语音降噪软件处理后,系统的测试结果如表1所示。

4.3 测试结果分析

车载座舱语音降噪识别系统功能完整,语音录音、播放、WAV文件读取、存储、语音降噪处理等功能都能符合需方的功能要求;特定信噪比(-5dB、0dB、5dB)下的语音指令识别率能够满足需方规定的指标要求;语音降噪算法、降噪与识别的总耗时稳定,不会随着语音指令的增长而增加耗时,能够满足需方规定的指标要求。

5 结束语

特种车辆工作环境下的带噪语音经车载座舱语音降噪识别系统处理后的语音听感清晰,无明显失真,无明显噪声残留,且运行总耗时较少,能够满足车载环境下语音降噪需求,配合商用的语音识别与合成模块XFV5310组成的系统能够满足特种车辆在恶劣工作环境下的语音控制功能,将该系统与车载显控模块集成,满足需方的功能与性能指标要求,经过实际装车使用测试,证明本文设计的车载座舱语音降噪识别系统功能性、稳定性和可靠性均能满足特种车辆的使用要求。

参考文献

[1]Loizou P,Speech enhancement:theory and practice[M].1st ed.CRC Taylor and Francis,2007:6-7.

[2]宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013.

[3]易克初,田斌,付强.语音信号处理[M]. 北京:国防工业出版社,2003.

[4] Israel Cohen and Baruch Berdugo: Speech enhancement for non-stationary noise environments,[J].Signal Process.,vol.81,no.11,pp. 2403-2418,Nov.2001.

[5] Israel Cohen:Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement,[J].IEEE Signal processing letters,vol. 9,no.1,January 2002.

[6] Israel Cohen.“Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging”[J].IEEE Transactions on speech and audio processing,vol.11, no.5,Sep,2003.

[7] Israel Cohen:Relaxed statistical model for speech enhancement and a priori SNR estimation [J].IEEE Trans. Speech Audio Process.,vol.13, no.5,pt.2,pp.870-881,Sep,2005.

[8]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社,2003.

[9]程塔,郭雷,赵天云,贺胜.非平稳噪声环境下的语音增强算法[J].西北工业大学学报,2010,28(5):664-668.

[10]蒋海霞,成立新,陈显治.一种改进的谱相减语音增强方法[J].理工大学学报,2001,2(l):41-44.

[11]孙杨,原猛,冯海泓.一种基于统计模型的改进谱减降噪算法[J].声学技术,2013,32(2):115-118.

作者简介

语音识别系统例4

中图分类号:TN912 文献标识码:A 文章编号:1672-3791(2017)02(b)-0016-02

考勤是评价学生平时成绩的重要指标,但其准确率和真实性却往往得不到保证。在过去的点名方式中,比较为人们所熟知的有:老师喊学生名字,学生回答“到”。这是最为传统的一种,但是此种方式的弊端也显而易见――在学生达到30人及以上时,由于人数过多,老师难以准确制止学生之间相互代答的现象,导致学生“浑水摸鱼”,蒙混过关,考勤成绩不具有真实、准确性;另外,在手机的快速发展和普及下,一种APP点名方式也逐渐兴起。在需要点名时打开手机APP点击签到即可,点名的时间不固定,老师通过签到的情况来确定学生是否缺勤。但这其中忽略的问题则是虽然点名时间是随机的,但是出勤的同学可以用多种方式来告知缺勤的同学使其完成签到,这种情况下,考勤结果依然无法辨别。

针对上述问题,设计出一种基于神经网络的语音点名识别系统来提高点名的准确率。在课堂点名的时候,录入学生的实时语音,对输入的语音信号进行预处理,包括声音的预加重、加窗分帧处理与端点检测等。语音信号经过预处理后,再进行特征参数提取。在训练阶段,对特征参数进行一定的处理之后,为每个词条得到一个模板,保存为模板库。在识别阶段,语音信号经过相同的方法得到语音参数,生成测试模板,与参考模板进行匹配,将匹配相似度最高的参考模板作为识别结果。通过识别结果来判断是否为同一个学生回答,这样则可减少老师点名工作的繁杂度,并且可以大幅增加考勤的有效性以及准确率,来更好地达到“考勤”这一行为的预期目的。

通过实验表明,该系统具有较高的准确率。从之前的老师点名学生回答和APP点名等方式对真实性的一无所知、无法预测到现如今该系统可以使考勤的准确率达到85%以上,都表明了这种基于神经网络的语音点名识别系统可以有效地减少学生代替答到的行为并提高学校考勤的准确率,使评价学生平时成绩的重要指标――考勤结果更加真实、可靠。

1 具体方案

1.1 模型库建立

1.1.1 语音识别的预处理

语音信号的预处理是语音识别的基础与前提,包括语言的预滤波、采样、预加重、加窗分帧处理与端点检测等。

(1)预滤波、采样。

预滤波的目的是:抑制语音信号中超过f/2(f为采样频率)的分量对语音产生混叠的现象;有效地实现对50 Hz电源干扰的抑制。

滤波时使用的是个带通滤波器,采样定理要求采样频率至少要是语音频率的两倍。

在滤波和采样结束后,将模拟信号转换成数字信号。

(2)预加重。

声音信号中,处于低频段的信号能量比较大,集中了语音信号的绝大多数信息量。预加重就是将语音信号在输入端对高频部分进行增大,达到提高信噪比的目的[1-2]。

(3)分帧与加窗。

分帧可以采用连续分段的方法,但是为了使帧与帧之间能够平滑过渡,保持很好的连续性,现在一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取0~1/2。

在语音信号处理中常用的窗函数是矩形窗和汉明(Hamm ing)窗等。由于汉明窗的旁瓣高度是最小的,而主瓣是最高的,其对抑制频谱的泄露比较有效果,汉明窗有比其他窗函数更好的低通性[3]。

1.1.2 语音识别的特征参数提取

特征提取是指从说话人的语音信号中获得一组能够描述语音信号的特征参数的过程,人们发现说话人语音的个性特征在很大程度上取决于说话人的发音声道。特征参数可以是能量、共振峰值、零相交率等语音参数。因为不同的人所说出语音的各项特征参数不相同,因此,可以将特征参数作为判断两段语音是否为同一个人的重要判断依据[4]。

1.2 语音识别

1.2.1 人工肝神经网络简介

人工神经网络(ANN)简称神经网络,使用计算机网络系统模拟生物神经网络的智能计算系统。它是基于人脑神经元的原理,模拟人脑神经元的结构和活动建立的一种识别模型,其最终目的是建成一种具有自学习能力、联想能力、识别能力的系统[5]。

1.2.2 BP神经网络

BP算法,也称为EBA算法,也就是误差反向传播算法,系统地解决了多层神经元网络中隐单元层连接权的学习问题,并在数学上给出了完整的推导[7]。

按照神经元之间的连接方式,可将神经网络分为两大类:分层网络和互联型网络[8]。

2 实验过程与讨论

程序的起始界面如图3。

在该系统中,声音文件的格式均为.wav格式,频率默认为8 000。

首先在录入学生信息时采集学生的语音,一并存入数据库,通过预处理、特征提取等工作提取出每个学生的声音特征,例如速度、能量等,将这些数据存入模型库文件trainer中,提供给之后的神经网络训练使用以及作为课堂点名时的声音样本。在日常上课点名时实时采集每个学生回答同样话语的声音,经过预处理及特征提取等同样的步骤放入文件夹speaker中来与模型库中的语音样本进行比对,文件名为该学生学号。若是同一人回答,则会显示trainer** matches speaker** ,两者文件名数字相同;若显示匹配的数字不相同,则代表可能不是同一人。

图4为一段Z音的特征参数图形。

由图4可以更加直观地看出,不同的语音所具有的特征参数波形图是不一样的,我们就可以利用这个特性来达到分辨是否为同一个人回答的目的。

3 结语

语音识别、神经网络都是现在学术界的研究热点,以基于人工网络的语音识别为基础,对语音识别的过程进行了系统和深入的研究。基于语音识别的原理和过程,结合BP神经网络的理论和特点,研究了基于MFCC的语音识别,完成了相关算法与软件的编写,结合神经网络语音识别等知识,运行出了一个简易的点名系统。可以大大减少学生代替答到的现象,塑造一个良好的课堂环境并得到可靠的考勤结果。符合科技日益发展的现代社会的需要,课堂与生活一起与时俱进。

参考文献

[1] 王伟臻.基于神经网络的语音识别研究[D].浙江大学计算机学院,2008.

[2] 张稳.基于神经网络的语音识别系统的实现[D].成都理工大学,2013.

[3] 吴炜烨.基于神经网络语音识别算法的研究[D].中南大学,2009.

[4] 雷涛.基于神经网络的语音识别研究[D].浙江工业大学,2005.

[5] 施彦,韩立群.神经网络设计方法与实例分析[D].北京邮电大学,2009.

语音识别系统例5

关键词: 拟人机器人; 双CPU; 语音识别系统; 硬件设计

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)01-01-02

Design of hardware of speech recognition system in humanized robot

Liu Renping, Hou Ruizhen, Fang Yinglan, Han Xianfeng

(North China of Technology, Beijing 100144, China)

Abstract: In order to improve the reliability and efficiency of the speech recognition, a speech recognition system based on double CPU of the "MCU+DSP" is designed. The calculations are done by the main processor which takes the digital signal processor (DSP) as the hardware platform. DSP operation is assisted by Micro control unit(MCU), which controls all parts of the robot. Its performance can meet real-time processing's needs.

Key words: humanoid robot; double CPU; speech recognition system; hardware design

0 引言

随着超大规模集成电路和数字信号处理器(DSP)的快速发展,DSP的应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,已研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、实时、精确处理的要求,所以很适用于语音识别。

1 拟人机器人语音识别方法概述

语音信号分析是语音识别的前提和基础,只有分析出可表示语音信号本质特征的参数,才可能利用这些参数进行高效的语音通信,才能建立用于识别的模板或知识库。语音识别率的高低取决于对语音信号分析的准确性和精确性,虽然语音信号具有时变特性,但在一个短时间范围内其特性相对稳定,因而可以将其看作是一个短时平稳过程。任何对语音的分析和处理均建立在“短时”的基础上,一般认为语音信号在10-30ms的短时间内是相对平稳的。

拟人机器人语音识别方法如图1所示,采集到的语音信号输入后,首先对语音信号进行预处理,预处理主要包括:语音信号电压放大采样、反混叠失真滤波、预加重、自动增益控制、分帧、加窗、语音增强、端点检测以及A/D转换等环节;然后是信号特征量的提取(本文对信号的特征量进行Mel频率倒谱系数[2](Mel-Frequency Cestrum Coefficients)处理);最后对建立好的参数模板进行对比,测试的依据是失真度最小准则,如本文用到的动态时间规整DTW[3](Dynamic Time Warping)。

2 系统硬件设计

通过针对拟人机器人的特点,对系统进行分析和方案设计,最终确定本系统的框图如图2所示。本系统的硬件基于一个以DSP(TMS320VC5416)为主处理器的硬件平台,硬件平台主要包括:语音输入输出模块、主处理器DSP模块、存储器模块、单片机MCU模块、485串口通信模块。其中语音输入输出模块实现了语音信号的采集和输出;主处理器DSP模块(TMS320VC5416)主要完成语音识别所需的计算,其性能能够达到实时处理的要求;存储器模块包括一片FLASH和两片SRAM,用FLASH作为DSP的可编程存储器,SRAM分别作为DSP的数据和程序存储器;单片机MCU模块完成对拟人机器人的运动控制;485串口通信模块实现单片机MCU和PC机之间的通信。

2.1 主处理器DSP模块介绍

TMS320VC5416(简称VC5416)是TI公司的C54X家族的成员之一,它是基于先进的改进哈佛结构的16位定点DSP。它具有C54X的共同特点,高性能低功耗,具有高达160MHz的主频,核心电压1.5V,运行于此频率时功耗仅为90mW;拥有一条程序总线和三条数据总线,片内集成有高度并行性的算术逻辑单元(ALU)、专有硬件逻辑、片内存储器和片内外设等。

语音识别系统例6

Abstract:This paper studied the technology of speaker-dependent recognition based on Sunplus SPCE061A, voice recognition technology will be applied to the home control system. Proposed a control scheme which is convenient operation,easy to expand, and applicable to home applications. The system will be analyzed from the perspective of hardware circuit and software design. Also in the Google App Inventer platform, built out a control software based on Android smartphone’s Bluetooth communication.The tested results showed that the system has successfully realized the voice technology appliances and Android smartphones remote control technology.

Key words:Sunplus;voice recognition;home control;Android;Bluetooth communication

随着科技智能化的发展和社会生活水平的不断提高,人们对家居环境方便快捷的要求也随之提高,智能家居的概念成为了一个热门话题。在智能家居系统中,语音识别和远程控制的应用打破了常规的家用电器局域性控制局限,已经成为了具有竞争性的新兴高技术产业,在智能家居控制系统上应用非常广泛。本文研究了基于SPCE061A单片机的特定人语音识别技术以及智能手机蓝牙通信技术,并将其成功应用于家用电器的控制上,用户可以利用语音命令和Android手机操作方便快捷地控制电器的开关动作。

1 系统总体设计

系统采用凌阳16位SPCE061A单片机为核心控制器,由蓝牙串口透传模块ATK-HC05、MIC输入模块、扬声器、液晶显示器、按键组成,利用SPCE061A内置的语音模块,将麦克风采集到的语音信号与事先训练好的语音库的特征语音进行对比,根据语音辨识结果产生控制信号,进而控制家用电器[1]。系统还增加了无线蓝牙通信功能,由Android智能手机发送事先规定的指令,蓝牙模块接收后将数据交给控制器处理,产生的控制信号将发送给执行器对家电进行控制。系统还设置了人性化的液晶人机界面和指示灯方便用户操作。用户可以通过键盘对系统进行复位、重新学习语音命令的操作。系统总体结构框图如图1所示。

2 系统硬件设计

凌阳16位单片机SPCE061A在硬件结构和指令系统上都非常适用于语音信号处理,其主要的特点为:速度快,多中断,多个A/D转换器,特别是具有音频输出功能的双通道10位D/A转换器,具有自动增益控制功能与内置传声放大器的A/D转换器[2]。本设计采用具有DSP功能并内置声音A/D转换器的凌阳单片机,可以使得系统大大简化。

SPCE061A的A/D转换器有8个通道,其中有一个是MIC_IN输入,专门对语音信号进行采样。MIC选用驻极体话筒,其偏压由SPCE061A的VMIC脚提供。MIC输入模块电路结构简单,只需外接三个电阻和电容以对电流信号进行滤波。

SPCE061A提供双通道10位的D/A输出AUD1、AUD2,每个通道的输出能力是30mA。为了能驱动扬声器放音,将输出电路设计为由负载电阻和三极管8050组成的功放电路[3]。

2.1 最小系统组成

最小系统接线如下图2所示,在OSC0、OSC1端接上晶振及谐振电容,在锁相环压控振荡器的阻容输入VCP端接上相应的电容电阻后即可工作。其它闲置的电源端和地端接上0.1?F的去藕电容以提高抗干扰能力。

2.2 蓝牙通信电路

ATK-HC05是一款高性能的主从一体蓝牙串口模块,该模块支持非常宽的波特率范围:4800~1382400,并且模块兼容5V或3.3V单片机系统[4]。

模块与单片机连接最少只需要4根线即可:VCC、GND、TXD、RXD。其中VCC和GND用于给模块供电,RXD和TXD分别为串口接收脚和串口发送脚,分别连接单片机的TXD和RXD进行通信。

ATK-HC05模块与单片机系统的典型连接方式如图3所示:

3 系统软件设计

本课题的软件主要包括两部分:语音控制和蓝牙通信,采用C语言编程。该系统的智能手机控制软件是在MIT/Google App Inventer平台下搭建的,App Inventor是一个完全在线开发的Android编程环境,抛弃复杂的程式代码而使用积木式的堆叠法来完成Android程式。Google App Inventor用户能够通过该工具软件使用谷歌的Android系列软件自行研发适合手机使用的应用程序[5]。

3.1 语音控制程序流程图

语音控制程序流程如图4所示。该控制程序主要包括两个部分,即语音训练和语音识别。语音识别部分则实现对特定人发出的语音命令与系统储存的语音命令比较,并根据比较结果产生相应的控制信号。

程序执行步骤如下:程序开始运行时,首先将RAM中的语音模式擦除,为下面的语音训练的存储做准备。然后按照训练提示音依次训练触发名称。每一条语音命令需要训练两次,这两次训练会自动作出比较判断。当训练人两次发出的语音命令在误差允许范围内则判断为训练成功,同时将训练人的发音特征储存到系统中,否则程序返回上一层对该命令再次进行训练,直到语音命令完全训练成功。

当系统提示语音训练完毕后,程序随即进入识别阶段。系统首先对语音识别器进行初始化,同时麦克风会播放提示音,提示训练人此时可以对控制系统发出语音命令。处理器将采集的语音信号进行处理,并与存储器中训练人的语音样本进行比较,根据比较结果产生相应的控制信号从而驱动设备动作。语音识别过程循环进行,完成语音命令的控制任务后系统等待训练人再次语音命令[6]。

3.2 蓝牙通信

由Android移动设备发送事先规定好的数据指令,系统中的蓝牙模块接收到后将数据交给单片机处理,单片机将接收到的指令和预先规定好的指令进行比较,产生控制信号传送给被控对象,从而实现Android智能手机对电器设备的控制。蓝牙通信流程图如图5所示。

3.3 Android软件设计

App Inventor for Android,它是一个基于网页的开发环境,即使是没有开发背景的人也能通过它轻松创建Android应用程序。App Inventor可以让开发者抛开复杂的程序代码,使用搭积木式的方法来完成Android应用程序。

搭建应用程序需要准备以下材料:

⑴Android系统智能型手机

⑵蓝牙串口透传模块(本文使用ATK-HC05)

⑶单片机系统开发板(本文使用凌阳SPCE061A)

首先要有一个谷歌账户,并且申请了开发App inventor的权限。

登录到App inventor开发界面可以看到一个空页面,点击“new”创建一个新项目,在出现的对话框中输入创建的app的名字,便可以开始对应用程序的编辑。

App Inventor由两个部分构成:设计视图和块编辑视图。开发者可以在设计视图中完成添加按钮、文本框等程序外观的设计,设计视图就是一个网页;在块编辑视图进行真正的代码编辑,块编辑视图就是一个Java应用。如果将Android设备连接到了电脑上,还可以随时在手机上看到应用程序的修改。

Android软件设计结构图如图6所示,此程序表示当打开Android手机的蓝牙功能后,获取可连接设备的地址。当连接成功后按下发送按钮,Android手机会经由蓝牙发送指令数据给当前地址的接收端,从而实现智能手机对电器设备的远程控制。

4 结论

本设计采用凌阳单片机SPCE061A作语音识别处理器,硬件电路简单,控制灵活;选用适合特定人孤立词识别的语音特征和识别方法,处理速度快,识别率高,可满足实时语音识别的需要。同时使用者可以根据自己的需要改变应答反应(包括语音输出和控制输出),就可以实现对多种电器设备的控制,如电视机开关及选台、音量调节等操作。该系统可扩展性和灵活性强、成本低廉,在智能家居方面具有良好的应用前景。

[参考文献]

[1]王中强,杨坤,俞一奇,张志美,程立英.基于SPCE061A单片机的智能小车的设计[J].科技资讯,2013,(18):88~89.

[2]陈海宴,吕江涛,李瑞.凌阳16位单片机经典实战[M].北京航空航天大学出版社,2011-7-4:12-13.

[3]李金波,田民.基于单片机的智能家居系统设计[J].自动化技术与应用,2010,29(6):125~128,131.

语音识别系统例7

DOIDOI:10.11907/rjdk.162849

中图分类号:TP319

文献标识码:A文章编号文章编号:16727800(2017)005005403

0引言

无人机是一种机内无人驾驶的飞行器,具有动力装置和传感器等模块,在一定范围内靠无线电遥控设备或由内置程序自主控制飞行,自出现以来就受到发烧友的热烈追捧,相关研究进展迅速[1]。Android设备在移动终端市场占有率较高,为使无人机控制方式更加简便、智能化,本文在Android平台设计了语音控制四旋翼无人机系统。

1系统总体设计

通过语音识别控制无人机的设计由硬件设计和软件设计两部分组成。其硬件结构由动力部分、姿态感知、控制部分、WiFi模块、气压感知装置5大部分组成[2];软件部分基于万维网联盟的语音识别语法规范1.0标准(简称SRGS1.0),采用ABNF格式的文档完成语音识别,识别结果经软件处理,匹配生成相应的控制指令,通过手机WiFi功能发送到无人机端。无人机端通过TICC3200 WiFi模块接收控制命令,在STM32F3的控制下驱动电机完成用户的相应命令。控制器根据控制命令以及由传感器组感知的无人机实时状态数据(飞行姿态、高度、方向等),经过姿态融合算法和控制算法运算后调节电机转速,从而实现按照人的语音控制命令来控制无人机[36]。图1为系统设计原理。

2硬件设计

2.1飞控硬件模块

本设计选用市场上常用的F450四轴机架作无人机机架,选用SP Racing F3 飞控板作无人机控制器,负责检测无人机姿态和加速度,控制无人机各项电机的转速,从而控制无人机姿态和运动方向、控制WiFi模块(或GSM模块或蓝牙模块)进行通信工作。SP Racing F3 飞控板以STM32F3处理器为核心,集成气压计、陀螺仪、加速度计、地磁计,可加GPS、LED灯带、声纳等配件,使定高、定点、翻滚等飞行姿态的开发工作变得十分简便[34]。图2为飞控主控制器系统电路。

2.2无线传输模块

无人机通信模块可选择WiFi模块、GSM模块和蓝牙模块作为通信模块,与Android终端通信。GSM模块通信范围广,不管Android设备在哪都能进行远程控制;如果要异地控制,可选用GSM模块,但通信速率偏低;蓝牙模块成本低,功耗低,但通信范围有限,不适合本使用场景;考虑到传输视频图像数据吞吐量大,且几百米通信范围要足够使用,而WiFi模块通信速率高,所以选用WiFi模块。本系统采用TI CC3300WiFi模块,此模块功耗极低,尺寸超小,高速UART波特率可达到3M bps。

2.3语音识别端

语音识别方案有很多,如LE3320模块、ISD系列芯片以及PM系列芯片,虽然都具有语音识别功能,但是使用较繁琐,除此之外PC和手机端的Microsoft系统集成语音识别功能虽然也可应用于本系统,但调试后发现效果不佳。相比之下安卓手机作为语音识别硬件,使用更方便,开源资料更丰富,识别效果更好,省去了繁琐的语音训练过程,更加符合本系统设计。图3为硬件设计框架。

3软件设计

语音控制系统算法如DTW、HMM等都很成熟,主要采用单片机或DSP加上语音识别算法实现语音控制,这种控制方式通过内部算法简化了外部电路,同时语音识别精度也较高。但要求处理器具有较强的运算分析能力,而且需要足够大的外扩存储空间。

本系统软件设计由两部分组成,分别是STM32处理器程序和Android应用程序。STM32处理器程序是在Keil IDE开发环境下用C语言编写,运行在STM32主控制芯片中。STM32处理器代码还包括控制器与外设通信的代码编写。Android应用程序在eclipse+ADT环境下用JAVA语言开发,编译生成的APK文件运行在安卓手机平台[56]。

Android手机由WiFi模块实现和无人机通信并对其控制。首先,Android应用程序向无人机发送配对请求及配对密码,STM32通过WiFi收到配对请求并判断密码与预设值相同后,STM32对此请求应答,Android应用程序收到应答后停止发送配对请求,至此配对过程结束。配对完成后,STM32周期性地将无人机传感器的实时数据发送给Android应用程序,Android应用程序监测WiFi信号并接收实时数据,根据这些数据更新用程序显示无人机状态。应用程序监测WiFi信号的同时监测语音信号,若识别出语音控制命令(包括开启、关闭、前进、后退、向左飞行、向右飞行、升高、下降),立即将控制命令发送至无人机。STM32收到控制命令后即根据控制命令做出相应动作。

3.1SRGS1.0规范

SRGS1.0规范等同于某些编程语言的正则表达式,它定义了一个句子的集合。解码器将根据文法生成的集合,对语音输入的句子进行两个部分的搜索,分别是文档的头部和文档正文,文档头部必须出现在开头部分,指定文档版本号,与编译工具对应[7]。一个典型的头部示例如下:

#ABNF 1.0 UTF-8

Mode SMS;Meta;

#include;Mount “name”;

Root main;

#ABNF HEAD-END

3.2Android端应用程序设计

Android应用程序中监听语音命令方案:编写基于万维网联盟的语音识别语法规范1.0标准(简称SRGS1.0),采用ABNF格式文档,经编译工具处理生成匹配网络。网络作为匹配引擎输入,可由匹配引擎对用户语音输入进行匹配,启动手机内置WiFi与外部WiFi模块连接实现通信[8]。下面是安卓端语音转换成指令的部分程序:

ArrayList results = data.getStringArrayListExtra(RecognizerIntent.EXTRA_RESULTS); for(int i=0;i

strRet +=results.get(i);

if(strRet.length()>0) {

if(strRet.equals("向前")){

strRet="1";

}

3.3STM32处理器端程序设计

无人机端程序一方面将飞控搭载的传感器模块数据发送给安卓手机端,另一方面通过TICC3300模块接收安卓平台匹配后发来的飞行控制指令,将指令转化为PWM定时器,生成飞控可识别的控制指令,发送给飞行器执行模块,执行偏转舵面或改变螺旋桨转速或改变桨距,达到预期的飞行状态。程序运行中还包括各个模块的初始化及通信[910]。下面是STM32PWM控制舵机的部分程序:

Void IO_int(VOID)

{

RCC->APB2ENR|=1

RCC->APB2ENR|=1

RCC->APB2ENR|=1

GPIOC->CRL=0X88888888;

GPIO->CRH=0X33333333;

GPIOC->ODR=OXFFFF;

}

4实验结果

随机分配3人在同一天的不同时间点进行室外试飞,对无人机进行语音控制,在不同环境下测试控制精度,得到数据如表1、表2所示(表中0表示起,1表示降,2表示向左,3表示向右,4表示悬停)。

在相对嘈杂建筑物密集的市区会影响到WiFi信号的传输以及语音信号的接收。由于WiFi信号主要采用微波频段,微波在遇到障碍物时穿透力不强,因此会影响语音信号的传输,嘈杂的室外环境也会影响语音输入的精度。测试结果显示成功率达到84%,图4为实物。

5结语

目前,绝大部分无人机采用手动操作遥控方式,购买无人机时还要另购一个航模遥控器(价格几百元不

等),本文采用基于Android设备的语音控制方式大大简化了操作,只需用语言传达操控命令,通过手机端直接与无人机交互,节省了成本,使得无人机更加智能。

图4四旋翼无人机

嵌入式语音控制系统主要采用内嵌语音芯片方案,即在处理器电路焊接语音芯片,语音芯片采集语音数据,经处理器读取和分析后得到相关信息,开发难度高、工作繁琐。本文利用基于Android设备的语音识别技术去控制系统,大大简化了开发过程,省去了嵌入式很多不必要的重复性工作。

参考文献参考文献:

[1]潘海珠.四旋翼无人机自适应导航控制[J].计算机仿真,2012,29(5) :98102.

[2]周建军,陈趋,崔麦金.无人直升机的发展及其军事应用[J].航空科学技术,2003(1):3840.

[3]华成英,童诗白.模拟电子技术基础[M].北京:高等教育出版社,2004.

[4]莫力.Protel电路设计[M].北京:国防工业出版社,2005.

[5]Speech recognition grammar specification version 1.0,W3C recommendation 16 March 2004[EB/OL].https:///TR/speechgrammar/.

[6]张稀,土德银,张晨.MSP430系列单片机实用C语言程序设计[M].北京:人民邮电出版社,2005.

[7]D CROCKER ED.Augmented BNF for syntax specifications:ABNF,network working group[EB/OL].http:///rfc/rfc2234.txt.pdf.

语音识别系统例8

中图分类号:TN912.34

当噪音引起连续语音信号失真时,提取的连续语音特征曲线也会在时域和频域内失真[1]。如果用带噪特征去匹配纯净语音的特征模型,会造成带噪特征与模型之间的不匹配,这就导致了识别率的下降。

在连续语音识别中为了减少上述不匹配的问题,有三种主要解决技术。一是多条件或者多类型的训练方法,也就是使用带噪数据来进行训练[2]。虽然这个方法能够在特定的噪音环境下可以得到较好的识别精度,但是如果噪音环境发生变化识别精度还会急剧的降低。换言之,如果待识别数据与模型数据的条件(环境)不同,如:信噪比或者噪声类型,在待识别数据和模型之间仍会存在不匹配的现象。二是采用自适应模型方法[3],通过自适应模型来减少不匹配的问题。这种训练模型方法同时使用纯净和噪音数据来进行训练,这又会导致模型的区分度不高,同样会是识别精度下降。三是采用特征归一化方法,这种方法虽然不能从根本上改变待识别特征与模型之间的不匹配,但是在一定程度上会保留模型的区分度并减少由于环境变化导致带噪语音失真的影响。本文主要研究第三种方法。

语音增强和特征补偿方法以恢复语音特征为目的,但是特征归一化方法只是对语音特征的某些统计信息进行改变,并期望由此减少噪声引起的失真。不论是语音补偿还是特征补偿,都需要改变语音的特征向量,而传统的归一化方法只是对语音特征统计信息的范围进行处理,提出的算法在保证原有语音统计信息的前提下,适当改变部分语音特征向量。从而减少由噪音引起的语音特征曲线的失真。

动态范围调整方法属于归一化方法的一种,能够对干净和带噪语音的特征统计信息处理到相对较小的一个范围内。归一化方法能够根据一些模板值减少噪音特征在统计信息上的影响。相比使用归一化方法之前,在干净语音特征和带噪语音特征之间的不匹配部分会显著减少。语音增强一般应用在时域和频域中恢复语音特征的质量。特征补偿方法通常应用在加强连续语音系数在对数滤波阶数和频谱域使用。

减少待识别语音特征和模型的不匹配的方法虽然不是提高语音识别鲁棒性的唯一方法,但却是一种很有效的方法。通过这种方法可以减少待识别特征和模型之间的不匹配使得识别性能得以提高。

1 噪音对孤立词语音数据的影响

加法性噪音和乘法性噪音是影响语音信号最普通的两种噪音类型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是传输过程中产生的信道失真。例如麦克风自身的噪音,房间的反射噪音等等。干净的语音信号首先被信道失真所干扰,进一步被加法性噪音干扰。

包含噪音的频谱可以用如下公式描述:

噪音干扰在增益部分和直流分量部分的影响是不同的,如图1所示:在孤立词识别中,很多实验表明使用DRA方法对加法性噪音和乘法性噪音都具有很好的性能。

图2展示了噪音影响在孤立词中的性能。在图2中,有两条不同的特征曲线,曲线表示了干净语音和10db信噪比的噪音特征在第二项MFCC中。者两条曲线来源于同一个语音数据。

然而,由于噪音严重的影响,噪音下的MFCC特征曲线的动态范围要小于干净语音的MFCC特征曲线的动态范围。如果使用干净语音特征建立HMM训练模型,能够获得理想的模型并在同等条件下获得更高的识别率。但是对噪音下的语音识别,由于上述的原因,自动语音识别系统无法在任何噪音下获得正确的识别结果。虽然DRA归一化方法能够在孤立词识别中获得较好的识别结果,但直接用于连续语音识别并不是特别的理想。

图2展示了在孤立词中不匹配的峰值。DRA归一化方法算法使用最大值的方法将频谱系数范围标准化到一个统一的范围。在每个维度,DRA方法将干净或者带噪语音频谱系数的动态范围调整到同一个标准范围中。但在孤立词识别中,特征曲线中的峰值是有限的。归一化方法非常适用于孤立词识别。而连续语音识别特征曲线的峰值要远多于孤立词识别,归一化方法并不直接适用。

2 噪音对连续语音数据的影响

对连续语音特征曲线来说,不匹配的峰值随着语音特征曲线的增长而增加,语音特征曲线的动态范围随着噪音的增加而减少。因此简单的归一化算法不能有效适用连续语音识别。

我们的目标是缩小待识别噪音特征曲线与干净的语音特征曲线之间的差异。经过噪音鲁棒性方法和DRA方法,语音信号中的直流分量的不同得以减少,特征曲线中不匹配的峰值也得以减少。

基于前面提到的孤立词识别的归一化方法,我们可以假设噪音没有改变原有的特征曲线的统计顺序,也就是在语音特征曲线上会存在很多峰值,如第一高峰值,第二高峰值,等等。在连续语音特征中,全局的统计信息的匹配就在整个训练数据集中显得比较重要。一般来说,这些特征曲线上的峰值信息代表了元音的语音特征。随着训练量的增加,这些峰值信息一般会集中到相对稳定的区域。但实际上,噪音通常会改变特征曲线的统计顺序。如果能恢复部分特征曲线上统计信息的顺序,就能增加这些峰值的匹配几率。

虽然通过上述的图示可以看出通过归一化方法可以增加干净语音特征曲线和带噪语音特征曲线的拟合程度,连续语音特征曲线中存在较多的峰值,带噪语音特征曲线会改变一些峰值的统计信息,因此把归一化方法简单的使用到连续语音识别中无法达到如图的拟合程度。提出的算法可以尽最大可能恢复带噪语音的峰值统计信息。

使用DRA归一化能提高特征曲线的峰值匹配概率。孤立词特征曲线通常不含静音部分,但在连续语音中,语音之间存在由于思考或者换气产生的静音,在此部分仍然使用归一化方法在过渡位置会放大只有噪音的信号特征。这就导致了连续语音特征在此部分无法匹配。

根据上面的讨论,可以通过下面两步对特征曲线进行处理。

第一步:从连续语音数据中提取所有的短句子。

估计无音部分。连续语音包含许多无音部分和只有噪音的部分,因为这些部分不适合使用DRA。在下一步中消除连续语音特征曲线中各个动态范围的不平衡性。

第二步:把选取出来的短句子分成更小的片段,在每个片段中使用归一化方法。

如果片段的长度接近短句长度,导致识别结果与传统DRA方法接近,如果片段的长度特别小,则导致识别精度急剧下降。根据实验得到经验数据当片段长度为80帧时,识别精度最高。不同片段长度得到的识别结果如下图:

3 小结

在训练过程中使用大量的数据可以使各个音素的模型逐渐集中在某一个范围。对于测试数据来说,音素的范围很有可能与模型不在同一个范围内,待识别音素是有限的,不可知的。

使用噪音鲁棒性方法和DRA在建立区分度较高模型方法,这些鲁棒性方法在发音较短的孤立词识别中展现了良好的识别性能,并说明了这些方法无法直接在连续语音识别中的原因。

虽然在带噪语音特征曲线和干净语音特征曲线仍然有不匹配的峰值,需要指出的是,对比使用传统的DRA算法,减少了不匹配的峰值。由此可以看出,使用提出的算法调整带噪语音特征曲线可以增加峰值部分的匹配几率。使用该算法在干净和噪音环境下可以提高整体的识别性能。特别指出的是,提出的算法大幅提高了在噪音环境下的连续语音识别性能,根本原因就是相对于传统的DRA,选择了更合适的调整值,适当的放大了峰值。该算法在语音频谱系数的对数系数特征里也适用。

参考文献:

语音识别系统例9

一、背景

不断的提升客户服务品质,持续的改善客户感知是企业在竞争中制胜的法宝。随着移动互联网的发展,引入新技术支撑客户服务系统由传统的被动、应答式客户服务向主动、开放、智能服务的转变成为必然趋势。

二、传统IVR客户服务系统存在的问题

1.IVR语音导航复杂冗长,用户体验差。传统的IVR客户服务系统中客户需要面对复杂、冗长、繁琐的IVR导航菜单,用户需要逐层听取菜单提示,根据引导一步步进行按键操作才能得到服务,这容易给用户造成较差的体验,传统的按键式IVR自动语音服务面临越来越明显的挑战。同时,由于用户不能获取便捷的自助服务,大量服务涌入人工座席,宝贵的人工座席资源大量投入于提供简单、重复、低价值的劳动中,使得呼叫中心的整体工作效率难以提升,运营成本居高不下,客户满意度也受到了影响。

2.传统IVR依靠主叫及DTMF信号实现客户识别及交互,使得用户与系统的交互受到很大的限制不利于“主动、智能”服务。

三、什么是语音识别技术

语音识别技术,也称为自动语音识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入。与声纹识别技术(Speaker recognition)及说话人确认不同,声纹识别技术尝试识别或确认发出语音的说话人,而语音识别技术尝试识别其中所包含的词汇内容。

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

四、语音识别技术在智能客户服务系统中的应用

语音识别技术在电话信道上的应用已成为最重要的应用之一,因此在新一代客户服务系统中引入了语音识别技术作为用户的输入手段,客户可以直接用语音与系统进行交互,这样大大提高了工作效率,提升用户感知。

1.基于语音识别的IVR菜单扁平化智能应用。引入语音识别技术,创建智能IVR导航,使系统成为能听懂自然语言的互动式语音应答系统,将传统的IVR树形的按键操作,转换为扁平化的系统对话,使客户能直达原子业务节点接受服务,以缩短了通话时间,降低IVR业务节点放弃率,提升用户自助服务效果,提升客户体验,分流客户服务,减轻人工服务压力,提升人工服务价值。

2.与声纹识别技术结合对客户进行差异化服务。客户服务资源是宝贵的,将有限的客户服务能力高效的用在提升客户的感知上,需对客户进行差异化服务。准确的识别客户等级及客户服务内容的紧急程度是实现差异化服务的基础,语音识别技术结合声纹识别技术,能突破目前传统IVR客户服务系统识别仅能根据客户主叫号码及DTMF信号的限制,从服务内容,说话人识别的角度判定客户服务的等级,有效拦截的骚扰用户,提高客户服务资源的利用率。

3.基于语音识别的人工座席智能应用。在人工服务中,实现客户语音的“可视化”,完成客户需解决问题的词条及关键字的识别,辅助座席人员快速的进行相关知识库知识节点的搜索匹配,提高客户座席人员的工作效率和服务能力。

4.基于语音识别的质检评估应用。客户服务人员的质检、考核评估,通常是基于语音抽检方式进行,为了提高对服务质量的管控,通常需要进行大量的语音抽检,这需要占用了大量的人力资源。通过语音识别技术,对服务语音进行关键字及语气的识别匹配,实现系统自动质检检查,可有效提高质检检查的覆盖率,对关键服务质量问题进行有效过滤,减轻后台质检人员的工作量,提高质检工作的效率,提升服务质量的管控。

语音识别系统例10

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)21-4949-02

语音识别,也被称为自动语音识别Automatic Speech Recognition(ASR),是一门跨越多门学科的技术。早在计算机的发明之前,语音识别就被人们所提出,早期的声码器可以认为是语音识别及合成的雏形。最早的语音识别器是产生于20世纪20年代生产的“Radio Rex”玩具狗,当人们呼唤该产品的名字的时候,它能够从底座上自动弹出来。而最早的基于计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,该系统的正确率达到98%。

1 C#语言的语音识别及合成的接口

C#是一种安全的、稳定的、简单的、优雅的,由C和C++衍生出来的面向对象的编程语言。C#实现语音识别功能的主要接口有:IsRecoContext接口、IspRecognizer接口、IsRecoGrammar接口、IspVoice接口。

1)IsRecoContext接口:是主要的用于语音识别的接口,能关注不同的语音识别事件,安装或者卸载识别时使用的语法文件。

2)IspRecognizer接口:一个程序拥有两种不同的语音识别引擎(ISpRecognizer)类型。一个是共享的语音识别引擎,需要建立一个采用共享语音识别引擎的识别环境(IspRecoContext),应用程序需要调用COM接口位于CoCreateInstance结构上的CLSID_SpSharedRecoContext。然后SAPI会设立一个音频输入流,并把这个音频输入流定义为默认的SAPI音频输入流。由于它可以与其他语音识别应用程序共享其程序资源,所以在大多数场合中被推荐使用。另一个是非共享的语音识别引擎的语音识别环境,应用程序首先需要调用COM接口位于CoCreateInstance结构上的CLSID_SpInprocRecoIns-

tance。然后,应用程序必须调用IspRecognizer的SetInput方法来设立一个音频输入流。最后,应用程序通过调用IspRecognizer的CreateRecoContext方法来建立它自己的识别环境。

C#语言的语音合成的主要接口有:Voice Commands 接口,Voice Dictation接口,Voice Text,Voice Telephone接口,Audio Objects接口。

1)Voice Commands API。对应用程序进行控制,一般用于语音识别系统中。识别某个命令后,会调用相关接口是应用程序完成对应的功能。如果程序想实现语音控制,必须使用此组对象。

2)Voice Dictation API。听写输入,即语音识别接口。

3)Voice Text API。完成从文字到语音的转换,即语音合成。

4)Voice Telephone API。语音识别和语音合成综合运用到电话系统之上,利用此接口可以建立一个电话应答系统,甚至可以通过电话控制计算机。

5)Audio Objects API。封装了计算机发音系统。

其中Voice Text API,就是微软TTS引擎的接口,通过它我们可以很容易地建立功能强大的文本语音程序。

2 系统设计与实现

2.1 系统功能概述

根据对系统需求进行分析,本系统需要完成操作、工具、用户管理、皮肤管理和帮助功能。这些功能将分成五个功能模块。操作功能:朗读、命令识别、文本识别、生成语音文件、添加操作命令、网页浏览;工具功能:训练、开机自动运行、取消开机自动运行;用户管理:添加用户、删除用户、修改用户;皮肤管理功能:皮肤的修改功能;帮助功能:帮助文档、关于作者

2.2 语音识别功能的实现

语音识别的原理就是将人发出的语音通过麦克风传到电脑的声卡,然后语音引擎对对语音信息进行采取,最后和语音库里面的信息匹配从而识别出相应的语音信息输出到电脑屏幕进行各种各样的操作。

语音识别的一个最大的难点就在于不能正确地对语音信息进行正确的识别,这里在系统开发的时候需要做两个处理工作。

第一是对语音库进行大量的语音训练,可以通过windows内置的语音识别训练系统进行训练,该功能集成与微软的XP系统的控制面板的语音选项里面。鉴于每个人的发音都是有所差异的,使用人必须先对语音引擎进行大量持久的语音训练,这样才能不断地提高语音识别的正确率,以方便计算机正确地识别出来需要操作的动作和需要对电脑输入的文字。在进行对语音库训练的前提是要安装微软提供的语音引擎Speech SDK 5.1,在安装了该引擎之后方能对语音进行训练,可以支持中英日三种语言的使用。

第二是对语音识别的结果进行模糊处理,也就是说,在不可能实现100%的识别率的情况下,要尽可能地考虑到语音识别出来的错误信息,比如本来要识别的信息是:open,但是电脑识别出来的是opened,这时候就要“将错就错”,通过数据库将识别出来的opened告诉电脑这是一个open。如此进行常用字的多次测试,并通过微软的sql server2000进行海量的数据识别模糊处理,最大化地考虑到所出现的错误来更正。

2.3文本识别功能的实现

文本识别功能的实现是要借助于微软的TTS(Test To Speech)引擎进行来实现。TTS是“文本到语音(Text To Sound)”的简称,TTS语音引擎为我们提供清晰和标准的发音,所用的关键技术就是语音合成(SpeechSynthesis)。

该文本识别引擎可以支持中英日三种语言。要使用该功能是只需要进入文本识别界面并启动文本识别按钮,然后将要识别的文字通过键盘输入到编辑框里面,再单击朗读按钮,这就可以将文本信息转化为语音信息通过音响发出。

2.4多标签的语音识别浏览器功能的实现

首先是多标签浏览器功能的实现。由于C#有自带的WebBrowser浏览器控件,使用其自带的方法。而对于多标签功能的实现则要使用C#的多线程的技术,也就是说支持多个线程同时不互相干扰的工作。

其次是具有语音识别功能浏览器的实现。这个过程可以参照之前所制作的语音识别制作的过程,只需要的浏览器里面添加一个开启语音识别和关闭语音识别功能的按钮即可。当单击开启语音识别功能时,系统将会提示已经开启语音识别功能,这个时候就可以使用语音识别功能进行网上冲浪;当单击关闭语音识别功能是,系统将会提示已经关闭语音识别功能,这个时候系统会系统语音识别功能已经关闭,此时的浏览器就和传统的多标签浏览器如360安全浏览器一样。

3 结论

本系统主要研究了用语音控制电脑的技术,成功地利用微软新一代开发平台.NET Framework开发了语音识别系统的新产品。本系统打破了传统的人机交互方式,实现的使用语音对计算机进行操作。使用微软的TTS语音引擎可以使系统具备识别中英日三种语言,并且添加了国内的捷通语音公司的语音引擎,可以识别粤语,闽南语等方言,对于文本识别的功能的实现,提高了语言学习者的学习效率,这给广大的语言学习者带来了福音。设计实现具有语音识别功能的多标签浏览器技术。主要是方便一些不会使用键盘打字的人群,使得这类人群可以通过语音控制就可以上网冲浪。

参考文献:

[1] ZHANG Jinsong, Takatoshi Jitsuhir.An Introduction to the Chinese Speech Recognition Front—End of the NICT/ATR Multi-·Lingual Speech Translation System [J].O'Reilly. 2008.

[2] Arun Krishnaraj, Joseph K. T. Lee. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2010.

[3] wu Zhiyong. CAO Guangqi. Voice Recognition Software: Effect on Radiology Report Turnaround Time at an Academic Medical Center [J]. 2008.

[4] Jing Li. Thomas Fang Zhen91. A Dialectal Chinese Speech Recognition Framework [J]. 2006.

[5] 国玉晶,刘刚,刘健,郭军.基于环境特征的语音识别置信度研究[J].清华大学学报,2009,49(S1).

[6] 林琳,王树勋,郭纲. 短语音说话人识别新方法的研究[J].系统仿真学报,2007(10).

[7] 姚琳,梁春霞,张德干.基于实例推理的人机对话系统的设计与实现[J].计算机应用,2007(03)

[8] 林茜,欧建林,蔡骏.基于Microsoft Speech SDK的语音关键词检出系统的设计和实现[J].心智与计算,2007,12-30:433.