《模式识别原理与应用》课件第12章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第12章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件 12
- 资源描述:
-
1、第12章语音识别第第12章语章语 音音 识识 别别12.1语音识别的基本原理语音识别的基本原理12.2说话人识别说话人识别12.3语种识别语种识别12.4关键词识别关键词识别12.5连续语音识别连续语音识别习题习题第12章语音识别12.1 语音识别的基本原理语音识别的基本原理 本节主要讨论语音识别的基本原理,包括系统结构、特征提取和分类模型。12.1.1语音识别系统的结构语音识别系统的结构典型语音识别系统结构框图如图12-1所示,一个完整的语音识别系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。第12章语音识别图 12-1语音识别系统结构框图第12章语音识别语音识别是属于人工
2、智能领域中的一项技术,本质上讲,语音识别技术是一个语音信号模式识别问题,它由训练(或注册,Training)和识别(或测试,Testing)两个阶段完成。从训练语音中提取语音特征、建立参考模型并储存的过程称为训练阶段;从待识别语音中提取语音特征,依据参考模型进行比较和判决的过程称为识别阶段。第12章语音识别12.1.2语音信号的预处理语音信号的预处理由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800 Hz以上按6 dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。一般用具有6 dB/倍频程的提升
3、高频特性的预加重数字滤波器实现,它一般是一阶的FIR滤波器,即 第12章语音识别1()1H zz(12-1)式中,值接近于1,典型值为0.94。语音信号是非平稳过程、时变的,但由于人的发音器官的运动速度较慢,因此可以认为语音信号是局部平稳的,或短时平稳的。第12章语音识别语音信号分析常通过分段或分帧来进行,一般每秒的帧数约为33100,分帧既可用连续的方法,也可用交叠的方法,在语音信号中常用“短时分析”表述。短时分析实质上是用一个窗截取信号,如果采用矩形窗,则其高频部分的吉布斯(Gibbs)效应必将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,以避免这些影响。例如,汉明(Hamming
4、)窗的带宽是矩形窗的两倍,但带外衰减却比矩形窗大得多。第12章语音识别12.1.3语音识别的特征提取语音识别的特征提取语音识别系统中的特征提取即提取出适合分类的某些信息特征(如说话人,或语言特征,或关键词特征),此特征应能有效地区分不同的模式,而且对同种方式的变化保持相对稳定。第12章语音识别了由于说话内容的语义特征、说话人的个性特征和语言特征总是交织在一起的,目前还没有找到将三者很好地分离的方法。尽管如此,语音信号的特征参数仍从不同侧面反映出说话人的个性、语言特性和语义特性,仍是语音识别特征的重要来源。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的语音识别系统主要依靠较低层
5、次的声学特征进行识别。语音识别特征大体可归为3类:第12章语音识别(1)线性预测系数及其派生参数,如线性预测系数(LPC)、线谱对系数、线性预测倒谱系数(LPCC)及其组合等参数。(2)由语音频谱直接导出的参数,如基音(Pitch)及其轮廓、美尔频率倒谱系数(MFCC)、感知线性预测(PLP)参数、口音敏感倒谱系数(ASCC)。(3)混合参数。混合参数是由上述不同的参数组成的矢量。下面简要介绍几种常用的参数。第12章语音识别1.基音周期基音周期基音周期是指发浊音时声带振动所引起的准周期运动的时间间隔,是声带振动频率F0的倒数。基音周期的检测方法大致可分为三类:(1)时域估计法,即直接由语音波形
6、来估计基音周期,如自相关法、平均幅度差法(AMDF)等。(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期,如倒谱法等。(3)混合法,即先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF求得基音周期。第12章语音识别1()()()1PkkkS zGH zU zz(12-2)式(12-2)把语音信号s(n)建模成为一个P阶的AR过程。对于浊音段,此系统受准周期冲激串激励;对于清音段,该系统则受随机噪声序列激励。此模型的参数有浊音/清音判决、浊音语音的基音周期、增益常数G及数字滤波器参数k。利用该传输函数可得到语音信号s(n)合成的差分方程:第
7、12章语音识别)()()(1nGuknsnsPkk(12-3)从式(12-3)可以看出,s(n)是前P个语音信号采样值s(n1),s(n2),s(nP)的线性组合,因此该语音产生模型通常被称为线性预测(LP)模型或自回归(AR)模型。k(k=1,P)为线性预测系数,是从语音信号中提取出来的。声道形状在时间上是变化的,所以预测系数也是时变的。根据语音信号的短时平稳性,可以认为语音在每一个分析帧(1030 ms)上是非时变的,从而计算得到一组预测系数。第12章语音识别计算预测器系数的常用方法为自相关法,它的思想是使预测误差e(n)的均方值最小。e(n)定义如下:10()()()()()()PPkk
8、kke ns ns ns ns nks nk(12-4)其中:0=1;1()()Pkks ns nk称做 s(n)的预测值或估计值。第12章语音识别算k的准则是使Ee2(n)极小,故令 2()/0,(1,)kE enkP得到一个线性方程组:1()()(1,)PkkR ikR iiP(12-5)其中 10()()()NinR is n s ni(12-6)第12章语音识别称为语音短时自相关系数,N为语音帧的样点数,P为预测器阶数。用德宾(Durbin)算法解方程式(12-5),可得k(k=1,P)。3.线性预测倒谱系数线性预测倒谱系数(LPCC)同态信号处理就是将非线性问题转化为线性问题来进行处
9、理的一种方法。对语音信号产生过程建模成一个激励信号通过时变系统的过程,即一个卷积的过程,卷积作为一个非线性问题可使用同态处理来解决。第12章语音识别LPC系数可以用来估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种特殊的处理方法。式(12-2)的声道模型的传输函数H(z),其冲激响应为h(n),首先求序列h(n)的倒谱。因为H(z)是最小相位的,所以可以求出和k之间的递推关系为()h n()h n第12章语音识别1111(1)()(1)(),1()(1)(),nnkkPkkhkh nh nknPnkh nh nknPn(12-7)由式(12-7)可以直接从预测系数k推得倒谱,由于这个倒谱是
10、从线性预测系数得到的,因此又称之为LPC倒谱(LPCC)。由于LPCC利用了线性预测中声道传输函数H(z)的最小相位特性,因此避免了一般同态处理中求复对数而带来的相位卷绕的问题。()h n第12章语音识别4.美尔频率倒谱系数美尔频率倒谱系数(MFCC)MFCC不同于LPCC,它是在频谱上采用滤波器组的方法计算出来的,这组滤波器在频率的美尔(Mel)坐标上是等带宽的。这是因为人类在对1000 Hz以下的声音频率范围的感知遵循近似线性关系,对1000 Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。美尔刻度与频率的关系如图12-2所示。美尔刻度与频率的关系式为
11、3322.23log(1 0.001)MelHzTf(12-8)第12章语音识别图 12-2 美尔刻度与频率的关系第12章语音识别MFCC正是基于这个现象提出的,它的计算过程如图12-3所示。语音信号在经过加窗处理后变为短时信号,用FFT计算它的能量谱之后,通过一个具有40个滤波器的滤波器组,前13个滤波器在1000 Hz以下是线性划分的,后27个滤波器在1000 Hz以上是在美尔坐标上线性划分的。如果表示第k个滤波器的输出能量,则美尔频率倒谱CMel(n)在美尔刻度谱上可以采用修改的离散余弦变换(DCT)求得,其中,P为MFCC参数的阶数。ks 第12章语音识别1()()()Knn kn k
12、kdCep ik CepiCepi(12-9)图12-3 MFCC计算过程第12章语音识别5.差分参数差分参数通常语音信号的动态参数能较好地反映语音信号的时变特征,因此在获得每帧信号的特征参数后,还要计算相应的差分参数。假设当前所获得的特征倒谱参数是P维,那么一阶差分特征的计算如式(12-10)所示:1()()()Knn kn kkdCep ik CepiCepi(i=1,2,P)(12-10)第12章语音识别其中:dCep表示动态特征;Cep表示倒谱;K是求差分的帧的范围;为因子,用来换算这些特征。式(12-10)也可写成()()Knn kkKdCep ikCepi(12-11)类似地,二阶
13、差分特征可由下式获得 21()()()()Ktt kt kkKt kkKd Cep idCepidCepikdCepi(12-12)第12章语音识别12.1.4语音识别的模型建立语音识别的模型建立模型建立是指在训练阶段用合适的模型来表征这些特征参数,使得模型能够代表该语言的语音特性。对模型的选择主要应从语音的类型、所期望的性能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。当前有多种模型可供选择,一般可分为以下四类。第12章语音识别(1)模板匹配模型。从每种模式的训练语句中提取相应的特征矢量,这些特征矢量称为模板。识别时,从语音信号中按同样的处理法提取测试模板,并且与其相应的参考模板相
14、比较。模板匹配模型的不足之处在于不能全面地反映样本分布及统计特性,适应性较差。典型模板匹配模型有最近邻(Nearest Neighbor,NN)模型、动态时间规整(Dynamic Time Warping,DTW)模型和矢量量化(Vector Quantization,VQ)模型。第12章语音识别(2)概率统计生成模型(又称参数模型)。语音信号具有短时平稳性,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。概率统计生成模型采用某种概率密度函数来描述语音特征在特征空间的分布情况,并以该概率密度函数的一组参数作为语音模型。概率统计生成模
15、型由于考虑了语音的统计特性,能较全面地反映语音的统计信息,其优点是不用对特征参量在时域上进行规整。典型的概率统计生成模型有隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。第12章语音识别(3)神经网络(ANN)模型。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的稳健性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱。目前常用的神经网络有多层感知器(MLP)、径向基函数(RBF)网络、自组
16、织映射(SOM)网络和支持向量机(SVM)网络等。第12章语音识别(4)融合模型。把以上分类方法与不同特征进行有机组合可显著提高语音识别的性能。下面简要介绍动态时间规整模型、矢量量化模型、隐马尔可夫模型和高斯混合模型。1.动态时间规整动态时间规整(DTW)模型模型由于语速、语调、重音和韵律的变化,语音信息存在时变因素,从而使得测试模板和参考模板在时间尺度上可能不完全一致。因此,需要将识别模板与参考模板进行时间对齐,按照某种距离测度计算两模板间的相似程度。第12章语音识别模板序列 12(,)Nx xx与输入序列 12(,)Mx xxNM不均匀匹配得分z定义为()1(,)Mij iizdx x(1
17、2-13)其中,模板标记j(i)是由基于最近邻原则的动态时间规整法(DTW)给出的。DTW算法使z最小化,将两个信号进行时间上的对齐。在时间对齐后,最终的距离和是匹配得分的基础。第12章语音识别2.矢量量化矢量量化(VQ)模型模型矢量量化最早用于数据压缩编码,后来很多研究人员将其用于语音识别。一般采用LBG算法把训练数据进行聚类生成码本,即参考模板的集合。识别时,对输入矢量进行矢量量化,以量化产生的失真度作为判决标准。L帧测试语音矢量(x1,x2,xL)的匹配得分为 第12章语音识别1min(,)LjCjzdxxx(12-14)其中,C是参考模板的集合。VQ模型不需要对时间进行对齐,具有复杂度
18、低、精度较高以及判断速度快的优点。第12章语音识别3.隐马尔可夫模型隐马尔可夫模型(HMM)隐马尔可夫模型把语音建模成由可观察到的符号序列组成的随机过程,符号序列是发声系统状态序列的输出。HMM为有限状态的随机过程,从状态si到状态sj的转移概率为aij=p(sj|si);对应于状态si,语音特征x(随机向量)的概率密度函数为p(x|si)。由给定模型M产生具有L帧语音特征向量(连续)x1,x2,xL的似然值为 第12章语音识别12121,.,1(|)(|)(|)LLLiiiis ssS ipMps p ss x,x,.,xx(12-15)其中,S=1,2,Q表示所有可能状态的集合。对于离散的
19、语音特征向量,上式中的 p(x1,x2,xL|M)和p(xi|si)为相应的概率。第12章语音识别在使用HMM识别时,为每个说话人(或音节、音素)建立发声模型,通过训练得到状态转移概率矩阵和语音特征向量的概率密度矩阵(或概率矩阵)。识别时计算未知语音在状态转移过程中的最大似然值或概率,根据最大似然值或概率的模型进行判决。HMM模型广泛用于说话人识别、语言辨识、关键词检出和连续语音识别中,具有良好的性能。此外,HMM模型不需要时间规整,可节约判决时的计算时间和存储量。不过,HMM模型训练的计算量较大。第12章语音识别4.高斯混合模型高斯混合模型(GMM)高斯混合模型本质上是一种多维概率密度函数,
20、可以用来表示语音特征矢量的分布。一个具有M个混合数的D维GMM,其概率密度函数用M个高斯分量的加权和来表示,即 1(|)()Miiipwbxx(12-16)第12章语音识别其中:x是一个D维的观测矢量;wi(i=1,2,M)为混合权值,满足 Miiw11)(xib为D维高斯密度函数,即)()(21exp)2(1)(12/12/iiTiiDibxxx(12-17)第12章语音识别其中:i为均值矢量;i为协方差矩阵;D是参数的维数,例如,取LPCC参数17维,或取参数组合后的维数。高斯混合模型可由各均值矢量、协方差矩阵及混合权值来描述,可表示为三元式=wi,i,i,i=1,2,M。在GMM模型中,
21、首先对特征矢量进行聚类,把每一类看做是一个多维高斯分布函数;然后,求出每一类的均值、协方差矩阵和出现的概率,得到每种模式的训练模板;最后,将观测序列代入每个模板,对应于最大的后验概率的模板为所识别的对象。第12章语音识别12.1.5语音识别的判决准则语音识别的判决准则在识别阶段,用训练阶段建立的语音模型对测试语音的特征参数进行某种形式的模式匹配,从而得出相似性得分,并依据特定的规则给出最终的识别结果。对于模板匹配模型,比较J个模板和测试语音x的距离,距离最近的模板种类则判决为该测试语音的语言种类,即 第12章语音识别1,2,.,argmin(,)jjJIDdx x(12-18)其中,为第j种语
22、言的模板。对于概率生成模型,判决规则为J个模型中的哪个模型对x产生的后验概率最大,就判决测试语音x属于哪种模型,即jx第12章语音识别1,2,.,1,2,.,(|)()argmax(|)argmax()jjjjJjJPPIDPPxxx(12-19)其中,j为第j种概率生成模型。对于神经网络模型,判决时就是看属于哪一类的可能性最大。对于多类的分类问题,常常转化为多个两类分类问题的组合问题,而且两类问题往往更适于用判别模型来解决。第12章语音识别12.2说说 话话 人人 识识 别别12.2.1说话人识别的基本原理说话人识别的基本原理说话人识别的基本原理是利用说话人的语音为每一个说话人建立一个能够描
23、述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对采样而来的语音信号进行比对,从而实现判别说话人身份的目的。第12章语音识别根据说话人识别的目的和判决模式的不同,可将说话人识别分为说话人辨认和说话人确认。说话人辨认是指通过一段语音从已有的有限个说话人集合中分辨出说话人身份,是“多选一”的模式识别问题。说话人确认是指通过说话人的一段语音证实该说话人是否与他所声称的身份一致,系统只需给出接受或拒绝两种选择,是“一对一”的模式识别问题。进一步,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨认分为开集(Openset)辨认和闭集(Closeset)辨认。在多数情况中,用语音对
展开阅读全文