语音信号分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音信号分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 分析 课件
- 资源描述:
-
1、3.13.1概述概述3.23.2语音信号的数字化和预处理语音信号的数字化和预处理3.33.3语音信号的时域分析语音信号的时域分析3.43.4语音信号的频域分析语音信号的频域分析3.53.5语音信号的倒谱分析语音信号的倒谱分析3.63.6语音信号的线性预测分析语音信号的线性预测分析3.7 3.7 语音信号的小波分析语音信号的小波分析3.8 3.8 基音周期估计基音周期估计3.93.9共振峰估计共振峰估计3.13.1概述概述3.23.2语音信号的数字化和预处理语音信号的数字化和预处理3.33.3语音信号的时域分析语音信号的时域分析3.43.4语音信号的频域分析语音信号的频域分析3.53.5语音信号
2、的倒谱分析语音信号的倒谱分析3.1 3.1 概述概述v语音信号分析语音信号分析 分析出可表示语音信号特征参数分析出可表示语音信号特征参数进行高效的语音通信、语音合成和语音识别的基础进行高效的语音通信、语音合成和语音识别的基础时域特征时域特征频率特征频率特征v贯穿于语音分析全过程的是贯穿于语音分析全过程的是“短时分析技术短时分析技术”语音信号从整体来看其特征及表征其本质特征的参数均语音信号从整体来看其特征及表征其本质特征的参数均是随时间而变化的,所以它是一个是随时间而变化的,所以它是一个非平衡态过程非平衡态过程,不能用处,不能用处理平衡信号的数字信号处理技术对其进行分析处理。理平衡信号的数字信号
3、处理技术对其进行分析处理。但是在一个短时间范围内(一般认为在但是在一个短时间范围内(一般认为在10-30ms10-30ms的短时的短时间内),其特性基本保持不变即相对稳定,因而可以将其看间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有作是一个准稳态过程,即语音信号具有短时平稳性短时平稳性。3.1 3.1 概述概述v分析方法:模型分析方法和非模型分析方法分析方法:模型分析方法和非模型分析方法v不论是分析怎么样的参数以及彩什么分析方法,在不论是分析怎么样的参数以及彩什么分析方法,在按帧进行语音分析,提取语音参数之前,有一些经按帧进行语音分析,提取语音参数之前,
4、有一些经常使用的、共同的短时分析技术必须预先进行,如常使用的、共同的短时分析技术必须预先进行,如语音信号的数字化、语音信号的端点检测、预加重、语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧加窗和分帧等,这些也是不可忽视的语音信号分析等,这些也是不可忽视的语音信号分析的关键技术。的关键技术。3.2 3.2 语音信号的数字化和预处理语音信号的数字化和预处理v语音信号的语音信号的数字化数字化一般包括放大及增益控制、反混一般包括放大及增益控制、反混叠滤波、采样、叠滤波、采样、A/DA/D变换及编码(一般就是变换及编码(一般就是PCMPCM码)码)v预处理预处理一般包括预加重、加窗和分帧等一般
5、包括预加重、加窗和分帧等。带通滤波器自 动 增 益 控 制(AGC)模/数 转 换(A/D)脉冲编码调制(PCM)语音信号存入计算机 预滤波预滤波、采样、采样、A/DA/D变换变换预滤波的目的有两个:预滤波的目的有两个:v抑制输入信号各频域分量中频率超出抑制输入信号各频域分量中频率超出f fs s/2/2的所有分量,以防的所有分量,以防止止混叠干扰混叠干扰。v抑制抑制50Hz50Hz的的电源工频干扰电源工频干扰。v这样,预滤波器必须是一个这样,预滤波器必须是一个带通滤波器带通滤波器,设其上、下截止频,设其上、下截止频率分别是率分别是f fH H和和f fL L:绝大多数语音编译码器:绝大多数语
6、音编译码器:f fH H=3400Hz=3400Hz,f fL L=60-100Hz=60-100Hz,f fS S=8kHz=8kHz 预滤波、预滤波、采样、采样、A/DA/D变换变换v量化不可避免地会产生误差。量化后的信号值与原信号值之量化不可避免地会产生误差。量化后的信号值与原信号值之间的差值称为间的差值称为量化误差量化误差,又称为,又称为量化噪声量化噪声。v若信号波形的变化足够大,或量化间隔若信号波形的变化足够大,或量化间隔足够小时,可以证足够小时,可以证明量化噪声符合具有下列特征的统计模型:明量化噪声符合具有下列特征的统计模型:它是平稳的白噪声过程它是平稳的白噪声过程 量化噪声与输入
7、信号不相关量化噪声与输入信号不相关 量化噪声在量化间隔内均匀分布,即具有等概率密度分量化噪声在量化间隔内均匀分布,即具有等概率密度分布布 预滤波、预滤波、采样、采样、A/DA/D变换变换v若用若用x x2 2表示输入语音信号的方差表示输入语音信号的方差,2X,2Xmaxmax表示信号的峰值表示信号的峰值,B,B表表示量化字长示量化字长,e e2 2表示噪声序列的方差表示噪声序列的方差,可以证明量化信噪比可以证明量化信噪比SNRSNR(信号与量化噪声的功率比)为:(信号与量化噪声的功率比)为:v假设语音信号的幅度符合假设语音信号的幅度符合LaplacianLaplacian分布分布,此时信号幅度
8、超过此时信号幅度超过44x x的概率很小,只有的概率很小,只有0.35%0.35%,因而可取,因而可取X Xmaxmax=4=4x x,则则v上式表明量化器中的每上式表明量化器中的每bitbit字长对字长对SNRSNR的贡献为的贡献为6dB6dB。xexXBdBSNRmax22lg2077.402.6lg10)(2.702.6)(BdBSNR预加重(预加重(PreemphasisPreemphasis)处理)处理v语音信号的平均功率谱受声门激励和口鼻辐语音信号的平均功率谱受声门激励和口鼻辐射影响,射影响,800Hz800Hz以上按以上按6dB/6dB/倍频程跌落倍频程跌落v目的是提升高频部分,
9、使信号的频谱变得平目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声同样的信噪比求频谱,以便于频谱分析或声道参数分析道参数分析 11zzH 预处理:分帧预处理:分帧v进行过预加重数字滤波处理后,接下来就要进行进行过预加重数字滤波处理后,接下来就要进行加加窗分帧处理窗分帧处理。一般每秒的帧数约为。一般每秒的帧数约为33-10033-100帧,视实帧,视实际情况而定。际情况而定。v分帧虽然可以采用连续分段的方法,但一般要采用分帧虽然可以采用连续分段的方法,但一般要采用如图如图3-23-2所示的交叠
10、分段的方法,这是为了使帧与所示的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。帧之间平滑过渡,保持其连续性。v帧移:前一帧和后一帧的非交叠部分。帧移与帧长帧移:前一帧和后一帧的非交叠部分。帧移与帧长的比值一般取为的比值一般取为1/3-1/21/3-1/2 预处理预处理:分帧示意图分帧示意图 预处理:加窗预处理:加窗v分帧是用可移动的有限长度窗口进行加权的方法来实现的,分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的这就是用一定的窗函数窗函数(n)(n)来乘来乘s(n)s(n),v加窗语音信号加窗语音信号s s(n)=s(n)(n)=s(n)*(n)(n)。v在语
11、音信号数字处理中常用的窗函数是矩形窗和汉明窗等,在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等,它们的表达式如下(其中它们的表达式如下(其中N N为帧长):为帧长):v矩形窗:矩形窗:v汉明窗:汉明窗:elsenNnn,0)1(0,1)(elsenNnNnn,0)1(0),1/(2cos46.054.0)(预处理预处理:窗口的形状窗口的形状v不同的短时分析方法不同的短时分析方法(时域、频域、倒频域分时域、频域、倒频域分析析)对窗函数的要求不尽一样对窗函数的要求不尽一样v选择窗的标准选择窗的标准在在时域时域要减小时间窗两端的坡度,使窗口边缘两端要减小时间窗两端的坡度,使窗口边缘两端不引起急剧
12、变化而平滑过渡到零,这样可以使截取不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;出的语音波形缓慢降为零,减小语音帧的截断效应;在在频域频域要有较宽的要有较宽的3dB3dB带宽以及较小的边带最大值带宽以及较小的边带最大值矩形窗与汉明窗的比较矩形窗与汉明窗的比较窗类型旁瓣峰值主瓣宽度最小阻带衰减矩形窗-134/N-21汉明窗-418/N-53汉明窗的主瓣宽度比矩形窗大一倍,即带宽汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时其带外衰减也比矩形窗大约增加一倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平滑性能较好,但损失一倍多。矩形窗的谱平滑性能
13、较好,但损失了高频成分,使波形细节丢失;而汉明窗则了高频成分,使波形细节丢失;而汉明窗则相反,从这一方面来看,汉明窗比矩形窗更相反,从这一方面来看,汉明窗比矩形窗更为合适。为合适。窗频谱响应00.10.20.30.40.50.60.70.80.91-400-300-200-1000100Normalized Frequency (rad/sample)Phase(degrees)00.10.20.30.40.50.60.70.80.91-150-100-50050Normalized Frequency (rad/sample)Magnitude(dB)00.10.20.30.40.50.60
14、.70.80.91-400-300-200-1000Normalized Frequency (rad/sample)Phase(degrees)00.10.20.30.40.50.60.70.80.91-150-100-50050Normalized Frequency (rad/sample)Magnitude(dB)02040608010012014000.10.20.30.40.50.60.70.80.9102040608010012014000.10.20.30.40.50.60.70.80.91汉明窗的时域、频域的幅度响应特性汉宁窗的时域、频域的幅度响应特性 预处理:预处理:窗口的
15、长度窗口的长度v采样周期采样周期T Ts s=1/f=1/fs s,窗口长度,窗口长度N N和频率分辨率和频率分辨率ff之间存在下列之间存在下列关系:关系:f=1/NTf=1/NTs sv可见,采样周期一定时,可见,采样周期一定时,ff随窗口宽度随窗口宽度N N的增加而减小,即的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。矛盾的。应该根据不同的需要选择合适的窗口长度。预处理
16、:窗长预处理:窗长v有时窗口长度的选择,更重要的是要考虑语音信号的有时窗口长度的选择,更重要的是要考虑语音信号的基音周基音周期期。通常认为在一个语音帧内应包含。通常认为在一个语音帧内应包含1 17 7个基音周期。然而个基音周期。然而不同人的基音周期变化很大,从女性和儿童的不同人的基音周期变化很大,从女性和儿童的2ms2ms到老年男到老年男子的子的14ms(14ms(即基音频率的变化范围为即基音频率的变化范围为50050070Hz)70Hz),所以,所以N N的选的选择比较困难。通常在择比较困难。通常在10kHz10kHz取样频率下,取样频率下,N N折中选择为折中选择为100100200200
17、点为宜点为宜(即即101020ms20ms持续时间持续时间)。v这样,经过上面介绍的处理过程,语音信号就已经被分割成这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时
18、间序列。语音特征参数的时间序列。3.3 3.3 语音信号的时域分析语音信号的时域分析v语音信号的语音信号的时域分析时域分析就是分析和提取语音信号的时域参数。就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及音信号的时域波形。时域分析通常用于最基本的参数
19、分析及应用,如语音的分割、预处理、大分类等。这种分析方法的应用,如语音的分割、预处理、大分类等。这种分析方法的特点是:特点是:表示语音信号比较直观、物理意义明确。表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。实现起来比较简单、运算量少。可以得到语音的一些重要的参数。可以得到语音的一些重要的参数。只使用示波器等通用设备,使用较为简单等。只使用示波器等通用设备,使用较为简单等。短时能量及短时平均幅度分析短时能量及短时平均幅度分析v 如图如图3-23-2所示,设语音波形时域信号为所示,设语音波形时域信号为x(t)x(t)、加窗分帧处理、加窗分帧处理后得到的第后得到的第n n帧语音信
20、号为帧语音信号为x xn n(m),(m),则则x xn n(m)(m)满足下式:满足下式:x xn n(m)=(m)x(n+m)(m)=(m)x(n+m)v其中,其中,n=0,1T,2T,n=0,1T,2T,并且并且N N为帧长,为帧长,T T为帧移长度。为帧移长度。v设第设第n n帧语音信号帧语音信号x xn n(m)(m)的的短时能量短时能量用用E En n表示,则其计算公式表示,则其计算公式如下:如下:其它值mNmm,0)1(0,1)(102)(NmnnmxE 短时能量及短时平均幅度分析短时能量及短时平均幅度分析vE En n是一个度量语音信号幅度值变化的函数,但它有一个缺陷,是一个度
21、量语音信号幅度值变化的函数,但它有一个缺陷,即它对高电平非常敏感(因为它计算时用的是信号的平方即它对高电平非常敏感(因为它计算时用的是信号的平方)。为此,可采用另一个度量语音信号幅度值变化的函数,即为此,可采用另一个度量语音信号幅度值变化的函数,即短短时平均幅度函数时平均幅度函数M Mn n,它定义为:,它定义为:vM Mn n也是一帧语音信号能量大小的表征,它与也是一帧语音信号能量大小的表征,它与E En n的区别在于计的区别在于计算时小取样值和大取样值不会因取平方而造成较大差异,在算时小取样值和大取样值不会因取平方而造成较大差异,在某些应用领域中会带来一些好处。某些应用领域中会带来一些好处
22、。10)(NmnnmxM 短时过零率分析短时过零率分析v短时过零率表示一帧语音中语音信号波形穿过横轴短时过零率表示一帧语音中语音信号波形穿过横轴(零电平零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零即意味着时域波形通过时间轴;而对于离续语音信号,过零即意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值改变符号则称为过零。过零率就散信号,如果相邻的取样值改变符号则称为过零。过零率就是样本改变符号的次数。是样本改变符号的次数。v定义语音信号定义语音信号x xn n(m)(m)的的短时过零率短时过零率Z Zn
23、n为:为:v式中,式中,sgnsgn是符号函数,即是符号函数,即10)1(sgn)(sgn21NmnnnmxmxZ)0(,1)0(,1sgnxxx短时过零率分析由定义可以看出,短时过零率对噪音噪音的存在非常敏感敏感,如果背景中有反复穿越坐标轴的随机噪声,那么会产生大量的“虚假”的过零,影响计算结果。门限过零率为了提高过零率计算的鲁棒性鲁棒性(Robustness),除了对原始信号进行带通滤波,一种有效的方法是修正过零率的定义,加入门限门限的定义如图所示。6.门限过零率设一个门限值T,将过零的定义修正为穿越正负门限穿越正负门限,带门限的过零率计算公式为这样噪音信号的振荡只要不超过门限间的区域,就
24、不会对真实的过零率产生影响。一般说来,短时过零率的最主要用处是分辨清音清音和浊音浊音、有声有声与无无声声。101sgn()sgn(1)sgn()sgn(1)2NnnnnnmZx mTx mTx mTx mT7.端点检测背景背景噪音噪音辅音辅音元音元音如何区分?能量?过零率?语音语音“三三”的波形图的波形图背景背景噪音噪音辅音辅音7.端点检测如何区分?能量?过零率?短时相关分析短时相关分析v相关分析是一种常用的时域波形分析方法,并有自相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。这里主要讨论自相关函数。相关和互相关之分。这里主要讨论自相关函数。v自相关函数的自相关函数的性质:偶函
25、数;性质:偶函数;v假设序列具有周期性,则其自相关函数也是同周期假设序列具有周期性,则其自相关函数也是同周期的周期函数等。我们可以把自相关函数的这些性质的周期函数等。我们可以把自相关函数的这些性质应用于语音信号的时域分析中。例如,对浊音语音应用于语音信号的时域分析中。例如,对浊音语音可以用自相关函数求出语音波形序列的基音周期。可以用自相关函数求出语音波形序列的基音周期。此外,在进行语信号的线性预测分析时,也要用到此外,在进行语信号的线性预测分析时,也要用到自相关函数。和其他语音参数一样,在语音信号分自相关函数。和其他语音参数一样,在语音信号分析中,我们分析的是析中,我们分析的是短时自相关函数短
展开阅读全文