语音信号处理第3章-语音信号分析方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音信号处理第3章-语音信号分析方法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 分析 方法 课件
- 资源描述:
-
1、第第 3 章语音信号分析方法章语音信号分析方法时域分析时域分析频域分析频域分析概述概述倒谱分析倒谱分析线性预测分析线性预测分析语音信号预处理语音信号预处理3.1概述概述贯穿于语音分析全过程的是贯穿于语音分析全过程的是“短时分析技术短时分析技术”。语音信号。语音信号从整体来看其特性及表征其本质特征的参数均是随时间而从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程。但是,由于不同的变化的,所以它是一个非平稳态过程。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率
2、来说是非常缓慢应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的。因此,的。因此,语音信号具有短时平稳性语音信号具有短时平稳性。任何语音信号的分析和处理必须建立在任何语音信号的分析和处理必须建立在“短时短时”基础上,基础上,将语音信号分为一段一段来分析其特征参数。通常,每一将语音信号分为一段一段来分析其特征参数。通常,每一段被称为一段被称为一“帧帧”,帧长一般取帧长一般取1030ms。此时,对于整。此时,对于整体的语音信号来讲,分析出得到的参数应该是由每一帧特体的语音信号来讲,分析出得到的参数应该是由每一帧特征参数组成的特征参数时间序列。征参数组成的特征参数时间序列。3.2语音信号预处理语音
3、信号预处理3.2.1 3.2.1 分帧与加窗分帧与加窗分帧虽然可以采用连续分段的方法,但一般采用交叠分段的分帧虽然可以采用连续分段的方法,但一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的方法。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为比值一般取为01/2。分帧是用可移动的有限长度窗口进行。分帧是用可移动的有限长度窗口进行加权的方法来实现的,即用一定的窗函数来乘以语音信号。加权的方法来实现的,即用一定的窗函数来乘以语音信号。3.2.1 3.2.1 分帧与加窗分帧与加窗()()()nx mw m x nm加窗信号的表示形式:加窗信号的表示形式:常用加窗函数:
4、常用加窗函数:1)矩形窗:)矩形窗:2)海宁窗:)海宁窗:3)汉明窗:)汉明窗:1,01()0,nNw nnelse0.5(1cos(2/(1)0n1()0nNNw nnelse0.540.46cos2/(1),01()0,nNnNw nnelse不同窗函数的形状差别比较大,因此对于短时分析参不同窗函数的形状差别比较大,因此对于短时分析参数的特性影响很大。选择合适的窗口可使短时参数更数的特性影响很大。选择合适的窗口可使短时参数更好地反映语音信号的特性变化。此外,窗函数的长度好地反映语音信号的特性变化。此外,窗函数的长度也是一个关键参数。也是一个关键参数。*窗口的形状窗口的形状虽然不同的短时分析
5、方法以及求取不同的语音特虽然不同的短时分析方法以及求取不同的语音特征参数可能对窗函数的要求不尽一样,但一般来征参数可能对窗函数的要求不尽一样,但一般来讲,一个好的窗函数的标准是:讲,一个好的窗函数的标准是:在时域,由于是语音波形乘以窗函数,所以要在时域,由于是语音波形乘以窗函数,所以要减减小时间窗两端的坡度小时间窗两端的坡度,使窗口边缘两端不引起急,使窗口边缘两端不引起急剧变化而平滑过渡到零,从而以使截取出的语音剧变化而平滑过渡到零,从而以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频波形缓慢降为零,减小语音帧的截断效应;在频域,窗函数要有域,窗函数要有较宽的较宽的3dB带宽带宽以及
6、以及较小的边带较小的边带最大值最大值。窗函数的频率响应:窗函数的频率响应:1)矩形窗:)矩形窗:2)海宁窗:)海宁窗:3)汉明窗:)汉明窗:1(1)/20sin(/2)()sin(/2)NjwnTjwT NRnNwTWweewT22()0.5()0.25()()11HanRRRWwWwWwWwNN22()0.54()0.23()()11HamRRRWwWwWwWwNN窗类型旁瓣峰值 主瓣宽度 最小阻带衰减矩形窗-134/N-21汉宁窗-318/N-44汉明窗-418/N-534/N8/N8/N性能对比性能对比*窗口的长度窗口的长度频率分辨率和时间分辨率是矛盾的,应该根据不同的需要频率分辨率和时
7、间分辨率是矛盾的,应该根据不同的需要选择合适的窗口长度。选择合适的窗口长度。对于时域分析来讲,如果对于时域分析来讲,如果N很大,则它等效于很窄的低通很大,则它等效于很窄的低通滤波器,语音信号通过时,反映波形细节的高频部分被阻滤波器,语音信号通过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实的反映语音信号碍,短时能量随时间变化很小,不能真实的反映语音信号的幅度变化;反之,的幅度变化;反之,N太小时,滤波器的通带变宽,短时太小时,滤波器的通带变宽,短时能量随时间有急剧的变化,不能得到平滑的能量函数。能量随时间有急剧的变化,不能得到平滑的能量函数。窗口长度的选择更重要地是要考虑语
8、音信号的基音周期。窗口长度的选择更重要地是要考虑语音信号的基音周期。通常认为在一个语音帧内应包含通常认为在一个语音帧内应包含17个基音周期。个基音周期。1sfNT 3.2.2 3.2.2 消除趋势项和直流分量消除趋势项和直流分量产生原因:由于测试系统的某些原因在时间序列中会产生的产生原因:由于测试系统的某些原因在时间序列中会产生的一个线性的或者慢变的趋势误差,例如放大器随温度变化产一个线性的或者慢变的趋势误差,例如放大器随温度变化产生的零漂移,传声器低频性能的不稳定或传声器周围的环境生的零漂移,传声器低频性能的不稳定或传声器周围的环境干扰,总之使语音信号的零线偏离基线,甚至偏离基线的大干扰,总
9、之使语音信号的零线偏离基线,甚至偏离基线的大小还会随时间变化。零线随时间偏离基线被称为信号的趋势小还会随时间变化。零线随时间偏离基线被称为信号的趋势项。项。消除方法:直流分量的消除比较简单,即减去语音信号的平消除方法:直流分量的消除比较简单,即减去语音信号的平均项即可。而对于线性趋势项或多项式趋势项,常用的消除均项即可。而对于线性趋势项或多项式趋势项,常用的消除趋势项的方法是用多项式最小二乘法。在趋势项的方法是用多项式最小二乘法。在MATLAB里自带里自带有消除线性趋势项的函数有消除线性趋势项的函数detrend。用一个多项式函数用一个多项式函数 表示语音信号中的趋势项:表示语音信号中的趋势项
10、:20120(1,)mmjkmjjxaa ka ka ka kkn令函数令函数 与离散数据与离散数据 的误差二次方和为最小,即的误差二次方和为最小,即22110()()nnmjkkjkkkjExxa kx 通过解方程组求出通过解方程组求出m+1 个待定系数个待定系数 ai。在实际语音信号数据处理中,通常取在实际语音信号数据处理中,通常取m=13来对采样数据进来对采样数据进行多项式趋势项消除的处理。行多项式趋势项消除的处理。依次对依次对 ai求偏导,可得求偏导,可得 m+1 元线性方程组元线性方程组1010 i0,mnmnj iijkkjka kx k当当m=0 时求得的趋势项为常数,有时求得的
11、趋势项为常数,有 解方程得解方程得由此可知,当由此可知,当 时的趋势项为信号采样数据的算术平均值,时的趋势项为信号采样数据的算术平均值,即是直流分量。消除常数趋势项的计算公式为即是直流分量。消除常数趋势项的计算公式为000110nnkkka kx k011nkkaxn0kkkkyxxxa当当 m=1时为线性趋势项,有时为线性趋势项,有 解方程组得解方程组得 消除线性趋势项的计算公式为消除线性趋势项的计算公式为 000111120111100nnnkkkknnnkkkka ka kx ka ka kx k1101112(21)6(1)126(1)(1)(1)nnkkkknnkkkknxx kan
12、 nx knxan nn01()kkkkyxxxaa k采集语音信号时,交流隔离不好会将工频采集语音信号时,交流隔离不好会将工频50Hz的交的交流声混入到语音信号中,可采用高通滤波器滤除工流声混入到语音信号中,可采用高通滤波器滤除工频干扰;此外,由于基音的频率较低,通常位于频干扰;此外,由于基音的频率较低,通常位于60-450Hz之间。因此,在基音提取算法中,为了抗干之间。因此,在基音提取算法中,为了抗干扰,常设计低通滤波器来提取低频段信号。扰,常设计低通滤波器来提取低频段信号。常用的经典常用的经典IIR数字滤波器包含巴特沃斯滤波器、数字滤波器包含巴特沃斯滤波器、切比雪夫切比雪夫I型滤波器、切
13、比雪夫型滤波器、切比雪夫II型滤波器和椭圆滤型滤波器和椭圆滤波器四类。波器四类。3.2.3 3.2.3 数字滤波器数字滤波器各种理想滤波器的幅频特性各种理想滤波器的幅频特性 理想滤波器对应的时域响应为理想滤波器对应的时域响应为非因果非因果的,因而实际的滤波器的,因而实际的滤波器频率特性是用一个具有因果冲激响应的系统函数对理想滤波器频频率特性是用一个具有因果冲激响应的系统函数对理想滤波器频率特性的逼近。率特性的逼近。1|()|1jpH e|()|jsH e|ps过渡带过渡带|p通带通带p通带截止频率通带截止频率p通带容限通带容限|s阻带阻带s阻带截止频率阻带截止频率s阻带容限阻带容限低通滤波器幅
14、频特性低通滤波器幅频特性IIR滤波器结构滤波器结构lIIR滤波器的系统函数为1;1)()()(01111000azazazbzbbzazbzAzBzHNNMMNnnnMnnn如果如果aN=0,则,则IIR滤波器的阶数为滤波器的阶数为N。IIR滤波器的差分方程表示为:滤波器的差分方程表示为:MmNmmmmnyamnxbny01)()()(设计经典数字滤波器的步骤:设计经典数字滤波器的步骤:(1)将设计指标归一化处理,即通带截止频率)将设计指标归一化处理,即通带截止频率Wp和阻带截止频率和阻带截止频率Ws。(2)根据归一化频率,确定最小阶数)根据归一化频率,确定最小阶数N 和频率参数和频率参数Wn
15、。可供选用的阶数选择函数有。可供选用的阶数选择函数有:buttord,cheb1ord,cheb2ord,ellipord 等。等。(3)运用最小阶数)运用最小阶数N 设计模拟低通滤波器原型,用设计模拟低通滤波器原型,用到的函数有:到的函数有:butter,chebyl,cheby2,ellip。(4)用)用freqz(b,a,N,fs)函数验证设计结果。函数验证设计结果。(5)用)用filter(b,a,x)函数实现滤波功能。函数实现滤波功能。直接设计数字滤波器的直接设计数字滤波器的MATLAB函数:函数:N,wn=buttord(wp,ws,Rp,Rs)%数字频率采用标数字频率采用标准化频
16、率,取值范围为准化频率,取值范围为01之间,标准化频率之间,标准化频率1对对应的数字频率为应的数字频率为,对应的模拟频率为采样频率,对应的模拟频率为采样频率的一半。设计带通滤波器时,的一半。设计带通滤波器时,wp=wp1,wp2;ws=ws1,ws2b,a=butter(N,wn,ftype)%N为滤波器的阶数,为滤波器的阶数,wn为滤波器的截止频率(为滤波器的截止频率(01),),“ftype”为滤为滤波器的类型:波器的类型:high为高通,为高通,stop为带阻,为带阻,截止频率为截止频率为wn=w1,w2;缺省时为低通和带通滤缺省时为低通和带通滤波器波器设计实例:设计巴特沃斯低通滤波器,
17、采样频率设计实例:设计巴特沃斯低通滤波器,采样频率Fs=22050Hz,通带截止频率通带截止频率3400Hz,阻带截止频率,阻带截止频率5000Hz,通带和阻带区的,通带和阻带区的波纹系数分为为波纹系数分为为2dB和和20dB。%设计指标设计指标Fs=22050;Fp1=3400;Fs1=5000;Rp=3;Rs=20;Nn=128;wp1=2*Fp1/Fs;ws1=2*Fs1/Fs;%求归一化频率求归一化频率%确定确定butterworth 的最小阶数的最小阶数N 和频率参数和频率参数WnN,Wn=buttord(wp1,ws1,Rp,Rs);b,a=butter(N,Wn);%确定传递函数
18、的分子、分母系数确定传递函数的分子、分母系数 h,f=freqz(b,a,Nn,Fs);%生成频率响应参数生成频率响应参数 plot(f,20*log(abs(h)%画幅频响应图画幅频响应图020004000600080001000012000-600-500-400-300-200-1000巴特沃斯低通滤波器幅频曲线频率/Hz幅度/dB3.2.4 3.2.4 预加重与去加重预加重与去加重对于语言和音乐来说,其功率谱随频率的增加而减小,其对于语言和音乐来说,其功率谱随频率的增加而减小,其大部分能量集中在低频范围内,这就造成语音信号高频端大部分能量集中在低频范围内,这就造成语音信号高频端的信噪比
19、可能降到不能容许的程度。此外,由于语音信号的信噪比可能降到不能容许的程度。此外,由于语音信号中较高频率分量的能量小,很少有足以产生最大频偏的幅中较高频率分量的能量小,很少有足以产生最大频偏的幅度,因此产生最大频偏的信号幅度多数是由信号的低频分度,因此产生最大频偏的信号幅度多数是由信号的低频分量引起。而调频系统的传输带宽是由需要传送的消息信号量引起。而调频系统的传输带宽是由需要传送的消息信号的最高有效频率和最大频偏决定的,所以调频信号并没有的最高有效频率和最大频偏决定的,所以调频信号并没有充分占用给予它的带宽。但是,接收端输入的噪声频谱却充分占用给予它的带宽。但是,接收端输入的噪声频谱却占据了整
20、个调频带宽,即鉴频器输出端的噪声功率谱在较占据了整个调频带宽,即鉴频器输出端的噪声功率谱在较高频率上已被加重了。高频率上已被加重了。为了抵消这种不希望有的现象,在调频系统中普遍采用一为了抵消这种不希望有的现象,在调频系统中普遍采用一种叫做预加重和去加重措施。种叫做预加重和去加重措施。预加重的中心思想是利用信号特性和噪声特性的差别来有预加重的中心思想是利用信号特性和噪声特性的差别来有效地对信号进行处理。在噪声引入之前采用预加重网络,效地对信号进行处理。在噪声引入之前采用预加重网络,人为地加重输入调制信号的高频分量。然后在接收机鉴频人为地加重输入调制信号的高频分量。然后在接收机鉴频器的输出端,再进
21、行相反的处理,即采用去加重网络把高器的输出端,再进行相反的处理,即采用去加重网络把高频分量去加重,恢复原来的信号功率分布。在去加重过程频分量去加重,恢复原来的信号功率分布。在去加重过程中,同时也减小了噪声的高频分量,但是预加重对噪声并中,同时也减小了噪声的高频分量,但是预加重对噪声并没有影响,因此有效地提高了输出信噪比。没有影响,因此有效地提高了输出信噪比。常用所谓常用所谓“预加重技术预加重技术”是在取样之后,插入一个一阶的高是在取样之后,插入一个一阶的高通滤波器。常用的预加重因子为通滤波器。常用的预加重因子为:11(1)11(0)REPzzR 对于浊音来说,通常对于浊音来说,通常 P=1;而
22、对于清音,则该值可取得很小。;而对于清音,则该值可取得很小。在语音播放时再进行在语音播放时再进行“去加重去加重”处理,即预加重的反处理,对处理,即预加重的反处理,对应的去加重因子为应的去加重因子为1/E。3.3时域分析时域分析时域分析是最早使用,也是应用最广泛的一种分析时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。方法,这种方法直接利用语音信号的时域波形。特点包括:特点包括:1)语音信号表达比较)语音信号表达比较直观直观、物理意义明物理意义明确确;2)实现简单、)实现简单、运算量少运算量少;3)可得到语音的一)可得到语音的一些重要的参数;些重要的参数;4
23、)可使用示波器等通用设备进行观)可使用示波器等通用设备进行观测,使用简单。测,使用简单。语音信号的时域参数有语音信号的时域参数有短时能量、短时过零率、短短时能量、短时过零率、短时自相关函数和短时平均幅度差函数时自相关函数和短时平均幅度差函数等,计算这些等,计算这些参数时,常用的窗函数有矩形窗和汉明窗等。参数时,常用的窗函数有矩形窗和汉明窗等。3.3.1 3.3.1 短时能量及短时平均幅度短时能量及短时平均幅度短时能量短时能量En的表达式:的表达式:短时平均幅度函数短时平均幅度函数Mn 的表达式:的表达式:10|()|NnnmMx mN120()NnnmExm主要用途有:主要用途有:1)可以区分
24、浊音段与清音段,因为浊音时)可以区分浊音段与清音段,因为浊音时 值值比清音时大的多;比清音时大的多;2)可以用来区分声母与韵母的分界,无)可以用来区分声母与韵母的分界,无声与有声的分界,连字(指字之间无间隙)的分界等;声与有声的分界,连字(指字之间无间隙)的分界等;3)作为一种超音段信息,用于语音识别中。作为一种超音段信息,用于语音识别中。3.3.2 3.3.2 短时过零率短时过零率短时过零率表示一帧语音中信号波形穿过横轴短时过零率表示一帧语音中信号波形穿过横轴(零电平)的次数。(零电平)的次数。实际上,由于发生过零时,离散信号相邻的取样值实际上,由于发生过零时,离散信号相邻的取样值符号改变,
25、那么相邻值的乘积一定为负数,所以通符号改变,那么相邻值的乘积一定为负数,所以通过统计小于零的个数,获得短时平均过零率。过统计小于零的个数,获得短时平均过零率。101|sgn()sgn(1)|2NnnnmZx mx m注意:注意:50Hz的工频干扰或者的工频干扰或者A/D变换器的工作点偏变换器的工作点偏移移(等效于输入信号有直流偏移等效于输入信号有直流偏移),会使计算的过零,会使计算的过零率参数不准确。率参数不准确。3.3.3 3.3.3 短时自相关短时自相关相关分析是一种常用的时域波形分析方法,并有自相关和相关分析是一种常用的时域波形分析方法,并有自相关和互相关之分。在语音信号分析中,可用自相
展开阅读全文