第4章-语音信号的时域分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第4章-语音信号的时域分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 时域 分析 课件
- 资源描述:
-
1、4.2语音信号的数字化与预处理 4.1概述 4.4短时平均过零率和上升过零间隔 4.3短时平均能量和短时平均幅度 4.5短时自相关函数和短时平均幅度差函数4.6短时时域处理技术的应用 4.7中值滤波在语音短时时域处理中的应用 第4章语音信号的时域分析4.1概述语音信号语音信号携带各种信息:携带各种信息:男声男声、女声女声,喜喜、怒怒,中中、英英等。等。不同场合感兴趣的信息不同;不同场合感兴趣的信息不同; 判断信号是否为判断信号是否为语音语音,只需人类语音信号的,只需人类语音信号的一般特征一般特征; 区分语音为区分语音为清、浊音清、浊音,需语音,需语音能量谱能量谱和和基频基频; 数字传输或数字存
2、储时,目的数字传输或数字存储时,目的不同不同,保留信息精度,保留信息精度不同不同;语音信号处理语音信号处理的的任务任务: 去除去除与应用目的不相干或影响不大的语音信息与应用目的不相干或影响不大的语音信息 需要的信息不仅应当提取出来,有时还需要需要的信息不仅应当提取出来,有时还需要加强加强。以上涉及语音信号中,各种信息的以上涉及语音信号中,各种信息的表示问题表示问题。表示方法的原则:表示方法的原则:最方便最方便、最有效最有效。短时分析短时分析技术技术贯穿于贯穿于语音分析的全过程。语音分析的全过程。第4章语音信号的时域分析 4.1概述同济大学电子与信息工程学院 - 2 - 赵晓群 教授整体的语音信
3、号来讲,分析出的是由每一帧特征参数组成的特整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。征参数时间序列。语音信号分析语音信号分析:时域分析时域分析、频域分析频域分析、倒频域分析倒频域分析等;等;语音信号分析语音信号分析:模型分析模型分析、非模型分析非模型分析;模型分析法是指依据语音信号产生的数学模型,来分析和提取模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的表征这些模型的特征参数特征参数,模型分析:模型分析:共振峰分析共振峰分析、无损级联声管分析法无损级联声管分析法非模型分析:非模型分析:不进行模型化的分析不进行模型化的分析语音的预处理语音的预处理
4、:语音信号的:语音信号的数字化数字化、语音信号的、语音信号的端点检测端点检测、 预加重预加重、加窗加窗、分帧分帧等,等,本章重点:本章重点:语音信号的各种时域分析技术,是语音处理技术语音信号的各种时域分析技术,是语音处理技术 的基础知识。的基础知识。第4章语音信号的时域分析 4.1概述同济大学电子与信息工程学院 - 3 - 赵晓群 教授第4章语音信号的时域分析4.2语音信号的数字化和预处理 信号数字化:信号数字化:放大放大、增益控制增益控制、反混叠滤波反混叠滤波、取样取样、 A/D变换变换及及编码编码(PCM编码编码););预处理:预处理:预加重预加重、加窗加窗、分帧分帧、端点检测端点检测等;
5、等;图图4.1:语音信号数字语音信号数字分析分析或或处理处理的的系统框图系统框图。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 同济大学电子与信息工程学院 - 4 - 赵晓群 教授图图4.1语音信号数字处理系统框图语音信号数字处理系统框图反混叠滤波反混叠滤波语音输入语音输入语音输出语音输出A/D转换转换分析处理分析处理平滑滤波平滑滤波D/A转换转换合成处理合成处理传输或存储传输或存储 4.2.1预滤波、取样、预滤波、取样、A/D变换变换 预滤波:预滤波:带通滤波器带通滤波器(上、下(上、下截止频率截止频率为为fH、fL) 防混叠滤波防混叠滤波,抑制,抑制fs/2的输入信号分量(的输
6、入信号分量(fs为取样频率)为取样频率) 抑制工频干扰抑制工频干扰(50 Hz电源)。电源)。多数多数语音编语音编/ /译码器:译码器: fH = 3.4kHz, fL = 60100Hz,fs= 8kHz。语音识别:语音识别:对对电话用户电话用户指标与语音编指标与语音编/译码器时相同;译码器时相同; 要求较高或很高:要求较高或很高: fH=4.5 or 8kHz, fL=60Hz, fs = 10 or 20kHz。A/D变换需对信号变换需对信号量化量化,编码为,编码为二进制二进制,产生,产生量化误差量化误差。量化误差量化误差(量化噪声量化噪声):):量化信号值量化信号值与与原信号值原信号值
7、之差;之差;信号波形的变化信号波形的变化足够大足够大或量化或量化间隔足够小间隔足够小时,时, 量化噪声符合具有下列特征的统计模型:量化噪声符合具有下列特征的统计模型: 量化噪声是量化噪声是平稳的白噪声平稳的白噪声过程;过程; 量化噪声与输入信号量化噪声与输入信号不相关不相关; 量化噪声在量化间隔内量化噪声在量化间隔内均匀分布均匀分布,即具有,即具有等概率密度分布等概率密度分布。同济大学电子与信息工程学院 - 5 - 赵晓群 教授第4章语音信号的时域分析 4.2语音信号的数字化和预处理 量化信噪比量化信噪比SNR(信号与量化噪声的功率比)为:(信号与量化噪声的功率比)为: 式中,式中, 输入输入
8、语音信号序列语音信号序列的的方差方差, 噪声序列噪声序列的的方差方差, 信号的信号的峰峰- -峰值峰值, B量化字长量化字长,设语音信号的幅度服从设语音信号的幅度服从Laplace分布分布,则,则 取取 , 上式改写为:上式改写为:B=7 bit,SNR=35 dB,能,能满足一般满足一般通信系统的要求。通信系统的要求。语音波形的语音波形的动态范围动态范围达达55 dB,故,故B应取应取10 bit以上。以上。为保持为保持35 dB的的信噪比信噪比,常用,常用12 bit量化量化,附加的,附加的5 bit用于用于补偿补偿30 dB左右的输入左右的输入动态动态的变化。的变化。 同济大学电子与信息
9、工程学院 - 6 - 赵晓群 教授2max10102(dB)10log6.024.7720logxexXSNRB2xmaxX2e(dB)6.027.2SNRB表明量化器中每表明量化器中每bit字长对字长对SNR的贡献约为的贡献约为6 dB 第4章语音信号的时域分析 4.2语音信号的数字化和预处理 max4xX(4)0.0035xp xA/D变换器:变换器:分为分为线性线性和和非线性非线性两类。两类。目前采用绝大部分的目前采用绝大部分的线性线性A/D变换器变换器是是12 bit。非线性非线性A/D变换器变换器一般是一般是8 bit,它与,它与12 bit线性变换器线性变换器等效等效。有时需要将非
10、线性的有时需要将非线性的8 bit码转换为线性的码转换为线性的12 bit码。码。数字化的数字化的反过程反过程是从数字化语音中是从数字化语音中重构语音重构语音波形。波形。必须在必须在D/A后加后加平滑滤波器平滑滤波器,对重构的语音波形的高次谐波起,对重构的语音波形的高次谐波起平滑作用,以平滑作用,以去除高次谐波去除高次谐波失真。失真。预滤波预滤波、取样取样、A/D和和D/A变换变换、平滑滤波平滑滤波等许多功能可以用等许多功能可以用一块芯片一块芯片完成,在市场上有多种这样的完成,在市场上有多种这样的集成芯片集成芯片供选用。供选用。同济大学电子与信息工程学院 - 7 - 赵晓群 教授第4章语音信号
11、的时域分析 4.2语音信号的数字化和预处理 4.2.2预处理预处理 预处理:预处理:预加重预加重、加窗加窗、分帧分帧、端点检测端点检测等;等;语音的一个特征:语音的一个特征:约约8 kHz高频端按高频端按-6 dB/倍频程倍频程跌落。跌落。预加重:预加重:提升提升语音的语音的高频高频部分,使信号的频谱变得部分,使信号的频谱变得平坦平坦, 可在可在反混叠滤波前反混叠滤波前,可,可压缩动态范围压缩动态范围,提高信噪比提高信噪比。 也可在也可在数字化后数字化后、参数分析之前参数分析之前。预加重预加重用用6 dB/倍频程倍频程的提升高频特性的的提升高频特性的预加重数字滤波器预加重数字滤波器: 式中,式
12、中,为为常系数常系数,值接近于,值接近于1,通常取,通常取= 0.920.94。恢复恢复原信号,对测量值进行原信号,对测量值进行去加重去加重处理,处理, 即加上即加上-6 dB/倍频程的下降的频率特性来还原成原来的特性。倍频程的下降的频率特性来还原成原来的特性。 同济大学电子与信息工程学院 - 8 - 赵晓群 教授1( )1H zz 第4章语音信号的时域分析 4.2语音信号的数字化和预处理 4.2.3窗函数的作用窗函数的作用 采用采用连续分段连续分段或或交叠分段交叠分段的方法的方法分帧分帧,33 100帧帧/秒秒。图图4.2:帧移与帧长示例。帧移与帧长示例。帧与帧之间的信号平滑过渡,保持其连续
13、性。帧与帧之间的信号平滑过渡,保持其连续性。帧移:帧移:前后帧的前后帧的交叠部分交叠部分。帧移帧移与与帧长帧长的的比值比值一般为一般为01/2。移动窗函数加权实现:移动窗函数加权实现: x(n)为为语音信号,语音信号,w(n)为为窗函数,窗函数,sw(n)为为窗选语音信号窗选语音信号。 同济大学电子与信息工程学院 - 9 - 赵晓群 教授( )( ) ( )wxnx n w n图图4.2帧移与帧长的示例帧移与帧长的示例(N为帧长,为帧长,M为帧移为帧移)NNNMM 理想窗函数的频率响应有理想窗函数的频率响应有一个一个很窄的主瓣很窄的主瓣,它增加了频,它增加了频率的分辨度,而率的分辨度,而没有旁
14、瓣没有旁瓣。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 讨论讨论窗函数窗函数的的形状形状和和长度长度的影响。的影响。 1. 窗函数的形状窗函数的形状好的窗函数的好的窗函数的标准标准: 时域:减小时域:减小时间窗两端的时间窗两端的坡度坡度,使窗口两端边缘,使窗口两端边缘平滑过渡平滑过渡到到零到到零,减小减小语音帧的语音帧的截断效应截断效应; 频域:较宽频域:较宽的的3 dB带宽和带宽和较小较小的边带最大值。的边带最大值。常用的常用的窗函数窗函数(窗长为(窗长为N):):(1) 矩形(矩形(rectangular)窗:)窗: (2) Hamming(汉明)窗:(汉明)窗:(3) Ha
15、nning(汉宁)窗:(汉宁)窗:同济大学电子与信息工程学院 - 10 - 赵晓群 教授1;01( )0;nNw n其它20.540.46cos01( )10nnNw nN其他20.50.5cos01( )10nnNw nN其他第4章语音信号的时域分析 4.2语音信号的数字化和预处理 (4) Bartlett(巴特雷特)窗:(巴特雷特)窗: (5) Blackman(布累克曼)窗:(布累克曼)窗:(6) Kaiser(凯散)窗:(凯散)窗:式中,式中, 零阶贝塞尔函数零阶贝塞尔函数, 同济大学电子与信息工程学院 - 11 - 赵晓群 教授20(1)/212( )2(1)/2110nnNNnw
16、nNnNN其他240.420.5cos0.08cos01( )110nnnNw nNN其他2002111( )01( )0nINw nnNI其他2020/2( )( !)kkxIxk第4章语音信号的时域分析 4.2语音信号的数字化和预处理 图图4.3、 4.4 :窗函数的波形窗函数的波形矩形窗矩形窗主瓣最窄主瓣最窄,频率分辨度,频率分辨度 最高最高,频率,频率泄漏最大泄漏最大; Blackman窗频率分辨度窗频率分辨度最低最低, 频率频率泄漏最小泄漏最小。常用常用矩形窗矩形窗、Hamming窗窗。同济大学电子与信息工程学院 - 12 - 赵晓群 教授第4章语音信号的时域分析 4.2语音信号的数
17、字化和预处理 图图4.3各种窗函数的时间波形各种窗函数的时间波形图图4.4各种窗的频率响应各种窗的频率响应Bartlett窗窗 矩形窗矩形窗Hamming窗窗 Blackman窗窗 Hanning窗窗 Kaiser窗窗 2. 窗口的长度窗口的长度 取样周期取样周期Ts = fs、窗口长度窗口长度N、频率分辨率频率分辨率f 的关系为:的关系为: Ts一定时,一定时, f 随窗口随窗口N增加增加而而减小减小, 即即f 提高提高,时间分辨率,时间分辨率降低降低。 如果窗口如果窗口取短取短,频率分辨率,频率分辨率下降下降,时间分辨率,时间分辨率提高提高。取样周期和频率分辨率取样周期和频率分辨率矛盾矛盾
18、,应根据需要,应根据需要选择合适选择合适的窗长。的窗长。时域分析:时域分析: N 很大,语音高频受阻,短时能量变化很小,不能反映幅度变化;很大,语音高频受阻,短时能量变化很小,不能反映幅度变化; N 太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。通常一帧内应含有通常一帧内应含有1 7个基音周期。个基音周期。基音周期变化大,从女性和儿童的基音周期变化大,从女性和儿童的2 ms到老年男子的到老年男子的14 ms10 kHz取样时,取样时,N 折衷选择为折衷选择为100 200点(点(10 20 ms)。)。分析条件:分析条件:(通常
19、需标明,以提供性能评价参考依据) 取样频率、精度、预加重方式、窗函数、帧长、帧移取样频率、精度、预加重方式、窗函数、帧长、帧移等。等。 同济大学电子与信息工程学院 - 13 - 赵晓群 教授第4章语音信号的时域分析 4.2语音信号的数字化和预处理 1/sfNT 第4章语音信号的时域分析4.3短时能量和短时平均幅度 4.3.1短时能量短时能量语音的清音能量语音的清音能量较小较小,浊音能量,浊音能量较大较大。语音的能量分析主要语音的能量分析主要短时能量短时能量和和短时平均幅度短时平均幅度。n时刻时刻语音信号的语音信号的短时能量短时能量En为:为: 或或 式中,式中,h(n)=w2(n),可以看做滤
20、波器的,可以看做滤波器的冲激响应函数冲激响应函数。 En反映语音反映语音振幅振幅或或能量能量随随时间时间缓慢变化的缓慢变化的规律规律。窗函数窗函数或或滤波器滤波器的函数的函数形式形式和和宽度宽度对能量序列影响很大。对能量序列影响很大。选择合适的选择合适的窗函数窗函数或滤波器的或滤波器的冲激响应函数冲激响应函数和它们的和它们的宽度宽度。用得较多的是用得较多的是矩形窗矩形窗和和Hamming窗窗。第4章语音信号的时域分析 4.3短时能量和短时平均幅度同济大学电子与信息工程学院 - 14 - 赵晓群 教授122 ( ) () ( ) ()n Nnmm nEx m w nmx m w nm1222(
21、) ()( ) ()( )( )n Nnmm nExm h nmxm h nmxnh n 窗宽的影响:窗宽的影响:窗函数很宽窗函数很宽或或冲激响应很长冲激响应很长,平滑作用,平滑作用显著显著,使,使En变化不大,变化不大,反映不出语音能量的时变特性。反映不出语音能量的时变特性。窗函数过窄窗函数过窄,平滑作用,平滑作用有限有限,仍然保留,仍然保留瞬时瞬时快变化,使快变化,使En反映反映语音振幅细节,表现不出振幅平方包络的变化规律。语音振幅细节,表现不出振幅平方包络的变化规律。当当N小于语音基音周期时,将按照基音周期内语音振幅平方波小于语音基音周期时,将按照基音周期内语音振幅平方波形的形的细节细节
22、瞬时变化;瞬时变化;当当N比基音周期的若干倍还要大时,各段语音的短时能量差别比基音周期的若干倍还要大时,各段语音的短时能量差别不大,不能跟随语音能量的时变特性。不大,不能跟随语音能量的时变特性。这两种情况都不能准确描述语音能量自身的实际变化规律。这两种情况都不能准确描述语音能量自身的实际变化规律。必须选择合适的窗宽,必须选择合适的窗宽,兼顾男声和女声,兼顾男声和女声,10 kHz取样时,选取样时,选窗宽窗宽10 20 ms。第4章语音信号的时域分析 4.3短时能量和短时平均幅度同济大学电子与信息工程学院 - 15 - 赵晓群 教授 图图4.54.5:语音的语音的短时能量短时能量序列的序列的包络
23、曲线包络曲线。第4章语音信号的时域分析 4.3短时能量和短时平均幅度同济大学电子与信息工程学院 - 16 - 赵晓群 教授(a) 加矩形窗时加矩形窗时 (b) 加加Hamming窗时窗时图图4.5语音语音“同舟共济同舟共济”的短时能量函数(的短时能量函数(10 kHz取样)取样)矩形窗比矩形窗比Hamming窗的平滑效果显著窗的平滑效果显著;随着窗宽的增加,平滑效果越显著;随着窗宽的增加,平滑效果越显著;从的包络曲线可以清楚看出清音和浊音之间的从的包络曲线可以清楚看出清音和浊音之间的区别区别和和分界点分界点, 4.3.2短时平均幅度短时平均幅度En的计算是的计算是平方求和平方求和,计算量大;,
24、计算量大;平方运算平方运算扩大扩大了样本间了样本间差别差别,选窗宽择带来附加的困难。,选窗宽择带来附加的困难。须选择较宽的窗,才能须选择较宽的窗,才能较好地平滑较好地平滑平方幅度的起伏。平方幅度的起伏。为此,提出语音能量时变性质的为此,提出语音能量时变性质的另一个重要参数。另一个重要参数。n时刻时刻语音信号的语音信号的短时平均幅度短时平均幅度Mn为:为: 或或 式中,式中,h(n) = w(n)通常窗函数通常窗函数w(n)0 ,所以,所以h(n) = w(n)。 依据依据定义式定义式可导出多种的可导出多种的计算方法计算方法(略)(略)。共三种。共三种。第4章语音信号的时域分析 4.3短时能量和
25、短时平均幅度同济大学电子与信息工程学院 - 17 - 赵晓群 教授1( ) ()( ) ()n Nnmm nMx m w nmx m w nm1( )()( )()( )( )n Nnmm nMx m h nmx m h nmx nh n 图图4.64.6:语音的语音的平均幅度平均幅度序列的序列的包络曲线包络曲线。第4章语音信号的时域分析 4.3短时能量和短时平均幅度同济大学电子与信息工程学院 - 18 - 赵晓群 教授(a) 加矩形窗时加矩形窗时 (b) 加加Hamming窗时窗时图图4.6语音语音“同舟共济同舟共济”的短时平均幅度函数(的短时平均幅度函数(10 kHz取样)取样) 语音的语
展开阅读全文