第二章语音信号的数学模型ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章语音信号的数学模型ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 语音 信号 数学模型 ppt 课件
- 资源描述:
-
1、第二章 基础知识2.1 概述概述12.2 语音的发音机理语音的发音机理 2.3 语音的语音的听觉机理听觉机理32.4 语音的感知语音的感知42.5 语音信号模型语音信号模型5 2.6 语音信号数字模型语音信号数字模型622019-12.1 概述 本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性做一般介绍。 2019-22.2 语音的发音机理2.2.1 人的发音器官1.组成 肺和气管组成声源; 喉和声带称为声门; 由咽腔、口腔、鼻腔 组成声道; 图图2.1 发音器官机理模型发音器官机理模型 2019-32. 功能肺:产生压缩气体,通过气管传送到声音生成系 统。喉:控制声带运动的复杂
2、系统。主要包括:环状软 骨、甲状软骨、杓状软骨、声带。2019-4 图图 2.1 喉喉的的平平面面解解剖剖示示意意图图 前前面面 甲甲状状软软骨骨 声声带带 环环状状软软骨骨 杓杓状状软软骨骨 声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。2019-5 声门:声带之间的间隙称为声门。 主要功能:产生激励。 声
3、道:声道指声门至嘴唇的所有发音器官。可以看成一根从声门一直延伸到嘴唇的具有非均匀截面的声管。声道的形状变化(截面积)由舌、软腭、唇、牙的形状和位置决定。 主要功能:传输调制声波。 包括:咽喉、口腔和鼻腔。 2019-6 口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。 上腭又分为:硬腭和软腭两部分; 舌又分为:舌尖、舌面和舌根三部分。 鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。2019-7图图2.3 声道纵剖面图声道纵剖面图2019-82.2.2 语音生成 图2.1为语音生成其机
4、理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。2019-9 图图 2.1 发音器官机理模型发音器官机理模型 2019-10 语音生成动作可分为两种功能: (1)激励 (2)调制 激励激励 (声门)(声门) 调制调制 (声道)(声道) 幅射语音幅射语音 (嘴唇)(嘴唇) 图图 语音生成模型语音生成模型 2019-112.2.2 语音生成-浊音 空气流经过声带时,如果声带是崩紧的,则声带将产生张弛
5、振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。2019-12 基音频率是由声带张开闭合的周期所决定的: 男性的基音频率一般为50250Hz; 女性基音频率为100500Hz。2019-132019-142.2.2 语音生成-清音 空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发
6、生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。2019-152.2.2 语音生成-爆破音 另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成所谓爆破音。2019-162019-17 共振峰频率或共振峰 声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地
7、反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。2019-182019-192019-202019-212.3 语音的听觉机理2.3.1 听觉器官 人的听觉器官包括:外耳、中耳和内耳图图2.3 2.3 人耳结构示意图人耳结构示意图2019-22 1.外耳 外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)组成。 2.中耳 组成:包括三块听小骨:锤骨,砧骨和镫骨。 作用:阻抗匹配和限幅 外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器,可以用有限冲激响应(FIR-Finite Impulse Res
8、ponse)滤波器来模拟。2019-23 3. 内耳 内耳是一个充满液体的骨质结构,由前庭、圆形窗、卵形窗及耳蜗组成。2019-242.3.2 耳蜗的信号处理机制2019-25 当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高,流体波传播的很快。随着波的传播,膜的硬度变得越来越小,波的传播也逐渐变缓。不同频率的声音产生不同的行波,而峰值出现在基底膜的不同位置上。 2019-26图图2.7 基底膜上六个不同点的频率响应基底膜上六个不同点的频率响应1 1 基底膜基底膜2 2 内毛细胞内毛细胞3 3 外毛
9、细胞外毛细胞4 听传导通路听传导通路 2019-272.3.3 语音信号听觉模型 听觉系统的研究主要集中在三个方面:听觉系听觉系统的研究主要集中在三个方面:听觉系统的实验研究、听觉系统的建模和听觉模型的应用。统的实验研究、听觉系统的建模和听觉模型的应用。听觉系统的实验研究主要是指听觉系统在医学、生听觉系统的实验研究主要是指听觉系统在医学、生理学及心理学方面的研究。由于耳蜗深植于颅骨中,理学及心理学方面的研究。由于耳蜗深植于颅骨中,尺寸极小(如蜗管的直径只有尺寸极小(如蜗管的直径只有1mm),所以耳蜗的),所以耳蜗的实验研究是一项非常艰巨和复杂的工作。实验研究是一项非常艰巨和复杂的工作。 耳蜗建
10、模主要集中在基底膜的振动上,然而,耳蜗建模主要集中在基底膜的振动上,然而,建立基底膜的振动模型是耳蜗建模的首要任务,它建立基底膜的振动模型是耳蜗建模的首要任务,它又被称为耳蜗的宏观力学模型。又被称为耳蜗的宏观力学模型。 2019-28图2.10 语音信号听觉模型一般原理框图 输入语音 外耳 中耳 带 通 滤波器 半波 整流 低通 滤波 听神经 发 放 听 觉 语谱图 语音信号首先通过一串带通滤波器语音信号首先通过一串带通滤波器(BPF)阵列,阵列,其中心频率跟随着图其中心频率跟随着图2.7所示的基底膜频率响应按所示的基底膜频率响应按照对数尺度分布。每一个带通滤波器都被独立的照对数尺度分布。每一
11、个带通滤波器都被独立的设定为有限冲激响应滤波器设定为有限冲激响应滤波器(FIR)或无限冲激响应或无限冲激响应滤波器滤波器(IIR),但是频率响应的波形并不是严格精,但是频率响应的波形并不是严格精确的。确的。2019-29 被滤波的信号在通过内毛细胞/突触模型之后,到达听传导通路模型。虽然各种听觉模型的带通滤波器的性能特征是基本相同的,但是在接下来几级的信号处理过程却有很大差异。事实上,不同的听觉模型都各自拥有不同的IHC模型,突触模型和听传导通路模型。一些模型为每一个滤波后的信号都设有独立的频道,而另一些模型则认为在基底膜上相邻位置处滤波得到的信号之间存在耦合性。2019-30 根据人耳的听觉
12、特性得出的模型作为语音识别的特征提取部分,可获得具有鲁棒性的特征参数,它们对真实世界中的噪音环境下的语音识别都表现出很好的性能。2019-312.4 语音的感知2.4.1 几个概念1. 人耳听觉界限的频率范围大约为20Hz-20kHz。2. 语音感知的强度范围是0130dB声压级。3.语音的特性包括:音质,音调,音强,音长3. 响度 这是频率和强度级的函数。通常用响度(单位为宋)和响度级(单位为方)来表示。此时响度级定为零方。测量表明听阈值是随频率变化的。通常,人们把1kHz纯音听阈值定为零方。2019-324. 人耳刚刚可以听到的声音强度,称为“听阈”。 加大声音的强度,使听起来令耳朵感到疼
13、痛,这个阈值称为“痛阈”。5.音高(音调) 音高也叫基音。 物理单位为Hz,主观感觉的音高单位是美(Mel)。当声强级为40dB频率为1kHz时,设定的音高为1000美。2019-332.4.2 掩蔽效应 掩蔽效应: 两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,即:一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。此时前者称为被掩蔽音,后者称为掩蔽音。在掩蔽情况下,被隐蔽音的听阈会提高,即加大被掩蔽音的强度才能听到。此时听阈称为掩蔽听阈。2019-34 低频的纯音可以有效地掩蔽高频的纯音。 利
14、用人耳的掩蔽效应,在进行语音压缩时,让量化噪音的频谱跟随语言信号频谱包络变化。则共振峰的频率成分就会掩蔽掉量化噪声。这个技术称为噪声整形或听觉加权处理。 低音容易掩蔽高音,而高音掩蔽低音较难。 基于此,可以将真实的声音频率映射到“感知”频率尺度,即Bark尺度对应的临界带宽。2019-35 2.4.3 临界带宽与频率群 用一中心频率为用一中心频率为f,带宽为,带宽为f的白噪声来掩蔽的白噪声来掩蔽一频率为一频率为f的纯音,先将这个白噪声的强度调节到的纯音,先将这个白噪声的强度调节到使被掩蔽纯音恰好听不见为止。然后将使被掩蔽纯音恰好听不见为止。然后将f由大到小由大到小逐渐变化,而保持单位频率的噪声
展开阅读全文