语音的产生机理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音的产生机理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 产生 机理 课件
- 资源描述:
-
1、生物认证技术Biometrics第五章 声纹识别内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.引言u声音是携带信息的极其重要的媒体(20)u声音是通过空气传播的一种连续的波,叫声波,也具有反射、折射和衍射现象。u声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽带宽。u带宽为20Hz20kHz的信号称为音频(audio)信号,可以被人的耳朵感知。u声音是时基类媒体。u说的是什么内容?说的是什么内容?u是谁在说话?是谁在说话?u计算机去说话?计算机去说话?u怎么把话说好?怎么把话说好?语音识别语音识别声纹识声纹识别
2、别文语转文语转换换说话水平评估说话水平评估u说的是什么语言?说的是什么语言?语种识别语种识别引言引言语音处理研究的基本内容语音处理研究的基本内容引言引言uSpeaker,or voice,recognition is a biometric modality that uses an individuals voice for recognition purposes.u说话人识别(声纹识别)是一项根据语音波形中反映说话根据语音波形中反映说话人生理和行为特征的语音参数人生理和行为特征的语音参数,自动识别说话人身份的技术。uIt is a different technology than“sp
3、eech recognition”,which recognizes words as they are articulated,which is not a biometric.u声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。引言引言uThe speaker recognition process relies on features influenced by both the physical structure of an individuals vocal
4、 tract and the behavioral characteristics of the individual.u声音是个复杂的信号,说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中,所有的这些差异都可以被用来区别不同的用户。u它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。u说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。引言引言u说话人识别的特殊优势l对用户干扰少,易被用户接受l最经济的方法之一,输入设备造价低廉 l语音获取非接触,具备卫生
5、方面的安全性l适用基于电信网络的应用中 u因此,说话人识别研究具有巨大应用前景引言引言u声纹分析技术的应用领域:l信息查询领域的应用l在电话交易的应用l在PC以及手持式设备上面的应用l在保安系统以及证件防伪中的应用l与二维条码技术相结合的防伪应用挑战挑战u说话人的发音经常与环境、情绪、健康状态有密切关系。u语音信号或者称为“声纹(voiceprint)”与指纹(fingerprint)不同,指纹是静态的、固定不变的生理特性,而说话人特征具有长时变动特性,会随时间、年龄的变化而变化。u如感冒、声道管疾病,都有可能使发出的声音改变。u情绪变化也是一个因素,大声喊叫的时候,声道的形状显然同正常状态有
6、很大的不同。挑战挑战u声音往往是可以模仿的,还可以预先录制起来,如何区别真假声音也是很头痛的事情。特别是对于远程电话身份认证,不能采用同用户的其他特征相结合的办法。挑战挑战u线路传输所带来的线路噪声,包括不同线路噪声情况可能不同、同一线路在不同时期噪声情况也会不同,噪声的处理也很有难度。u噪声可能导致语音信号在整个时域空间上的污染,甚至有可能也对频域特征造成污染,这就给提取出正确的反映说话人的特征,造成了很大的困难。内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.历史历史u以人们的语音作为身份认证的手段,据说是从1660 年英国查尔斯一世之
7、死的判决开始的,首次利用语音作为推断犯人作案的线索。u其后随着技术的发展,电话克服了距离的障碍,录音手段克服了时间的障碍,从而使得对语音的说话人个性的分析得到了关注。历史历史u从1937 年开始,以C.A.Lindbergh 先生的儿子拐骗事件为开端,对语音的说话人个性开展了科学的测量和研究。u1945 年,美国贝尔实验室的R.K.Pooter 发明了语音频谱图,能把所谓的声纹(voiceprint)动描述出来。u1962 年,贝尔实验室的L.G.Kersta 第一次介绍了采用上述方法进行说话人识别的可能性。u1966 年,美国法院第一次采用此方法进行了取证。历史历史u原先的说话人识别,往往是
8、用视觉来判断声音频谱图,或者用听觉判断是谁的声音。u随着计算机的发展,自动说话人识别(ASR)的研究得到了迅速的发展。u自动说话人识别是指利用计算机技术,不需要人们的干预,自动的进行身份认证。内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.语音的产生机理语音的产生机理u众所周知,发声从肺部挤出空气开始,空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动,进一步强化共振,最终构成声音。u这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中,口腔扮演了重要的角色。因为通过舌头能够改变空间的容积。如果容
9、积改变,则发音也改变了,3个频率的组合产生声音。语音的产生机理语音的产生机理u语音产生器官l发声器官语音合成n肺、气管、喉(包括声带)、咽、鼻、口。它们共同形成一条形状复杂的管道l声带和声门n喉与气管的接口处称为声门l声道n其中喉以上的部分称为声道,随着发出语音的不同其形状是变化的语音的产生机理语音的产生机理u产生语音的能量,绝大多数来源于正常呼吸时肺部呼出的稳定气流l有极少数语种,如某些非洲语言,是利用吸气气流来发音的u声带最重要的发声器官l既是一个阀门又是一个振动部件l呼吸时左右两声带打开(声门开)l在说话的时候合拢,肺部气流经气管形成冲击“打开-闭合-打开-闭合-”声门,从而冲击声带产生
10、振动,然后通过声道响应变成语音声道调制声道调制u声道l咽、口腔和鼻腔l从声门延伸至口唇的非均匀截面的声管,约17cmu功能l谐振腔:放大某一频率而衰减其他频率分量n谐振频率:由每一瞬间的声道外形决定,又称为共振峰,是声道的重要声学特征语音的频率性质语音的频率性质u音调周期/基音周期l声门开启-闭合一次的时间即振动周期u基频l基音周期的倒数,声带振动的基本频率u音调l声带振动的频率(即基音)决定了声音频率的高低,频率快则音调高,否则音调低l人的基音范围n70350HZ,儿童和青年女性偏高,男性偏低语音的产生机理语音的产生机理u浊音(voiced sounds):声道打开,声带在先打开后关闭,气流
11、经过使声带要发生张驰振动,变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。l如发/U/、/d/、/i/等音u清音(unvoiced sounds):声带不振动,而在某处保持收缩,气流在声道里收缩后高速通过产生湍流,再经过主声道(咽、口腔)的调整最终形成清音。清音的激励源被等效为一种白噪声信号。l如发/音u爆破音(plosive sounds):声道关闭之后产生压缩空气然后突然打开声道所发出的声音。l如发/t/音时发声过程小结发声过程小结u人的发声过程包括两个步骤l声门/声带产生不同频率的声音n准周期气流脉冲或白噪声l声道对声源的调制作用 激励过程(声门)调制过程(声道)语音辐射语音的
12、产生机理语音的产生机理u肺中的空气受到挤压形成气流,气流通过声门(声带)沿着声道(由咽、喉、口腔等组成)释放出去,就形成了话音。u 气流、声门可以等效为一个激励源,声道可以等效为一个时变滤波器(共振峰)。u 话音信号具有很强的相关性(长期相关、短期相关)。语音的产生机理语音的产生机理语音信号的产生数学模型语音信号的产生数学模型u激励模型u声道模型u辐射模型激励模型激励模型u激励模型非常复杂u声门脉冲模型l浊音n声带振动,声门脉冲n如:斜三角形脉冲串u随机白噪声l清音n声带不振动,随机白噪声内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.声纹
13、识别流程声纹识别流程图1 说话人识别模型 声纹识别系统的组成声纹识别系统的组成u声纹识别系统主要包括两部分,即声纹识别系统主要包括两部分,即特征检测特征检测和和模模式匹配式匹配。l特征检测特征检测的任务是选取唯一表现说话人身份的有效且稳的任务是选取唯一表现说话人身份的有效且稳定可靠的特征定可靠的特征.l模式匹配模式匹配的任务是对训练和识别时的特征模式做相似性的任务是对训练和识别时的特征模式做相似性匹配。匹配。特征特征uSpeech samples are waveforms with time on the horizontal axis and loudness on the vertica
14、l access.Voice Sample:The voice input signal(top of image)shows the inputloudness with respect to the time domain.The lower image(blue)depicts thespectral information of the voice signal.This information is plotted bydisplaying the time versus the frequency variations特征特征u特征提取是指用各种模拟和数字处理技术、运用软件和硬特征
15、提取是指用各种模拟和数字处理技术、运用软件和硬件的手段,处理语音信号,选择和提取表征语音信号的特件的手段,处理语音信号,选择和提取表征语音信号的特征。征。u特征提取特征提取的任务是提取并选择对说话人的声纹具有的任务是提取并选择对说话人的声纹具有可分性可分性强、稳定性高强、稳定性高等特性的声学或语言特征。与语音识别不同,等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是声纹识别的特征必须是“个性化个性化”特征,而语音识别的特特征,而语音识别的特征对说话人来讲必须是征对说话人来讲必须是“共性特征共性特征”。u较好的特征,应该能够有效地区分不同的说话人,但又能较好的特征,应该能够有效地区分
16、不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能。噪性能。u特征提取的信息来源是说话人所说的话,其语音信号中既包含了说话人所说的话的信息,也包含了说话人的个性信息,是话音特征和个性特征的混合体。u目前还没有将说话人的个性特征从所发语音的语音特征中分离出来的较好办法,从而给有效的特征提取带来了很大的难度。u所有提取出来的特征向量中,虽然在一定程度上表征了说话人的个性特征,不可避免的包含有特定话音的特征。语音信号分析方法分
17、类语音信号分析方法分类u时域特征l直接从时域信号计算得到,反应了语音信号时域波形的特征。n如短时平均能量、短时平均过零率、共振峰、基音周期等。u频域及倒谱域特征l由时域信号进行频谱变换得到,反映语音信号的频域特性n包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱u听觉特征l不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征n如感知线性预测(PLP)分析u 根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短
18、时平均过零率、短时自相关函数和短时平均幅度差函数等。短时分析技术短时分析技术u语音信号是非平稳时变信号l语音信号的特性是随时间而变化的u幸运的是具有短时平稳性l短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳准平稳过程u短时分析技术l即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理l每一分段成为一“帧”:一般1030ms为一帧u短时分析的不足l对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性语音信号的预处理语音信号的预处理 u 在对语音信号进行数字处理之前,首先要将模拟语音信号s(t)离散化为s(n).实际中获得数字语音的途径
19、一般有两种,正式的和非正式的。u 正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。u 语音信号的频率范围通常是3003400Hz,一般情况下取采样率为8kHz即可。u 有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。语音信号的预加重处理语音信号的预加重处理 u 预加重目的:为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现:1()1H zz 设设n时刻的语音采样值为时刻的语音采样值为x(n),经过预加重处理后经过预加重处理后的结果为的
20、结果为 ()()(1)y nx nx n高通滤波器的幅频特性和相频特性如下高通滤波器的幅频特性和相频特性如下 预加重前和预加重后的一段语音信号时域波形预加重前和预加重后的一段语音信号时域波形 预加重前和预加重后的一段语音信号频谱预加重前和预加重后的一段语音信号频谱 语音信号的加窗处理语音信号的加窗处理 u 由于发音器官的惯性运动,可以认为在一小段时间里(一般为10ms30ms)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。说话人识别(说话人识别(9/149/14)语音信号的分帧实现方法:u 采用可移动的有限长度窗口进行加权的方法来实现的。
21、一般每秒的帧数约为33100帧。u 分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为01/2。u图3.3给出了帧移与帧长示意图。u加窗常用的两种方法:u矩形窗,窗函数如下:其它 010 1)(Nnnw汉明汉明(Hamming)窗,窗函数如下窗,窗函数如下 0.540.46 cos 2/1 0()0 nNnNw n其它,u矩形窗及其频谱如下u汉明窗及其频谱如下思考:思考:两种窗效果有何异同?两种窗效果有何异同?加窗方法示意图:加窗方法示意图:窗长的选择窗长的选择 一般选取一般选取100200。原因如下:。原因如下:
22、当窗较宽时,平滑作用大,能量变化不大,当窗较宽时,平滑作用大,能量变化不大,故反映不出能量的变化。故反映不出能量的变化。当窗较窄时,没有平滑作用,反映了能量的当窗较窄时,没有平滑作用,反映了能量的快变细节,而看不出包络的变化。快变细节,而看不出包络的变化。语音信号的分帧处理,实际上就是对各帧进行语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用某种变换或运算。设这种变换或运算用T 表示,表示,x(n)为输入语音信号,为输入语音信号,w(n)为窗序列,为窗序列,h(n)是与是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为:有关的滤波器,则各帧经处理后的输出可以表示
23、为:()()nmQT x m h nm几种常见的短时处理方法是:几种常见的短时处理方法是:22()()()()T x mxmh nw n,nQ1.对应于能量;对应于能量;()sgn()sgn(1)()()T xmxmxmhnwn,2.,nQ对应于平均过零率;对应于平均过零率;()()()T x mx mx m kh nw n w n k,3.nQ对应于对应于自相关函数自相关函数;短短时平均能量时平均能量 u1短时平均能量定义u定义n时刻某语音信号的短时平均能量En为:)()()()()1(22nNnmmnmnwmxmnwmxE当窗函数为矩形窗时,有当窗函数为矩形窗时,有 )()1(2nNnmn
24、mxEu若令 u则短时平均能量可以写成:u u )()(2nwnh )()()()(22nhnxmnhmxEmn x(n)x 2(n)E n h(n)(.)2 图 3.7 语音信号的短时平均能量实现方框图 2.En特点:特点:En反映语音信号的幅度或能量随时间缓反映语音信号的幅度或能量随时间缓慢变化的规律慢变化的规律。3.窗的长短对于能否由短时能量反映语音信号的幅窗的长短对于能否由短时能量反映语音信号的幅度变化,起着决定性影响。度变化,起着决定性影响。如果窗选得很长,如果窗选得很长,En不能反映语音信号幅度变化不能反映语音信号幅度变化。窗选得太窄,窗选得太窄,En将不够平滑。将不够平滑。通常,
25、当取样频率为通常,当取样频率为10kHz时,选择窗宽度时,选择窗宽度N=100200是比较合适的。是比较合适的。u不同矩形窗长N时的短时能量函数 u 短时平均能量的主要用途如下:u 1)可以作为区分清音和浊音的特征参数。u 2)在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。u 3)可以作为辅助的特征参数用于语音识别中。uMATLAB的具体实现如下:u1、用Cooledit读入语音“我到北京去”。u2、将读入的语音文件wav保存为txt文件,设置采样率为8kHz,16位,单声道。u3、把保存的文件zqq.txt读入Matlab。ufid=fopen(zqq.txt,rt);x=f
展开阅读全文