语音的产生机理课件.ppt

上传人（卖家）：晟晟文业

文档编号：4928856

上传时间：2023-01-26

格式：PPT

页数：128

大小：4.54MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

29 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《语音的产生机理课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音产生机理课件

资源描述：: 1、生物认证技术Biometrics第五章声纹识别内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.引言u声音是携带信息的极其重要的媒体（20）u声音是通过空气传播的一种连续的波，叫声波，也具有反射、折射和衍射现象。u声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽带宽。u带宽为20Hz20kHz的信号称为音频（audio）信号，可以被人的耳朵感知。u声音是时基类媒体。u说的是什么内容？说的是什么内容？u是谁在说话？是谁在说话？u计算机去说话？计算机去说话？u怎么把话说好？怎么把话说好？语音识别语音识别声纹识声纹识别
2、别文语转文语转换换说话水平评估说话水平评估u说的是什么语言？说的是什么语言？语种识别语种识别引言引言语音处理研究的基本内容语音处理研究的基本内容引言引言uSpeaker,or voice,recognition is a biometric modality that uses an individuals voice for recognition purposes.u说话人识别（声纹识别）是一项根据语音波形中反映说话根据语音波形中反映说话人生理和行为特征的语音参数人生理和行为特征的语音参数，自动识别说话人身份的技术。uIt is a different technology than“sp
3、eech recognition”,which recognizes words as they are articulated,which is not a biometric.u声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。引言引言uThe speaker recognition process relies on features influenced by both the physical structure of an individuals vocal
4、 tract and the behavioral characteristics of the individual.u声音是个复杂的信号，说话人有关的差异是声道在解剖学上的差异和后天的说话习惯差异的综合的结果。在说话人识别中，所有的这些差异都可以被用来区别不同的用户。u它涉及到说话人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差异等不同级别上的差异。u说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。引言引言u说话人识别的特殊优势l对用户干扰少，易被用户接受l最经济的方法之一，输入设备造价低廉 l语音获取非接触，具备卫生
5、方面的安全性l适用基于电信网络的应用中 u因此，说话人识别研究具有巨大应用前景引言引言u声纹分析技术的应用领域：l信息查询领域的应用l在电话交易的应用l在PC以及手持式设备上面的应用l在保安系统以及证件防伪中的应用l与二维条码技术相结合的防伪应用挑战挑战u说话人的发音经常与环境、情绪、健康状态有密切关系。u语音信号或者称为“声纹（voiceprint）”与指纹（fingerprint）不同，指纹是静态的、固定不变的生理特性，而说话人特征具有长时变动特性，会随时间、年龄的变化而变化。u如感冒、声道管疾病，都有可能使发出的声音改变。u情绪变化也是一个因素，大声喊叫的时候，声道的形状显然同正常状态有
6、很大的不同。挑战挑战u声音往往是可以模仿的，还可以预先录制起来，如何区别真假声音也是很头痛的事情。特别是对于远程电话身份认证，不能采用同用户的其他特征相结合的办法。挑战挑战u线路传输所带来的线路噪声，包括不同线路噪声情况可能不同、同一线路在不同时期噪声情况也会不同，噪声的处理也很有难度。u噪声可能导致语音信号在整个时域空间上的污染，甚至有可能也对频域特征造成污染，这就给提取出正确的反映说话人的特征，造成了很大的困难。内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.历史历史u以人们的语音作为身份认证的手段，据说是从1660 年英国查尔斯一世之
7、死的判决开始的，首次利用语音作为推断犯人作案的线索。u其后随着技术的发展，电话克服了距离的障碍，录音手段克服了时间的障碍，从而使得对语音的说话人个性的分析得到了关注。历史历史u从1937 年开始，以C.A.Lindbergh 先生的儿子拐骗事件为开端，对语音的说话人个性开展了科学的测量和研究。u1945 年，美国贝尔实验室的R.K.Pooter 发明了语音频谱图，能把所谓的声纹（voiceprint）动描述出来。u1962 年，贝尔实验室的L.G.Kersta 第一次介绍了采用上述方法进行说话人识别的可能性。u1966 年，美国法院第一次采用此方法进行了取证。历史历史u原先的说话人识别，往往是
8、用视觉来判断声音频谱图，或者用听觉判断是谁的声音。u随着计算机的发展，自动说话人识别（ASR）的研究得到了迅速的发展。u自动说话人识别是指利用计算机技术，不需要人们的干预，自动的进行身份认证。内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.语音的产生机理语音的产生机理u众所周知，发声从肺部挤出空气开始，空气通过振动声带造出振动波。由于这个振动波在自声带到口为止的“3个箱子”各自振动，进一步强化共振，最终构成声音。u这3个箱子是“咽头”、“口腔”、和“鼻腔”。在制造语音的3个箱子中，口腔扮演了重要的角色。因为通过舌头能够改变空间的容积。如果容
9、积改变，则发音也改变了，3个频率的组合产生声音。语音的产生机理语音的产生机理u语音产生器官l发声器官语音合成n肺、气管、喉（包括声带）、咽、鼻、口。它们共同形成一条形状复杂的管道l声带和声门n喉与气管的接口处称为声门l声道n其中喉以上的部分称为声道，随着发出语音的不同其形状是变化的语音的产生机理语音的产生机理u产生语音的能量，绝大多数来源于正常呼吸时肺部呼出的稳定气流l有极少数语种，如某些非洲语言，是利用吸气气流来发音的u声带最重要的发声器官l既是一个阀门又是一个振动部件l呼吸时左右两声带打开（声门开）l在说话的时候合拢，肺部气流经气管形成冲击“打开-闭合-打开-闭合-”声门，从而冲击声带产生
10、振动，然后通过声道响应变成语音声道调制声道调制u声道l咽、口腔和鼻腔l从声门延伸至口唇的非均匀截面的声管，约17cmu功能l谐振腔：放大某一频率而衰减其他频率分量n谐振频率：由每一瞬间的声道外形决定，又称为共振峰，是声道的重要声学特征语音的频率性质语音的频率性质u音调周期/基音周期l声门开启-闭合一次的时间即振动周期u基频l基音周期的倒数，声带振动的基本频率u音调l声带振动的频率（即基音）决定了声音频率的高低，频率快则音调高，否则音调低l人的基音范围n70350HZ，儿童和青年女性偏高，男性偏低语音的产生机理语音的产生机理u浊音（voiced sounds）：声道打开，声带在先打开后关闭，气流
11、经过使声带要发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。l如发/U/、/d/、/i/等音u清音（unvoiced sounds）：声带不振动，而在某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。清音的激励源被等效为一种白噪声信号。l如发/音u爆破音（plosive sounds）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。l如发/t/音时发声过程小结发声过程小结u人的发声过程包括两个步骤l声门/声带产生不同频率的声音n准周期气流脉冲或白噪声l声道对声源的调制作用激励过程（声门）调制过程（声道）语音辐射语音的
12、产生机理语音的产生机理u肺中的空气受到挤压形成气流，气流通过声门（声带）沿着声道（由咽、喉、口腔等组成）释放出去，就形成了话音。u 气流、声门可以等效为一个激励源，声道可以等效为一个时变滤波器（共振峰）。u 话音信号具有很强的相关性（长期相关、短期相关）。语音的产生机理语音的产生机理语音信号的产生数学模型语音信号的产生数学模型u激励模型u声道模型u辐射模型激励模型激励模型u激励模型非常复杂u声门脉冲模型l浊音n声带振动，声门脉冲n如：斜三角形脉冲串u随机白噪声l清音n声带不振动，随机白噪声内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.声纹
13、识别流程声纹识别流程图1 说话人识别模型声纹识别系统的组成声纹识别系统的组成u声纹识别系统主要包括两部分，即声纹识别系统主要包括两部分，即特征检测特征检测和和模模式匹配式匹配。l特征检测特征检测的任务是选取唯一表现说话人身份的有效且稳的任务是选取唯一表现说话人身份的有效且稳定可靠的特征定可靠的特征.l模式匹配模式匹配的任务是对训练和识别时的特征模式做相似性的任务是对训练和识别时的特征模式做相似性匹配。匹配。特征特征uSpeech samples are waveforms with time on the horizontal axis and loudness on the vertica
14、l access.Voice Sample:The voice input signal(top of image)shows the inputloudness with respect to the time domain.The lower image(blue)depicts thespectral information of the voice signal.This information is plotted bydisplaying the time versus the frequency variations特征特征u特征提取是指用各种模拟和数字处理技术、运用软件和硬特征
15、提取是指用各种模拟和数字处理技术、运用软件和硬件的手段，处理语音信号，选择和提取表征语音信号的特件的手段，处理语音信号，选择和提取表征语音信号的特征。征。u特征提取特征提取的任务是提取并选择对说话人的声纹具有的任务是提取并选择对说话人的声纹具有可分性可分性强、稳定性高强、稳定性高等特性的声学或语言特征。与语音识别不同，等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是声纹识别的特征必须是“个性化个性化”特征，而语音识别的特特征，而语音识别的特征对说话人来讲必须是征对说话人来讲必须是“共性特征共性特征”。u较好的特征，应该能够有效地区分不同的说话人，但又能较好的特征，应该能够有效地区分
16、不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能。噪性能。u特征提取的信息来源是说话人所说的话，其语音信号中既包含了说话人所说的话的信息，也包含了说话人的个性信息，是话音特征和个性特征的混合体。u目前还没有将说话人的个性特征从所发语音的语音特征中分离出来的较好办法，从而给有效的特征提取带来了很大的难度。u所有提取出来的特征向量中，虽然在一定程度上表征了说话人的个性特征，不可避免的包含有特定话音的特征。语音信号分析方法分
17、类语音信号分析方法分类u时域特征l直接从时域信号计算得到，反应了语音信号时域波形的特征。n如短时平均能量、短时平均过零率、共振峰、基音周期等。u频域及倒谱域特征l由时域信号进行频谱变换得到，反映语音信号的频域特性n包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱u听觉特征l不直接对声道模型进行研究，而是从人类听觉系统对语音的感知特性来刻画语音信号的特征n如感知线性预测(PLP)分析u 根据所分析的参数类型，语音信号分析可以分成时域分析和变换域（频域、倒谱域）分析。其中时域分析方法是最简单、最直观的方法，它直接对语音信号的时域波形进行分析，提取的特征参数主要有语音的短时能量和平均幅度、短
18、时平均过零率、短时自相关函数和短时平均幅度差函数等。短时分析技术短时分析技术u语音信号是非平稳时变信号l语音信号的特性是随时间而变化的u幸运的是具有短时平稳性l短时间范围内其特性基本保持不变（缓慢变换），即短时相对平稳准平稳过程u短时分析技术l即在对语音信号进行分析时，将语音信号分为一段一段，利用平稳信号的分析方法对每一分段进行处理l每一分段成为一“帧”：一般1030ms为一帧u短时分析的不足l对语音识别，应采用HMM来分析，以处理语音信号的瞬变和非平稳特性语音信号的预处理语音信号的预处理 u 在对语音信号进行数字处理之前，首先要将模拟语音信号s(t)离散化为s(n).实际中获得数字语音的途径
19、一般有两种，正式的和非正式的。u 正式的是指大公司或语音研究机构发布的被大家认可的语音数据库，非正式的则是研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句。u 语音信号的频率范围通常是3003400Hz，一般情况下取采样率为8kHz即可。u 有了语音数据文件后，对语音的预处理包括：预加重、加窗分帧等。语音信号的预加重处理语音信号的预加重处理 u 预加重目的：为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。可通过一阶FIR高通数字滤波器来实现：1()1H zz 设设n时刻的语音采样值为时刻的语音采样值为x(n)，经过预加重处理后经过预加重处理后的结果为的
20、结果为 ()()(1)y nx nx n高通滤波器的幅频特性和相频特性如下高通滤波器的幅频特性和相频特性如下预加重前和预加重后的一段语音信号时域波形预加重前和预加重后的一段语音信号时域波形预加重前和预加重后的一段语音信号频谱预加重前和预加重后的一段语音信号频谱语音信号的加窗处理语音信号的加窗处理 u 由于发音器官的惯性运动，可以认为在一小段时间里（一般为10ms30ms）语音信号近似不变，即语音信号具有短时平稳性。这样，可以把语音信号分为一些短段（称为分析帧）来进行处理。说话人识别（说话人识别（9/149/14）语音信号的分帧实现方法：u 采用可移动的有限长度窗口进行加权的方法来实现的。
21、一般每秒的帧数约为33100帧。u 分帧一般采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取为01/2。u图3.3给出了帧移与帧长示意图。u加窗常用的两种方法：u矩形窗，窗函数如下：其它 010 1)(Nnnw汉明汉明(Hamming)窗，窗函数如下窗，窗函数如下 0.540.46 cos 2/1 0()0 nNnNw n其它，u矩形窗及其频谱如下u汉明窗及其频谱如下思考：思考：两种窗效果有何异同？两种窗效果有何异同？加窗方法示意图：加窗方法示意图：窗长的选择窗长的选择一般选取一般选取100200。原因如下：。原因如下：
22、当窗较宽时，平滑作用大，能量变化不大，当窗较宽时，平滑作用大，能量变化不大，故反映不出能量的变化。故反映不出能量的变化。当窗较窄时，没有平滑作用，反映了能量的当窗较窄时，没有平滑作用，反映了能量的快变细节，而看不出包络的变化。快变细节，而看不出包络的变化。语音信号的分帧处理，实际上就是对各帧进行语音信号的分帧处理，实际上就是对各帧进行某种变换或运算。设这种变换或运算用某种变换或运算。设这种变换或运算用T 表示，表示，x(n)为输入语音信号，为输入语音信号，w(n)为窗序列，为窗序列，h(n)是与是与w(n)有关的滤波器，则各帧经处理后的输出可以表示为：有关的滤波器，则各帧经处理后的输出可以表示
23、为：()()nmQT x m h nm几种常见的短时处理方法是：几种常见的短时处理方法是：22()()()()T x mxmh nw n，nQ1.对应于能量；对应于能量；()sgn()sgn(1)()()T xmxmxmhnwn，2.，nQ对应于平均过零率；对应于平均过零率；()()()T x mx mx m kh nw n w n k，3.nQ对应于对应于自相关函数自相关函数；短短时平均能量时平均能量 u1短时平均能量定义u定义n时刻某语音信号的短时平均能量En为：)()()()()1(22nNnmmnmnwmxmnwmxE当窗函数为矩形窗时，有当窗函数为矩形窗时，有 )()1(2nNnmn
24、mxEu若令 u则短时平均能量可以写成：u u )()(2nwnh )()()()(22nhnxmnhmxEmn x(n)x 2(n)E n h(n)(.)2 图 3.7 语音信号的短时平均能量实现方框图 2.En特点：特点：En反映语音信号的幅度或能量随时间缓反映语音信号的幅度或能量随时间缓慢变化的规律慢变化的规律。3.窗的长短对于能否由短时能量反映语音信号的幅窗的长短对于能否由短时能量反映语音信号的幅度变化，起着决定性影响。度变化，起着决定性影响。如果窗选得很长，如果窗选得很长，En不能反映语音信号幅度变化不能反映语音信号幅度变化。窗选得太窄，窗选得太窄，En将不够平滑。将不够平滑。通常，
25、当取样频率为通常，当取样频率为10kHz时，选择窗宽度时，选择窗宽度N=100200是比较合适的。是比较合适的。u不同矩形窗长N时的短时能量函数 u 短时平均能量的主要用途如下：u 1）可以作为区分清音和浊音的特征参数。u 2）在信噪比较高的情况下，短时能量还可以作为区分有声和无声的依据。u 3）可以作为辅助的特征参数用于语音识别中。uMATLAB的具体实现如下：u1、用Cooledit读入语音“我到北京去”。u2、将读入的语音文件wav保存为txt文件，设置采样率为8kHz，16位，单声道。u3、把保存的文件zqq.txt读入Matlab。ufid=fopen(zqq.txt,rt);x=f
26、scanf(fid,%f);ufclose(fid);u4、对采集到的语音样点值进行分帧。3.4 短时平均短时平均幅度函数幅度函数为了克服短时能量函数计算为了克服短时能量函数计算x2(m)的缺点，的缺点，定义了短时平均幅度函数定义了短时平均幅度函数:mnmnwmxM )(|)(|x(n)Mn w(n)图 3.9 短时平均幅度|x(n)|.|Mn与与En的比较：的比较：1.Mn能较好地反映清音范围内的幅度变化；能较好地反映清音范围内的幅度变化；2.Mn所能反映幅度变化的动态范围比所能反映幅度变化的动态范围比En好；好；3.Mn反映清音和浊音之间的电平差次于反映清音和浊音之间的电平差次于En。短
27、时平均幅度函数随矩形窗窗长短时平均幅度函数随矩形窗窗长N变化的情况变化的情况短时平均过零率短时平均过零率 u1.定义u 在离散时间语音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n 10120 nN w n N 其它1()0 sgn()1()0 x n x n -x n及在上式中，用在上式中，用1/2N 作为幅值，是考虑了对该窗口范作为幅值，是考虑了对该窗口范围内的过零数取平均的意思围内的过零数取平均的意思。u 考虑到w(n-m)的非零值范围为n
28、-m0，即mn，以及 n-mN-1,故mn-N+1，因此短时平均过零率可以改写为：nNnmnmxmxNZ)1(|1-sgnsgn|21 sgnsgn1sgnsgn1*nmZx mx mw nmx nx nw n （定义式）（定义式）u2.实现短时平均过零率 Nn x(n)Sgnx(n)1 一阶差分 sgnxn-sgnxn-1 低通滤波 h(n)=w(n)-1+1 图图 3.11 语音信号的短时平均跨零数语音信号的短时平均跨零数 Sgn.取绝对取绝对值值 .女声女声“我到北京去我到北京去”的短时平均过零次数的变化曲线的短时平均过零次数的变化曲线:u3.应用u 清音过零率高，浊音过零率低。u 局限
29、性：浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。清音清音浊音浊音 0 10 20 30 40 50 60 70 80 每每 10ms 内的过零数内的过零数过零率概率分布过零率概率分布端点检测端点检测u 端点检测目的：从包含语音的一段信号中确定出语音的起点及结束点。u 有效的端点检测不仅能使处理时间减到最少，而且能抑制无声段的噪声干扰，提高语音处理的质量。时域特征时域特征u短时平均能量lN为分析窗的宽度，St(n)表示第t 帧中第n个采样点的信号值u短时平均过零率过零率过零率tS(t)One frame20msOne frame20ms时域特征时域特征u能量和过零率参数
30、的缺点l对于说话人和背景噪声的鲁棒性较差u目前时域参数多用在语音的预处理上l如端点检测，判断语音的开始与结束l也有人把它作为模型参数进行使用频域分析频域分析u为什么要进行频域分析？l稳态语音的生成模型由线性系统线性系统组成，其被一随时间做周期变化或者随机变化的源所激励激励，因而系统输出频谱频谱反映了激励与声道频率响应特性反映了激励与声道频率响应特性l语音信号的频谱具有非常明显的语音语音、声学声学意义，可以获得重要的语音特征，如共振峰n共振峰是指在声音的频谱中能量相对集中的一些区域n共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。l声音在经过共振腔时，受到腔体的滤波作用，使得频域
31、中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减，得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。n在语音声学中，共振峰决定着元音的音质广义频域分析广义频域分析u广义频谱分析l频谱l倒频谱l功率谱l频谱包络u常用频谱分析方法l傅里叶变换法l线性预测法l带通滤波器组法频域分析频域分析u基本工具傅里叶变换l标准傅里叶变换n适用于周期、平稳随机信号n不适合于非平稳的语音信号u短时傅里叶变换l短时谱，有限长度的傅里叶变换n即对某一帧语音进行傅里叶变换n窗选语音信号的标准傅里叶变换l特别适用于“语音分
32、析和语音合成”n因为其可以精确的恢复语音波形反卷积问题定义反卷积问题定义u语音信号的产生模型l线性非移变系统的输出，即声门激励信号和声道冲激响应的卷积lA=L*Ru问题l已知A，如何求解L和R?l解卷（反卷积）n由卷积结果求得参与卷积的各个信号分量反卷积方法反卷积方法u倒谱倒谱(同态同态)分析分析u线性预测分析同态分析同态分析u基本思路，三步走：lZ变换：卷积信号乘积信号l对数运算：乘积信号加性运算l逆Z变换：得到满足加性的时域信号时域信号u分析得到的逆Z变换结果称为复倒频谱lComplex Cepstrumn倒谱 u同态分析/同态滤波/倒谱分析 Spectrum倒谱倒谱(同态同态)分析应用分
33、析应用u倒谱分析可以得到某些参数的近似表示l声门激励的基音周期基音周期n声门的振动特征l区分浊音与清音浊音与清音n浊音：声带振动，声门开闭n清音：声带不振动l声道响应的共振峰频率共振峰频率n声道（咽、口腔和鼻腔）特征反卷积方法反卷积方法u倒谱(同态)分析u线性预测分析线性预测分析线性预测分析线性预测分析概况概况u线性预测 Linear Prediction,LPl1947年，维纳首次提出l1967年，板仓等人应用于语音分析和合成中lLP是首次得到成功实用的语音分析技术u功能l估计基本的语音参数n包括基音、共振峰、谱、声道面积函数l用于低带宽传输和存储语音u优势l精确估计参数；参数少但可以有效而
34、准确的表示语音波形及其频谱性质；速度快，效率高。线性预测分析线性预测分析基本思路基本思路u基本概念l一个语音的采样可以用过去若干个语音采样的线性组合来逼近u分析思路l通过使实际语音采样实际语音采样和线性预测采样线性预测采样之间差值的平方和达到最小值，即进行最小均方误差最小均方误差的逼近，能够决定唯一的一组线性预测系数21minarg*Nnnntss线性预测分析线性预测分析基本思路基本思路线性预测分析线性预测分析模型模型u将信号看作某一模型（系统）的输出l将语音生成的激励、声道和辐射模型激励、声道和辐射模型全部谱效应简化为一个时变的数字滤波器时变的数字滤波器l用模型参数来描述信号，其参数包括：n
35、浊音/清音判决，浊音基音周期增益常数，数字滤波器参数等语音信号的线性预测分析语音信号的线性预测分析u求解数字滤波器的参数参数和增益常数增益常数的过程即语音信号的线性预测分析u输出LPC,LP coefficientsl线性预测系数：参数、增益常数u注意l语音信号具有时变性，所以系数的预测同样要按帧进行按帧进行线性预测系数线性预测系数(LPC)的计算方法的计算方法u问题转化l最后问题转化求解线性方程组求解线性方程组的问题uLPC的计算方法l自相关法l格型法n引入正向预测/反向预测的概念l协方差矩阵法n对协方差矩阵进行特征分解LPC+倒谱倒谱=LPCCu基于LP的倒谱分析lLPC是语音信号的基本表
36、示参数，可以变换为其他形式的参数u在求得LPC 后，使用下面的递推公式可以计算出该帧语音的LPC 倒谱(LPCC)系数基于基于LPC 的倒谱系数的倒谱系数LPCC.)2()1(31)1()2(32)3()3()1()1(21)2()2()1()1(ttttttttttttLPCLPCCLPCLPCCLPCLPCCLPCLPCCLPCLPCCLPCLPCC基于基于Mel频率的倒谱频率的倒谱MFCCu生理支持l根据人类听觉系统的特性，人耳分辨声音频率的过程犹如一种取对数的功能，基于此，出现了Mel 频率的倒谱系数(MFCC)nMFCC:Mel-Frequency Cepstrum Coeffici
37、entsu特点lMFCC 比LPCC 更能反映听觉特性，在语音识别系统中有着广泛的应用，是目前公认的性能最好的特征参数之一Mel-频率频率u目的l模拟人耳对不同频率语音的感知u人的耳朵由外耳、中耳和内耳构成，起重要作用的是内耳耳蜗。对于不同的声音频率，耳蜗内的基底膜运动的幅度也不同。通常在几百赫兹以上的声音信号，频率沿基底膜是对数分布的；几百赫兹以下是线性分布的。通过耳蜗处理，把时域语音信号分解成在不同的空间轴位置上有不同频率特性的信号，这就是耳蜗的频率分解。Mel-频率频率u人类对不同频率语音有不同的感知能力l1kHz以下，与频率成线性关系l1kHz以上，与频率成对数关系uMel频率l将频谱
38、转换到基于Mel频标的非线性频谱l在Mel频域内，人对音调的感知能力为线性关系n如果两段语音的Mel频率差两倍，人在感知上也差两倍Mel-频率频率u公式：u频率Mel-频率：1125ln 1/700B fff-频率B-Mel-频率Mel-频率频率(Hz)MFCC计算过程计算过程u计算流程：DFT时域信号线性谱域Mel滤波器组LogDCTMel谱域对数谱域MFCCMel带通滤波带通滤波u利用D 个三角带通滤波器分别与离散谱St(k)做卷积，其中三角滤波器的中心频率和边界频率与相应的Mel频标对齐（带宽在Mel标度上是相等的）倒谱系数计算倒谱系数计算u求出每个频段的对数能量输出l三角滤波器的输出u
39、最后用DCT将这些系数变换到倒谱域u倒谱系数的维数l通常取DCT系数的前12维声学特征小结声学特征小结u短时平均能量/幅度/功率u短时平均过零率u线性预测系数（LPC）uLPC倒谱特征（LPCC）uMel 倒谱参数（MFCC）内容内容历史历史2.语音产生机理语音产生机理 3.语音特征语音特征4.系统架构系统架构5.引言引言1.说话人识别（说话人识别（10/1410/14）u说话人识别模型主要有三类：l基于模板的模型：nK-NN（K近邻法）nDTW（动态时间规整）nVQ（矢量量化）l随机模型：nGMM（高斯混合模型）（高斯混合模型）nHMM（隐马尔可夫模型）l基于人工神经网络的模型nNN（神经元
40、网络）nSVM（支持向量机）说话人识别（说话人识别（11/1411/14）Feature 1Feature 2:class-A point:class-B point:point with unknown classCircle of 3-nearest neighborsThe point is class B via 3-NNR.K近邻法近邻法(K-NNR)：1.对给定的点找到前K个最近的邻居.2.对这K个最近的邻居通过投票法决定这个特征点属于哪个类.说话人识别（说话人识别（12/1412/14）一维高斯混合模型一维高斯混合模型二维高斯混合模型二维高斯混合模型说话人识别（说话人识别（13/
41、1413/14）三维高斯混合模型三维高斯混合模型说话人识别（说话人识别（14/1414/14）情感和情感语音（情感和情感语音（1/7）u普通心理学/现代心理学u简明牛津英语词典从心理学的角度给情绪下的定义是：“情绪是一种不同于认知或意志的精神上的情感或感情。”u情绪（emotion）是人对客观事物的态度和体验。这是从最广泛的意义上给情绪下的定义。情绪是人（包括动物）所具有的一种心理形式心理形式。它与认识活动不同，具有主干的体验形式（如喜怒悲剧惧等感受色彩）、外部表现形式（如面部表情），以及独特的生理基础（如皮层下等部位的特定活动）。情感和情感语音（情感和情感语音（2/7）u情绪可以分为基本情绪
42、和复合情绪，口语中情绪表达一般不强烈，更多的是复合情绪而不是某一种基本情绪。目前用的最多的基本情绪分类为：害怕、生气、高兴、难过、惊害怕、生气、高兴、难过、惊讶、厌恶讶、厌恶。情感和情感语音（情感和情感语音（3/7）u研究热点l情感语音库l情感语音分析l情感语音识别l情感语音合成应用的语义、行为音素、词语、韵律特征提取发音系统参数信息表达信息理解语言系统语言系统神经系统转换神经肌肉映射耳蜗运动声道系统产生语音分析语音语音理解过程语音产生过程语音产生语音理解生理过程语音产生语音理解生理过程图1 中性语音“你是个好人”的语音特征情感和情感语音（情感和情感语音（4/7）u语音信号中的情感特征l基音
43、频率l发音持续时间l能量l韵律结构l音质l 世间的问题，原来极复杂的，可以用极简单的事例,加以说明情感和情感语音（情感和情感语音（5/7）情感与语音参数之间的关系情感与语音参数之间的关系汉语汉语语速语速稍快稍快较快，但较快，但有时较慢有时较慢稍慢稍慢很快很快非常慢非常慢平均音高平均音高非常高非常高很高很高稍低稍低非常高非常高非常低非常低音高范围音高范围很宽很宽很宽很宽稍窄稍窄很宽很宽稍宽稍宽音节基频音节基频高线变化高线变化陡峭，在重陡峭，在重读音节处读音节处平滑，上平滑，上升变化升变化下降变化下降变化正常正常宽，下降宽，下降终端变化终端变化音节基频音节基频低线变化低线变化没有太多变没有太多变
44、化化平滑，上平滑，上升变化升变化下降变化下降变化正常正常下降终端下降终端变化变化音强音强较高较高较高较高较低较低正常正常较低较低音质音质有呼吸声，有呼吸声，胸腔声调胸腔声调有呼吸声，有呼吸声，响亮响亮共鸣声共鸣声不规则发不规则发声声嘟囔的胸嘟囔的胸鸣声鸣声清晰度清晰度焦急焦急正常正常模糊模糊准确准确正常正常情感和情感语音（情感和情感语音（6/7）情感和情感语音（情感和情感语音（7/7）u传统说话人识别面临挑战l中性语音l低层的短时声学特征u人机交互中情感计算的加强u说话人发声状态的情感变异l语速l音高l音长u因此，需要情感鲁棒说话人识别模型内容内容情感和情感语音情感和情感语音2.情感与说话人
45、识别情感与说话人识别3.说话人识别技术说话人识别技术1.情感语音对说话人识别系统性能影响（情感语音对说话人识别系统性能影响（1/41/4）识别率识别率情感语音对说话人识别系统性能影响（情感语音对说话人识别系统性能影响（2/42/4）与训练语音的文本相关性文本的情感建模方式得分选择策略情感语音对说话人识别系统性能影响（情感语音对说话人识别系统性能影响（3/43/4）u训练文本的情感l对于中性语音，诱发情感信息l对于情感语音，更好地表达情感l情感语料越多越好，但是情感语料的增加破坏了系统的友好性，一般每种情感可录10s；u与训练语音的文本的相关性l文本内容丰富，文本相关的系统性能要好情感语音对说话
46、人识别系统性能影响（情感语音对说话人识别系统性能影响（4/44/4）u建模方法l情感语料充足时，单独为每个说话人的每种情感建立一个说话人模型u得分选择策略l在无法自动识别情感状态的情况下，可采用取最高得分策略建设抗情感变化的说话人系统的对策（建设抗情感变化的说话人系统的对策（1/21/2）u前台诱发用户l通过文本提示框n训练时，提供文本内容丰富，文本情感丰富文本内容丰富，文本情感丰富的语料n测试时，提供文本相关文本相关的语料建设抗情感变化的说话人系统的对策（建设抗情感变化的说话人系统的对策（2/22/2）u系统后台处理（算法改进）l在模型训练时，是说话人模型尽可能包容不同情感下的特征变化信息l
47、通过对说话人分类情感模型，使得训练与测试情感下的情感能够匹配。l优化得分及选择合适的取得分策略特征特征情感鲁棒说话人识别模型（情感鲁棒说话人识别模型（1/2）情感鲁棒说话人识别模型（情感鲁棒说话人识别模型（2/2）特征层特征层图1 基于情感拓展的说话人识别模型模型层模型层得分层得分层拓展情感信息拓展情感信息情感语音聚类情感语音聚类语音帧得分规整语音帧得分规整如何拓展情感信息，如何拓展情感信息，使说话人模型包容不同情感下的特征使说话人模型包容不同情感下的特征变化信息变化信息如何有效利用情感信息，如何有效利用情感信息，来建立说话人模型来建立说话人模型如何通过规整，如何通过规整，消除情感差异，增
48、强目标说话人消除情感差异，增强目标说话人模型的可信度模型的可信度情感鲁棒说话人识别研究现状（情感鲁棒说话人识别研究现状（1/21/2）u研究机构l日内瓦大学l浙江大学l清华大学情感鲁棒说话人识别研究现状（情感鲁棒说话人识别研究现状（2/22/2）u方法l特征n合适的语音参数n倒谱线性补偿n根据基频去帧n跟据情感模型间参数迁移规律n基于规则的特征修正 l模型n结构化训练方法nEmotion attribute projectionnEmotion-addedn基于情感语音聚类的说话人建模方法 l得分nE-NormnFLRS 基于情感拓展的比较（基于情感拓展的比较（MASC）u特征修正对生气、高兴
49、和惊慌较好u聚类改善了中性和悲伤u得分对说话人确认系统提高更大32.13%39.71%45.68%20.44%展望展望u情感特征提取方面l使用更多形式的情感特征l更准确的特征提取方法u特征建模方面l如何采用一个更好的模型来刻画高层信息l刻画低层的声道特征与高层信息之间的联系l将补偿算法与情感状态联系起来u得分方面l寻找更合适的归整算法u其他l评价情感补偿算法的标准l高层信息表现情感特性声纹识别技术的优缺点声纹识别技术的优缺点优势：优势：1.蕴含声纹特征的语音获取方便、自然，声纹提取可蕴含声纹特征的语音获取方便、自然，声纹提取可在不知不觉中完成，因此使用者的接受程度也高；在不知不觉中完成，因此使
50、用者的接受程度也高；2.获取语音的识别成本低廉，使用简单，一个麦克风获取语音的识别成本低廉，使用简单，一个麦克风即可，在使用通讯设备时更无需额外的录音设备；即可，在使用通讯设备时更无需额外的录音设备；3.适合远程身份确认，只需要一个麦克风或电话、手适合远程身份确认，只需要一个麦克风或电话、手机就可以通过网路机就可以通过网路(通讯网络或互联网络通讯网络或互联网络)实现远程实现远程登录；登录；4.声纹辨认和确认的算法复杂度低；声纹辨认和确认的算法复杂度低；5.配合一些其他措施，如通过语音识别进行内容鉴别配合一些其他措施，如通过语音识别进行内容鉴别等，可以提高准确率等等。等，可以提高准确率等等。声纹

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：语音的产生机理课件.ppt
链接地址：https://www.163wenku.com/p-4928856.html

晟晟文业

内容提供者

实名认证

联系作者