[工学]数字语音处理1-2章课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《[工学]数字语音处理1-2章课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 工学 数字 语音 处理 课件
- 资源描述:
-
1、Speech Signal Processing语音信号处理语音信号处理天行健君子以自强不息 Speech Signal Processing教材1.语音信号处理(修订版)胡航 哈尔滨工业大学出版社Speech Signal Processing参考资料1.语音信号数字处理Lawrence Rabiner,19832.语音识别基本原理 Lawrence Rabiner,1999Speech Signal Processing第一章 绪论1.数字语音处理研究的内容2.语音处理的发展历史返回 下一章Speech Signal Processing语音信息的重要性 人类从大自然获取信息的分布图Spe
2、ech Signal Processing数字语音处理研究的内容1.语音信号处理的实质2.语音信号的数字表示3.语音信号数字处理的方法和技术4.数字语音处理的应用返回Speech Signal Processing1.语音信号处理的实质1.实质:是研究用数字信号处理技术对语音信号进行处理的一门学科2目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。通过对语音信号进行某种运算以达到某种要求。Speech Signal Processing1.语音信号处理的实质3.学科基础:以语音语言学和数字信号处理为基础而形成的一门涉及面很广的学科,与心理学、生理学、
3、计算机科学、通信与信息科学、模式识别和人工智能等学科均有密切的关系。返回Speech Signal Processing1.语音信号处理的基本内容说的是什么内容?说的是什么内容?是谁在说话?是谁在说话?计算机去说话?计算机去说话?怎么把话说好?怎么把话说好?语音识别语音识别说话人识别说话人识别/确认确认文语转换文语转换说话水平评估说话水平评估说的是什么语言?说的是什么语言?语种识别语种识别Speech Signal Processing2.语音信号的数字表示1.语音表示方法的选择要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取;2
4、.语音信号数字表示的优点数字技术能完成许多很复杂的信号处理工作;语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;Speech Signal Processing2.语音信号的表示数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。3.语音信号的数字表示方法波形表示采样和量化,保持波形参数表示激励源和模型参数(第二章)Speech Signal Processing语音信号波形表示示例一些常用的语音波形分析与处理的软件 CooleditGoldenwaveSFSNero waveed
5、itPraatSpeech Signal ProcessingCooledit Pro 界面返回Speech Signal Processing3.语音信号的数字处理方法1.语音信号的特点短时平稳性2.短时时域处理方法短时能量、短时平均过零率以及短时自相关函数计算3.短时频域分析短时傅立叶分析4.线性预测技术本质上属于时域分析方法,但其结果可以是频域参数5.倒谱和同态分析、矢量量化和隐马尔可夫模型Speech Signal Processing语音信号的特点短时平稳性Speech Signal Processing语音信号数字处理基本过程 以降低语音发音速率的处理过程为例Speech Sign
6、al Processing语音信号数字处理基本过程连续语音波形-A/D 转换-离散时间信号-用数字系统进行处理-修改后的离散时间信号-D/A 变换-模拟波形 返回Speech Signal Processing4.数字语音处理的应用1.语音压缩和编码语音通信数字化;2.语音合成自动报站、自动报时、自动警告、电话自动查询和语音提示等;3.语音识别声控应用、自动口语翻译;4.说话人识别安全加密、银行信息电话查询服务以及破案和法庭取证;5.语音增强通常作为语音处理的前端。Speech Signal Processing各种语音产品返回Speech Signal Processing语音处理的发展历史
7、1876年电话的发明,贝尔(Bell);1939年声码器的研制成功声源声道;1947年贝尔实验室发明语谱图仪语音识别研究的开始;50年代第一台口授打字机和英语单词语音识别器;60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;Speech Signal Processing语音处理的发展历史70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;80、90年代语音处理技术产品化IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),viavoice汉语听写机。CMU语音组
8、研制成功SPHINX系统(识别率达95.8%);国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。返回Speech Signal Processing第二章 基础知识1.人类的语言器官2.语音产生过程3.语音信号产生的数字模型4.语音信号的特性5.人类的听觉功能返回 下一章Speech Signal Processing1.人类的语言器官 人类能以语言沟通,进而累积知识,形成文化,其中一个主要的原因,就是人类具有较其它生物优越的发音器官。人类的发音器官能够产生多样性的声音,构成丰富的词汇,无疑是最关键的因素。Speech Signal Processing1.人类的语
9、言器官人体发音器官肺、气管、喉(包括声带)和声道,肺是语音产生的能源所在;声带为产生语音提供主要的激励源;声道是指声门至嘴唇的所有器官:咽、鼻腔、口腔等,它们具有非均匀截面,且随时间变化,起共鸣器(或谐振器)的作用。Speech Signal Processing1.人类的语言器官注:喉部以上的部分统称为声道;气管和肺在声门以下Speech Signal Processing1.人类的语言器官图2-2 最重要的发音器官之一:声带 (a)闭合状态 (b)张开状态 甲状软骨 杓状软骨 环状软骨 声门 声带(声襞)返回Speech Signal Processing2.语音产生过程发音机理肺声带声道
10、恒定气流声音嘴唇声压波速度波能源激励源谐振腔辐射源变化气流Speech Signal Processing2.语音产生过程语音的形成过程空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。浊音:声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,这时候就造成周期性的激发气流,如a,o;清音:声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如h,d;爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放 ,如b,p。Speech Signal Processing2.语音产生过程语音的两个重要声学特性:语音的两个重要声学特性:浊音的浊音
11、的基音频率基音频率(F0):由声带的尺寸、特:由声带的尺寸、特性和声带所受张力决定,其值等于声带张性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。开和闭合一次的时间的倒数。人类基音频率的范围在人类基音频率的范围在60Hz至至450Hz左右。左右。Speech Signal Processing2.语音产生过程语音的两个重要声学特性:语音的两个重要声学特性:共振峰共振峰(Fn,n=1,2,.):声道是一个谐振腔,它放:声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。被放大的频率我
12、们称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽映出这些共振峰的不同位置以及各个峰的频带宽度度。共振峰及其带宽取决于声道某一瞬间的形。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。振峰参数。实际应用中,头三个共振峰最重要。Speech Signal Processing2.语音产生过程理想状态下共振峰的计算:假设声道截面是均匀的(此理想状态下共振峰的计算:假设声道截面是均匀的
13、(此时可把声道看作一个粗细均匀的圆筒),从喉到唇的距时可把声道看作一个粗细均匀的圆筒),从喉到唇的距离离L=17 cm,音速,音速c=340 m/s,则共振峰将发生在:,则共振峰将发生在:121232321()41,2,34050044 17 10351500,250044nnncncFnLnccFHzLccccFHzFHzLL()为第 个共振峰对应的波长则前三个共振峰计算如下返回Speech Signal Processing2.3 语音的时间波形和频谱特性语音可以直接用它的时间波形来表示,根据时间波形可以看出语音信号的一些主要特性。就其本性而言,语音波形是时间的连续函数,其统计特性是随时间
14、而变化的,但比较缓慢,1030msSpeech Signal Processing2.3语音的时间波形和频谱特性语音的频谱特性由声道的形状和尺寸决定,随时间变化短时谱(清浊音的不同、对数和线性振幅谱);语谱图(浊音和清音的不同、宽带和窄带语谱图)Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性元音信号的频谱Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal
15、Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性Speech Signal Processing2.3语音的时间波形和频谱特性语音信号时域波形示意图语音信号时域波形示意图:静息波静息波 脉冲波脉冲波(清塞音)(清塞音)准周期波准周期波(浊音)(浊音)噪声波噪声波(摩擦音(摩擦音)Speech Signal Processing2.3语音的时间波形和频谱特性声音的语谱图Speech Signal Processing2.3语音的时间波形和频谱特性窄频带的语谱图(narrowband spectrograms)语谱图的
16、产生是用傅里叶转换(Fourier transform),当我们用较长的分析窗口(analysis windows),约20ms,对应频宽约为45 Hz,得到的频率分辨率较高,频谱上可以看到谐振的成分。在语谱图上呈现等距的黑白相间横线条,其间距就是基频(F0)。Speech Signal Processing2.3语音的时间波形和频谱特性宽频带的语谱图(wideband spectrograms)若是在转换演算时用较少的取样点,分析窗口大约3ms,对应频宽约300 Hz,则频谱上看不到谐振成分,在语谱图上看不到等距的黑白相间。频率分辨率较低,反而是时轴上的分辨率较高,看到明显的垂直线条。Spe
17、ech Signal Processing2.3语音的时间波形和频谱特性共振峰(formant)在频域上,能量集中处就是共振峰(formant)之所在,在语谱图上就是颜色较深的位置。在发元音时,音强较大,声带振动而呈现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频。如果是发辅音,而且声带不振动,就看不到谐振频率。通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频。若是在没有语音的空档,则语谱图上呈现的,就是有一段空白。Speech Signal Processing2.3语音的时间波形和频谱特性元音与辅音的声学特性(一)元音发元音的声音时,声带是振动的,音强也较大,波形上可以看
18、到大的振幅,而且呈现周期性。其周期就是音高周期,对应的频率就是基频,通常以F0表示。正常说话时,元音的音长大约是50到400ms之间。元音在频谱上会呈现能量集中的现象,集中处的频带称为共振峰。在5 kHz的语音频带范围内,会有5个共振峰,分别以F1F2F3F4与F5代表,其中F1F2与F3比较明显。Speech Signal Processing2.3语音的时间波形和频谱特性图4-3 三个元音的语谱图(分别对应汉语拼音的 元音i,a,u )Speech Signal Processing2.3语音的时间波形和频谱特性图4-4 双元音在语谱图上共振峰转移(过渡)的现象分别对应汉语拼音的双元音 a
19、i,ei,ao,ouSpeech Signal Processing2.3语音的时间波形和频谱特性(二)辅音辅音是对元音的前或后作修饰。带声的辅音会有类似元音的共振峰,因为声带振动,所以和元音一样有谐振的成分,但相对于元音,能量小得多。不带声的摩擦音(如f,s,sh,x,h)类似噪音,能量倾向在高频。发鼻音时,鼻腔的共振效果使得低频成分受到压抑,虽然是声带振动而有共振峰,但低频的共振峰能量较弱。下图分别对应汉语拼音辅音:b b,p p,m m,f f,j j,q q,x x,zhzh,chch,shshSpeech Signal Processing2.3语音的时间波形和频谱特性图4-5 塞音
20、(或爆破音)出现在元音前的例子下图分别对应 baba ,da da ,ga ga ,pa pa,ta ta ,ka ka在一个音节的开始若有塞音,当气流放出之后,随着就发元音,声带开始振动,在语谱图上可以观察到一小段时间之后,才有明显的共振峰出现,这一小段时间就叫做嗓音的起始时间(voice onset time),简称VOT。返回Speech Signal Processing2.3语音信号的统计特性1.语音信号可以看成是一个遍历性随机过程的样本函数;2.语音信号的统计特性可以用它的振幅概率密度函数和一些平均量(均值和自相关函数)来描述概率密度的估算、逼近方法及意义;自相关函数的估计及影响因
展开阅读全文