书签 分享 收藏 举报 版权申诉 / 34
上传文档赚钱

类型语音处理与语音识别简介)课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4864871
  • 上传时间:2023-01-19
  • 格式:PPT
  • 页数:34
  • 大小:2.03MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《语音处理与语音识别简介)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    语音 处理 识别 简介 课件
    资源描述:

    1、1语音处理与语音识别简介2014年9月2主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介3主要内容主要内容数字音频基础知识数字音频基础知识音频处理基础知识语音识别技术简介4 是指自然声是指自然声 是机械振动在弹性介质中传播的机械波是机械振动在弹性介质中传播的机械波 是随时间连续变化的物理量是随时间连续变化的物理量 声音概念声音概念 振幅振幅 波的高低幅度,表示声音的强弱波的高低幅度,表示声音的强弱 周期周期 两个相邻波之间的时间长度两个相邻波之间的时间长度 频率频率 每秒钟波振动的次数,单位是每秒钟波振动的次数,单位是 Hz 声音特性声音特性5声音的强度声音的强度(响度或音量响

    2、度或音量),与声波振幅成,与声波振幅成正比;唱盘、正比;唱盘、CD 盘等声音载体中的音强盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音指具有不同频率和不同振幅的混合声音,其中最低频率是音,其中最低频率是“基音基音”,是声音的,是声音的基调,其他频率的声音为基调,其他频率的声音为“谐音谐音(泛音泛音)”代表声音的高低,与频率有关;使代表声音的高低,与频率有关;使用音频处理软件对

    3、声音的频率进行用音频处理软件对声音的频率进行调整时,其音调也会随之发生变化调整时,其音调也会随之发生变化 声音的三要素声音的三要素 音调音调 (高低高低)音强音强 (强弱强弱)音色音色 (特质特质)6 声音的频率范围声音的频率范围7数字音频数字音频声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连续变化的物理量表示,称之为模拟音频。续变化的物理量表示,称之为模拟音频。在计算机内部,所有的信息均以数字表示,代表声音信号的物理量在计算机内部,所有的信息均以数字表示,代表声音信号的物理量也用一系列数字表示,称之为数字音频。也用一系列数

    4、字表示,称之为数字音频。模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时间上不具备连续性,因此只能是断续的。间上不具备连续性,因此只能是断续的。当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值,称之为波形上取一个电压幅度值,称之为。采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电压幅值用有限个数字表示,称之为压幅值用有限个数字表示,称之为。8 采样采样采样过程采样过程按固

    5、定间隔按固定间隔采样声音波形采样声音波形采样声音波采样声音波形之后的结果形之后的结果声波是连续信号,声波是连续信号,或称连续时间函数或称连续时间函数 x(t)。用计算机处理这些信号时应先用计算机处理这些信号时应先离散化,即按一定的时间间隔离散化,即按一定的时间间隔(T)取值,得到取值,得到 x(nT)(n为整数为整数),T 称采样称采样周期,周期,1/T 称采样频率称采样频率(每秒钟采样次数每秒钟采样次数),x(nT)称采样值称采样值(或离散信号或离散信号)采样概念采样概念9设连续信号设连续信号 x(t)的频谱为的频谱为 x(f),以采样间隔,以采样间隔 T 采样得到离散信号采样得到离散信号

    6、x(nT)如果满足:当如果满足:当|f|fc(fc 是信号高端截止频率是信号高端截止频率)时,有时,有T 1/(2fc)或或 fc 1/(2T)则可由则可由 x(nT)完全确定完全确定 x(t)。当当 fN=1/(2T)时,称时,称 fN 为奈奎斯特频率为奈奎斯特频率采样定理采样定理奈奎斯特奈奎斯特(Nyqust)采样定理:只要采样频率大于或者等于信号中所包采样定理:只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个点,则理论上就可以完全恢复原来的信号。点,则理论上就可以完全恢复原来的信

    7、号。采样采样采样方法采样方法语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样前,用一个锐截止模拟低通滤波器对音频信号进行滤波。前,用一个锐截止模拟低通滤波器对音频信号进行滤波。10 量化量化通过采样得到的表示声音强弱的函数通过采样得到的表示声音强弱的函数 x(nT)是连续的,为把是连续的,为把 x(nT)存入计存入计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合算机,就必须将采样值离散

    8、化,即量化成一个有限个幅度值的集合 x(nT)量化概念量化概念量化原理量化原理先将整个幅度划分成为有限个小幅度先将整个幅度划分成为有限个小幅度(量化阶距量化阶距)的集合,把落入某个阶距的集合,把落入某个阶距内的样值归为一类,并赋予相同的量内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称化值。如果量化值是均匀分布的,称为均匀量化。设为均匀量化。设 为量化阶距,量化为量化阶距,量化器最大范围是器最大范围是 Xmax,则:,则:=2Xmax/2B量化电压幅量化电压幅值之后的结果值之后的结果11 编码编码音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对音频模拟信号经过采样

    9、与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程编码概念编码概念PCM 编码编码一种最方便简单的编码方法是脉冲编一种最方便简单的编码方法是脉冲编码调制,常称为码调制,常称为 PCM(Pulse CodeModulation)编码。是一种未经压缩编码。是一种未经压缩的数字音频信号,常作为一种参考信的数字音频信号,常作为一种参考信号,以便其他编码方法与之比较,或号,以便其他编码方法与之比较,或者在此基础上作进一步压缩编码处理者在此基础上作进一步压缩编码处理12 衡量一种编码方法的性

    10、能有两个主要指标:码流速率和量化噪声衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声 码流速率指的是音频信号编码流速率指的是音频信号编码后每秒钟产生的数据流量,以码后每秒钟产生的数据流量,以kbit/s 为单位表示,也可以表示为单位表示,也可以表示为为 kbps。例如对普通模拟话音。例如对普通模拟话音用用 8kHz 的频率采样并以的频率采样并以 8 位量位量化和编码,所形成的音频数字信化和编码,所形成的音频数字信号的码率便是号的码率便是 64kbps。量化噪声是由量化失真引起量化噪声是由量化失真引起的噪声,通常表示为量化后的音的噪声,通常表示为量化后的音频信号噪声比,简称信噪比。每频信

    11、号噪声比,简称信噪比。每增加增加 1 位量化精度,信噪比即提位量化精度,信噪比即提高高 6db。例如在高保真音响系统。例如在高保真音响系统中,要求信噪比大于中,要求信噪比大于 90db,则,则量化精度必须在量化精度必须在 16 位以上。位以上。编码编码13 声道声道(Sound Channel)是指声音在录制或播放时在不同空间位置采集或回是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。回放时相应的扬声器数量。单声道(单声道(mono):只有一个声):只

    12、有一个声道。普通的单声道录放系统使用道。普通的单声道录放系统使用一只话筒录音,信号录在一条轨一只话筒录音,信号录在一条轨迹上,放音时使用一路放大器和迹上,放音时使用一路放大器和一只扬声器,所以重放出来的声一只扬声器,所以重放出来的声音是一个点声源。音是一个点声源。声道声道 立体声(立体声(stereo):有两个声道。):有两个声道。在录制声音时,在不同的位置用在录制声音时,在不同的位置用两只话筒进行录音,而在重放时两只话筒进行录音,而在重放时则使用两路独立的放大器和两个则使用两路独立的放大器和两个扬声器,从而使听者可以较准确扬声器,从而使听者可以较准确地判断出录音中不同音源的准确地判断出录音中

    13、不同音源的准确位置。位置。1415l WAV为微软公司(为微软公司(Microsoft)开发的一种声音文件格式开发的一种声音文件格式非压缩,直接存储(采样、量化、非压缩,直接存储(采样、量化、PCM编码后的)原始数据;编码后的)原始数据;如如 果采样率高,其音质极佳;果采样率高,其音质极佳;数据量大,与采样频率、量化位数、声道数成正比。数据量大,与采样频率、量化位数、声道数成正比。波形音频文件(波形音频文件(WAV)数字音频文件格式数字音频文件格式1617 Windows PCM WAV文件头格式文件头格式偏移地址大小字节数据块类型内容00H03H44字符资源交换文件标志(RIFF)04H07

    14、H4长整数从下个地址开始到文件尾的总字节数08H0BH44字符WAV文件标志(WAVE)0CH0FH44字符波形格式标志(fmt),最后一位空格。10H13H4整数过滤字节(一般为00000010H)14H15H2整数格式种类(值为1时,表示数据为线性PCM编码)16H17H2整数通道数,单声道为1,双声道为218H1BH4长整数采样频率1CH1FH4长整数波形数据传输速率(每秒平均字节数)20H21H2整数DATA数据块长度,字节。22H23H2整数PCM位宽24H27H44字符数据标志符(data)28H2BH4长整型DATA总数据长度字节18 Windows PCM WAV文件头格式文件

    15、头格式19主要内容主要内容数字音频基础知识音频处理基础知识音频处理基础知识语音识别技术简介20l 在音频信息处理领域,在音频信息处理领域,特征提取特征提取是一个非常重要的问题。是一个非常重要的问题。l 特征提取的任务:特征提取的任务:从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原始信号的信息冗余。始信号的信息冗余。音频特征提取音频特征提取21l 时域音频信号是非平稳信号,难以处理。但它在一个很小

    16、的时段内具有时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有 相对的稳定性。相对的稳定性。l 因此在对其进行分析时,可以假定语音信号在一个因此在对其进行分析时,可以假定语音信号在一个时间帧(时间帧(frame)内是平稳的。通常一帧在内是平稳的。通常一帧在1030ms之间,视实际情况而定,而且分帧可连续,之间,视实际情况而定,而且分帧可连续,也可采用交叠分段的方法。也可采用交叠分段的方法。分帧分帧10ms25ms10ms25ms22l 短时能量(短时能量(STE:Short Time Energy)是一帧的总能量)是一帧的总能量l 短时能量说明了音频信号的强度,可用于静音的检测。短

    17、时能量说明了音频信号的强度,可用于静音的检测。例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值低于一个事先设定的阈值,则可判定该短时帧为静音。低于一个事先设定的阈值,则可判定该短时帧为静音。l对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一条曲线,我们将该曲线称为能量包络(条曲线,我们将该曲线称为能量包络(Energy Envelop)曲线。)曲线。短时能量短时能量020log()wSTEF wdw21niiSTEd1|niiS

    18、TEd23l MFCC全称为美尔频标倒谱系统(全称为美尔频标倒谱系统(Mel-Frequency Cepstral Coefficients),是语音处理中常用的特征。),是语音处理中常用的特征。l MFCC正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行其频域进行Mel尺度变换,以更符合人类的听觉特征。尺度变换,以更符合人类的听觉特征。MFCC24主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介语音识别技术简介1/19/202325根据处理的语音数据和识别结果分类连续语音识别(Continuous Sp

    19、eech Recognition)孤立词识别(Isolate Word Recognition)关键词检测(Key Word Recognition,Key Word Spotting)根据针对的发音人分类特定人语音识别(SD:Speaker Dependent)非特定人语音识别(SI:Speaker Independent)1/19/202326特征提取特征提取语言模型语言模型自适应自适应第一遍第一遍识别识别声学模型声学模型前端处理前端处理第第n遍遍识别识别语音识别结果识别结果系统框架1/19/202327前端处理消除个体的影响 声道长度归一(VTN:Vocal Tract Length N

    20、ormalization)端点检测 短时能量 高阶谱算法 子带能量语音增强(去噪)维纳滤波1/19/202328FFT频谱频谱LogDCT39维声学特征向量维声学特征向量美标度三角滤波器组美标度三角滤波器组倒谱均值减倒谱均值减1/19/202329声学模型确定发音串P(O|A)主流方法CHMMHMM的单元:三音子(Tri-Phone)注:Phone(Phoneme):音子,b,t,a Syllable:音节,ba,ti,tao Bi-Phone:二音子,b-a-t-a,b-a-t-a Tri-Phone:三音子 w-o-sh-i-sh-u-i,w-o-sh-i-sh-u-i1/19/20233

    21、0语言模型已知发音串写出词串P(S|LP)P(P|L)P(L|W)P(W|A)P(A)其中,W是字串,A是读音串,L是词串,P是词性串,S是词义串主流方法三元语法:n-gram1/19/202331搜索(解码)识别的主要过程通过搜索找到某一概率(P(W))最大化的字串W主流方法Viterbi搜索:HMM内部词网格搜索:HMM之间1/19/202332说话人自适应根据新的语音重新调整模型参数特定人和非特定人之间的一种折衷主流方法MLLR(最大似然线性回归)对模型参数寻找一个最优线性变换 y=Ax+bMAP(最大后验概率)求使得后验概率最大的参数 max P(|x)1/19/202333声学模型调整HMM参数带噪声训练方言库训练语言模型计算N-gram概率数据稀疏问题34谢谢!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:语音处理与语音识别简介)课件.ppt
    链接地址:https://www.163wenku.com/p-4864871.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库