语音信号处理实用教程-PPT课件第12章-语音识.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音信号处理实用教程-PPT课件第12章-语音识.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 实用教程 PPT 课件 12
- 资源描述:
-
1、1第13章语音识别 2内容提要内容提要n13.1概述n13.2语音识别原理n13.3动态时间规整n13.4有限状态矢量量化技术13.4.1 FSVQ原理及FSVQ声码器13.4.2 FSVQ语音识别器13.5孤立词识别系统n13.6连续语音识别13.6.1连续语音识别中存在的困难13.6.2连续语音识别的训练及识别方法13.6.3基于HMM统一框架的大词汇量非特定人连续语音识别3n语音识别(Speech Recognition)让机器听懂人说话n语音识别应用人机交互:语音打字机(听写机,键盘输入的34倍);电话查询自动应答系统(语音界面);语音命令的控制系统(释放手脚);n交叉学科:计算机、通
2、信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等13.1概述4语音识别历史发展50年代AT&T Bell Lab,可识别10个英文数字60年代LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。70年代DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢13.1概述5n语音识别的发展现状从理论到产
3、品走过了50多个春秋;现有很多实际应用系统;有可能成为下一代操作系统和应用程序的用户界面;远没有达到计算机与人类自然交流的终极目标;实用的语音识别技术研究极具市场价值和挑战;重点:大词汇、非特定人、连续语音识别13.1概述6n语音识别方法:模版匹配法:特定人、小词汇、孤立人识别系统。n就是将测试语音与模板的参数一一进行比较与匹配,判决的依据是失真测度最小准则。 随机模型法:主流,HMMn使用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果的方法。由于HMM具有状态函数,所以这个方法可以利用语音频谱的内在变化(如讲话速度、不同讲话者特性等)和它们的相关性(记忆性)。 语音:从一个相对
4、稳定的状态过渡到另一个状态概率语法分析法:区别性特征(语法、语义、语用)规则知识基于ANN(人工神经网络)的方法、基于模糊数学的方法、句法语音识别等13.1概述7n汉语语音识别与其他语言没有本质区别;汉语的特点使其识别难度更大;n语音理解:在识别语音底层的基础上,利用语言学、词法学、句法学、语义学、语用学、对话模型等知识,确定其语音信号的自然语音级在一定的语言环境下的意图信息。 以识别为基础,区别于识别;识别在于“听清”其语音学级的内容;理解在于“明白”其语言学级的内容;13.1概述8n语音识别系统的分类:孤立词、选词语音识别 、连续语音识别、语音理解(在识别的基础上用语言学知识推断语音含义)
5、、会话语音识别 (书写语音识别)大词汇、中词汇、小词汇语音识别系统单个说话人(speaker)识别系统、多个说话人、与说话人无关的系统(特定人与非特定人)13.1概述9语音识别技术面临的问题n数据资源 (年龄、性别、语言、方言、主题、情绪、地域切分、标注体系)n抗噪性能(背景噪声、信道噪声、干扰)n协同发音(Co-articulation)n口语现象(重复、顿措、语序颠倒)n说话人变异(口音、情绪、年龄)n听觉机理(音量、频率、抗噪、区分)13.1概述10语音识别系统典型系统IBM ViaVoice 听写机AT&T VRCP系统(自助话务员协助呼叫)NTT ANSER 语音识别银行服务系统SO
6、NY AIBO 机器狗13.1概述11语音识别应用价值n信息查询(股票、天气、航班)n人机界面(新一代操作系统、智能家居)n听写机(文字输入、记录)n数据库管理(语音检索)语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。说话人识别(安全应用)关键词检出(多媒体数据检索)13.1概述12语音识别的性能评价原句:我我 们们 明明 天天 去去 天天 安安 门门识别:我我 明明后后天天 去去 天天 坛坛 删除错误删除错误 Deletion 插入错误插入错误 Insertion 替换错误替换错误 Subst
7、itution正确率正确率: : 准确率准确率: : 100%NS-D-NCorrect100%NI-S-D-NAccuracy13.1概述13语音产生语音理解生理过程应用的语义、行为音素、词语、韵律特征提取发音系统参数信息表达信息理解语言系统语言系统神经系统转换神经肌肉映射耳蜗运动声道系统产生语音分析语音语音理解过程语音产生过程14语音识别层次模型 应 用 层 语 言 层 语 音 层 声 学 层语句识别层语义应用层次音节感知层音节感知层词语感知层特征提取层事件提取层物理接口层预处理层MFCC、LPCC、PLP、过零率、能量、pitch .语音帧序列天安门 怎么 走停顿、清/浊音、爆破、鼻音、
8、擦音、声调天安门怎么走?t ian an m en z en m e z outian an men zen me zou声波15统一层次模型系统设计16语音识别原理n模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。n识别步骤:1.学习训练分析语音特征参数,建立模板库;2.识别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果;n语音识别本质就是模式识别13.2语音识别原理 17语音识别系统基本构成特征提取训练模式匹配识别语法模板结果语音说话人自适应13.2语音识别原理 18语音识别系统举例语音样本特征提取(14LPCC)训练(矢量聚类)N模板(M码
9、字/码本)VQ识别器选量化误差最小的模板预处理13.2语音识别原理 19 欧氏距离测度中几个常见测度。 欧氏距离的均方误差(常用)。 式中,xi为输入信号的第i个k维矢量,yi为码本中第i个k维矢量,d2(x,y)的下标2表示平方误差。kiiiyxkyxd122)(1),(13.2语音识别原理 20 r 方平均误差。 kiriiryxkyxd1|1),(13.2语音识别原理 21 r 平均误差。 kirriiryxkyxd11|1),(13.2语音识别原理 22 绝对值平均误差(常用)。 kiiiyxkyxd11|1),(13.2语音识别原理 23 最大平均误差(常用)。|),(),(maxl
10、im11iikirrimyxyxyxdd13.2语音识别原理 24n预处理反混叠滤波;模/数转换;自动增益控制;去除声门激励和口腔辐射;正确选择识别单元;13.2语音识别原理 语音识别原理框图25n特征提取从波形信号获取一组描述语音信号特征的参数;参数的好坏对识别精度影响很大;识别参数:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量可以一种或多种参数并用;需要考虑参数的稳定性、识别率、计算量等;对于汉语还存在声调的提取(超音段信息);13.2语音识别原理 语音识别原理框图26n距离测度:与特征提取相关的内容则是特征间的距离测度。 欧氏距离及其变形;对数似然
11、比失真测度;加权超音段信息识别测度;HMM之间的距离测度;主观感知距离测度;KiiiyxKYXd122|)(|1),(13.2语音识别原理 语音识别原理框图27n参考模式库声学参数模板(训练聚类得到的)n训练与识别方法动态时间规整(DTW):用输入的待识别语音模式和预存的参考模式进行模式匹配 矢量量化(VQ):基于信息论中信源编码技术的识别。 有限状态矢量量化(FSVQ)HMM::以统计方法为依据进行识别 时延神经网络(TDNN)模糊逻辑算法等13.2语音识别原理 语音识别原理框图28nDTW适合于识别特定人的基元较小的场合,多用于孤立词的识别。DTW算法在匹配过程中比较细,因此计算量大。其缺
12、点是太依赖于发音人的原来发音;发音人身体不好或发音时情绪紧张,都会影响识别率。它不能对样本作动态训练,不适用于非特定人的语音识别。nHMM法既解决了短时模型描述平稳段的信号问题,又解决了每个短时平稳段是如何转变到下一个短时平稳段的问题。它使用Markov链来模拟信号的统计特性变化。HMM以大量训练为基础,通过测算待识别语音的概率大小来识别语音。其算法适合于语音本身易变的特点适用于非特定人的语音识别,也适用于特定人的语音识别。13.2语音识别原理 29nHMM原理较复杂,训练计算量较大,但识别计算量远小于DTW,识别率达到与DTW相同的水平。n采用HMM进行语音识别,实质上是一种概率运算。由于H
13、MM中各状态间的转移概率和每个状态下的输出都是随机的,所以这种模型能适应语音发音的各种微妙变化,使用起来比模式匹配法灵活得多。除训练时运算量较大外,识别时的运算量只有模式匹配法的几分之一。n与模式匹配法相比,HMM是一种完全不同的概念。在模式匹配法中,参考样本由事先存储起来的模式充任,而HMM是将这一参考样本用一个数学模型来表示,这就从概念上深化了一步。13.2语音识别原理 30n基于VQ的语音识别技术是20世纪80年代发展起来的,它可代替DTW完成动态匹配,而其存储量和计算量都比较小。 nVQ主要适用于小词汇量、孤立词的语音识别中。n其过程是:将对欲处理的大量语音K维帧矢量通过统计实验进行统
14、计划分,即将K维无限空间聚类划分为M个区域边界,每个区域边界对应一个码字,所有M个码字构成码本。识别时,将输入语音的K维帧矢量与已有的码本中M个区域边界比较,按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量,这个对应的码字即为识别结果,再对它进行K维重建就得到被识别的信号。13.2语音识别原理 31nFSVQ是一种有记忆的多码本的VQ技术。它不仅计算量小,而且适用于与上下文有关的语音识别。适合于特定人或非特定人、孤立词或连续语音识别。nLVQ(LearningVQ)即学习矢量量化,是由神经网络的并行分布来实现普通VQ的串行搜索,其运行速度远高于VQ。LVQ是通过有监督
展开阅读全文