语音信号处理语音识别.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音信号处理语音识别.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信号 处理 识别 课件
- 资源描述:
-
1、9.1 9.1 概述概述v语音识别(语音识别(Speech RecognitionSpeech Recognition)主要指让机器听懂人说的话,即在)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。它是一门涉及面很广的交叉学科,与计算机、通信、语音语言种意图。它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科都有着密切的关系。都有着密切的关系。第1页,共
2、17页。一般语音识别系统按不同的角度有下面几种分类方法。一般语音识别系统按不同的角度有下面几种分类方法。v孤立词、连接词、连续语音识别系统以及语音理解和会话系统。孤立词、连接词、连续语音识别系统以及语音理解和会话系统。v大词汇、中词汇和小词汇量语音识别系统。大词汇、中词汇和小词汇量语音识别系统。v特定人和非特定人语音识别系统。特定人和非特定人语音识别系统。v语音识别所采用的方法也可以作为语音识别系统分类的依据,语音识别所采用的方法也可以作为语音识别系统分类的依据,因此,也有从识别方法上来对语音识别系统进行分类的。语音因此,也有从识别方法上来对语音识别系统进行分类的。语音识别方法一般有模板匹配法
3、、随机模型法和概率语法分析法三识别方法一般有模板匹配法、随机模型法和概率语法分析法三种。种。第2页,共17页。v实用语音识别研究中存在的几个主要问题和困难如下:实用语音识别研究中存在的几个主要问题和困难如下:v(1 1)语音识别的一种重要应用是自然语言的识别和理解。)语音识别的一种重要应用是自然语言的识别和理解。v(2 2)语音信息的变化很大。)语音信息的变化很大。v(3 3)语音的模糊性。)语音的模糊性。v(4 4)单个字母及单个词语发音时语音特性受上下文环境的影)单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母有不同的语音特性。响,使相同字母有不同的语音特性。v(5 5)环境
4、的噪声和干扰对语音识别有严重影响。)环境的噪声和干扰对语音识别有严重影响。第3页,共17页。9.2 9.2 语音识别原理和识别系统的组成语音识别原理和识别系统的组成v语音识别系统是建立在一定的硬件平台和操作系统之上的一套应语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。用软件系统。v语音识别一般分两个步骤。第一步是系统语音识别一般分两个步骤。第一步是系统“学习学习”或或“训练训练”阶阶段。第二步是段。第二步是“识别识别”或或“测试测试”阶段。阶段。v语音识别技术加上各种外围技术的组合,才能构成一个完整的实际语音识别技术加上各种外围技术的组合,才能构成一个完整的实际应用的语音
5、识别系统。从语音识别系统的各个功能划分的角度出发,应用的语音识别系统。从语音识别系统的各个功能划分的角度出发,语音识别系统可分为语音信号的预处理部分、语音识别系统的核心语音识别系统可分为语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统的基本数据库等几部分。算法部分以及语音识别系统的基本数据库等几部分。第4页,共17页。v一般语音识别系统框图一般语音识别系统框图 第5页,共17页。9.2.1 9.2.1预处理和参数分析预处理和参数分析v语音信号预处理部分包括:语音信号的电压放大、反混叠滤波、语音信号预处理部分包括:语音信号的电压放大、反混叠滤波、自动增益控制、模数变换、去除声门激
6、励及口唇辐射的影响等。自动增益控制、模数变换、去除声门激励及口唇辐射的影响等。这里仅对个别需要注意的地方做一些介绍。这里仅对个别需要注意的地方做一些介绍。v话筒自适应和输入电平的设定话筒自适应和输入电平的设定:输入语音信号的品质对语音识:输入语音信号的品质对语音识别性能的影响很大,因此,对话筒的耐噪声性能要求很高。选别性能的影响很大,因此,对话筒的耐噪声性能要求很高。选择好的麦克风,不仅能提高输入语音质量,而且,还有助于提择好的麦克风,不仅能提高输入语音质量,而且,还有助于提高整个系统的鲁棒性。为了保持高精度的语音分析,高整个系统的鲁棒性。为了保持高精度的语音分析,A/DA/D变换的变换的电平
7、必需正确的设定。同时还要通过电平必需正确的设定。同时还要通过AGCAGC来自动的调整输入电平来自动的调整输入电平放大的倍数或者通过对于输入数据进行规整处理来控制语音数据放大的倍数或者通过对于输入数据进行规整处理来控制语音数据幅度的变化。幅度的变化。第6页,共17页。v抗噪声抗噪声:环境噪声不可能完全消除。对于手自由的语音识别(:环境噪声不可能完全消除。对于手自由的语音识别(Hand-Hand-FreeFree),话筒与嘴有一定距离的时候,以及在汽车里或户外等周围),话筒与嘴有一定距离的时候,以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。对于平稳噪声,环境噪声大的时候必须对
8、输入信号进行降噪处理。对于平稳噪声,传统的谱相减(传统的谱相减(SSSS)降噪声技术是有效的,对于非平稳噪声也有通过两)降噪声技术是有效的,对于非平稳噪声也有通过两个话筒分别输入语音和噪声相互抵消加以消除的方法。个话筒分别输入语音和噪声相互抵消加以消除的方法。v语音区间的端点检测语音区间的端点检测:端点检测的目的是从包含语音的一段信号端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的
9、识别性能。传统的端点检测方法是将语音信号的统具有良好的识别性能。传统的端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好,将会发生漏检或虚检的情况。为了克服传统端点果运用不好,将会发生漏检或虚检的情况。为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。虑采用基于相关性的语音端点检测算法。第7页,共17页。v语音参数分析语音参数分析:经过预处理后的语音信号,就要对其进行特征参数经过预处理后的语音
10、信号,就要对其进行特征参数分析,其目的是抽取语音特征,以使在语音识别时类内距离尽量分析,其目的是抽取语音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。识别参数可以选择下面的某一种或几种的小,类间距离尽量大。识别参数可以选择下面的某一种或几种的组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、线性预测系数、PARCORPARCOR系数(偏自相关系数)、声道形状的尺寸函系数(偏自相关系数)、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。数,以及音长、音高、声调等超声短信息函数。v现在,经过现在,经过FF
11、TFFT变换或者变换或者LPCLPC得到功率谱以后再经过对数变换和傅得到功率谱以后再经过对数变换和傅立叶反变换得到的倒谱参数是常用的语音识别特征参数。立叶反变换得到的倒谱参数是常用的语音识别特征参数。第8页,共17页。9.2.2 9.2.2 语音识别语音识别v语音识别是语音识别系统的核心部分。除包括语音的声学模型以语音识别是语音识别系统的核心部分。除包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法,还包括增添新词的功能、数据库管理和友好的人机交互应算法,还包括增添新词的功能、数据库管理和友好的人机交互界面
12、等等。界面等等。v语音模型语音模型:语音模型一般指的是用于参数匹配的声学模型。语音声学模语音模型一般指的是用于参数匹配的声学模型。语音声学模型的好坏对语音识别的性能影响很大,现在公认的较好的概率统计模型型的好坏对语音识别的性能影响很大,现在公认的较好的概率统计模型是是HMMHMM模型。因为模型。因为HMMHMM可以吸收环境和话者引起的特征参数的变动,实可以吸收环境和话者引起的特征参数的变动,实现非特定人的语音识别。现非特定人的语音识别。识别模型的基元单位的选择对于识别性能也有很大的影响。对于日识别模型的基元单位的选择对于识别性能也有很大的影响。对于日语和英语,以半音节、环境依存音素为模型的研究
展开阅读全文