语音数据与语音合成课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音数据与语音合成课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 数据 合成 课件
- 资源描述:
-
1、语音合成技术 什么叫语音合成 Text To Speech过程,简称TTS 作用:将文本状态的文字信息转化为可听的声音信息“电脑会说话”键 盘光电扫描手写识别网络/数据库文 本语言处理韵律处理语音合成结果输出词典/规则语音库发声机理 语音产生的生理过程总纲 1 .数字语音信号 2 .语音合成技术 3 .数据制作与合成 4 .合成效果测听数字语音信号 什么是数字语音信号 语音:说话,声波传递的语言 语音信号:记录下来的声波振动 模拟语音信号:(磁带,唱片)数字语音信号:模拟信号数字化(wav mp3 CD)-计算机应用的需要计算机应用的需要 如何数字化 取样:采样率(时间尺子,8K,16K,44
2、K,每秒样点数量)量化:量化精度(幅度尺子,16bit,-3276732768范围)数字语音信号 取样和量化数字语音信号 波形不能说明内容数字语音信号 频域介绍 一段任意波形可以由一系列正弦波形组合而成 离散傅里叶变换数学表示:最高值,采样率的一半(16K wav;max freq=8K Hz)人可听辨的频率范围:(20Hz 20kHz)电话语音信道的频率范围(60Hz 3400Hz)数字语音信号 语谱图数字语音信号 清音和浊音 浊音:声带的快速振动,声带能够将稳定气流转换成振动振动频率称为基频,准周期性 清音:紊乱气流,肺部气流通过声道中的狭窄处产生 爆破音:突然爆破数字语音信号 声学特征
3、如此杂乱多变的信号,如何描述,如何恢复?语音信号产生的数字模型(源-滤波器模型)数字语音信号 声学特征 基频:发浊音时声带振动引起的周期变化,我们听感音调高低主要由基频决定,中文声调还用于区分语义 谱参数:描述声道和口唇辐射共振峰,LPC,倒谱参数总纲 1 .数字语音信号 2 .语音合成技术 3 .数据标注与合成 4 .合成效果测听语音合成技术 主流技术路线 基于统计规则的大语料库拼接语音合成系统 基于HMM的参数语音合成系统 基于HMM的语料库拼接语音合成系统两条道路:要么是波形切分再拼合起来,要么是声学参数转化出来语音合成技术 基于统计规则的大语料库拼接语音合成系统 传统大语料库合成,In
4、terPhonic 5.0之前 单元挑选波形拼接 超大规模音库制作 语料设计,音库录制,精细切分,韵律标注 规则统计,针对不同发音人的细致调整 优点:音质最佳,正常句子的自然度也很好 缺点:非常依赖音库的规模大小和制作质量,存在一定稳定性问题,不能应用在小型设备中 样例:InterPhonic系统处理流程语音合成技术 基于HMM的参数语音合成系统 首先进行语音特征参数的提取 以音素为单位(中文为声韵母),使用HMM(Hidden Markov Model)对自然语流的频谱特征参数进行建模 采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性,得到预测参数 最后生成参数输入合成器
5、,得到合成语音 优点:所需音库规模小,标注精度要求相对降低,自然度高,系统小,灵活度高,ViviVoice,AiSound 缺点:音质相对较差,带有合成器风格 样例:语音合成技术 参数语音合成系统框架语音合成技术 HMM参数建模 用声学参数针对音素建模 为什么要建模?描述的音素特征变化 隐马尔科夫模型(Hidden Markov Model -HMM)语音合成技术 决策树模型聚类 有了模型怎么使用?来一句话怎么预知用哪个模型?基于上下文的信息的决策树聚类语音合成技术 基于HMM的语料库拼接语音合成系统 利用HMM目标模型和连接模型来指导单元挑选 结合参数训练模型的数学统计模型优势和波形拼接的高
6、音质,相对以前的大语料库技术在自然度上有较大提升 自主原发,意义重大 优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,InterPhonic 5.5以上版本 缺点:仍然需要很大规模的语料库,计算量较大 样例:语音合成技术 基于HMM的单元挑选系统结构图总纲 1 .数字语音信号 2 .语音合成技术 3 .数据制作与合成 4 .合成效果测听数据制作与合成 数据与合成的关系 音库数据是合成系统的基石,离开了音库谈合成就是“无源之水 无本之木”一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果数据制作与合成 数据制作过程 音库设计 音库录制 音素切分 韵律标注 音素检
展开阅读全文