语音信号处理第八章语音合成课件.ppt

上传人（卖家）：ziliao2023

文档编号：5807080

上传时间：2023-05-10

格式：PPT

页数：45

大小：411.01KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《语音信号处理第八章语音合成课件.ppt》由用户（ziliao2023）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音信号处理第八合成课件

资源描述：: 1、1语音信号处理第8章语音合成2第8章语音合成l8.1 概述l8.2 共振峰合成法l8.3 线性预测合成法l8.4 文语转换系统38.1 概述l8.1.1 语音合成的定义l8.1.2 语音合成的应用l8.1.3 语音合成的方法48.1.1 语音合成的定义l语音合成是通过机械的、电子的方法产生人造语音的技术。它的目的是使一些以其他方式表示或存储的信息能转换为清晰可懂的语音，从而让人们能够利用听觉获取这些信息58.1.1 语音合成的定义Intention-To-SpeechConcept-To-SpeechText-To-Speech 按照人类语言功能的不同层次，语音合成也可分为三个层次，即：1
2、.从文字到语音的合成（Text-to-Speech）2.从概念到语音的合成（Concept-to-Speech）3.从意向到语音的合成（Intention-to-Speech）68.1.2 语音合成的应用l传统语音系统的缺陷l需要对信息文本进行录音并保存为声音文件，占用存储空间和工作量大l不能动态反映信息的更新，应用范围有很大局限WAV格式文件所占容量(KB)=(取样频率 X 量化位数 X 声道)X 时间/8，每一分钟WAV格式的音频文件的大小约为10MB 78.1.2 语音合成的应用l语音合成技术的优势l无需对信息文本进行录音，极大地节省了存储空间和减少了工作量l能动态反映信息的变化，应用范
3、围广8几个语音合成应用的实例l查询系统话费查询、考试结果查询、股票交易查询等9几个语音合成应用的实例l有声词典单词、例句朗读等l电脑游戏目前游戏中人物只能说出事先录好的语音。利用语音合成技术可以让人物说出任意语句，同时具有不同说话风格和语气，从而大大加强游戏的趣味性和互动性108.1.3 语音合成的方法l8.1.3.1 波形合成法l8.1.3.2 参数合成法l8.1.3.3 规则合成法118.1.3.1 波形合成法l波形合成法一般分为两种，一种是波形编码合成，另一种是波形编辑合成。波形合成法是一种相对简单的合成技术，通常只能合成有限词汇的语音段。许多专门用途的语音合成器都采用这种方式，如
4、自动报号、报时、报站、报警等128.1.3.1 波形合成法波形合成法波形编码合成波形编辑合成主要步骤：将需要合成的语音的波形进行存储或者进行波形编码压缩后存储，合成重放时再解码组合输出特点：所需存储空间较大，合成的语音词汇量较为有限主要步骤：对自然语言的波形进行编辑拼接后输出。合成时对语音段不做大的修改特点：需要比较大的语音单位（如词组、语句）作为合成基元138.1.3.2 参数合成法l主要步骤：利用语音信号的短时平稳性，提取出每帧语音信号的声学参数，将这些参数编码后组成一个语音参数库输出时，从语音参数库中取出相应的参数，利用合成算法恢复语音主要的合成参数有：控制音强的幅度参数、控制音高的基频
5、参数和控制音色的共振峰参数l共振峰合成和线性预测合成是该类合成技术中的重要方法148.1.3.2 参数合成法l优点所需音库一般较小整个系统能适应的韵律特征范围较大音质适中l缺点算法复杂，参数多压缩比较大时合成的语音不够自然清晰158.1.3.3 规则合成法l主要步骤系统中预先存储音素的声学参数，以及由音素组成音节、音节组成词、词组成句子和控制音调、轻重音等韵律的各种规则给出需要合成的语句后，系统根据相应规则自动将它们转换成语音声波168.1.3.3 规则合成法l特点合成的词汇表不是事先确定可以合成无限词汇的语句17小贴士：语音合成的基本术语1合成单元(Synthesis Unit)l 也称为合
6、成单位，是语音合成系统所处理的最小的语音学基本单位l 按由小到大的顺序排列，语音学中的音素、双音素、半音节、音节、词、短语和句子都可以用作合成单元，合成单元越大，合成语音音质越好，但合成语音的数量及其数码率也越大l 在波形合成中，合成单元较大，多为词、短语或句子l 在参数合成和规则合成中，有些语言（如英语或日语）的合成多采用音素，辅音加元音和元音加辅音等合成单元；有些语言（如汉语）的合成单元多采用音节和声、韵母作合成单元18小贴士：语音合成的基本术语2合成参数(Synthesis Parameters)l 在参数合成和规则合成方式中，控制语音合成器以输出所需语音的一组参数l 合成参数分为两类音
7、色参数（音段参数），常用的有：共振峰频率，线性预测系数和生理发音参数韵律参数（超音段参数），主要有控制音强的幅度参数，控制音高的基频参数，控制音长的时间参数等19小贴士：语音合成的基本术语3合成语音库(Database for Synthesis)l 在语音合成系统中，所有合成单元的编码数据或合成参数数据的集合称为合成语音库l 对于波形合成，语音库中存储的是合成单元的波形编码l 对于参数合成，语音库中存储的是各合成单元逐帧的合成参数l 对于规则合成，语音库中存储的是各合成单元的声学参数和一系列合成规则20PSOLA算法l核心思想：直接对存储于音库的语音运用PSOLA算法进行拼接从而合成完整的语
8、音l主要特点：有别于传统概念中只是将不同的语音单元进行简单拼接，PSOLA系统首先要在大量语音库中，选择最合适的语音单元用于拼接，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度21选音l对于同一个合成单元，由于语境不同，重音表现不同，其声学特征有很大不同，因此可以建立多样板语音数据库，合成时根据某种规则或模型选择最合适的单元l选音过程中往往采用多种复杂的技术，包括多项统计学上的技术或神经网络技术，如日本ATR推出的多语种语音合成系统，就采用了统计学上的隐马尔可夫模型来进行选音22PSOLA算法l本质上说，PSOLA算法是利用短时
9、傅里叶变换重构信号的叠加法l信号x(n)的短时傅里叶变换为 ()()(),j nnmjX ex mnm enZ Z23PSOLA算法l由于语音信号短时平稳，因此在时域每隔若干个（例如R个）样本取一个频谱函数就能重构信号x(n)，即可令|()(),jjrnn rRY eXer nZ Z24PSOLA算法l上式的傅里叶逆变换为 l然后叠加就能得到原信号r1y(m)=(),2jj mrY eedmZ Z()()rry my m()ry m25PSOLA算法实现语音合成的主要步骤l1.基音同步分析同步分析的功能主要是对语音合成单元进行同步标记设置以同步标记为中心，选择适当窗长做加窗处理，得到一组短时
10、信号26PSOLA算法实现语音合成的主要步骤l2.基音同步修改增加基频减小基频分析基音标记和合成基音标记未必是一一对应关系，很有可能出现一对多或多对一的情况27PSOLA算法实现语音合成的主要步骤l3.基音同步合成谱相等意义下最小均方误差意义下l在一定约束条件下，上述两种方法得到的合成信号表达形式完全一致，均为y()()mqtqmqna xntt288.2 共振峰合成法l8.2.1 概述l8.2.2 共振峰合成的原理l8.2.3 共振峰合成的特点298.2.1 概述l 语音生成的数学模型认为，语音是在激励信号的激励下，声波经谐振腔（声道）传输，最终由嘴或鼻向外辐射生成。习惯上，把声道传输频率
11、响应上的极点称之为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色l 音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音308.2.2 共振峰合成的原理F0 冲激发生器声门波形成 X +级联型调制器幅度噪声发生器 X +辐射效应语音幅度基音调制 X 并联型调制器幅度共振峰合成器的系统模型318.2.1 共振峰合成的原理l合成浊音语音时用周期冲激序列；合成清音语音时用伪随机噪声；合成浊擦音时用周期
12、冲激调制的噪声l级联型结构可模拟声道谐振特性，能很好地逼近原音的频谱特性；并联型结构能模拟谐振和反谐振特性，被用来合成辅音l辐射模型可用一阶差分逼近328.2.3 共振峰合成的特点l 优点共振峰模型的理论基础是对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音共振峰参数有着明确的物理意义，直接对应于声道参数，因此共振峰可以解释自然语音中的各种现象，进而可以利用声学规律用于共振峰合成系统l 缺点若建立的声道模型不够精确会影响合成质量共振峰模型虽然描述了语音信号最基本的一些特征，但对于有些细微特征仍无法描述，势必会对合成语音的自然度造成影响共振峰合成器往往十分复杂，需要控制的参数（如幅
13、度、基频、清浊音开关等）很多338.3 线性预测合成法l8.3.1 概述l8.3.2 直接递归型LPC合成器l8.3.3 格型合成滤波器348.3.1 概述l线性预测思想：一个语音的采样能够用过去若干个语音采样的线性组合来逼近l将语音生成模型简化，将声门激励、声道和辐射模型进行组合，统一用一个时变数字滤波器来表示冲激冲激序列序列发生器发生器随机随机噪声噪声发生器发生器x(n)x(n)u(n)u(n)qkkkzaGzH11)(LPC语音合成器358.3.2 直接递归型LPC合成器l 直接用预测器系数ail 合成的语音样本为l 优点：简单，易于实现l 缺点：对系数变化非常敏感，可能出现不稳定现象
14、p1()(1)()iis nas nGu nGia为预测器系数，为模型增益，u(n)为激励，s(n)为合成语音样本，p为预测器阶数368.3.3 格型合成滤波器l 采用反射系数kil 合成的语音样本为l 所用参量浊音、清音标志音高总体振幅水平反射系数11()()(1)piiis nGu nkbnGii为模型增益，u(n)为激励，k 为反射系数，b(n)为反向预测误差，p为预测器阶数378.4 文语转换系统l8.4.1 概述l8.4.2 文本分析l8.4.3 韵律控制l8.4.4 语音合成388.4.1 概述l文语转换(Text to Speech,TTS)是指将文本文件通过一定的硬软件
15、转换后由计算机等语音系统输出语音的过程l文本分析、韵律控制和语音合成是文语转换系统的三个核心部分398.4.1 概述文本分析：首先根据发音字典，将输入的文字串分解为带有属性标记的词及其读音符号。语音生成：文字串就变换为代码串，规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。韵律生成：根据语义规则和语音规则，为每个词、每个音节确定重音等级和语句结构及语调、以及各种停顿等。408.4.2 文本分析l文本分析的主要功能是使计算机能够识别文字，并根据文本的上、下文关系在一定程度上对文本进行理解，将发音的方式告诉计算机，另外，还要让计算机知道文本中哪些是短语、句子，发音时到哪应该停顿，停顿多长等等4
16、1文本分析大致流程自动分词自动分词多音字处理多音字处理声调判断声调判断特殊声调调整特殊声调调整特殊符号特殊符号停顿处理停顿处理系统词库系统词库多音字词库多音字词库变调规则库变调规则库特殊声调特殊声调规则规则428.4.3 韵律控制l韵律特征包括声调、语气、停顿方式、发音长短等。这些特征通过基频、音长、音强等声学参数来体现，通过控制这些参数达到对韵律的控制。具体包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等438.4.4 语音合成拼音信息拼音信息声母声母韵母韵母声调声调基音同步帧、基音同步帧、过渡音和鼻音库过渡音和鼻音库声调曲线库声调曲线库声母库声母库合成韵母合成韵母幅度调整幅度调整叠接叠接合成语音合成语音44一个文语转换的实例l讯飞语音云开发者45 谢谢！

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：语音信号处理第八章语音合成课件.ppt
链接地址：https://www.163wenku.com/p-5807080.html

ziliao2023

内容提供者

实名认证

联系作者