书签 分享 收藏 举报 版权申诉 / 31
上传文档赚钱

类型第三讲语音合成概述课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2972007
  • 上传时间:2022-06-17
  • 格式:PPT
  • 页数:31
  • 大小:1.11MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第三讲语音合成概述课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第三 语音 合成 概述 课件
    资源描述:

    1、第三讲 语音合成概述背景目标基本问题技术历程典型系统第三讲 语音合成概述背景目标基本问题技术历程典型系统背景计算机的普及人机自然语言交互语音合成在人机交互系统中的作用语音合成的其它应用Speech RecognitionNatural Language UnderstandingDialog ManagerSpeech SynthesisNatural Language GenerationInformation DatabaseSpeech InSpeech Out第三讲 语音合成概述背景目标基本问题技术历程典型系统目标“让计算机像人一样说话” 从文字到语音TTS(Text-To-Speec

    2、h) 从概念到语音CTS(Concept-To-Speech) 从意念到语音ITS(Intention-To-Speech)现阶段-TTS前瞻性-CTS等待时机-ITS第三讲 语音合成概述背景目标基本问题技术历程典型系统基本问题原因 从语音到文字的信息缺失从文字到语音(TTS) 从文字到发音描述 发什么音 如何发音 从发音描述到语音合成第三讲 语音合成概述背景目标基本问题技术历程典型系统技术历程1937,Voder,Bell Lab., H. Dudly1962,级联共振峰,KTH,G. Fant1970s,混合共振峰,MIT,D. Klatt1986,PSOLA,F. Charpentier

    3、2000s,Unit-selection,N. Campbell & A. Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent: Human-likedFair: acceptableBad: unacceptable技术历程1937,Voder,Bell Lab., H. Dudly1962,级联共振峰,KTH,G. Fant1970s,混合共振峰,MIT,D. Klatt1986,PSOLA,F. Char

    4、pentier2000s,Unit-selection,N. Campbell & A. Black1970s1980s1990s2000sQualityTimeFormatPSOLAUnit-selection:Segment-orientedUnit-selection:Prosody-orientedExcellent: Human-likedFair: acceptableBad: unacceptable音色,孤立音段音色,孤立音段音色,孤立词音色、韵律,语句韵律,语句第三讲 语音合成概述背景目标基本问题技术历程典型系统典型系统基于单元挑选的TTS系统构成(韵律导向) 两个模块 前端

    5、:文本处理,从文字到发音描述 后端:语音处理,从发音描述到语音合成 一个接口,发音描述 数据库,合成单元ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,Homogr

    6、aphInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphone

    7、tic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大学成立于1896年Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t) ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic A

    8、coustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackendPOS (Part Of Speech)典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大

    9、学成立于1896年Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)Prosodic Event: OutPut PWord Layer: 北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tOutPut PPhrase Layer: # 北京交通大学# 成立于# 一八九六年OutPut IPhrase Layer: # 北京交通大学成立于一八九六年OutPut Sentence Layer: # 北京交通大学成立于一八九六年ParserProsodic Event PredictorPhonetizerProsodic&Phone

    10、miccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Text Normalization:北京交通大

    11、学成立于1896年Parser:北京(npr) 交通(ng)大学(ng)成立(vgo)于(pg)1896年(t)Prosodic Event: OutPut PWord Layer: 北京 ng 交通 ng 大学 ng 成立于 vg_pg 一八九六年 tPhonetizer:北 bei3 京 jing1(BL :北京) 交 jiao1(BL :交通) 通 tong1(BL :交通) 大 da4(BL :大学) 学 xue2(BL :大学) 成 cheng2(BL :成立) 立 li4(BL :成立) 于 yu2(BL :于) 一 yi1(BL :一八九六年) 八 ba1(BL :一八九六年)

    12、九 jiu3(BL :一八九六年) 六 liu4(BL :一八九六年) 年 nian2(BL :一八九六年)ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,Homo

    13、graphInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Interface: 2 1 2 %0 0 2 %0 ng 2 %0 ng 2 %0 ng 2 %0 0 0 2 %0 vg_pg 2 %0 0 0 2 %0 t 2 %0 0 1 2 ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSe

    14、lectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3) GMM(jing1) GMM(jiao1) GMM(tong1) GMM(da4) GMM(xue2) GMM

    15、(cheng2) GMM(li4) GMM(yu2) GMM(yi1) GMM(ba1) GMM(jiu3) GMM(liu4) GMM(nian4)Segment Acoustic Predictor: occ(bei3) occ(jing1) occ(jiao1) occ(tong1) occ(da4) occ(xue2) occ(cheng2) occ(li4) occ(yu2) occ(yi1) occ(ba1) occ(jiu3) occ(liu4) occ(nian4)ParserProsodic Event PredictorPhonetizerProsodic&Phonemic

    16、contextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor

    17、:GMM(bei3) GMM(jing1) Segment Acoustic Predictor: occ(bei3) occ(jing1) Unit Selection: argmin cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus: bei3 jing1ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerTe

    18、xt NormalizationCorpora:speechphonetic alignment,prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend典型系统例:北京交通大学成立于北京交通大学成立于1896年年。Prosodic Acoustic Predictor:GMM(bei3) GMM(jing1) Segment Acoustic Predictor: occ(bei3) occ(jing1) Unit Selection: argmin

    19、 cost(sam(bei3),sam(jing1),sam(jiao1),)Corpus: bei3 jing1Speech Synthesizer:北京交通大学成立于北京交通大学成立于1896年年。ParserProsodic Event PredictorPhonetizerProsodic&PhonemiccontextProsodic Acoustics PredictorSegmentAcousticsPredictorUnitSelectionSpeech SynthesizerText NormalizationCorpora:speechphonetic alignment,

    20、prosodic parameterDictionary:Lexicon,Rules,HomographInput textInterface Output speechFrontendBackend后续题目 基础知识 韵律 原理分析 关键技术 数据库构建 文本处理 声学建模 最优搜索/合成器 相关研究 音色调整/转换 HMM合成器 挑战基于数据驱动的韵律建模 Two trainable components: based on an annotated corpus Prosodic event predictor Prosodic parameter predictorprosodic e

    21、ventphonetic contextprosodicacoustic modelprosodicparameterprosodic annotationspeechphonetic annotationtextannotated corpusprosodic eventprosodicdescription modelparser, POS韵律功能Prosody structureEx. 1, 已经取得文凭的和尚未取得文凭的干部Ex. 2, 顺天府秋捐归您啦,八旗兵丁一年的赏讨下来了。Ex. 3, 政协十届一次会议主席团常务主席会议审议通过了政协十届一次会议提案审查委员会关于政协十届一次会

    22、议提案审查情况的报告草案 (58)IntonationEx. 4, 明天是个晴天,最高气温. (flat)Ex. 5, 明天是个晴天!我们可以. (glad)Ex. 6, 明天是个晴天? (interrogative)AccentEx. 7, 明天是个晴天 vs. 明天是个晴天MoodEx. 8, 明天是个晴天 glad vs. 明天是个晴天 sadprosody is not all for mood, timbre is changed also韵律的声学实现In acoustic, prosody is presented as the variances of pitch durati

    23、on intensity pause韵律描述 C-ToBI defined 1st, prosody structure 知觉判断等级与韵律层级结构对应 coming, accent index 汉语韵律层次韵律结构标注,按照语调短语、中间短语、音步/韵律词三个韵律层级,描述每段发音。语调短语(intonational phrase):具有完整的语调,听感上可独立成句的一段发音音步(foot):节奏的基本单位,一般由两个或三个音节构成,少数为单音节。韵律词(prosodic word):所有的句法词具有类似词的连调模式和词重音模式、较短的词组其它凡是属于一个音步的结构跨度为1-4个音节,极大多

    24、数为2-3个音节, 少数为单音节和四音节结构。中间短语(intermediate phrase):介于语调短语和韵律词之间的节奏单元由一个或多个韵律词构成中间短语之间可能存在嵌套结构韵律标注依据听觉进行边界类型的判断,并辅助以特定类型处理的约定听觉判决所依据的线索 基频重置,边界末音节展延,停顿,节奏的变化 需从全局的、层级的角度考察每段发音标注符号 BP2: 用以界定语调短语边界 BP1:用以界定中间短语边界 BP0:用以界定有明显停顿的音步/韵律词间的边界 空格:用以界定音步/韵律词边界 *:用以界定韵律词内的音步边界特定类型约定 位于短语边界的、听感上轻读的、作为短语间过渡的虚词,倾向于

    25、划归后一短语 BP0为音步边界,且具有明显的停、顿,倾向于从严标出一个韵律结构标注的例子S1编者 按(BP2)世界上(BP1) 有些事 是 相似的(BP2)甚至(BP0)惊人地 相似S2编者 按(BP2)世界上 有些事(BP1) 是 相似的(BP2)甚至(BP0)惊人地 相似Problem of consistencytrainingacceptable韵律的深层次标注Accent IndexWhat is AI Sample 催眠师有相当的威望体现语义上的着重和聚焦的一种韵律特征Domains:word level: lexical stresssentence level: promine

    26、nce, focus, emphasis, accentedWhy is AI neededmore smooth voicemore expressive synthesis voiceAI acoustic realizationrelativity: relative accented/unaccenteduniversal: integrateAI prosody functionNew topicFocusStress pattern (技术/计数)AI初步实验 accent index automatically detecting based on the hierarchica

    27、lly prosodic structure prosodic approximation-ratio of the syllable as the indicator, ref. to Xu Yis work prosodic parameters predicted with AI Samples 催眠师有相当的威望课程报告4 语音合成综述及专题阅读现代语音技术-基础与应用第五章,蔡莲红等编著,清华大学出版社,2003王仁华:“语音合成技术最新研究进展及其应用展望” 初敏 http:/ ieee ssw, icassp, speech prosody在线演示科大讯飞 http:/ http:/ (提交:3-31)思考文语转换系统的任务基于数据库的文语转换系统的实现模块要求:参考文献3篇以上,相关分析注明出处报告二,专题报告 (提交:4-14)四个专题选一: 数据库、文本分析、韵律模型、波形拼接/合成器具体算法篇幅要求:2页(5号字)文件命名:学号_姓名_报告名称

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第三讲语音合成概述课件.ppt
    链接地址:https://www.163wenku.com/p-2972007.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库