语音编码基础知识课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《语音编码基础知识课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 编码 基础知识 课件
- 资源描述:
-
1、 语音编码(speech coding)概述概述语音信号压缩编码的原理及其评价系统语音信号压缩编码的原理及其评价系统语音信号的波形编码语音信号的波形编码语音信号的参数编码语音信号的参数编码语音信号的混合编码语音信号的混合编码概述概述一、编码(压缩)的重要性一、编码(压缩)的重要性二、编码速率(信息容量)二、编码速率(信息容量)三、编码的分类三、编码的分类四、已经标准化的语音编码四、已经标准化的语音编码 编码、传输、存储和译码是语音数字传输和数编码、传输、存储和译码是语音数字传输和数字存储的必要过程。字存储的必要过程。随着语音通信技术的发展,压缩语音信号的传随着语音通信技术的发展,压缩语音信号的
2、传输带宽,降低信道的传输速率,一直是人们追求的输带宽,降低信道的传输速率,一直是人们追求的目标。语音编码在实现这一目标的过程中担当重要目标。语音编码在实现这一目标的过程中担当重要的角色。的角色。语音编码就是使表达语音信号的比特数目最小。语音编码就是使表达语音信号的比特数目最小。一、编码(压缩)的重要性一、编码(压缩)的重要性数字传输系统模型数字传输系统模型信源信源信源编码信源编码信道编码信道编码调制调制传输通道传输通道用户用户信源解码信源解码信道解码信道解码解调解调噪声噪声语音编码应用实例(语音编码应用实例(IPIP电话)电话)接收器接收器模数转换模数转换压缩编码压缩编码IPIP封装封装网网络
3、络IPIP解包解包解码解码数模转换数模转换播放器播放器二、编码速率(信息容量)二、编码速率(信息容量)用比特用比特/秒(秒(b/sb/s或或bpsbps)来度量,用)来度量,用I I表示,有:表示,有:I=R I=R f fs s,R,R代表每个语音采样值编码所需的比代表每个语音采样值编码所需的比特数;特数;f fs s是采样频率。是采样频率。当当f fs s=8kHz=8kHz,每个采样值用,每个采样值用8 8比特位来编码,则比特位来编码,则编码速率为编码速率为64kb/s64kb/s。三、编码的分类三、编码的分类1.1.波形编码波形编码(waveform coding)(waveform
4、coding):基本原理是在时基本原理是在时间轴上对模拟话音信号按照一定的速率来抽样,然间轴上对模拟话音信号按照一定的速率来抽样,然后将幅度样本分层量化,并使用代码来表示。在接后将幅度样本分层量化,并使用代码来表示。在接收端将收到的数字序列经过解码恢复到原模拟信号,收端将收到的数字序列经过解码恢复到原模拟信号,保持原始语音的波形形状。话音质量高,编码速率保持原始语音的波形形状。话音质量高,编码速率高。如高。如PCMPCM编码类(编码类(a a率或率或u u率率PCMPCM、ADPCM ADPCM、ADM)ADM),编码速率为编码速率为646416kb/s16kb/s,语音质量好。,语音质量好。
5、2.2.参数编码(声源编码参数编码(声源编码 parametric codingparametric coding):根据语音信号产生的数学模型,通过对语音信根据语音信号产生的数学模型,通过对语音信号特征参数的提取后进行编码(将特征参数变换成号特征参数的提取后进行编码(将特征参数变换成数字代码进行传输)。在接收端将特征参数,结合数字代码进行传输)。在接收端将特征参数,结合数学模型,恢复语音,力图使重建语音保持尽可能数学模型,恢复语音,力图使重建语音保持尽可能高的可懂度,重建语音信号的波形同原始语音信号高的可懂度,重建语音信号的波形同原始语音信号的波形可能会有相当大的区别。如线性预测(的波形可能
6、会有相当大的区别。如线性预测(LPCLPC)编码类。编码速率低,编码类。编码速率低,2.4-1.2kb/s2.4-1.2kb/s,自然度低,自然度低,对环境噪声敏感。对环境噪声敏感。3.3.混合编码混合编码(Hybrid coding)(Hybrid coding):将波形编码与参数编码相结合,在将波形编码与参数编码相结合,在2.4-1.2kb/s2.4-1.2kb/s速率上能够得到高质量的合成语音。规则码激励长速率上能够得到高质量的合成语音。规则码激励长时预测编码时预测编码RPERPELPTLPT即为混合编码技术。混合编码即为混合编码技术。混合编码包括若干语音特征参量又包括部分波形编码信息,
7、包括若干语音特征参量又包括部分波形编码信息,以达到波形编码的高质量和参量编码的低速率的优以达到波形编码的高质量和参量编码的低速率的优点。点。四、已经标准化的语音编码四、已经标准化的语音编码 指定组织:国际电信联盟指定组织:国际电信联盟 ITU-TITU-T,http:/www.itu.inthttp:/www.itu.int标准标准编码速率编码速率(kb/s)(kb/s)算法算法MOSMOS得得分分 应用应用G.711G.7116464u u律或律或a a律律PCMPCM4.34.3公用网公用网 G.721G.7213232ADPCMADPCM4.14.1公用网公用网G.723.1G.723.
8、15.35.3ACELPACELP3.23.2无线网无线网G.729G.7298 8CS-ACELPCS-ACELP3.83.8无线网无线网GSMGSM1313RPE-LTPRPE-LTP3.93.9无线网无线网(5)RPE-LTP(5)RPE-LTP:长时预测的规则脉冲激励的线性预:长时预测的规则脉冲激励的线性预测测Regular-Pulse Excited LPC with a Long-Term Regular-Pulse Excited LPC with a Long-Term PredictorPredictor(1)ADPCM(1)ADPCM:自适应差分脉冲编码:自适应差分脉冲编码
9、 adaptive adaptive difference pulse code modulationdifference pulse code modulation(2)CELP(2)CELP:码本激励线性预测:码本激励线性预测 (code excited code excited linear predictionlinear prediction)(3)ACELP(3)ACELP:代数码本激励线性预测:代数码本激励线性预测Algebraic-Algebraic-Code-Excited Linear-PredictionCode-Excited Linear-Prediction(4)C
10、S-ACELP(4)CS-ACELP:共轭结构的代数码本激励线性预测:共轭结构的代数码本激励线性预测Conjugate Structure Algebraic-Code-Excited Conjugate Structure Algebraic-Code-Excited Linear-PredictionLinear-Prediction语音信号压缩编码的原理及其评价系统语音信号压缩编码的原理及其评价系统一、语音压缩的基本依据一、语音压缩的基本依据二、语音编码的关键技术二、语音编码的关键技术三、语音压缩系统的性能指标和评测方法三、语音压缩系统的性能指标和评测方法一、语音压缩的基本依据一、语音压
11、缩的基本依据 是语音信号的冗余度和人的听觉感知机理。是语音信号的冗余度和人的听觉感知机理。1.1.存在的时域冗余度:存在的时域冗余度:(1 1)幅度非均匀分布)幅度非均匀分布(2 2)语音信号样本间的相关性很强)语音信号样本间的相关性很强(3 3)浊音具有准周期)浊音具有准周期(4 4)声道的形状及其变化缓慢)声道的形状及其变化缓慢(5 5)语音间隙(静止系数)语音间隙(静止系数)2.2.存在的频域冗余度:存在的频域冗余度:(1 1)非均匀的长时功率谱密度)非均匀的长时功率谱密度(2 2)短时功率谱密度)短时功率谱密度女声英文女声英文a的功率谱的功率谱3.3.人的听觉感知机理人的听觉感知机理(
12、1 1)人类的听觉特性具有掩蔽效应)人类的听觉特性具有掩蔽效应(2 2)人耳对不同频段声音的敏感程度不同)人耳对不同频段声音的敏感程度不同(3 3)人耳对语音相位不敏感)人耳对语音相位不敏感4.4.语音编码的极限速率语音编码的极限速率 语音中最基本的元素是音素,大约有语音中最基本的元素是音素,大约有128128256256个,个,如果按通常的说话速度,每秒平均发出如果按通常的说话速度,每秒平均发出1010个音素,则个音素,则信息率为:信息率为:I=logI=log2 2(256)(256)1010bps=80bpsbps=80bps把发音看成是以语音速率来传送,则语音编码的极限把发音看成是以语
13、音速率来传送,则语音编码的极限速率为速率为80bps,80bps,从数字化标准的编码速率从数字化标准的编码速率64kbps64kbps,到极,到极限速率限速率80bps80bps,之间的距离,对于理论研究和实践有,之间的距离,对于理论研究和实践有着极大的吸引力。着极大的吸引力。二、语音编码的关键技术二、语音编码的关键技术语音信号中存在两种类型的相关性:语音信号中存在两种类型的相关性:(1 1)样点间的短时相关性)样点间的短时相关性(2 2)相邻基音周期之间的长时相关性)相邻基音周期之间的长时相关性pkkkzazAzH111)(1)(e(n)e(n)x(n)x(n)pkkknxanenx1)()
14、()(短时预测滤波器短时预测滤波器1.1.语音信号的短时预测模型语音信号的短时预测模型D D为基音周期,长时预测系数为基音周期,长时预测系数bbi i 的个数取的个数取1 1(q=r=0q=r=0)或)或3(q=r=1)3(q=r=1)。D D、bbi i 从语音信号中从语音信号中直接提取。语音信号通过长时预测,得出基音周直接提取。语音信号通过长时预测,得出基音周期、增益(振幅大小)。期、增益(振幅大小)。rqiiDizbzPzH)(11)(1)(长时长时 线性线性预测预测x(n-p),x(n-p+1),x(n-p),x(n-p+1),.x(n-1).x(n-1)x x(n)(n)长时预测滤波
15、器长时预测滤波器)(1zAx(n)x(n)(1zPe(n)e(n)激励发生器激励发生器完整的语音信号的预测模型完整的语音信号的预测模型3.3.感觉加权滤波器感觉加权滤波器由于掩蔽效应,在语音频谱中,能量较高的频由于掩蔽效应,在语音频谱中,能量较高的频段(共振峰处)的噪声相对于能量较低的频段的噪段(共振峰处)的噪声相对于能量较低的频段的噪声不易被感觉。在度量原始语音和合成语音之间的声不易被感觉。在度量原始语音和合成语音之间的误差时,在高能量段允许误差大,因此引入一个频误差时,在高能量段允许误差大,因此引入一个频域的感觉加权滤波器域的感觉加权滤波器W(z)W(z)来衡量语音之间的误差。来衡量语音之
16、间的误差。加权因子加权因子 在在0 01 1之间之间,控制共振峰区域的误差增加控制共振峰区域的误差增加pkkkkpkkkzazazAzAzW1111)/()()(输入输入语音语音x(n)x(n)线性线性预测预测分析分析感觉感觉加权加权滤波器滤波器后继处理后继处理三、语音压缩系统的性能指标和评测方法三、语音压缩系统的性能指标和评测方法1.1.语音压缩系统的性能指标语音压缩系统的性能指标(1 1)编码速率)编码速率(2 2)编码器的顽健性)编码器的顽健性(3 3)编码器的时延)编码器的时延(4 4)算法的复杂度和可扩展性)算法的复杂度和可扩展性编码延时编码延时一般地,编解码算法越复杂,延时越大,会
17、明显一般地,编解码算法越复杂,延时越大,会明显感觉到通话对方反映感觉到通话对方反映“迟钝迟钝”,甚至造成正常通信困,甚至造成正常通信困难。难。另外一方面,延时造成回声,传统的电话系统中,另外一方面,延时造成回声,传统的电话系统中,在在2-4 2-4 线的转换处(混合线圈)因阻抗不匹配,导致线的转换处(混合线圈)因阻抗不匹配,导致接收者的收话音信号泄露到其发送路径上,返回给发接收者的收话音信号泄露到其发送路径上,返回给发送者,形成了回声。当延时小时,回声同房间交混,送者,形成了回声。当延时小时,回声同房间交混,因此感觉不到;当延迟超过了因此感觉不到;当延迟超过了25ms25ms,能明显感觉到,能
18、明显感觉到,从而严重影响通信。从而严重影响通信。一般地,要求编解码延时不超过一般地,要求编解码延时不超过5 510ms10ms。A A端的信号端的信号B B端经混端经混合线圈的回传信号合线圈的回传信号B B端的信号端的信号A A端经混端经混合线圈的回传信号合线圈的回传信号A A端端B B端端2.2.语音压缩系统的性能指标和评测方法语音压缩系统的性能指标和评测方法 语音质量是衡量语音编码算法优劣的关键性能之语音质量是衡量语音编码算法优劣的关键性能之一。语音质量通常分为四类:一。语音质量通常分为四类:(1)广播级)广播级(2)网络或电话级)网络或电话级(3)通信级)通信级(4)合成级)合成级 语音
19、质量语音质量有主观和客观两种评价方法。有主观和客观两种评价方法。评价指标:清晰度或可懂度、音质。前者是指语音评价指标:清晰度或可懂度、音质。前者是指语音是否容易听清楚;后者指语音听起来有多自然。是否容易听清楚;后者指语音听起来有多自然。(1 1)可懂度评价)可懂度评价 DRTDRT:Diagnostic Rhymer Test Diagnostic Rhymer Test (2 2)音质评价:)音质评价:MOSMOS:Mean Opinion Score Mean Opinion Score 平均意平均意见得分和见得分和DAMDAM:Diagnostic Acceptability Measu
20、re Diagnostic Acceptability Measure 判断满意度得分。判断满意度得分。主观评价方法主观评价方法 MOSMOS得分为五级得分为五级:优、良、可、差和坏。优、良、可、差和坏。满分为满分为5 5分,相当调频广播质量;分,相当调频广播质量;4 4分以上是分以上是长途电话网标准;长途电话网标准;3.53.5分为通信标准;分为通信标准;3.03.0分分仍有较好的可懂度,保持自然度;仍有较好的可懂度,保持自然度;2.52.5分只维分只维持可懂度,持可懂度,是战术通信标准。是战术通信标准。(1 1)波形失真度,用信噪比来度量)波形失真度,用信噪比来度量(2 2)频谱失真测量)
21、频谱失真测量(3 3)谱包络失真测量)谱包络失真测量客观评价方法客观评价方法MnMnnsnsnsSNR0202)()()(log*10语音信号的波形编码语音信号的波形编码一一、非均匀量化的、非均匀量化的PCMPCM编码编码二、增量调制编码二、增量调制编码三、自适应增量调制编码三、自适应增量调制编码四、自适应差分脉冲编码四、自适应差分脉冲编码ADPCMADPCM五、自适应预测器五、自适应预测器六、自适应量化器六、自适应量化器七、七、ADPCMADPCM的总结的总结 均匀量化时,无论大的输入信号还是小的输入均匀量化时,无论大的输入信号还是小的输入信号一律采用相同的量化间隔,为了适应大的输入信号一律
22、采用相同的量化间隔,为了适应大的输入信号,同时又要满足精度要求,就需要增加样本的信号,同时又要满足精度要求,就需要增加样本的位数位数。=2V/L=2V/2=2V/L=2V/2R R,但是对话音信号来说,大但是对话音信号来说,大信号出现的机会并不多,增加的样本数就没有充分信号出现的机会并不多,增加的样本数就没有充分利用。因此采用非均匀量化。利用。因此采用非均匀量化。一、非均匀量化的一、非均匀量化的PCMPCM编码编码 其基本思想是:大的输入信号采用大的量化其基本思想是:大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。在满足精间隔,小的输入信号采用小的量化间隔。在满足精度要求的情况下用
23、较少的位数来表示。译码时,采度要求的情况下用较少的位数来表示。译码时,采用相同的规则。也可视为将信号进行非线性变换后用相同的规则。也可视为将信号进行非线性变换后再作均匀量化,如对信号进行对数压缩,再作均匀量化,如对信号进行对数压缩,微弱的信微弱的信号被放大,强的信号被压缩。号被放大,强的信号被压缩。译码时,指数扩张。译码时,指数扩张。非线性非线性压缩压缩均匀均匀量化量化编码编码x xa a(nT)(nT)解码解码非线性非线性扩张扩张x x(nT)(nT)现在的非均匀量化中,一般采用两种压缩扩张非现在的非均匀量化中,一般采用两种压缩扩张非均匀量化方法。采样后信号幅度和量化数据之间有两均匀量化方法
24、。采样后信号幅度和量化数据之间有两种对应关系,一种称为种对应关系,一种称为u u 律压扩(律压扩(compandingcompanding)算法,)算法,另一种称为另一种称为A A 律压扩算法。律压扩算法。u u 律压扩主要用于北美律压扩主要用于北美和日本等地区的电话通信中。和日本等地区的电话通信中。A A 律压扩主要用在欧律压扩主要用在欧洲和中国的地区的电话通信中。洲和中国的地区的电话通信中。)(sgn)1ln(|)(|1ln)(maxmaxnTxXnTxXnxFaaaau u 律压扩律压扩1|)(|1)(sgnln1/|)(|ln11|)(|0)(sgnln1/|)(|)(maxmaxma
25、xmaxmaxAaaAaAAaaAaXnTxAntxAXnTxAXAXnTxntxAXnTxAnxF(1 1)输入)输入x xa a(nT)(nT)的范围归一化为(的范围归一化为(1 11 1);(2 2)输出)输出F FA A(x(n)(x(n)的范围为(的范围为(1 11 1););(3 3)A A为压扩参数,它反映最大量化间隔和最小量化为压扩参数,它反映最大量化间隔和最小量化间隔的比值。间隔的比值。A=87.56A=87.56A A 律压扩律压扩 我国的我国的PCM30/32PCM30/32路基群也采用路基群也采用A A律律1313折线压折线压缩特性。缩特性。律律1515折线主要用于美国
展开阅读全文