多媒体技术与通信第3章课件.ppt

上传人（卖家）：晟晟文业

文档编号：5188189

上传时间：2023-02-16

格式：PPT

页数：130

大小：1.47MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

29 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《多媒体技术与通信第3章课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 多媒体技术通信课件

资源描述：: 1、第三章第三章音频信息处理技术音频信息处理技术3.1 声学基础知识声学基础知识3.2 数字音频技术数字音频技术 3.3 音频信号压缩编码音频信号压缩编码3.4 音频信息压缩编码标准音频信息压缩编码标准3.5 IP电话技术电话技术3.1 声学基础知识声学基础知识声音是通过空气传播的一种连续的波。声音是通过空气传播的一种连续的波。是由许多频率不同的分量信号组成的复合信号。是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。复合信号的频率范围称为带宽。带宽为带宽为20Hz20kHz的信号称为音频（的信号称为音频（audio）信号。信号。声压及声压级声压及声压级SPL（Sound P
2、ressure Level）也是常用的声音描述参量。）也是常用的声音描述参量。声压就是声音的压力。以帕斯卡（声压就是声音的压力。以帕斯卡（Pa）为）为单位来度量响度；单位来度量响度；对声压有效值取对数，用此对数值来表示对声压有效值取对数，用此对数值来表示声音的强弱。这种表示声音强弱的对数值声音的强弱。这种表示声音强弱的对数值就叫做声压级就叫做声压级SPL。一、声音和人耳听觉特性一、声音和人耳听觉特性1、声音的性质、声音的性质（1）声音是时基类媒体。）声音是时基类媒体。（2）声音有三个要素，音调、音强和音色。）声音有三个要素，音调、音强和音色。（3）声音具有连续谱特性。）声音具有连续谱特性。（4
3、）声音有方向感。）声音有方向感。（5）音色与失真特性。）音色与失真特性。2、人耳听觉特性、人耳听觉特性（1）人耳对声音强弱的感觉特性）人耳对声音强弱的感觉特性（2）响度、响度级）响度、响度级（3）人耳听觉的掩蔽效应）人耳听觉的掩蔽效应一个声音的存在会影响人们对其他声音的听一个声音的存在会影响人们对其他声音的听觉能力，觉能力，使一个声音在听觉上掩蔽了另一使一个声音在听觉上掩蔽了另一个声音，个声音，即所谓的即所谓的“掩蔽效应掩蔽效应”。（4）声音质量评价）声音质量评价声音类型带宽电话语音200Hz3.4kHz调幅广播50Hz7kHz调频广播20Hz15kHzCD20Hz20kHz声音的质量与声音
4、的带宽有关，一般来声音的质量与声音的带宽有关，一般来说频率范围越宽，声音质量也就越高。说频率范围越宽，声音质量也就越高。可以使用信噪比（可以使用信噪比（SNR）、主观平均判分）、主观平均判分法（法（MOS）。）。在采用等级法在采用等级法MOS(Mean Opinion Score)进行评价时，通常设优，良，中，差，劣进行评价时，通常设优，良，中，差，劣五个等级。五个等级。平均观点分平均观点分(Mean Opinion Score，MOS)是一种主观评价指标。听众根据系统质量是一种主观评价指标。听众根据系统质量的好坏使用的好坏使用N分制给系统打分。分制给系统打分。常见的常见的5分制系统分制系统：
5、平均观点分平均观点分质量等级质量等级主观感觉主观感觉 5 极好极好觉察不到觉察不到 4 好好觉察得到，但不难听觉察得到，但不难听 3 一般一般有点难听有点难听 2 差差难听，但不反感难听，但不反感 1 极差极差难以忍受难以忍受采样点越多，声音记录的保真度就越高，但电采样点越多，声音记录的保真度就越高，但电脑存储的信息量也相应增加。脑存储的信息量也相应增加。（5）声道）声道单声道单声道(Monophonic)意味着单个声源。意味着单个声源。声音的三个属性：声音的三个属性：（1）幅值幅值(Amplitude)（2）相位相位(Phase)（3）时序时序(Timing)3.2 数字音频技术
6、数字音频技术一、数字音频一、数字音频在计算机中声音信号是用一系列的数字表在计算机中声音信号是用一系列的数字表示的，称为数字音频。示的，称为数字音频。分为：分为：波形声音：包含所有的声音形式。波形声音：包含所有的声音形式。语音：也表现为波形声音。语音：也表现为波形声音。音乐：是符号化的声音。音乐：是符号化的声音。二、数字音频技术二、数字音频技术声音进入计算机的第一步就是数字化。声音进入计算机的第一步就是数字化。数字化实际上就是采样和量化。数字化实际上就是采样和量化。影响数字声音波形质量的主要因素有三个：影响数字声音波形质量的主要因素有三个：（1）采样频率）采样频率（2）采样精度）采样精度（3）通
7、道数）通道数1、声音信号数字化、声音信号数字化l 采样（采样（sampling）：将声音信号在时）：将声音信号在时间上离散化，即每隔相等的一段时间抽间上离散化，即每隔相等的一段时间抽取一个信号样本。取一个信号样本。l 量化（量化（quantization）：将连续的信）：将连续的信号幅度离散化。如果幅度的划分是等间号幅度离散化。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量隔的，称为线性量化，否则为非线性量化。化。电压范围电压范围量化量化(dec)编码编码(bin)0.5 0.7 3 011 0.3 0.5 2 010 0.1 0.3 1 001-0.1 0.1 0 000-0.3
8、-0.1 -1 111-0.5 -0.3 -2 110-0.7 -0.5 -3 101-0.9 -0.7 -4 100l 采样频率采样频率奈奎斯特理论指出：采样频率不应低于声音信奈奎斯特理论指出：采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，称为无损数字化。声音还原成原来的声音，称为无损数字化。fs=2fmax标准的采样频率有标准的采样频率有11.025kHz，22.05kHz，44.1kHz。l 采样精度采样精度每个声音样本的数字化位数反映了声音波形每个声音样本的数字化位数反映了声音波形幅度的采样精度。幅度的采样精
9、度。一般有一般有8位和位和16位两种双声道（立体声）。位两种双声道（立体声）。声音的数据量声音的数据量=（采样频率（采样频率*每个采样位数每个采样位数*声道数）声道数）/8（B/s）质量质量采样频率采样频率（kHz）样本精度样本精度单道声单道声/立体声立体声数据率数据率（kb/s）频率范围频率范围（kHz）电话电话88单道声单道声642003400AM11.0258单道声单道声88507000FM22.05016立体声立体声705.62015000CD44.116立体声立体声1411.22020000DAT4816立体声立体声153620200002、音频的数字化与再现、音频的数字化与再现音频
10、处理应考虑以下三点：音频处理应考虑以下三点：（1）人与计算机通信。包括音频获取、语音）人与计算机通信。包括音频获取、语音的识别和理解。的识别和理解。（2）计算机与人通信。包括音乐合成、语音）计算机与人通信。包括音乐合成、语音合成、声音的定位以及音频视频的同步。合成、声音的定位以及音频视频的同步。（3）人）人-计算机计算机-人通信。有语音采集、音频人通信。有语音采集、音频的编码和解码、音频的存储、音频的传输等。的编码和解码、音频的存储、音频的传输等。3、数字音乐国际标准、数字音乐国际标准MIDI和和MP3（1）电子乐器数字接口：）电子乐器数字接口：MIDI（musical instrument
11、digital interface,MIDI）MIDI实质上是由实质上是由MIDI控制器（或控制器（或MIDI文件）产生的指示电子音乐合成器要做什文件）产生的指示电子音乐合成器要做什么、怎么做（如演奏某个音符、加大音量、么、怎么做（如演奏某个音符、加大音量、生成音响效果）的一套标准指令。生成音响效果）的一套标准指令。1988年年MIDI制造商协会正式颁布制造商协会正式颁布MIDI技技术规范，作为数字式音乐的国际标准。术规范，作为数字式音乐的国际标准。规定每种规定每种MIDI装置由一个接收器和一个发装置由一个接收器和一个发送器组成。规定送器组成。规定MIDI键盘为键盘为128键。在键。在MIDI
12、接收器中有接收器中有16个通道，它可以向声音个通道，它可以向声音合成器传送合成器传送16路不同的声音等。路不同的声音等。（2）MP3数码音乐数码音乐MP3的全称是的全称是MPEG-1 Layer3音频文件。音频文件。MPEG音频编码是国际上公认的高保真立体音频编码是国际上公认的高保真立体声音频压缩标准。声音频压缩标准。MPEG-1声音标准其音频编码分为声音标准其音频编码分为3层：层：Laer-1、Layer-2和和Layer-3。Layer 3的压缩比为的压缩比为1:101:12，压缩码率，压缩码率可以达到可以达到64kb/s。3.3 音频信号压缩编码音频信号压缩编码音频信息编码技术可分为三类
13、：音频信息编码技术可分为三类：u波形编译码器（波形编译码器（waveform coder）：）：波形编码是基于对语音信号波形的数字化处波形编码是基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形与原语理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。音信号波形保持一致。例如例如PCM、DPCM、ADPCM等。等。u音源编译码器（音源编译码器（Source coder）：也叫）：也叫参数编译码器、声码器（参数编译码器、声码器（vocoder）。）。它从话音波形信号中提取话音生成模型的参它从话音波形信号中提取话音生成模型的参数，使用这些参数通过话音生成模型重构出数，使用这些参
14、数通过话音生成模型重构出话音。话音。这种编码的特点是语音编码速率较低，基本这种编码的特点是语音编码速率较低，基本上在上在2kbits9.6kbits之间。之间。u混合编译码器（混合编译码器（Hybrid coder）：综）：综合使用上述两种技术。使用的激励信号波合使用上述两种技术。使用的激励信号波形尽可能接近于原始话音信号的波形。形尽可能接近于原始话音信号的波形。采用混合编码的编码器有：采用混合编码的编码器有：多脉冲激励线性预测编码器（多脉冲激励线性预测编码器（MPE-LPC），规则脉冲激励线性预测编码器），规则脉冲激励线性预测编码器（RPE-LPC）等。）等。一、脉冲编码调制（一、脉冲编码调
15、制（PCM）Pulse Code Modulation若输入的音频信号是话音信号，使用若输入的音频信号是话音信号，使用8 kHz采样频率进行均匀采样，而后再将每采样频率进行均匀采样，而后再将每个样本编码为个样本编码为8位二进制数字信号，则我们位二进制数字信号，则我们就可以得到数据率为就可以得到数据率为64 kb/s的的PCM信号，信号，这就是典型的脉冲编码调制。这就是典型的脉冲编码调制。PCM的量化方式的量化方式均匀量化与非均匀量化均匀量化与非均匀量化u非均匀量化非均匀量化对小信号采用小的量化间隔，对大信号采用对小信号采用小的量化间隔，对大信号采用大的量化间隔。大的量化间隔。对大信号，由于：对
16、大信号，由于：（1）大信号出现的机会不多）大信号出现的机会不多（2）信噪比（相对误差）与小信号是一致的）信噪比（相对误差）与小信号是一致的所以对总的话音质量影响不大。所以对总的话音质量影响不大。非均匀量化也是一种压缩。非均匀量化也是一种压缩。律压扩与律压扩与A律压扩律压扩律律(-Law)压扩压扩(G.711)主要用在北主要用在北美和日本等地区的数字电话通信中。美和日本等地区的数字电话通信中。x 为输入信号，规格化为为输入信号，规格化为1=x=1 为确定压缩量的参数，它反映最大量化为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取间隔和最小量化间隔之比，取100=500。A律律(A-
17、Law)压扩压扩(G.711)主要用在欧洲主要用在欧洲和中国大陆等地区的数字电话通信中。和中国大陆等地区的数字电话通信中。0=|x|=1/A1/A=|x|=1PCM与时分多路复用（与时分多路复用（TDM）二、差分脉冲编码调制（二、差分脉冲编码调制（DPCM）基本出发点：对相邻样值的差值进行量基本出发点：对相邻样值的差值进行量化编码。化编码。在具体的实现过程中，是对样值与对应在具体的实现过程中，是对样值与对应的预测值的差值进行量化编码的。的预测值的差值进行量化编码的。对一个话音信号的样值序列，当前样值对一个话音信号的样值序列，当前样值的预测值可以由其前面的若干个样值来的预测值可以由其前面的若干个
18、样值来进行预测，若样值序列表示为：进行预测，若样值序列表示为：NNyyyy,121Ny 为当前值，则对当前样值完整的预测为当前值，则对当前样值完整的预测表达式由下式表示：表达式由下式表示：NiiiNNNyayayayay1112211当前值与预测值的差为：当前值与预测值的差为：式中式中,ai 为预测系数。如果为预测系数。如果ai是常数，则是常数，则为时不变线性预测；为时不变线性预测；否则若预测系数随输入信号而变化时就是否则若预测系数随输入信号而变化时就是自适应预测。自适应预测。NNyye0量化器预测器xkekekxkxk-自适应预测逆量化器自适应量化阶ek产生误差编码过程编码过程逆量化器预测器
19、ekekxkxk译码过程译码过程x0121123344x0012112334e011-1011010最简单的最简单的DPCM三、增量调制三、增量调制(M)增量调制增量调制(delta modulation，DM)是一是一种预测编码技术，是对实际的采样信号与种预测编码技术，是对实际的采样信号与预测的采样信号（在编码端由前一个输入预测的采样信号（在编码端由前一个输入信号的编码值经解码器解码可得到下一个信号的编码值经解码器解码可得到下一个信号的预测值）之差的极性进行编码，将信号的预测值）之差的极性进行编码，将极性变成极性变成“0”和和“1”这两种可能的取值之这两种可能的取值之一。一。如果实际的采样信
20、号与预测的采样信号之差如果实际的采样信号与预测的采样信号之差的极性为的极性为“正正”，则用，则用“1”表示；相反则用表示；相反则用“0”表示。表示。DM编码系统又称为编码系统又称为“1位系位系统统”。下图纵坐标表示输入的模拟电压，下图纵坐标表示输入的模拟电压，横坐标横坐标表示随时间增加而顺序产生的表示随时间增加而顺序产生的DM码。码。图中图中虚线表示输入的音频模拟信号。虚线表示输入的音频模拟信号。出现的问题：出现的问题：1、斜率过载、斜率过载当输入信号变化比较快时，编码器的输出无当输入信号变化比较快时，编码器的输出无法跟上信号的变化，从而会使重建的模拟信法跟上信号的变化，从而会使重建的模拟信号
21、发生畸变，这就是所谓的号发生畸变，这就是所谓的“斜率过载斜率过载”。2、散粒噪声、散粒噪声当输入信号没有变化时，预测信号和输当输入信号没有变化时，预测信号和输入信号的差会十分接近，这时，编码器入信号的差会十分接近，这时，编码器的输出是的输出是0和和1交替出现的，这种现象就交替出现的，这种现象就叫做增量调制的叫做增量调制的“散粒噪声散粒噪声”。四、自适应增量调制四、自适应增量调制(ADM)在在ADM中，中，常用的规则有两种：常用的规则有两种：一类是控制可变因子一类是控制可变因子M，使量化阶距，使量化阶距在一定范围内变化。对于每一个新的在一定范围内变化。对于每一个新的采样，其量化阶距为其前面数值的
22、采样，其量化阶距为其前面数值的M倍。而倍。而M的值则由输入信号的变化率的值则由输入信号的变化率来决定。来决定。一类使用较多的自适应增量调制称为连一类使用较多的自适应增量调制称为连续可变斜率增量（续可变斜率增量（CVSD）调制。）调制。其工作原理如下：其工作原理如下：如果调制器（如果调制器（CVSD）连续输出三个相同的码，连续输出三个相同的码，则量化阶距则量化阶距加上一个大的增量，加上一个大的增量，也就是说，也就是说，因为因为三个连续相同的码表示有过载发生。三个连续相同的码表示有过载发生。五、自适应脉冲编码调制（五、自适应脉冲编码调制（APCM）六、自适应差分脉冲编码调制（六、自适应差分脉冲编码
23、调制（ADPCM）综合了综合了APCM的自适应特性和的自适应特性和DPCM系统系统的差分特性。的差分特性。ADPCM是利用样本之间的高度相关性和量化是利用样本之间的高度相关性和量化台阶自适应来压缩数据的一种波形编码技术。台阶自适应来压缩数据的一种波形编码技术。CCITT为此制定了为此制定了G.721推荐标准（推荐标准（32 kb/s ADPCM）。）。在此基础上制定了在此基础上制定了G.721的扩充推荐标准的扩充推荐标准G.723，使用该标准的编码器的数据率可降，使用该标准的编码器的数据率可降低到低到40 kb/s和和24 kb/s。七、子带编码七、子带编码图中发送端的图中发送端的n个带通滤波
24、器将输入信个带通滤波器将输入信号分为号分为n个子频带，对各个对应的子带个子频带，对各个对应的子带带通信号进行调制，将带通信号进行调制，将n个带通信号经个带通信号经过频谱搬移变为低通信号；过频谱搬移变为低通信号；对低通信号进行采样、量化和编码，得对低通信号进行采样、量化和编码，得到对应各个子带的数字流；再经复接器到对应各个子带的数字流；再经复接器合成为完整的数字流。经过信道传输到合成为完整的数字流。经过信道传输到达接收端。达接收端。在接收端，由分配器将各个子带的数字流在接收端，由分配器将各个子带的数字流分开，由译码器完成各个子带数字流的译分开，由译码器完成各个子带数字流的译码；由解调器完成信号的
25、频移，将个子带码；由解调器完成信号的频移，将个子带搬移到原始频率的位置上。搬移到原始频率的位置上。各子带相加就可以恢复出原来的语声信号。各子带相加就可以恢复出原来的语声信号。将语声信号分为若干个子带后再进行编码的将语声信号分为若干个子带后再进行编码的优点：优点：对不同的子带分配不同的比特数可以很好对不同的子带分配不同的比特数可以很好的控制各个子带的量化电平数，很好的控的控制各个子带的量化电平数，很好的控制在重建信号时的量化误差方差值，进而制在重建信号时的量化误差方差值，进而获得更好的主观听音质量。获得更好的主观听音质量。由于各个子带相互隔开，使各个子带的量由于各个子带相互隔开，使各个子带的量化
26、噪声也相互独立，互不影响，量化噪声化噪声也相互独立，互不影响，量化噪声被束缚在各自的子带内。这样，某些输入被束缚在各自的子带内。这样，某些输入电平比较低的子带信号不会被其它子带的电平比较低的子带信号不会被其它子带的量化噪声所淹没。量化噪声所淹没。子带划分的结果，使各个子带的采样频率子带划分的结果，使各个子带的采样频率大大的降低。大大的降低。八、变换域编码八、变换域编码将输入信号直接转换到频域，然后在频域将输入信号直接转换到频域，然后在频域划分各频段，根据不同的频段能量大小分划分各频段，根据不同的频段能量大小分配码字然后编码，接收方解码后再用相应配码字然后编码，接收方解码后再用相应的反变换转换成
27、时域信号。的反变换转换成时域信号。九、矢量量化九、矢量量化VQ(Vector Quantization)矢量量化矢量量化VQ，是将输入的信号样值按照，是将输入的信号样值按照某种方式进行分组，把每个分组看作是一某种方式进行分组，把每个分组看作是一个矢量，并对该矢量进行量化。个矢量，并对该矢量进行量化。信号序列输入构成矢量传送下标矢量输出接收下标搜索矢量码本查表矢量码本十、线性预测编码（十、线性预测编码（LPC）模拟信号参量译码A/D基音提取清/浊音判决预测系数分析信道参量量化编码低通D/A激励信号合成滤波器图 2-9 线性预测
28、 LPC编译码方框图Tp ia iau/vGG、Tpu/v在线性预测编码在线性预测编码LPC中，将语声信号简单的划中，将语声信号简单的划分为浊音信号和清音信号。根据语声信号的短分为浊音信号和清音信号。根据语声信号的短时分析和基音提取方法，可以用若干的样值对时分析和基音提取方法，可以用若干的样值对应的一帧来表示短时语声信号。应的一帧来表示短时语声信号。这样，逐帧将语声信号用基音周期这样，逐帧将语声信号用基音周期Tp，清，清/浊浊音音(u/v)判决，声道模型参数判决，声道模型参数ai和增益和增益G来表示。来表示。对这些参进数行量化编码，在接收端再进行语对这些参进数行量化编码，在接收端再进
29、行语声的合成。声的合成。3.4 语音压缩编码标准语音压缩编码标准3.4.1 常见音频编码标准常见音频编码标准1、采用波形编码的编码标准有、采用波形编码的编码标准有G.711标准、标准、G.721标准和标准和G.722G.711标准是标准是1972年制定的电话质量的年制定的电话质量的PCM语音压缩标准，采样频率为语音压缩标准，采样频率为8 kHz，每个样值采用每个样值采用8位二进制编码，因此其速率位二进制编码，因此其速率为为64 kb/s。G.721标准是标准是ITU-T于于1984年制定的，主年制定的，主要目的是用于要目的是用于64 kb/s的的A律和律和律律PCM与与32 kb/s的的ADP
30、CM之间的转换。之间的转换。它基于它基于ADPCM技术，采样频率为技术，采样频率为8 kHz，每个样值与预测值的差值用每个样值与预测值的差值用4位编码，其编位编码，其编码速率为码速率为32 kb/s，ADPCM是一种对中等质是一种对中等质量音频信号进行高效编码的有效算法之一。量音频信号进行高效编码的有效算法之一。G.722标准旨在提供比标准旨在提供比G.711或或G.721标标准压缩技术更高的音质，准压缩技术更高的音质，G.722编码采用编码采用了高低两个子带内的了高低两个子带内的ADPCM方案，即使方案，即使用子带用子带ADPCM(SB-ADPCM)编码方案。编码方案。2、采用混和编码方法的
31、编码标准有、采用混和编码方法的编码标准有 G.728标准、标准、G.729标准和标准和G.723.1标准。标准。G.728标准是一个追求低比特率的标准，标准是一个追求低比特率的标准，其速率为其速率为16 kb/s，其质量与，其质量与32 kb/s的的 G.721 标准相当。它使用了标准相当。它使用了LD-CELP（低延时码激励线性预测）算法。（低延时码激励线性预测）算法。G.729标准是标准是ITU-T为低码率应用设计而制为低码率应用设计而制定的语音压缩标准，其码率为定的语音压缩标准，其码率为8 kb/s，算算法相对比较复杂，采用码激励线性预测法相对比较复杂，采用码激励线性预测（CELP，Co
32、de Excitation Linear Prediction）技术。）技术。ITU-T颁布的语音压缩标准中码率最低的颁布的语音压缩标准中码率最低的G.723.1标准主要是用于各种网络环境中的标准主要是用于各种网络环境中的多媒体通信的。多媒体通信的。3、GSM音频编码标准音频编码标准是欧洲电信管理局下属的一个工作小组是欧洲电信管理局下属的一个工作小组CEPT-CCH-GSM（Group Special Mobile）的缩写。的缩写。GSM是欧洲采用的移动电话的压缩标准。是欧洲采用的移动电话的压缩标准。GSM采用的算法为长时预测规则码激励采用的算法为长时预测规则码激励RPE-LTP（Regula
33、r-Pulse Excitation/Long Term Prediction），），采样频率为采样频率为8 kHz，运行速率为运行速率为13 kb/s。3.4.2 MPEG音频编码标准音频编码标准MPEG-1声音标准规定其音频信号采样频率声音标准规定其音频信号采样频率可以有可以有32kHz、44.1kHz或或48kHz三种，三种，音频信号的带宽可以选择音频信号的带宽可以选择15kHz和和20kHz。其音频编码分为其音频编码分为3层：层：Laer-1、Layer-2和和Layer-3。1MPEG-1声音标准声音标准MPEG-1音频编码的信号频带是音频编码的信号频带是2020kHz，取样频率使用
34、的是，取样频率使用的是32kHz、44.1kHz和和48kHz，采用的编码算法是，采用的编码算法是感知子带编码。感知子带编码。Layer-1的编码的编码Layer-1的子带划分采用等带宽划分，分的子带划分采用等带宽划分，分为为32个子带，每个子带有个子带，每个子带有12个样本，心个样本，心理声学模型只使用频域掩蔽特性。理声学模型只使用频域掩蔽特性。Layer-2编码编码Layer-2编码在编码在Layer-1的基础上作了改的基础上作了改进。进。32个子带的划分是不等划分，其划个子带的划分是不等划分，其划分依据是临界频段。每个子带分为分依据是临界频段。每个子带分为3个个12样本组，这样每帧共有样
35、本组，这样每帧共有1152个样本。在个样本。在掩蔽特性方面除保留原有的频域掩蔽外还掩蔽特性方面除保留原有的频域掩蔽外还增加了时域掩蔽。另外在低频、中频和高增加了时域掩蔽。另外在低频、中频和高频段对位分配作了重新安排。频段对位分配作了重新安排。Layer-3编码（编码（MP3）Layer-3仍然使用不等长子带划分。仍然使用不等长子带划分。增加了霍夫曼编码器。滤波器组在原有的增加了霍夫曼编码器。滤波器组在原有的基础上增加了改进离散余弦基础上增加了改进离散余弦MDCT特性，特性，使得使得Layer3的播放器能更好地适应量化的播放器能更好地适应量化噪声噪声。2、MPEG-2 BC声音压缩标准声音压缩标
36、准MPEG-2 BC声音标准是在声音标准是在MPEG-1的基的基础上发展来的，是础上发展来的，是MPEG为多声道声音开为多声道声音开发的低码率编码方案，并与发的低码率编码方案，并与MPEG-1的声的声音标准保持后向兼容。音标准保持后向兼容。3、MPEG-2 AAC编码标准编码标准AAC(Advanced Audio Coding)采用感知编码方法，主要是利用听觉系统采用感知编码方法，主要是利用听觉系统的掩蔽特性来减少声音编码的数据量；并的掩蔽特性来减少声音编码的数据量；并且通过子带编码将量化噪声分散到各个子且通过子带编码将量化噪声分散到各个子带中，用全局的声音信号将噪声掩蔽掉。带中，用全局的声
37、音信号将噪声掩蔽掉。4、MPEG-4音频标准音频标准MPEG-4音频编码标准集成了从话音到高音频编码标准集成了从话音到高质量的多声道声音，从自然声音到合成声质量的多声道声音，从自然声音到合成声音。音。采用的编码方法有多种，包括参数编码、采用的编码方法有多种，包括参数编码、码激励线性预测编码码激励线性预测编码CELP、时间、时间/频率编频率编码、结构化声音码、结构化声音SA编码和文编码和文-语系统语系统TTS的合成声音。的合成声音。3.4.3 多媒体应用的语音编码器的选择多媒体应用的语音编码器的选择1可视电话可视电话/会议和远程教学会议和远程教学对于高速率、高可靠的网络（如对于高速率、高可靠的网
38、络（如ISDN、ATM和帧中继），选择最佳质量的和帧中继），选择最佳质量的G.722；如果带宽被限制在如果带宽被限制在56128 kb/s，则选择，则选择G.728；当速率降低时，则选择当速率降低时，则选择G.723.1。2.带有数据共享的商务会议带有数据共享的商务会议使用网络可能是企业使用网络可能是企业Intranet或者或者Internet。根据网络的服务质量和可用带宽，根据网络的服务质量和可用带宽，语音编语音编码的三个最佳选择是码的三个最佳选择是G.722、G.728和和G.729。3.单用户游戏单用户游戏倾向于在适用的语音编码器中选择速率最倾向于在适用的语音编码器中选择速率最低的。低的
39、。例如参数编码器的例如参数编码器的LPC。4.远程站点的多用户游戏远程站点的多用户游戏多用户游戏中，参加者可以相互交谈，有多用户游戏中，参加者可以相互交谈，有些情况下要求能够辨认参加者的声音，可些情况下要求能够辨认参加者的声音，可选择参数编码器。选择参数编码器。由于终端必须进行实时编码和解码，由于终端必须进行实时编码和解码，因此因此要求选择低复杂度的编码器。要求选择低复杂度的编码器。5.多媒体信息传送多媒体信息传送多媒体信息包括语音以及其他非语音信多媒体信息包括语音以及其他非语音信息，如文本、图形、图像、数据和视频信息，如文本、图形、图像、数据和视频信息。息。一般要求使用的编码必须满足公用标准
40、，一般要求使用的编码必须满足公用标准，可用可用G.729或或G.723.1 等编码器。等编码器。6.语音注释文档语音注释文档在多媒体文档中，语音或作为注解或作为在多媒体文档中，语音或作为注解或作为完整文档的一部分。完整文档的一部分。考虑存储空间，应当使用低速率编码器。考虑存储空间，应当使用低速率编码器。3.5 IP 电电话话技技术术发展历史：发展历史：u19951995年年2 2月，以色列的月，以色列的VocalTecVocalTec公司推出了客户端公司推出了客户端InternetInternet电话软件电话软件“InternetPhone“InternetPhone”，率先成，率先成
41、功地将功地将IPIP电话推向市场，此后，电话推向市场，此后，IPIP电话在全球范围电话在全球范围得到迅速发展。得到迅速发展。uIPIP电话（电话（IPPhoneIPPhone）是利用）是利用IPIP网（互联网）进行的网（互联网）进行的一种通信服务。最初它是在一种通信服务。最初它是在InternetInternet上实现的，因上实现的，因此通常有人称之为此通常有人称之为InternetInternet电话。电话。v最初，最初，IPIP电话的应用研究实验是在两台多媒体计算电话的应用研究实验是在两台多媒体计算机上进行的，通过在计算机上安装相应的软件和硬机上进行的，通过在计算机上安装相应的软件和硬件，
42、由计算机完成对话音的采集、数件，由计算机完成对话音的采集、数/模转换、压模转换、压缩缩/解压缩等的处理，通话双方在约定的时间同时解压缩等的处理，通话双方在约定的时间同时上网，建立连接后，通过全双工的声卡，打包后通上网，建立连接后，通过全双工的声卡，打包后通过过InternetInternet传送话音，解决了通过传送话音，解决了通过InternetInternet的的PCPC机机之间的实时数据传送问题。之间的实时数据传送问题。v这时也出现了一大批客户端软件开发商和相应的软这时也出现了一大批客户端软件开发商和相应的软件，比较有名的除了件，比较有名的除了Vocal TecVocal Tec开发的开发
43、的Internet Internet PhonePhone以外，还有微软的以外，还有微软的NetMeetingNetMeeting、IDTIDT的的Net2PhoneNet2Phone、NetspeakNetspeak的的Web PhoneWeb Phone和英特尔的和英特尔的Internet Video PhoneInternet Video Phone等。等。vInternetInternet、PCPC机、客户端软件的局限性，更趋向于机、客户端软件的局限性，更趋向于PSTNPSTN普通用户。普通用户。vIPIP网关的出现网关的出现v今天的今天的IPIP电话已经发展到：采用电话已经发展到：采
44、用IPIP电话网关实现电话网关实现PSTNPSTN和和InternetInternet的互通，进而实现电话到电话、的互通，进而实现电话到电话、PCPC机到电话的实时通信。机到电话的实时通信。IP电话指在以电话指在以IP协议的计算机网络协议的计算机网络中进行话音通信的系统，表示为中进行话音通信的系统，表示为VoIP（Voice Over IP）。）。其基本原理：通过语音压缩算法对语音信其基本原理：通过语音压缩算法对语音信号进行压缩编码处理，然后把这些语音数号进行压缩编码处理，然后把这些语音数据按据按TCP/IP标准进行打包，经过网络把数标准进行打包，经过网络把数据包发送到接收地；接收端把这些语音
45、数据包发送到接收地；接收端把这些语音数据包串起来，经过解码解压缩处理后恢复据包串起来，经过解码解压缩处理后恢复成原来的语音信号，从而达到由互联网传成原来的语音信号，从而达到由互联网传送语音的目的。送语音的目的。3.5.1 IP电话的实现方式电话的实现方式电话机到电话机或电话机到电话机或PC；PC到电话机或到电话机或PC；以太电话机到以太电话机或以太电话机到以太电话机或PC等。等。PC到到PC：最早的方式，终端配有：最早的方式，终端配有IP电话软件。电话软件。利用利用IP地址发出呼叫，地址发出呼叫，并采用语音压缩打包传并采用语音压缩打包传送方式，在送方式，在Internet上实现实时话音传送。上
46、实现实时话音传送。电话机到电话机：这是电话机到电话机：这是IP电话最主要的应用方式，电话最主要的应用方式，IP电话市场收入的主要来源。电话市场收入的主要来源。通过程控电话交换机将传统电话机连接到通过程控电话交换机将传统电话机连接到IP电话电话网关上，通过电话号码在网关上，通过电话号码在IP网上呼叫，发送端网网上呼叫，发送端网关鉴别主叫用户，在翻译电话号码关鉴别主叫用户，在翻译电话号码/网关网关IP地址地址后，发出后，发出IP电话呼叫，并与最近的被叫网关连接，电话呼叫，并与最近的被叫网关连接，同时完成话音编码和打包，最后接收端网关实现同时完成话音编码和打包，最后接收端网关实现拆包、解码和连接被叫
47、。拆包、解码和连接被叫。电话到电话到PC或或PC到电话：属于到电话：属于IP电话的附加应用，电话的附加应用，主要是为满足不同用户的需求，吸引更多用户主要是为满足不同用户的需求，吸引更多用户而开展的。它需要客户端软件和网关双方的支而开展的。它需要客户端软件和网关双方的支持。持。由网关负责由网关负责IP地址和电话号码的对应和翻译，地址和电话号码的对应和翻译，并完成话音编解码和打包。并完成话音编解码和打包。以太电话机是一种新型以太电话机是一种新型IP电话终端设备，它通电话终端设备，它通过以太网络接口直接连接至过以太网络接口直接连接至Internet，可通过，可通过IP地址或地址或E.164标准电话号
48、码，直接呼叫普通标准电话号码，直接呼叫普通电话机或电话机或PC。通过通过Web网页连接呼叫中心网页连接呼叫中心实现方式是在实现方式是在Web网页上建立一个与电话网页上建立一个与电话中心连接的图标，用户只需点击这个图标就可中心连接的图标，用户只需点击这个图标就可以通过以通过Internet连接到呼叫中心并实现通话。连接到呼叫中心并实现通话。这种方式对那些有服务中心、技术支持和产品这种方式对那些有服务中心、技术支持和产品介绍的公司和企业来说非常有用，它加强了用介绍的公司和企业来说非常有用，它加强了用户与企业之间的联系。户与企业之间的联系。传真机到传真机传真机到传真机 IP电话网关通常还带有传真功
49、能，网关电话网关通常还带有传真功能，网关可以辨别呼叫是电话还是传真从而分别处理。可以辨别呼叫是电话还是传真从而分别处理。对于对于IP电话的业务商来说，电话的业务商来说，IP传真已成为一传真已成为一项非常重要的收入来源。项非常重要的收入来源。3.5.2 IP电话的系统构成电话的系统构成目前，目前，IP电话系统主要由电话系统主要由IP电话终端电话终端（Terminal）、网关（）、网关（Gateway）和网）和网守（守（Gatekeeper）多点接入控制单元）多点接入控制单元MCU（Multipoint Control Unit）等几）等几部分构成。部分构成。IP电话组成示意图 IP网本地电信网
50、网闸MCU网关网关LDAP目录服务器(a)P电话系统的基本构成微机微机电话机传真机集线器路由器路由器微机电话机微机集线器传真机微机微机微机微机调制解调器调制解调器调制解调器调制解调器本地电信网(a)IP电话系统的基本构成IP电话组成示意图 Internet/IPPSTNPSTNPSTN1 2 34 5 67 8 9*8#1 2 34 5 67 8 9*8#电话网关1 2 34 5 67 8 9*8#海西安沈阳支网闸业务管理中心计费中心网管中心用户认证中心数据库数据支持中心网关网关网关电话机上海电话机西安电话机传真机沈阳(b)我国IP电话系统组网结构1、IP电话终端电话终端有传统电话机、

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：多媒体技术与通信第3章课件.ppt
链接地址：https://www.163wenku.com/p-5188189.html

晟晟文业

内容提供者

实名认证

联系作者