数字媒体技术基础第三章数字音频处理技术课件.pptx

上传人（卖家）：三亚风情

文档编号：3324623

上传时间：2022-08-20

格式：PPTX

页数：48

大小：8.54MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数字媒体技术基础第三章数字音频处理技术课件.pptx》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数字媒体技术基础第三数字音频处理课件

资源描述：: 1、第三章数字音频处理技术第一节数字音频基础一、声学基础：1、声音的三个物理量：响度、音调、音色。2、室内声场中声能结构：直达声、早期反射声、混响声。第一节数字音频基础 3、模拟音频信号的产生与再生第一节数字音频基础二、音频的数字化第一节数字音频基础三、立体声与三维立体声技术第一节数字音频基础第一节数字音频基础四、数字音频的文件格式 1、WAV 波形文件。是非常流行的音频文件格式，占有磁盘空间较大。2、是音质最好的音频格式之一，采样率及量化位数较高。3、MP123文件。其中MP3是目前最为流行的音乐文件格式。4、VQF文件：雅马哈公司特有的文件格式，压缩后文件可比MP3小30%50%
2、，但支持软件不多。所以影响力不大。第一节数字音频基础5、AIFF文件；音频交换文件格式，可广泛用于其它类型的计算机平台。6、RealAudio文件：流媒体文件格式，普遍用于网络音频传播。7、WMA文件：微软公司开发的流媒体文件格式，音质好于MP3。8、MIDI文件：计算机记录音乐的一种格式，不能用于语音场合。第二节数字音频压缩技术第二节数字音频压缩技术一、数字音频压缩方法分类 1、无损压缩：它利用数据统计冗余进行压缩，根据信源符号出现概率的分布特性进行压缩编码，在信源符号与码字之间明确的一一对应关系，但压缩率受统计冗余度的限制，一般为2：15：1。常用的编码方法为哈夫曼编码和游程编码。第
3、二节数字音频压缩技术(1)霍夫曼编码霍夫曼编码是哈夫曼于1952年提出的一种代码长度不均匀的编码方法。它的基本原理是按信源符号出现的概率大小进行排序，出现概率大的分配短码，反之则分配长码。在分配码字时，需建立一株n阶完全二叉树。哈夫曼编码有时称为最佳编码，因为当符号的概率都是2的乘方时，哈夫曼编码中码字的平均长度达到最小的极限。即信源的熵。霍夫曼编码是消除编码冗余的最常用技术。第二节数字音频压缩技术假定要对下面这段歌词进行哈夫曼编码，Because Im bad，Im badcome On Bad，bad-really,really bad You know Im bad，Im bad-
4、Bad，bad-really，rea1ly bad You know Im bad，Im badCome on,you know Bad，bad really，really bad第二节数字音频压缩技术第二节数字音频压缩技术第二节数字音频压缩技术第二节数字音频压缩技术结果，采用哈夫曼编码，大约可得到20%左右的压缩率。编码效率=1.59/2.32=69%第二节数字音频压缩技术(2)游程编码游程编码是一种简单的编码方式，在二值图像处理中应用较广。普遍用于传真系统中的信号编码。游程（行程）：指由信源字符或信号样值在数据流中重复出现的字符串长度。第二节数字音频压缩技术主要方法是将数据
5、中相同的符号串用一个游程长度（符号数）和一个代表值描述，并分别赋予不同的码字。编码方式有定长编码与变长编码两种。第二节数字音频压缩技术第二节数字音频压缩技术在对以上图像数据传输时，只要对上述扫描得到的13对数据编码传输，就可以在接收端恢复该图像的64个像素的灰度值。为了达到比较好的数据压缩效果，行程编码常常与其它一些编码技术结合使用。第二节数字音频压缩技术（3）算术编码算术编码是一种较好的统计编码，每一符号对应0，1上的一个子空间，区间长度为该符号出现的概率。该方法将被编码的符号串表示为一个0和1之间的一个区间。第二节数字音频压缩技术第二节数字音频压缩技术2、有损压缩普通的无损压
6、缩方法对信号的保真度高，但是信号传输占用带宽较宽，保存占有磁盘空间较大。所以，压缩技术的发展拓展了数字技术发展的平台。第二节数字音频压缩技术2.2.2 时域波形编码时域波形编码音频质量好，但压缩比不大。基本方法为：差值量化、自适应预测编码、增量调制等。差分脉冲编码（DPCM）：利用取样值之间的差值作为编码的依据。从而减少码字。增量调制（DM）：用一个比特的两种状态表示相邻取样值的增加与减少关系。第二节数字音频压缩技术2.2.3 感知编码：1、心理声学模型 2、感知编码：用一个随音频信号而定的听力门限和原有音频进行比较，对于哪些低于门限（人耳无法分辨）的信号，略过编码或者减少比特位。以降低
7、编码后的总比特位。3、频域压缩编码：分为子带编码和变换编码。把音频信号变换到频域，用心理声学模型中的掩蔽曲线作为对数据进行压缩的参照，对筛选出来的信息进行编码。第二节数字音频压缩技术2.2.4 音频压缩标准 1、MPEG-1音频标准：属于感知编码类型。它规定了三个不同层次的编码方案。、层建立在掩蔽模式通用子带和多路复用编码算法的基础之上。层次编码复杂程度较大，应用于目前常见的MP3音频文件编码。2、MPEG-2音频标准：经历了三个阶段，前两个阶段增加了低取样频率的应用，同时增加了单声道、双声道立体声、5.1声道立体声应用。有向后兼容的特点。第三阶段支持多声道应用，不向后兼容。第二节数字音频
8、压缩技术MPEG-4 标准标准MPEG-4研究的目的是解决低比特率下的多媒体窄宽传输、高画质压缩、交互性操作以及如何将自然物体与人造物体相溶合的表达方式，并特别强调广泛的适应性和可扩展性。MPEG-4音频结构包括：传统的音频编码标准；独特的音频结构；合成/自然混合编码方法。从而解决了高质量音频在窄带中传输的问题。第二节数字音频压缩技术Dolby AC-3音频标准音频标准是一款由杜比实验室开发的数字式多声道环绕式立体声系统。系统由“左声道”、“中置声道”、“右声道”、后置的“左环绕声道”和“右环绕声道”五个全频域声道加一个超低音声道（频率响应为3-120Hz）组成。前置的左、右音箱，中置音箱
9、产生极有深度感和定位明确的音场，两个后置或侧置的环绕音箱和超低音箱表现宽广壮阔的音场，全频段的细节十分丰富，具有真正的立体声。第三节计算机音乐1、数字式电子合成器模拟电子合成器是用电子元件制成信号发生器来产生声音信号中的各种频率成分。而数字式电子合成器则是由数字方法造成波形然后转换为声音信息。第三节计算机音乐第三节计算机音乐2、MIDI(乐器数字接口)通过电缆将电子音乐设备（MIDI键盘）与计算机连接起来，与相关软件相配合进行电脑作曲。1、MIDI输入单元（硬件设备）：输入作曲旋律。2、编辑控制单元（计算机软件）：记录相关信息 3、音源单元（音乐合成器）：合成音乐。第三节计算机音乐M
10、IDIMIDI键盘键盘MIDIMIDI链接电缆链接电缆声卡的声卡的MIDIMIDI接口和游接口和游戏杆接口是共用的。戏杆接口是共用的。第三节计算机音乐第三节计算机音乐3、数字音频工作站（1）数字音频工作站是一种集中多种音频处理工具，以计算机软硬件平台为主的数字音频制作系统。第三节计算机音乐（2）数字音频工作站的功能具有专业要求的声音录入和声音播放。具备录音、放音、与音乐合成功能。方便快捷的音乐剪辑功能。具备数字效果处理功能。第三节计算机音乐Pocketstudio 5 是一方便移动的4轨数字录音机，使用Flash卡用作存储载体。除了它的四个音频轨用于人声，吉他以及其它乐器外，Poc
11、ketstudio 5 还带有一个内置的MIDI音源，因此它也可以被用作音序播放器，而且四音轨可同时播放。它本身自带100首标准的MIDI文件，插上卡就可以享受多种背景音乐风格！另外，它还增加了超过100种自带的效果。第三节计算机音乐罗兰 VS2480通道数字音频工作站 VS-2480 VS-2480也是一个集录音机也是一个集录音机调音台，和效果器于一体的调音台，和效果器于一体的产品。具有产品。具有2424轨同时播放，轨同时播放，2424比特比特AD/DAAD/DA转换，转换，96KHZ96KHZ采采样频率，样频率，1717个电动推子，个电动推子，LCDLCD液晶显示屏。液晶显示屏。更令人
12、振奋的是，更令人振奋的是，VS-2480VS-2480可以象电脑那样操作，可以象电脑那样操作，第四节数字语音处理技术1、语音合成语音合成最基本的目的是让机器模仿人类的语言发声来传送信息。例如：常见的自动化语音服务系统。（1）波形编码语音合成：以语句、短句、词和音节为合成单元，这些单元被分别录音后，直接进行数字编码，经适当数据压缩后组成数字语音库。重放时，根据待输出的信息，在语音库中取出相应单元的波形数据，串接或编辑在一起，经解码还原出声音。第四节数字语音处理技术（2）基音同步叠加法（PSOLA），在拼接语音波形片断之前，根据上下文要求，对拼接单元的韵律特征进行调整，使合成波形既保持原有
13、的音段特征，又能使拼接单元韵律特征符合上下文要求。Sonic文语转换系统：这是清华大学计算机系基于波形编辑的汉语文语转换系统。该系统利用汉语词库进行分词，并且根据语音学研究的成果建立了语音规则，对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征，提高了言语输出的质量。第四节数字语音处理技术（3）参数语音分析合成按照语言理论，对所有合成单元的语音进行分析，一帧一帧地提取有关语音参数，以音节、半音节或音素为合成单元，组成一个合成语音库，输出时，根据带合成的语音信息，从语音库中提取相关信息进行合成。3、规则语音合成除提取有关语音参数外，在存储语音组成规则。语音合成过
14、程较复杂。音质一般。第四节数字语音处理技术（4）文语转换系统以文字串为语音合成对象，对文字进行正确理解后调用语音库数据进行语音合成。是一个语义、语音转换的人工智能系统。第四节数字语音处理技术2、语音增强主要目的是消除原有语音中的噪声。（1）噪声对消法（2）谐波增强法（3）基于参数估计的语音合成法。第四节数字语音处理技术3、语音识别语音识别技术集声学、语音学、计算机、信息处理和人工智能等诸多领域的一项综合技术。是多媒体领域目前研究的热点。目的是让机器能听懂人的语言第四节数字语音处理技术4、汉语语音识别（1）汉语与其它语言有着截然不同的特点：以字为最小语音单位，而且每一个汉字的发音
15、对应与一个音节，在常用的6000多个汉字中，全部语音音节只有1281个，如果不考虑声调中的四声，汉语无调音节只有412个。所以，以音节作为语音合成的基本单位，历来是汉语语音合成的常用方法。第四节数字语音处理技术（2）语音特征参数的提取 LPC倒谱系数分析法。Mel倒谱系数感知线性预测。小波变换系数分析法（3）模式识别匹配动态时间规整技术隐马尔科夫模型技术人工神经网络技术混合型模式匹配技术自适应鲁棒性踏实，奋斗，坚持，专业，努力成就未来。22.8.1222.8.12Friday,August 12,2022弄虚作假要不得，踏实肯干第一名。21:10:1021:10:1021:108/12
16、/2022 9:10:10 PM安全象只弓，不拉它就松，要想保安全，常把弓弦绷。22.8.1221:10:1021:10Aug-2212-Aug-22重于泰山，轻于鸿毛。21:10:1021:10:1021:10Friday,August 12,2022不可麻痹大意，要防微杜渐。22.8.1222.8.1221:10:1021:10:10August 12,2022加强自身建设，增强个人的休养。2022年8月12日下午9时10分22.8.1222.8.12追求卓越，让自己更好，向上而生。2022年8月12日星期五下午9时10分10秒21:10:1022.8.12严格把控质量关，让生产更加有保障
17、。2022年8月下午9时10分22.8.1221:10August 12,2022重规矩，严要求，少危险。2022年8月12日星期五21时10分10秒21:10:1012 August 2022好的事情马上就会到来，一切都是最好的安排。下午9时10分10秒下午9时10分21:10:1022.8.12每天都是美好的一天，新的一天开启。22.8.1222.8.1221:1021:10:1021:10:10Aug-22务实，奋斗，成就，成功。2022年8月12日星期五21时10分10秒Friday,August 12,2022抓住每一次机会不能轻易流失，这样我们才能真正强大。22.8.122022年8月12日星期五21时10分10秒22.8.12谢谢大家！谢谢大家！

展开阅读全文