文本与文本处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《文本与文本处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 处理 课件
- 资源描述:
-
1、第5章 数字媒体及应用5.1 文本与文本处理文本与文本处理 5.2 图像与图形图像与图形 5.3 数字声音及应用数字声音及应用5.4 数字视频及应用数字视频及应用5.1 文本与文本处理文本与文本处理 5.1.1 字符的编码字符的编码5.1.2 文本准备文本准备5.1.4 文本编辑、排版与处理文本编辑、排版与处理5.1.3 文本的分类文本的分类5.1.5 文本的展现文本的展现 文字处理是计算机应用的基础文字处理是计算机应用的基础n 计算机应用使用计算机进行信息处理计算机应用使用计算机进行信息处理n 其中,其中,文字信息处理是涉及面最广的一种计算机文字信息处理是涉及面最广的一种计算机应用,几乎与任
2、何领域任何人都有关。应用,几乎与任何领域任何人都有关。文字文字数值数值语言语言音乐音乐图像图像信息的形态有多种信息的形态有多种写作写作编辑编辑排版排版印刷印刷发行发行写作写作 传统的文字处理过程传统的文字处理过程计算机文字处理过程计算机文字处理过程n 文字信息在计算机中称为文字信息在计算机中称为“文本文本”(text),文本是计算机中最常),文本是计算机中最常用的一种数字媒体用的一种数字媒体n 文本由一系列文本由一系列“字符字符”(character)组成,每个字符均使用二进)组成,每个字符均使用二进制编码表示制编码表示n 文本在计算机中的处理过程是:文本在计算机中的处理过程是:(文本编辑器文
3、本编辑器)文本编辑文本编辑与排版与排版格式化的格式化的电子文本电子文本(2)文本文本展现展现(文本阅读器文本阅读器)(5)文本处理文本处理 (文本处理文本处理)(3)文本准备文本准备电子电子文本文本(1)(文字与图表文字与图表 的输入的输入)文本存储文本存储与传输与传输(4)(存档存档/通信软件通信软件)5.1.1.字符在计算机中的表示字符在计算机中的表示 字符、字符集及其编码表字符、字符集及其编码表 n 文字的基本元素是字母和符号,统称为文字的基本元素是字母和符号,统称为“字符字符”(character),它包括:字母、数字、标点、符号等,它包括:字母、数字、标点、符号等n 字符集:一组特定
4、字符的集合字符集:一组特定字符的集合n 不同的字符集包含的字符数目与内容不同,如:不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n 字符的编码:字符的编码:n 字符集中每个字符的二进位表示,称为该字符的编码或代码字符集中每个字符的二进位表示,称为该字符的编码或代码(code)n 不同的字符其编码各不相同不同的字符其编码各不相同复习:西文字符的编码复习:西文字符的编码ASCII码码n 西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、数字、标点符号,它由拉丁字母、数字、标点符号以及一些特殊符号所组成以及一些特殊符号
5、所组成n 美国标准信息交换码美国标准信息交换码(ASCII码码):n ASCII字符集包含字符集包含96个可打印字符和个可打印字符和32个控制字符个控制字符n 采用采用7个二进位进行编码个二进位进行编码n 计算机中使用计算机中使用1个字节存储个字节存储1个个ASCII 字符字符n 存在问题:存在问题:n 字符集太小(只有字符集太小(只有128个字符)个字符)n 不同国家和地区使用不同的字符集及其编码,互不兼容不同国家和地区使用不同的字符集及其编码,互不兼容0X X X X X X X汉字如何编码?汉字如何编码?n 汉字是记录汉语(国语,华语)的文字,属于表汉字是记录汉语(国语,华语)的文字,属
6、于表意文字,它用符号直接表达词或词素,有多个国意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马家和地区使用(中、日、韩、新、马)n 汉字的特点汉字的特点n数量大;字形复杂,同音字多,异体字多数量大;字形复杂,同音字多,异体字多n 如何编码?如何编码?n确定收入多少字、哪些字?确定收入多少字、哪些字?n在字符集中如何排列?在字符集中如何排列?n使用多少个二进位进行编码?使用多少个二进位进行编码?常用的汉字编码字符集常用的汉字编码字符集n国家标准国家标准GB2312-1980n汉字扩充规范汉字扩充规范 GBK(已被已被GB 18030取代取代)n国家标准国家标准GB180
7、30-2005n港澳台使用的汉字编码字符集港澳台使用的汉字编码字符集CNS 11643(BIG 5,俗称,俗称“大五码大五码”)nUCS/Unicode多文种大字符集多文种大字符集nUnicode的的UTF-8nUnicode的的UTF-16一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312汉字编码字符集汉字编码字符集n 1980年颁布信息交换用汉字编码字符集年颁布信息交换用汉字编码
8、字符集基本基本集集GB2312-1980n GB2312字符集由三个部分构成:字符集由三个部分构成:拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名与片假名、名与片假名、希腊字母、汉希腊字母、汉语拼音等共语拼音等共682个个共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字和符号都有一汉字和符号都有一个确定位置个确定位置GB2312汉字的编码汉字的编码n 每一个每一个GB2312汉字使用汉字使用16位位(2个字节个字节)表示表示n 为了与为了与ASCII字符相区别,每个字节的最高位均字符相区别,每个字节的最高位均为为“1”n 例如:例如:“南南”字的代码是字的代码是1100010
9、0 11001111(用十六进制表示为(用十六进制表示为C4CF)11第第1字节字节第第2字节字节X X X X X X XX X X X X X XGBK汉字内码扩充规范汉字内码扩充规范 n GB2312的不足:的不足:n 汉字字数太少,缺少繁体字汉字字数太少,缺少繁体字,无法满足无法满足人名、地名、古籍整理、人名、地名、古籍整理、古典文献研究古典文献研究等应用的需要;与等应用的需要;与ASCII码不兼容码不兼容n GBK汉字内码扩充规范(汉字内码扩充规范(1995):):n 在在GB2312基础上,增加了基础上,增加了1万多汉字万多汉字(包括繁体字包括繁体字)和符号和符号n 共有共有210
10、03个汉字和个汉字和883个图形符号,如个图形符号,如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁体字和生僻字等繁体字和生僻字 n 与与GB8312保持向下兼容,也使用双字节表示,第保持向下兼容,也使用双字节表示,第1字节最高位必字节最高位必须为须为“1”:1 X第第1字节字节第第2字节字节X X X X X X XX X X X X X XUCS/Unicode多文种大字符集多文种大字符集n 背景:为了实现全球数以千计的不同语言文字的统一编码背景:为了实现全球数以千计的不同语言文字的统一编码n 方案:方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一将全球所有文字字母和符号集中在
11、一个字符集中进行统一编码编码(目前共收集了目前共收集了17x2161,114,112 个个),称为,称为UCS/Unicoden UCS/Unicode的编码方案:的编码方案:n 先实现部分字符的编码(近先实现部分字符的编码(近11万个字符)万个字符)n 尽量与已有编码标准兼容尽量与已有编码标准兼容n 包含有中、日、韩统一整理出来的约包含有中、日、韩统一整理出来的约7万汉字(称万汉字(称CJK汉字)汉字)n 允许有若干不同的编码方案允许有若干不同的编码方案,常用的两种是:常用的两种是:单字节:单字节:ASCII字符字符双字节:拉丁、希腊、阿拉伯,双字节:拉丁、希腊、阿拉伯,三字节:三字节:CJ
12、K汉字汉字四字节:其他四字节:其他Unicode:UTF-8 单字节可变长编码单字节可变长编码应用:应用:Linux,Web网页,电子邮件网页,电子邮件双字节:双字节:ASCII字符、拉丁、希腊、字符、拉丁、希腊、阿阿 拉伯,常用拉伯,常用CJK汉字,汉字,四字节:非常用四字节:非常用CJK汉字汉字Unicode:UTF-16双字节可变长编码双字节可变长编码应用:应用:Windows,Mac,Java,GB18030汉字编码标准汉字编码标准n 背景:无论是背景:无论是Unicode的的UTF-8还是还是UTF-16,其,其CJK汉字字符集虽然汉字字符集虽然覆盖了我国已使用多年的覆盖了我国已使用
13、多年的GB2312和和GBK标准中的汉字,但它们的标准中的汉字,但它们的编编码并不相同码并不相同n 为了既能与为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在汉字信息资源,我国在2000年和年和2005年两次发布年两次发布GB18030汉字编码汉字编码国家标准国家标准。n GB18030实质上是实质上是UCS/Unicode字符集的另一种编码方案:字符集的另一种编码方案:n 单字节编码(单字节编码(128个)表示个)表示ASCII字符字符n 双字节编码(双字节编码(23940个)表示汉字,与个)表示汉字,与GBK(以及
14、(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用n 四字节编码(约四字节编码(约158万个)用于表示万个)用于表示 UCS/Unicode中的其他字符中的其他字符n GB18030目前已在我国信息处理产品中强制贯彻执行。目前已在我国信息处理产品中强制贯彻执行。标准名称标准名称GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763个汉字个汉字(简简体字体字)21003个汉字个汉字(包括(包括GB2312汉字在内)汉字在内)近近3万汉字万汉字(包括包括GBK汉字汉字和和CJK及其扩及其扩充中的汉字充中的汉字)包含近包含近11万字符,其万字符,其中的
15、汉字与中的汉字与GB18030相同相同编码方法编码方法双字节存储和双字节存储和表示,每个字表示,每个字节的最高位均节的最高位均为为“1”双字节存储和表双字节存储和表示,第示,第1个字节个字节的最高位必为的最高位必为“1”部分双字节、部分双字节、部分部分4字节表示,字节表示,双字节表示方双字节表示方案与案与GBK相同相同(1)UTF-8采用单字节采用单字节可变长编码可变长编码(2)UTF-16采用双字采用双字节可变长编码节可变长编码兼容性兼容性编码编码不兼容!不兼容!小结:几种汉字编码的对比小结:几种汉字编码的对比编码保持向下兼容编码保持向下兼容小结:不同标准,不同的表示!小结:不同标准,不同的
16、表示!n 与字符的编码一样,图像、声音、视频等也分别有许多编码标与字符的编码一样,图像、声音、视频等也分别有许多编码标准:国际标准准:国际标准(ISO)、国家标准、国家标准(GB)、工业标准、企业标准等,、工业标准、企业标准等,这也是信息处理复杂性的原因之一。这也是信息处理复杂性的原因之一。n由于经济利益和政治体制等多种原因,相同的信息在计算机由于经济利益和政治体制等多种原因,相同的信息在计算机中可以有不同的表示,即采用不同的编码进行表示中可以有不同的表示,即采用不同的编码进行表示n例如:例如:“南京大学南京大学1234ABCD”的的3种表示:种表示:C4CFBEA9B4F3 D1A731 3
17、2 33 34 41 42 43 44E5 8D97 E4 BAACE5 A4A7E5 ADA631 32 33 34 41 42 43 4457 53 AC4E 27 59 66 5B31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00GBUTF-8UTF-165.1.2.文本准备文本准备 文稿如何输入计算机文稿如何输入计算机 文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入(1)数字编码数字编码,如电报码、区位码等如电报码、区位码等,(2)字音编码字音编码,如智能如
18、智能ABC等等(3)字形编码,如五笔字形和表形码等字形编码,如五笔字形和表形码等,(4)形音编码形音编码发展趋势:基于统计和学习功能的以词语发展趋势:基于统计和学习功能的以词语(短语短语)或句子作为输入单或句子作为输入单位的输入方法位的输入方法文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,流畅自然,流畅小型化,适合移动计算小型化,适合移动计算不足:不足:识别速度和正确性还需提高识别速度和正确性还需提高书写要求还要降低书写要求还要降低文字符号输入计算机的方法文字符号输入
19、计算机的方法键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,方便,适合移动计算自然,方便,适合移动计算不足:不足:对说话人、说话方式、说话内容的对说话人、说话方式、说话内容的适应能力要大适应能力要大大增强大增强识别速度和正确性还需大大提高识别速度和正确性还需大大提高文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入扫描仪扫描仪OCR数字数字文本文本纸介质纸介质文
20、本文本文本的文本的映象映象(image)识别率已达到识别率已达到98%功能功能:简、繁体字简、繁体字混合识别混合识别 中文、西文混合识别中文、西文混合识别 文字、表格混合识别文字、表格混合识别 智能校对功能智能校对功能文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别手写体识别手写体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入 技术上非常困难,还无法实用技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别目前准备先突破工整的楷书手写体的识别!汉字的键盘输入汉字的键盘输入n 汉字与键盘
展开阅读全文