书签 分享 收藏 举报 版权申诉 / 47
上传文档赚钱

类型文本与文本处理课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4673881
  • 上传时间:2022-12-31
  • 格式:PPT
  • 页数:47
  • 大小:1.11MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《文本与文本处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    文本 处理 课件
    资源描述:

    1、第5章 数字媒体及应用5.1 文本与文本处理文本与文本处理 5.2 图像与图形图像与图形 5.3 数字声音及应用数字声音及应用5.4 数字视频及应用数字视频及应用5.1 文本与文本处理文本与文本处理 5.1.1 字符的编码字符的编码5.1.2 文本准备文本准备5.1.4 文本编辑、排版与处理文本编辑、排版与处理5.1.3 文本的分类文本的分类5.1.5 文本的展现文本的展现 文字处理是计算机应用的基础文字处理是计算机应用的基础n 计算机应用使用计算机进行信息处理计算机应用使用计算机进行信息处理n 其中,其中,文字信息处理是涉及面最广的一种计算机文字信息处理是涉及面最广的一种计算机应用,几乎与任

    2、何领域任何人都有关。应用,几乎与任何领域任何人都有关。文字文字数值数值语言语言音乐音乐图像图像信息的形态有多种信息的形态有多种写作写作编辑编辑排版排版印刷印刷发行发行写作写作 传统的文字处理过程传统的文字处理过程计算机文字处理过程计算机文字处理过程n 文字信息在计算机中称为文字信息在计算机中称为“文本文本”(text),文本是计算机中最常),文本是计算机中最常用的一种数字媒体用的一种数字媒体n 文本由一系列文本由一系列“字符字符”(character)组成,每个字符均使用二进)组成,每个字符均使用二进制编码表示制编码表示n 文本在计算机中的处理过程是:文本在计算机中的处理过程是:(文本编辑器文

    3、本编辑器)文本编辑文本编辑与排版与排版格式化的格式化的电子文本电子文本(2)文本文本展现展现(文本阅读器文本阅读器)(5)文本处理文本处理 (文本处理文本处理)(3)文本准备文本准备电子电子文本文本(1)(文字与图表文字与图表 的输入的输入)文本存储文本存储与传输与传输(4)(存档存档/通信软件通信软件)5.1.1.字符在计算机中的表示字符在计算机中的表示 字符、字符集及其编码表字符、字符集及其编码表 n 文字的基本元素是字母和符号,统称为文字的基本元素是字母和符号,统称为“字符字符”(character),它包括:字母、数字、标点、符号等,它包括:字母、数字、标点、符号等n 字符集:一组特定

    4、字符的集合字符集:一组特定字符的集合n 不同的字符集包含的字符数目与内容不同,如:不同的字符集包含的字符数目与内容不同,如:中文字符集、西文字符集、日文字符集等中文字符集、西文字符集、日文字符集等n 字符的编码:字符的编码:n 字符集中每个字符的二进位表示,称为该字符的编码或代码字符集中每个字符的二进位表示,称为该字符的编码或代码(code)n 不同的字符其编码各不相同不同的字符其编码各不相同复习:西文字符的编码复习:西文字符的编码ASCII码码n 西文是表音文字西文是表音文字(拼音文字拼音文字),它由拉丁字母、数字、标点符号,它由拉丁字母、数字、标点符号以及一些特殊符号所组成以及一些特殊符号

    5、所组成n 美国标准信息交换码美国标准信息交换码(ASCII码码):n ASCII字符集包含字符集包含96个可打印字符和个可打印字符和32个控制字符个控制字符n 采用采用7个二进位进行编码个二进位进行编码n 计算机中使用计算机中使用1个字节存储个字节存储1个个ASCII 字符字符n 存在问题:存在问题:n 字符集太小(只有字符集太小(只有128个字符)个字符)n 不同国家和地区使用不同的字符集及其编码,互不兼容不同国家和地区使用不同的字符集及其编码,互不兼容0X X X X X X X汉字如何编码?汉字如何编码?n 汉字是记录汉语(国语,华语)的文字,属于表汉字是记录汉语(国语,华语)的文字,属

    6、于表意文字,它用符号直接表达词或词素,有多个国意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马家和地区使用(中、日、韩、新、马)n 汉字的特点汉字的特点n数量大;字形复杂,同音字多,异体字多数量大;字形复杂,同音字多,异体字多n 如何编码?如何编码?n确定收入多少字、哪些字?确定收入多少字、哪些字?n在字符集中如何排列?在字符集中如何排列?n使用多少个二进位进行编码?使用多少个二进位进行编码?常用的汉字编码字符集常用的汉字编码字符集n国家标准国家标准GB2312-1980n汉字扩充规范汉字扩充规范 GBK(已被已被GB 18030取代取代)n国家标准国家标准GB180

    7、30-2005n港澳台使用的汉字编码字符集港澳台使用的汉字编码字符集CNS 11643(BIG 5,俗称,俗称“大五码大五码”)nUCS/Unicode多文种大字符集多文种大字符集nUnicode的的UTF-8nUnicode的的UTF-16一级汉字一级汉字(3755个)个)二级汉字二级汉字(3008个)个)(扩充使用)(扩充使用)字母、数字和各种符号字母、数字和各种符号 19423位号位号 191655568794区区 号号(按汉语拼音排列按汉语拼音排列)(按偏旁部首排列按偏旁部首排列)GB2312汉字编码字符集汉字编码字符集n 1980年颁布信息交换用汉字编码字符集年颁布信息交换用汉字编码

    8、字符集基本基本集集GB2312-1980n GB2312字符集由三个部分构成:字符集由三个部分构成:拉丁字母、俄拉丁字母、俄文、日文平假文、日文平假名与片假名、名与片假名、希腊字母、汉希腊字母、汉语拼音等共语拼音等共682个个共共6763个汉字和个汉字和682个符号,个符号,每个每个汉字和符号都有一汉字和符号都有一个确定位置个确定位置GB2312汉字的编码汉字的编码n 每一个每一个GB2312汉字使用汉字使用16位位(2个字节个字节)表示表示n 为了与为了与ASCII字符相区别,每个字节的最高位均字符相区别,每个字节的最高位均为为“1”n 例如:例如:“南南”字的代码是字的代码是1100010

    9、0 11001111(用十六进制表示为(用十六进制表示为C4CF)11第第1字节字节第第2字节字节X X X X X X XX X X X X X XGBK汉字内码扩充规范汉字内码扩充规范 n GB2312的不足:的不足:n 汉字字数太少,缺少繁体字汉字字数太少,缺少繁体字,无法满足无法满足人名、地名、古籍整理、人名、地名、古籍整理、古典文献研究古典文献研究等应用的需要;与等应用的需要;与ASCII码不兼容码不兼容n GBK汉字内码扩充规范(汉字内码扩充规范(1995):):n 在在GB2312基础上,增加了基础上,增加了1万多汉字万多汉字(包括繁体字包括繁体字)和符号和符号n 共有共有210

    10、03个汉字和个汉字和883个图形符号,如个图形符号,如“計計算算機機”、冃冃、冄冄、円円、冇冇等繁体字和生僻字等繁体字和生僻字 n 与与GB8312保持向下兼容,也使用双字节表示,第保持向下兼容,也使用双字节表示,第1字节最高位必字节最高位必须为须为“1”:1 X第第1字节字节第第2字节字节X X X X X X XX X X X X X XUCS/Unicode多文种大字符集多文种大字符集n 背景:为了实现全球数以千计的不同语言文字的统一编码背景:为了实现全球数以千计的不同语言文字的统一编码n 方案:方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一将全球所有文字字母和符号集中在

    11、一个字符集中进行统一编码编码(目前共收集了目前共收集了17x2161,114,112 个个),称为,称为UCS/Unicoden UCS/Unicode的编码方案:的编码方案:n 先实现部分字符的编码(近先实现部分字符的编码(近11万个字符)万个字符)n 尽量与已有编码标准兼容尽量与已有编码标准兼容n 包含有中、日、韩统一整理出来的约包含有中、日、韩统一整理出来的约7万汉字(称万汉字(称CJK汉字)汉字)n 允许有若干不同的编码方案允许有若干不同的编码方案,常用的两种是:常用的两种是:单字节:单字节:ASCII字符字符双字节:拉丁、希腊、阿拉伯,双字节:拉丁、希腊、阿拉伯,三字节:三字节:CJ

    12、K汉字汉字四字节:其他四字节:其他Unicode:UTF-8 单字节可变长编码单字节可变长编码应用:应用:Linux,Web网页,电子邮件网页,电子邮件双字节:双字节:ASCII字符、拉丁、希腊、字符、拉丁、希腊、阿阿 拉伯,常用拉伯,常用CJK汉字,汉字,四字节:非常用四字节:非常用CJK汉字汉字Unicode:UTF-16双字节可变长编码双字节可变长编码应用:应用:Windows,Mac,Java,GB18030汉字编码标准汉字编码标准n 背景:无论是背景:无论是Unicode的的UTF-8还是还是UTF-16,其,其CJK汉字字符集虽然汉字字符集虽然覆盖了我国已使用多年的覆盖了我国已使用

    13、多年的GB2312和和GBK标准中的汉字,但它们的标准中的汉字,但它们的编编码并不相同码并不相同n 为了既能与为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在汉字信息资源,我国在2000年和年和2005年两次发布年两次发布GB18030汉字编码汉字编码国家标准国家标准。n GB18030实质上是实质上是UCS/Unicode字符集的另一种编码方案:字符集的另一种编码方案:n 单字节编码(单字节编码(128个)表示个)表示ASCII字符字符n 双字节编码(双字节编码(23940个)表示汉字,与个)表示汉字,与GBK(以及

    14、(以及GB2312)保持向)保持向下兼容,下兼容,GBK不再使用不再使用n 四字节编码(约四字节编码(约158万个)用于表示万个)用于表示 UCS/Unicode中的其他字符中的其他字符n GB18030目前已在我国信息处理产品中强制贯彻执行。目前已在我国信息处理产品中强制贯彻执行。标准名称标准名称GB2312GBKGB18030UCS-2(Unicode)字符集字符集6763个汉字个汉字(简简体字体字)21003个汉字个汉字(包括(包括GB2312汉字在内)汉字在内)近近3万汉字万汉字(包括包括GBK汉字汉字和和CJK及其扩及其扩充中的汉字充中的汉字)包含近包含近11万字符,其万字符,其中的

    15、汉字与中的汉字与GB18030相同相同编码方法编码方法双字节存储和双字节存储和表示,每个字表示,每个字节的最高位均节的最高位均为为“1”双字节存储和表双字节存储和表示,第示,第1个字节个字节的最高位必为的最高位必为“1”部分双字节、部分双字节、部分部分4字节表示,字节表示,双字节表示方双字节表示方案与案与GBK相同相同(1)UTF-8采用单字节采用单字节可变长编码可变长编码(2)UTF-16采用双字采用双字节可变长编码节可变长编码兼容性兼容性编码编码不兼容!不兼容!小结:几种汉字编码的对比小结:几种汉字编码的对比编码保持向下兼容编码保持向下兼容小结:不同标准,不同的表示!小结:不同标准,不同的

    16、表示!n 与字符的编码一样,图像、声音、视频等也分别有许多编码标与字符的编码一样,图像、声音、视频等也分别有许多编码标准:国际标准准:国际标准(ISO)、国家标准、国家标准(GB)、工业标准、企业标准等,、工业标准、企业标准等,这也是信息处理复杂性的原因之一。这也是信息处理复杂性的原因之一。n由于经济利益和政治体制等多种原因,相同的信息在计算机由于经济利益和政治体制等多种原因,相同的信息在计算机中可以有不同的表示,即采用不同的编码进行表示中可以有不同的表示,即采用不同的编码进行表示n例如:例如:“南京大学南京大学1234ABCD”的的3种表示:种表示:C4CFBEA9B4F3 D1A731 3

    17、2 33 34 41 42 43 44E5 8D97 E4 BAACE5 A4A7E5 ADA631 32 33 34 41 42 43 4457 53 AC4E 27 59 66 5B31 00 32 00 33 00 34 00 41 00 42 00 43 00 44 00GBUTF-8UTF-165.1.2.文本准备文本准备 文稿如何输入计算机文稿如何输入计算机 文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入(1)数字编码数字编码,如电报码、区位码等如电报码、区位码等,(2)字音编码字音编码,如智能如

    18、智能ABC等等(3)字形编码,如五笔字形和表形码等字形编码,如五笔字形和表形码等,(4)形音编码形音编码发展趋势:基于统计和学习功能的以词语发展趋势:基于统计和学习功能的以词语(短语短语)或句子作为输入单或句子作为输入单位的输入方法位的输入方法文字符号输入计算机的方法文字符号输入计算机的方法键盘输入键盘输入联机手写输入联机手写输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,流畅自然,流畅小型化,适合移动计算小型化,适合移动计算不足:不足:识别速度和正确性还需提高识别速度和正确性还需提高书写要求还要降低书写要求还要降低文字符号输入计算机的方法文字符号输入

    19、计算机的方法键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入优点:优点:自然,方便,适合移动计算自然,方便,适合移动计算不足:不足:对说话人、说话方式、说话内容的对说话人、说话方式、说话内容的适应能力要大适应能力要大大增强大增强识别速度和正确性还需大大提高识别速度和正确性还需大大提高文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入扫描仪扫描仪OCR数字数字文本文本纸介质纸介质文

    20、本文本文本的文本的映象映象(image)识别率已达到识别率已达到98%功能功能:简、繁体字简、繁体字混合识别混合识别 中文、西文混合识别中文、西文混合识别 文字、表格混合识别文字、表格混合识别 智能校对功能智能校对功能文字符号输入计算机的方法文字符号输入计算机的方法印刷体识别印刷体识别手写体识别手写体识别键盘输入键盘输入联机手写输入联机手写输入语音输入语音输入自动识别输入自动识别输入字符信息的输入字符信息的输入人工输入人工输入 技术上非常困难,还无法实用技术上非常困难,还无法实用目前准备先突破工整的楷书手写体的识别目前准备先突破工整的楷书手写体的识别!汉字的键盘输入汉字的键盘输入n 汉字与键盘

    21、上的键无法一一对应,因此必须使用汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的几个键来表示一个汉字,这就称为汉字的“键盘输入键盘输入编码编码”n 优秀的汉字键盘输入编码应具有的特点:优秀的汉字键盘输入编码应具有的特点:n易学习、易记忆易学习、易记忆n效率高效率高(平均击键次数较少平均击键次数较少)n重码少重码少n容量大容量大(可输入的汉字字数多可输入的汉字字数多)汉字键盘输入方法的比较汉字键盘输入方法的比较类型类型原理原理举例举例优点优点缺点缺点数字数字编码编码使用一串数字来表示使用一串数字来表示汉字汉字电报码电报码区位码区位码仅使用仅使用10个数个数字键字键难

    22、记忆难记忆字音字音编码编码把汉语的拼音作为汉把汉语的拼音作为汉字的输入编码字的输入编码智能智能ABC紫光华宇紫光华宇微软拼音输入微软拼音输入简单易学,适简单易学,适合于非专业人合于非专业人员员重码多,需增加选择操重码多,需增加选择操作,不会汉语拼音或不作,不会汉语拼音或不知道读音时无法使用知道读音时无法使用字形字形编码编码把汉字的部件或笔画把汉字的部件或笔画作为码元,按照汉字作为码元,按照汉字结构及其切分规则作结构及其切分规则作为编码依据,确定每为编码依据,确定每个汉字的输入代码个汉字的输入代码五笔字形五笔字形表形码表形码郑码郑码重码少、输入重码少、输入速度较快,适速度较快,适合于专业录入合于

    23、专业录入员、打字员使员、打字员使用用缺乏统一的规范,编码缺乏统一的规范,编码规则不易掌握规则不易掌握音形音形编码编码(或形音或形音编码编码)采用字音及字形两种采用字音及字形两种属性作为码元的汉字属性作为码元的汉字编码输入方法编码输入方法粤音输入法粤音输入法同上同上同时要掌握音、形两种同时要掌握音、形两种取码方法或规则,对普取码方法或规则,对普通用户比较困难通用户比较困难5.1.4 文本的编辑与排版文本的编辑与排版复习:使用复习:使用Word的操作流程的操作流程创建新文档或打开老文档创建新文档或打开老文档文稿输入文稿输入编辑编辑排版排版文档存盘、打印或发送文档存盘、打印或发送输入中西文字、符号输

    24、入中西文字、符号和图、表和图、表进行增、删、改操作,保进行增、删、改操作,保证文本的正确性证文本的正确性满足清晰、美观、便满足清晰、美观、便于使用等要求于使用等要求n 目的:确保文本内容正确无误目的:确保文本内容正确无误n 操作:对字、词、句和段落进行添加、删除、修操作:对字、词、句和段落进行添加、删除、修改等操作改等操作n MS Word的功能:的功能:n在文本的任何位置都可以在文本的任何位置都可以插入插入新的文字新的文字n从文本的任何位置都可以从文本的任何位置都可以删除删除不需要的文字不需要的文字n将一段文字从一处将一段文字从一处移动移动到另一处到另一处n将一段文字从一处将一段文字从一处复

    25、制复制到另一处到另一处n在文本中自动在文本中自动查找查找指定的词语指定的词语n用一个词语自动用一个词语自动替换替换文本中指定的词语文本中指定的词语文本编辑文本编辑(text editing)n 目的:使文本清晰、美观、目的:使文本清晰、美观、便于阅读便于阅读n 操作内容:对文本中的字操作内容:对文本中的字符、段落乃至整篇文章的符、段落乃至整篇文章的格式进行设计和调整,分格式进行设计和调整,分成成3个层次:个层次:n对字符格式进行设置对字符格式进行设置n对段落格式进行设置对段落格式进行设置n对文档页面进行格式设置对文档页面进行格式设置文本排版文本排版(Typesetting)设置字符的格式设置字

    26、符的格式n 字号字号(八号八号 初号初号,5磅磅72磅以上磅以上)1 1磅相当于磅相当于1/721/72英寸英寸 n 字体字体(宋体、宋体、楷体楷体、黑体黑体、仿宋仿宋、隶书隶书)n 字符的修饰字符的修饰n 字符的形状字符的形状(字形字形):正常、加粗、加粗、倾斜、加粗倾斜加粗倾斜n 字形的修饰:字形的修饰:下划线下划线、着重号、上下标、删除线、着重号、上下标、删除线n 字符的颜色字符的颜色n 字符的宽度字符的宽度n 字符的间距字符的间距n 字符的效果字符的效果n 字符的排列方向字符的排列方向Demo1n 什么是段落?用什么是段落?用“回车回车”相互隔开的一组文字相互隔开的一组文字n 段落格式

    27、的设置:段落格式的设置:n 段落的对齐方式段落的对齐方式(两端对齐、分散对齐、居中对齐、左对齐、两端对齐、分散对齐、居中对齐、左对齐、右对齐右对齐)n 段落的缩进方式段落的缩进方式(首行缩进、悬挂缩进、左缩进、右缩进首行缩进、悬挂缩进、左缩进、右缩进)n 段间距和段内行距段间距和段内行距n 使用编号和项目符号使用编号和项目符号n 段落段落添加边框和底纹添加边框和底纹n 首字下沉或悬挂首字下沉或悬挂n 段落与分页的关系段落与分页的关系设置段落的格式设置段落的格式Demo2控制段落的缩进控制段落的缩进n 段落缩进是指段落中的文本到正文区左、右边界的距段落缩进是指段落中的文本到正文区左、右边界的距离

    28、,包括段落左缩进、右缩进和首行缩进。其缩进的离,包括段落左缩进、右缩进和首行缩进。其缩进的距离可由水平标尺上对应的三个缩进标记来指示距离可由水平标尺上对应的三个缩进标记来指示左缩进标记左缩进标记首行缩进标记首行缩进标记右缩进标记右缩进标记右缩进右缩进左缩进左缩进首行缩进首行缩进正文区正文区右边界右边界正文区正文区左边界左边界悬挂缩进悬挂缩进标标记记n页面格式的设置:页面格式的设置:n设置纸张大小和页边距设置纸张大小和页边距n设置每页的行、列数目设置每页的行、列数目n设置分栏数目与格式设置分栏数目与格式n设置页码设置页码n设置页眉和页脚设置页眉和页脚 设置页面的格式设置页面的格式设置页面的分栏设

    29、置页面的分栏n“所见即所得所见即所得”(操作效果屏幕立即可见,打印结果操作效果屏幕立即可见,打印结果与屏幕所见完全相同)与屏幕所见完全相同)n 撤销撤销(undo)和恢复和恢复(redo)操作操作n 格式刷格式刷n 多种视图多种视图(大纲视图与大纲编辑大纲视图与大纲编辑)n 自动更正、自动套用格式、自动编号、自动图文自动更正、自动套用格式、自动编号、自动图文集集 n 自动保存功能和自动备份功能自动保存功能和自动备份功能n 样式、模板和向导样式、模板和向导(wizard)功能功能n 宏操作(宏操作(Macro)提高提高Word操作效率的若干措施操作效率的若干措施文本处理初步文本处理初步n使用计算

    30、机对文本中的字、词、短语、句子、篇章进行识别、转换、使用计算机对文本中的字、词、短语、句子、篇章进行识别、转换、分析、理解、压缩、加密和检索等有关的处理分析、理解、压缩、加密和检索等有关的处理n文本处理举例:文本处理举例:n字数统计,词频统计,简字数统计,词频统计,简/繁体相互转换,汉字繁体相互转换,汉字/拼音相互转换拼音相互转换n词语排序,词语错误检测,文句语法检查词语排序,词语错误检测,文句语法检查n自动分词,词性标注,词义辨识,大陆自动分词,词性标注,词义辨识,大陆/台湾术语转换台湾术语转换n关键词提取,文摘自动生成,文本分类关键词提取,文摘自动生成,文本分类n文本检索(关键词检索、全文

    31、检索),文本过滤文本检索(关键词检索、全文检索),文本过滤n文语转换(语音合成)文语转换(语音合成)n文种转换(机器翻译)文种转换(机器翻译)n篇章理解,自动问答,自动写作等篇章理解,自动问答,自动写作等n文本压缩,文本加密,文本著作权保护文本压缩,文本加密,文本著作权保护选讲:选讲:什么是文本处理什么是文本处理?例:例:Word 2003的文本处理功能的文本处理功能n 英文拼写检查和英文拼写检查和英语同义词检查英语同义词检查n 字数统计字数统计n 自动编写摘要自动编写摘要n 中文简繁体转换和术语转换中文简繁体转换和术语转换n 中英词语翻译中英词语翻译n 语法和格式检查语法和格式检查n 语音识

    32、别(口授命令和听写)语音识别(口授命令和听写)n 文档保护文档保护(防止打开或修改文档防止打开或修改文档)5.1.3 文本的分类文本的分类简单文本简单文本(纯文本纯文本)本本 书书 由由 南南 京京 大大 学学 出出 版版 社社 (P u b l i s h i n g H o u s e o f N a n j i n g U n i v e r s i t y )出出 版版 文文本本 没有字体、字号的变化,无图片和表格,也不能建立超链接,其没有字体、字号的变化,无图片和表格,也不能建立超链接,其文件后缀名是文件后缀名是.txt 在计算机中在计算机中.txt文件由一串字符代码所组成,几乎不包

    33、含任何其他文件由一串字符代码所组成,几乎不包含任何其他的格式信息和结构信息的格式信息和结构信息例:例:本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)(Publishing House of Nanjing University)出版出版文文本本在在计计算算机机中中的的表表示示 B1 BE CA E9 D3 C9 C4 CF BE A9 B4 F3 D1 A7 B3 F6 B0 E6 C9 E7 28 50 75 62 6C 69 73 68 69 6E 67 20 48 6F 75 73 65 20 6F 66 20 4

    34、E 61 6E 6A 69 6E 67 20 55 6E 69 76 65 72 73 69 74 79 29 B3 F6 B0 E6 丰富格式文本丰富格式文本本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)出版出版 有字体字号等属性变化、设置了段落和页面排版格式的文本称为有字体字号等属性变化、设置了段落和页面排版格式的文本称为“丰富格丰富格式文本式文本”丰富格式文本中,除了正文内容之外,还使用了许多丰富格式文本中,除了正文内容之外,还使用了许多“标记标记”来描述字符来描述字符的属性和格式的设置的属性和格式的设置 举例:下

    35、面标题的格式为:中文用黑体,西文用举例:下面标题的格式为:中文用黑体,西文用Arial Black体,居中体,居中 使用使用HTML语言描述为:语言描述为:本书由南京大学出版社本书由南京大学出版社(Publishing House of Nanjing University)出版出版用一对用一对指出的是标记,如指出的是标记,如 和和 等,用于说明排版的格式和文字属性,它们等,用于说明排版的格式和文字属性,它们不属于正文内容不属于正文内容正文内容正文内容超文本(超文本(www网页)网页)n WWW网页按照其内容的关联性相互进行链接,网页就是典型的网页按照其内容的关联性相互进行链接,网页就是典型的

    36、“超文本超文本”n 超文本也属于丰富格式文本超文本也属于丰富格式文本网页网页A网页网页B网页网页C网页网页D网页网页E网页网页F网页网页G网页网页Ha1 a2b2c2 f1d1c1 b1e1g1h1a3“超链超链”实际上就是一个实际上就是一个指针,用于指向其他网页,指针,用于指向其他网页,也可以指向同一网页中的也可以指向同一网页中的其他部分其他部分 超链是有向的,起点位置称为超链是有向的,起点位置称为链源,它可以是网页中的一个链源,它可以是网页中的一个标题、一句句子、一个关键词、标题、一句句子、一个关键词、一幅画、一个图标等一幅画、一个图标等小结:文本的分类小结:文本的分类文本文本类型类型 特

    37、点特点 在计算机内的表示在计算机内的表示 文件文件扩展名扩展名 用途用途简单简单文本文本没有字体、字号和版没有字体、字号和版面格式的变化,文本面格式的变化,文本在页面上逐行排列,在页面上逐行排列,也不含图片和表格也不含图片和表格由一连串与正文内容对应由一连串与正文内容对应的字符的编码所组成,几的字符的编码所组成,几乎不包含任何其他的格式乎不包含任何其他的格式信息和结构信息信息和结构信息.txt网上聊天网上聊天短信短信文字录入文字录入OCR输入输入丰富丰富格式格式文本文本(线性线性文本文本)有字体、字号、颜色有字体、字号、颜色等变化,文本在页面等变化,文本在页面上可以自由定位和布上可以自由定位和

    38、布局,还可插入图片和局,还可插入图片和表格表格除了与正文对应的字符编除了与正文对应的字符编码之外,还使用某种码之外,还使用某种“标记标记语言语言”所规定的一些标记来所规定的一些标记来说明该文本的文字属性和说明该文本的文字属性和排版格式等排版格式等.doc.rtf.htm.html.pdf公文公文论文论文书稿书稿网页网页丰富丰富格式格式文本文本(超文超文本本)除上述特征外,文本除上述特征外,文本中还含有超链,使文中还含有超链,使文本呈现为一种网状结本呈现为一种网状结构构同上,但还应包含用于指同上,但还应包含用于指出出“链源链源”和和“链宿链宿”的标记的标记.doc.rtf.htm.html.pd

    39、f.hlp同上,以同上,以及软件的及软件的联机文档联机文档(帮助文件帮助文件)5.1.5 文本的展现文本的展现(输出输出)文本的展现文本的展现(输出输出)n 目的:阅读、浏览或打印文本目的:阅读、浏览或打印文本n 使用的软件:文本阅读器使用的软件:文本阅读器/文本浏览器文本浏览器n嵌入在文本编辑嵌入在文本编辑(处理处理)软件中,如微软的软件中,如微软的Word,n独立的软件:如独立的软件:如Adobe公司的公司的Acrobat Reader,微软公司的微软公司的IE等等 n 文本展现的过程:文本展现的过程:1.1.对文本的格式描述进行解释对文本的格式描述进行解释2.2.生成文字和图表的映像(生

    40、成文字和图表的映像(bitmap)3.3.传送到显示器或打印机输出传送到显示器或打印机输出附:输出过程中字形的生成附:输出过程中字形的生成 n 过程:过程:n 先根据字符的字体确定相应的字库(先根据字符的字体确定相应的字库(font),),n 再按照该字符的代码从字库中取出该字符的形状描述信息再按照该字符的代码从字库中取出该字符的形状描述信息n 然后按形状描述信息生成字形,并按照字号大小及有关属性然后按形状描述信息生成字形,并按照字号大小及有关属性(粗体、斜体、下横线)将字形作必要的变换(粗体、斜体、下横线)将字形作必要的变换n 最后将变换得到的字形放置在页面的指定位置处最后将变换得到的字形放置在页面的指定位置处n 2种不同的字库:种不同的字库:点阵点阵描述描述轮廓轮廓描述描述轮廓点轮廓点直线直线二次曲线二次曲线附:电子书阅读器附:电子书阅读器n“电子书阅读器电子书阅读器”是一种专是一种专门用于阅读各种电子文档门用于阅读各种电子文档(如如.txt、.doc、.html、.pdf 等)的专用硬件设备等)的专用硬件设备n 采用电子墨水显示屏,被动采用电子墨水显示屏,被动发光,耗电极少,持续工作发光,耗电极少,持续工作时间很长(时间很长(1个月以上)个月以上)n 阅读效果接近纸质图书阅读效果接近纸质图书n 轻薄,便于携带轻薄,便于携带n 颇有发展前景颇有发展前景

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:文本与文本处理课件.ppt
    链接地址:https://www.163wenku.com/p-4673881.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库