书签 分享 收藏 举报 版权申诉 / 25
上传文档赚钱

类型文本结构化技术的初步实现与中文缩略语还原技术初探课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4487772
  • 上传时间:2022-12-14
  • 格式:PPT
  • 页数:25
  • 大小:329.50KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《文本结构化技术的初步实现与中文缩略语还原技术初探课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    文本 结构 技术 初步 实现 中文 缩略语 还原 初探 课件
    资源描述:

    1、文本结构化技术的初步实现与中文缩略语还原技术初探 指导教师:俞士汶教授学生:支流 2022年12月14日内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设综合型语言知识库简介语法词典标注语料库句法知识句法知识语义词典语义词典概念词典概念词典语义知识语义知识词库词库短语规则库短语规则库日常用语日

    2、常用语术语库专业用语术语库专业用语单语单语平行语料库双语平行语料库双语现代汉语现代汉语古诗古代汉语古诗古代汉语语法词典语法词典标注语料库标注语料库语法信息词典与语料库之间的缝隙词语词语词类词类同形同形拼音拼音频次频次例句例句注注抄抄vAchao1 照原稿写照原稿写抄抄vBchao1 走近道走近道此类此类/r /r 编著编著/v /v 内容内容/n /n 是是/v /v 抄抄/v/v 自自/p /p 别人别人/r /r 的的/u/u 炮兵炮兵/n /n 学院学院/n /n 原来原来/d /d 围墙围墙/n /n 残缺残缺/v /v ,/w /w 周边周边/n /n 群众群众/n /n 进城进城/

    3、v /v ,/w /w 习惯习惯/v /v 抄抄/v/v 近道近道/n /n 。/w/w 文本文件与数据库文件的对应较麻烦文本文件与数据库文件的对应较麻烦“词语词类同形”为主关键项的数据库文件进行了词语切分和词类标注的文本文件结构化语料库的格式切分单位切分单位长长年年月月日日版版篇篇段段句句位位19981201-01-002-001/m211998120101020010100圆满圆满/ad071998120101020010101结束结束/v061998120101020010102对对/p041998120101020010103俄罗斯俄罗斯/ns091998120101020010104

    4、和和/c041998120101020010105日本日本/ns071998120101020010106的的/u041998120101020010107访问访问/vn07199812010102001010819981201-01-002-002/m211998120101020020100江江/nr051998120101020020101泽民泽民/nr071998120101020020102结构化语料库可以方便地进行语料库上的各项数据统计。结构化语料库可以方便地进行语料库上的各项数据统计。例如统计某个时间段某个词出现的频度。例如统计某个时间段某个词出现的频度。内容提要l文本结构化技术

    5、l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设结构化文本技术的实现l结构化文本技术的实现几大特点 可以让用户自主选择需要的属性项有两种输出文件格式供用户选择结构化文本技术的实现结构化文本技术的实现内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议全国计算语言学

    6、联合学术会议”录用录用中文缩略语的研究意义l缩略语是自然语言的重要组成部分,缩略语规律的探索和缩略语还原是973项目“文本内容理解的数据基础”的重要组成部分l与香港大学合作项目,为多语言缩略语共同规律研究提供数据基础和技术借鉴中文缩略语的研究意义(二)l研究达到的最终目标的缩略语的还原和生成,即为缩略语的解码和编码l近期目标是切分标注好的语料中的缩略语还原内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选

    7、已经被第八届“全国计算语言学联合学术会议全国计算语言学联合学术会议”录用录用l根据缩略语和全称的对应方式分类一对一:北大 北京大学一对多:人大 人民大学 全国人民代表大会多对一:电扇 电风扇 风扇多对多:南开 南京大学 南大 南开大学中文缩略语分类框架中文缩略语分类框架(二)从缩略语的形成方式分类l字面与全称无关l多为地名型:云南黔,上海沪l字面与全称有关l在简称中间有()出现的:乡(镇),厅(局)长,寒(暑)假,出国(境)l在简称中没有()出现的中文缩略语分类框架(三)l缩合:大中小学生,乡镇企业l提取l北京大学北大l婚姻介绍所婚介所l欧洲中部中欧(倒序情况)l节略:清华大学清华,复旦大学复

    8、旦l提取和节略结合:全国人民代表大会人大 l总结性:三个代表,三好,五好l特殊缩略语l局部近义词替代:浮式起重机浮吊 l局部上位词替代:中华人民共和国教育委员会国家教委 内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议全国计算语言学联合学术会议”录用录用测试语料:1998年1月1日至3日的人民日报切分标注好语料,共有33450个词语,其中缩略语97个朴素的缩略语还

    9、原技术l缩略语数据库l简称略语库中 608条缩略语作为 种子。l全文索引l规则排序在文件中找到匹配词组在文件中找到匹配词组60%在文件中在文件中未找到匹未找到匹配词组配词组40%全文索引l仅仅6个缩略语的匹配结果唯一个缩略语的匹配结果唯一l52个缩略语都至少有个缩略语都至少有2个匹配结果个匹配结果l其中仅其中仅“中中”匹配出匹配出57个不同的词组。个不同的词组。规则排序是否出现在数据库中距离缩略语的远近备选全称的内部结构匹配出匹配出31个缩略语,其中正确的个缩略语,其中正确的30个,正确率个,正确率51.7%匹配出匹配出45个缩略语,其中正确的个缩略语,其中正确的42个,正确率个,正确率72.

    10、4%正确匹配出正确匹配出51个缩略语个缩略语,正确率为正确率为87.9%实验结果实验结果统计:扩大缩略语数据库的规模扩大缩略语数据库的规模缩略语对应的全称的筛选缩略语对应的全称的筛选方式仍不完善。下一步在方式仍不完善。下一步在使用规则的方法的同时将使用规则的方法的同时将加入统计的方法,缩略语加入统计的方法,缩略语知识库的建设将是下一步知识库的建设将是下一步工作的重中之重。工作的重中之重。全国人民代表大会人大人民大学内容提要l文本结构化技术l建设结构化语料库的必要性l文本结构化技术实现l中文缩略语还原技术初探l中文缩略语的研究意义l中文缩略语分类框架l朴素的缩略语还原技术l缩略语知识库的建设注:论文中的缩略语部分节选已经被第八届注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议全国计算语言学联合学术会议”录用录用缩略语知识库的建设缩略语全称前接词后接词属性3属性4一国两制一个国家,两种制度人大人民大学学生,校长人大人民代表大会全国上海沪谢谢

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:文本结构化技术的初步实现与中文缩略语还原技术初探课件.ppt
    链接地址:https://www.163wenku.com/p-4487772.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库