信息抽取及其应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息抽取及其应用课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 抽取 及其 应用 课件
- 资源描述:
-
1、信息抽取及其应用研究信息抽取及其应用研究一、信息抽取概述o 信息抽取(信息抽取(Information Extraction:IE)是指)是指从一段文本中抽取指定的一类信息从一段文本中抽取指定的一类信息(例如事件、例如事件、事实事实),井将其形成结构化的表示形式,井将其形成结构化的表示形式(比如数比如数据库等据库等),以供用户查询使用的过程。,以供用户查询使用的过程。o 它是把文本里包含的信息进行结构化处理,变它是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信是原始文本,输出的是固定格
2、式的信息点。信息点从各种各样的文档中被抽取出来,然后以息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。统一的形式集成在一起。http:/ 消息理解系列会议(Message Understanding conference,MUC)和自动内容抽取评测会议(Automatic Content Extraction,ACE)对推动信息抽取技术的发展起到重要作用。MUC由美国海军情报部门提出举行,主要目的也是处理大量海军军事情报,从1987年开始到1998年,MUC会议共举行了七届。ACE是由美国国家标准技术研究所(NIST)组织召开,该会议2001年5月首次举办,到2007年已经举办7
3、次会议。http:/www-nlpir.nist.gov/related_projects/muc/http:/gate.ac.uk/http:/gate.ac.uk/download/index.html邓尚民,孙玉伟.国内外信息抽取研究的义献计量分析.图书情报工作,2006(12):92-94,108二、Web信息抽取Web信息抽取就是从信息抽取就是从Web页面所包含的无结构或半结构的页面所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构和语信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式义更为清晰的格式(XML、关系数据、面向对象的数据、关系数据、面向对
4、象的数据等等)。整个抽取过程的工作过程主要包括了如下几个步骤整个抽取过程的工作过程主要包括了如下几个步骤:将将Web网页进行预处理。网页进行预处理。用一组信息模式描述所需要抽取的信息。用一组信息模式描述所需要抽取的信息。对文本进行合理的词法、句法及语义分析。对文本进行合理的词法、句法及语义分析。使用模式匹配方法识别指定的信息模式的各个部分。使用模式匹配方法识别指定的信息模式的各个部分。进行上下文分析和推理,确定信息的最终形式。进行上下文分析和推理,确定信息的最终形式。将结果输出成结构化的描述形式以便由网络集成系统将结果输出成结构化的描述形式以便由网络集成系统进行查询分析。进行查询分析。Web信
5、息抽取的中心包装器o Web信息抽取工作主要由包装器信息抽取工作主要由包装器(Wrapper)来完来完成。成。o 包装器是一种软件过程,这个过程使用已经定义包装器是一种软件过程,这个过程使用已经定义好的信息抽取规则,将网络爬虫搜集到的好的信息抽取规则,将网络爬虫搜集到的Web页页面的信息数据抽取出来,转换为用特定的格式描面的信息数据抽取出来,转换为用特定的格式描述的信息。述的信息。o 一个包装器被认为是一个程序或是理解某一具体一个包装器被认为是一个程序或是理解某一具体信息源的一种规则,并把信息转化为较为规则的信息源的一种规则,并把信息转化为较为规则的格式,如格式,如XML或关系表格。包装器是特
6、定的对或关系表格。包装器是特定的对某一个给定的网站,紧密地与抽取的网页结构和某一个给定的网站,紧密地与抽取的网页结构和标记语言相联系的。包装器最具挑战性的方面就标记语言相联系的。包装器最具挑战性的方面就是能从许多不相关的文本中识别所要抽取的信息。是能从许多不相关的文本中识别所要抽取的信息。研究内容o Web信息抽取原理与方法n 基于本体的信息抽取n 基于位置的信息抽取o Web信息抽取模型n 基于归纳学习的信息抽取n 基于ontology的信息抽取n 基于HMM(隐马尔可夫模型)的信息抽取研究内容(续)o Web信息抽取技术n 模糊字符匹配技术n 信息树技术n 二相取样技术o Web信息抽取的
7、评价n 信息抽取结果的评价n 信息抽取系统的性能评价(信息抽取任务的难易程度、系统所使用的技术、系统的自动程度)应用实例o Amorphic系统系统n Amorphic系统是一个集成了基于位置信息抽取、基系统是一个集成了基于位置信息抽取、基于本体的信息抽取和包装器能修复的特性的信息抽于本体的信息抽取和包装器能修复的特性的信息抽取系统。它能在学习领域知识和网页结构的基础取系统。它能在学习领域知识和网页结构的基础_卜定位感兴趣的数据,能自动地生成一个包装器,卜定位感兴趣的数据,能自动地生成一个包装器,能探测到网页结构的变化,然后能在了解变化的基能探测到网页结构的变化,然后能在了解变化的基础上获取想
8、要的信息。础上获取想要的信息。oLixto系统系统n Lixto系统能生成包装器将系统能生成包装器将html转换为转换为xml格式,通格式,通过提供完全可视和交互的界面,利用侧向外延生长过提供完全可视和交互的界面,利用侧向外延生长法,半自动地帮助用户产生包装器。它提供两种基法,半自动地帮助用户产生包装器。它提供两种基本的数据抽取规则,字符抽取和信息树抽取。本的数据抽取规则,字符抽取和信息树抽取。郑彦宁,邓擘.信息抽取技术在情报学中的应用分析.情报理论与实践,2008(5):769-772o 目前信息抽取的关键技术主要有实体识别、实体关系目前信息抽取的关键技术主要有实体识别、实体关系识别和事件模
9、板构造识别和事件模板构造3个方面。个方面。n 实体识别技术:实体是指在现实世界中具体或抽实体识别技术:实体是指在现实世界中具体或抽象的对象,而识别出这些对象在文本中的表达形象的对象,而识别出这些对象在文本中的表达形式则为实体识别技术。在该技术中不仅要识别并式则为实体识别技术。在该技术中不仅要识别并标注出一般的命名实体,如人名、地名、机构名、标注出一般的命名实体,如人名、地名、机构名、产品名称等,还包括一些对实体解释性的描述以产品名称等,还包括一些对实体解释性的描述以及指代实体的代词等,有时在具体应用中有关时及指代实体的代词等,有时在具体应用中有关时间和数量表达式也被作为实体来识别间和数量表达式
展开阅读全文