文本信息提取技术(概述).ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《文本信息提取技术(概述).ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 信息 提取 技术 概述 ppt 课件
- 资源描述:
-
1、xxx北京大学计算机系计算语言所文本信息提取技术(概述)1谢谢观赏2019-9-21内容(1)信息提取的含义、目标(2)信息提取技术中若干相关基础问题(3)(中文)信息提取系统的流程与设计(4)Web信息提取2谢谢观赏2019-9-211、“信息提取”的含义3谢谢观赏2019-9-21举例说明:什么是信息提取设想有一个用户,他关心人民日报中出现的一类特定的信息,即会议信息。属于“单纯信息”:无相互关联、时序条件、因果等。通常他是一篇一篇地看报,把其中报道会议的所有段落标记出来,然后对每一个会议信息填写如下一个表格(或者称其为“会议信息模板”): 4谢谢观赏2019-9-21会议信息 (填写预定
2、义语义的表格填写预定义语义的表格)会议时间 Time 会议地点 Spot 召集人 Convener姓 名 / 团 体 名 称 Name 机构、职位 Org/Post 会 议 名 / 标 题Conf-Title 5谢谢观赏2019-9-216谢谢观赏2019-9-21会议会议信息信息一例一例7谢谢观赏2019-9-21会议报道(例1) :人民日报1998-03-09新华社北京月日电(记者李术峰): 中国农工民主党第十二届中央常务委员会第一次会议今天在北京召开。会议研究通过了贯彻落实“两会”精神的有关决定,审议通过了中国农工民主党中央年工作要点(草案),并任命了中央副秘书长。农工民主党中央主席蒋正
3、华主持了会议,他说,农工民主党有多名党员作为代表和委员参加了今年的“两会”,各位党员要认真履行代表和委员的职责,开好会,在年的工作中认真贯彻“两会”精神,加强农工民主党的自身建设,推动事业进一步发展,为建设有中国特色社会主义事业作出新的贡献。会前,农工民主党中央邀请参加“两会”的来自全国各省、自治区、直辖市的农工民主党党员进行了联谊活动。8谢谢观赏2019-9-21会 议 时 间 Time 年3月9日会 议 地 点 Spot 北京会议召集者/ 主 持 人Convener个人姓名/团体名称 Name蒋正华机 构 、 职 位 Org/Post主席,农工民主党中央会 议 名 / 标题Conf-Tit
4、le 中国农工民主党第十二届中央常务委员会第一次会议 9谢谢观赏2019-9-21ICL.CS.PKU系统输出结果:会议报道(例1)事件模板实例今天(19980309)北京蒋正华中国农工民主党第十二届中央常委员会第一次会议10谢谢观赏2019-9-21会议报道(例2) :人民日报1998-01-0719980107-06-016-001意大利总理普罗迪日说,欧洲国家将采取行动,共同对付库尔德难民涌入问题。普罗迪日晚召开了由意外长、内政和国防部长参加的紧急会议,商讨应付库尔德难民问题的对策。会前,普罗迪说,“在经过最初的混乱后,欧洲国家的行动已经大大加强”,今后几天内将在此问题上进行系统合作。1
5、1谢谢观赏2019-9-21会议报道(例2):汉语分词、标注、短语分析19980107-06-016-001/m 意大利/ns 总理/n 普罗迪/nr 日/t 说/v ,/w 欧洲/ns 国家/n 将/d 采取/v 行动/vn ,/w 共同/d 对付/v 库尔德/nr 难民/n 涌入/v 问题/n 。/nx MP0,0 PersonNP1,3 TimeNP4,4 VP5,5 XP6,6 LocationNP7,7 NP8,8 XP9,9 VP10,10 NP11,11 XP12,12 XP13,13 VP14,14 VP17,17 NP18,18 XP19,19 普罗迪/nr 日/t 晚/Tg
6、 召开/v 了/u 由/p 意/j 外长/n 、/w 内政/n 和/c 国防部长/n 参加/v 的/u 紧急/a 会议/n ,/w 商讨/v 应付/v 库尔德/nr 难民/n 问题/n 的/u 对策/n 。/nx PersonNP0,0 TimeNP1,2 VP3,3 XP4,4 PP5,5 NP6,6 PostNP7,7 XP8,8 NP9,9 XP10,10 PostNP11,11 VP12,12 XP13,13 AP14,14 NP15,15 XP16,16 VP17,17 VP18,18 XP22,22 NP23,23 XP24,24 会前/t ,/w 普罗迪/nr 说/v ,“/w
7、在/p 经过/p 最初/b 的/u 混乱/an 后/f ,/w 欧洲/ns 国家/n 的/u 行动/vn 已经/d 大大/d 加强/v ”,/w 今后/t 几/m 天/q 内/f 将/d 在/p 此/r 问题/n 上/f 进行/v 系统/n 合作/v 。/nx TimeNP0,0 XP1,1 PersonNP2,2 VP3,3 XP4,4 PP5,5 PP6,6 AP7,7 XP8,8 NP9,9 XP10,10 XP11,11 LocationNP12,12 NP13,13 XP14,14 NP15,15 XP16,16 XP17,17 VP18,18 XP19,19 TimeNP20,20
8、 MP21,22 XP23,23 XP24,24 PP25,25 RP26,26 NP27,27 XP28,28 VP29,29 NP30,30 VP31,31 XP32,32 12谢谢观赏2019-9-21会议报道(例2):命名实体与关系库尔德 (occurrence: 1/1/15; 1/2/19;) 普罗迪 (occurrence: 1/1/3; 1/2/0; 1/3/2;) post_of(意大利总理,普罗迪)13谢谢观赏2019-9-21会议报道(例2)事件模板实例日晚 (1998-01)意大利普罗迪由意外长、内政和国防部长参加的紧急会议14谢谢观赏2019-9-21例2 会议信息结
9、果会议时间 Time 日晚 (1998-01)会议地点 Spot 意大利召集人 Convener姓 名 / 团 体 名 称 Name 普罗迪机构、职位 Org/Post 意大利总理会 议 名 / 标 题Conf-Title由意外长、内政和国防部长参加的紧急会议 15谢谢观赏2019-9-21会议信息自动提取会议信息自动提取? ?任务: 收集历年人民日报中所有的相关信息以便于自己或他人的某些重要应用需求定义:自然地,有了使用一种能够自动完成这种工作的工具的需求希望将历年人民日报的光盘数据交给这个(计算机软件)工具处理,然后得到一个包括了大量会议信息记录的数据库文件,以非常方便地使用标准的数据库系
10、统来浏览和查询这些信息(必要时再调出原文作更细致的考察)。16谢谢观赏2019-9-21“XXX系统”这个软件工具就是一个典型的信息提取系统,或者更准确地说,“人民日报会议信息自动提取系统”。 更多的信息提取任务:访问信息外交事件恐怖活动自然灾害17谢谢观赏2019-9-21一种报刊信息加工一种报刊信息加工“高级高级应用应用”系统结构系统结构香港日报香港日报: 1998 1999 2000 湖南日报湖南日报: 1998 1999 2000 人民日报人民日报: 1998 1999 2000 语料库信息提取会议信息访问信息外交事件恐怖活动自然灾害内容索引库用户界面DB Interface18谢谢观
11、赏2019-9-21错误匹配错误匹配 19980410-06-006-004 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议月日在智利召开。图为首都圣地亚哥市中心商业区过街通道旁竖起展览橱窗,向市民介绍参加首脑会议的美洲国家的历史文化。(新华社记者韩晓华摄)19谢谢观赏2019-9-21错误匹配错误匹配 UNKNOWN 智利 UNKNOWN 目前智利全国各地正开展形式多样的宣传活动,迎接第二届美洲首脑会议 20谢谢观赏2019-9-21(文本)信息提取的定义 按比较正式的说法,信息提取(Information Extraction)是指从一段文本中抽取指定的一类信息(例如事件
12、、事实)、并将其(形成结构化的数据)填入一个数据库中供用户查询使用的过程。 例如上面提到的会议信息; 或者从一篇关于自然灾害的新闻报道中摘录出灾害的类型、时间、地点、人员伤亡、经济损失、救援情况等; 或从产品发布的新闻语料中提取某产品的各种感兴趣的指标,例如计算机网络交换器的协议类型、交换速率、端口数、软件管理方式等。 21谢谢观赏2019-9-21信息提取涉及到两个方面的因素(1)用户指定感兴趣的信息特性,以及待分析的文本集(数据源);(2)系统过滤文本集并以一定的格式输出匹配的信息(关系记录)。 22谢谢观赏2019-9-21与相关信息处理技术存在实质差异:信息检索信息检索(Informa
13、tion Retrieval) :只是找出满足一定检索条件(query)的整篇文档或段落,而人们仍然必须阅读所找到的每一个文档或段落才能获得所需要的信息。 自动文摘、文本理解自动文摘、文本理解 :自动文摘和文本理解则没有预先规定目标的特性,需要对多种多样的内容进行分析和处理。 23谢谢观赏2019-9-21MUC (Message Understanding Conferences) 美国政府支持的一个专门致力于真实新闻文本理解的例会,至今已举行7届。除像一般的学术会议一样交流论文外,它还负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。其主要的评测项目是从新闻报道中提取特定的
14、信息,填入某种数据库中。评测语料大都出自各大通讯社发布的新闻。对每一条消息,由专业人员人工给出标准答案,然后将参测系统的输出结果与标准答案比较,按一定的评价指标给出所有系统的评测结果,其中最主要的指标是准确率、查全率等。当前,由MUC定义的概念、模型和技术规范在国际上对整个信息提取领域起着主导的作用。 24谢谢观赏2019-9-21MUC的IE任务定义5个典型的提取阶段:(MUC-7 IE Task Definition Version 5.1) - NE (Named Entities)- ER (Entity Relations)- Template Scenario (Event Str
15、uctures)- Coreference (Identity descriptions)- Template Merger具体提取哪些 NE, ER, Events 以及做哪些Coref, Merger 是任务相关的(每次MUC独立定义)。25谢谢观赏2019-9-21各个阶段的IE任务5个典型的提取阶段:- NE (Named Entities):提取文本中相关的命名实体,包括人名、机构/公司名称的识别 国家财政部/Org 部长 项怀诚/Person- ER (Entity Relations):提取命名实体之间的各种关系(事实) Post_of(部长,项怀诚), employee_of(
16、国家财政部,项怀诚)- Template Scenario (Event Structures):事件 召开会议(Time, Spot, Convener, Topic)- Coreference (Identity descriptions) : 代词、名词共指- Template Merger : 相同事件的合并26谢谢观赏2019-9-21实体(Entities)识别:90%属性(Attributes)识别:80% (TE任务)事实(Facts)识别:70% (TR任务)事件(Events)识别:60% (ST任务)SRA公司的系统 (MUC-7)RecallPrecisionF-Sco
17、reTE86%87%86.76TR67%86%75.63ST42%65%50.7927谢谢观赏2019-9-212、理解IE:目标、问题和对策如何界定一门新的技术:它想做什么能做什么、它不做什么 (e.g., OOP hype in the earlier 90s = limited to structured types; GP is much better, but limited to source code reuse; )28谢谢观赏2019-9-21范式转移(paradigm shift)大背景(二十世纪80年代后期 ):从以Chomsky等为代表的“纯理性范式”转变为日益强调以对
18、真实文本数据的统计分析和经验知识归纳为主要方法的范式。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关。尊重真实文本语言事实已成为当前各种自然语言信息处理技术(包括信息提取)的一个基本立场和出发点。 29谢谢观赏2019-9-21IE的背景与动机作为一门应用性的语言处理技术,信息提取近年来正受到越来越多的重视。“提取指定的信息” : 提取提取而不是查找!查找!良好的动机:在所欲与所能之间找平衡突破信息检索的局限性(由人来阅读、理解、提取) 自动查找、理解和提取“有限技术的无穷运用”30谢谢观赏2019-9-21Typical Process31谢谢观赏2019-9-21A Co
19、nceived Process“有了数据库之后,就什么都好办了。”32谢谢观赏2019-9-21并非那么简单的问题/答案什么是“信息”?尤其是“可提取的文本信息”?到底有多少类别/不同层次的信息?如何定义/形式化表示你想要的“信息”?机器需要预备什么“信息”才能自动进行“提取”?33谢谢观赏2019-9-21什么是信息(最小数据量)Information Theory: “信息是对未知的度量”.无知者的话:“我愚昧,故我(need)信息”.设概率空间(, , P),则事件A 的信息(数据bit)量为(条件)后验事件A|B与A的信息量之差称为事件A, B的“互信息”:.)(1log)(APAI(
20、自信息))(1log)|(1log)|(APBAPBAI.)()()(logBAPBPAP34谢谢观赏2019-9-21信息的至少三个层次“语法信息”(符号信息/形式信息/)概率空间(, , P)只涉及到形式符号本身(e.g., CFGs, 词频、共现);“语义信息”概率空间(, , P)涉及到符号的含义(e.g., Attrib-Gs , 属性的频率);“语用信息”概率空间(, , P)涉及到符号的用法/使用环境因素;35谢谢观赏2019-9-21我们要提取什么信息?“语用信息” :太复杂;“符号信息”: (too trivial);自然地,IE是基于“语义信息”:通过通过“语义关系语义关系
21、”组装命名实体组装命名实体36谢谢观赏2019-9-21信息提取的“8字方针”识别识别(命名命名)实体,确定实体,确定(语义语义)关系关系把文本看作是(2/3/元)实体关系的集合(IR:把文本看作是词/符号串的集合/概率空间)Well-defined IE demands a well-defined (computable/decidable/recognizable) info-representation.37谢谢观赏2019-9-21物质结构规律 小常识 原子 分子 物质 38谢谢观赏2019-9-21物质结构规律 小常识 原子 分子 物质 Nuclei(p,n) + Electron
22、s 39谢谢观赏2019-9-21物质结构规律 小常识 原子 分子 物质 Nuclei(p,n) + Electrons Quarks 40谢谢观赏2019-9-21物质结构规律 小常识 原子 分子 物质 Nuclei(p,n) + Electrons Quarks Superstrings41谢谢观赏2019-9-21信息组成方式 命名实体 NE (Named Entities) 实体关系 ER (Entity Relations) 消息模板实例 (Template Instances) 42谢谢观赏2019-9-21信息组成方式 命名实体 NE (Named Entities) 实体关系
展开阅读全文