知识库构建与应用PPT课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《知识库构建与应用PPT课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 知识库 构建 应用 PPT 课件
- 资源描述:
-
1、移动生活与新媒体实验室移动生活与新媒体实验室徐源徐源北京邮电大学北京邮电大学知识库构建与应用目录目录n语义信息抽取n知识库n语义检索n海量数据处理n语义信息抽取n泛网资源与信息n语义抽取内容n模式抽取n层级构建语义信息抽取海量资源与信息泛在网为我们提供了无所不在的资源及信息。l如何在海量信息中获取我们需要的信息?l如何快捷的获取?机器理解?l如何让机器更好的理解?语义抽取语义信息抽取语义抽取内容n 实体抽取(Named entity extraction) :人物、地点、机构、疾病,等命名或专有实体。 n 属性抽取(Attribute extraction):实体的自身属性。n 关系挖掘(Re
2、lation mining):实体之间的关系。 n 事件挖掘(Event mining):由多个关系元组所构成。语义信息抽取实体抽取n 识别识别文本中出现的实体文本中出现的实体 MUC MUC (1997): Person, Location, Organization, Date/Time/Currency (1997): Person, Location, Organization, Date/Time/Currency ACE ACE (2005): 100(2005): 100多种更具体的类型多种更具体的类型 n 针对针对不同实体类型与领域考虑不同方法不同实体类型与领域考虑不同方法 封
3、闭类封闭类(e.g., geographical locations, disease names, (e.g., geographical locations, disease names, gene gene & protein & protein namesnames) ):人工规则人工规则+ +词典词典 语法相关语法相关(e.g., phone numbers, zip codes(e.g., phone numbers, zip codes) ):正则表达式正则表达式 语义相关语义相关(e.g., person and company names(e.g., person and c
4、ompany names) ):综合考虑上下综合考虑上下文文, ,句法特征句法特征, ,词词典典, ,启发式规则启发式规则等等语义信息抽取实体抽取n 人工规则方法 某些情况构建简单: 电话号码、邮政编码等。 调试和维护简单 拓展性问题n 机器学习方法 当容易构建大量训练数据时适合采用 能够捕捉复杂的模板 主要方法:Naive Bayes;Hidden Markov Models;Maximum Entropy Markov Models;Conditional Random Fields (CRF) 语义信息抽取属性抽取属性包括:属性名属性值 语义信息抽取属性抽取语义信息抽取属性抽取n 基于无
5、结构化基于无结构化 与前面方法类与前面方法类似似 模板改变模板改变: A of IA of I is V; V is A of I 种子改变种子改变: (China, capital)(China, capital, Beijing) n 基于基于Wikipedia Infobox n 基于基于HTML表格表格 语义信息抽取关系抽取n ACE(Automatic Content Extraction)会议将关系抽取任务表述为:探测和识别文档中特定类型的关系,并对这些抽取出的关系进行规范化表示。 n 一个比较完整的关系抽取系统应包括依次相连的5个模块:NLP处理和实体抽取、模式匹配或分类、共指消
6、解、新关系处理以及规范化输出。n 关系抽取的困难可以归纳为3个方面: 特定领域标引数据集的获取 模式的获取 共指消解 语义信息抽取关系抽取n 基于模式匹配的关系抽取 先构造出若干基于语词、基于词性或基于语义的模式集合并存储起来。当进行关系抽取时,将经过预处理的语句片段与模式集合中的模式进行匹配。一旦匹配成功,就可以认为该语句片段具有对应模式的关系属性。 n 基于词典驱动的关系抽取 基于词典驱动的关系抽取方法非常灵活,新的关系类型能够仅仅通过向词典添加对应的动词入口而被抽取。但只能识别以动词为中心词的关系。 n 基于机器学习的关系抽取 将关系抽取看作是一个分类问题。在人工标引语料的基础上构造分类
7、器,然后将其应用在领域语料关系的类别判断过程中。目前使用比较多的学习算法有MBL算法和SVM算法 。n 混合抽取方法 基于词汇:基于词汇:“ located in ” “ located in ” 基于句法结构:基于句法结构:“(“(ObjObj ) (Verb located) ( ) (Verb located) (* *) () (SubjSubj )” )” n 机器学习方法机器学习方法 有监督学习:基于人工标注数据训练模型(有监督学习:基于人工标注数据训练模型(SVM, SVM, MaxEntMaxEnt, KNN, KNN等)等) 1. 1. 基于基于特征的特征的方法方法 2. 2
8、. 核方法核方法:核核函数函数Kernel (x, y)Kernel (x, y)定义对象定义对象x x与与y y之间的相似度之间的相似度, ,则可则可直接直接使用核函数使用核函数代替上述公式中基于显式特征的点积运算代替上述公式中基于显式特征的点积运算 半监督学习半监督学习:基于自举方法从种子样基于自举方法从种子样例中训练模型例中训练模型 自举自举方法方法(Bootstrapping) (Bootstrapping) 轮流发现实体关系对与抽取模板。轮流发现实体关系对与抽取模板。 无监督学习:无监督学习:自动发现主要的关系与相应的对自动发现主要的关系与相应的对象象 基于对象对与关基于对象对与关系
9、上下文的对偶性系上下文的对偶性 利用聚类利用聚类算法算法 语义信息抽取事件抽取n 事件由事件触发词和描述事件结构的元素构成,通常需要共指消解,消岐,去重,推理。n 事件抽取由两个步骤组成:事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。事件元素识别:事件元素是指事件的参与者。根据所属的事件模板抽取相应的元素,并为其标上正确的元素标签。语义信息抽取事件抽取n 事件抽取主要有两种方法:模式匹配和机器学习的方法。 模式匹配的方法对某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。 机器学习的方法把事件抽取
10、任务看作分类问题,把主要的精力放在分类器的构建和特征的发现、选择上。语义信息抽取模式抽取n 一阶共现:模版(PB)Hours may vary on holidays, such as Easter, Thanksgiving and Christmas. Pattern: (such as | including) T ,T* (and|,|.) Easter, Thanksgiving, Christmas n 二阶共现:分布式相似性(DS) 前提是假设:出现在相似上下文出现在相似上下文(词语、句法词语、句法) 中的词语比较中的词语比较相似相似。定义上下定义上下文(句法文(句法上下文上下文
11、, 词语上下文词语上下文. )将每个短语表示为一个将每个短语表示为一个特征特征向量(特向量(特征征:短语出现的一个上下文短语出现的一个上下文;特征值;特征值:上下文针对短语的权上下文针对短语的权重)重) 计算短语相似性计算短语相似性(特征向量之间特征向量之间的的相似性:相似性:Cosine,Jaccard) 语义信息抽取语义层级构建n 为短语(term)赋予类标签或上位词(label) Beijing Beijingcitycity,capitalcapital ;AppleApplecompanycompany,fruitfruit 方法方法: Pattern matching + : Pa
12、ttern matching + countingcounting n 为语义类(semantic class)赋予类标签(label) Beijing, Shanghai, Dalian.Beijing, Shanghai, Dalian. citiescities, Chinese cities. , Chinese cities. 方法方法: : 投票投票(Voting)(Voting)n 构建层级构建层级 n知识库n典型知识库n构建方式n应用知识库知识库典型知识库典型知识库n 人工构建的知识库人工构建的知识库 WordNetWordNet: : 专家构建、专家构建、英语英语 Wikip
展开阅读全文