中文问答系统中答案抽取的研究与实现.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中文问答系统中答案抽取的研究与实现.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 问答 系统 答案 抽取 研究 实现 课件
- 资源描述:
-
1、-吉林大学吉林大学20102010年硕士论文年硕士论文中文问答系统中答案抽取的中文问答系统中答案抽取的研究与实现研究与实现目录目录提要提要 在答案抽取的研究中,本文采纳了一种基于规则改进的问题分类方法,而后提出了一种基于依存树的语义匹配相似度算法,对问题句与候选答案句进行相似度计算,根据相似度的高低对答案进行抽取,最后通过具体的实验实现了答案抽取的全过程。 实验结果表明,在保证问题分析模块问题分类准确的情况下,得到用户所需答案的准确率可以达到92%以上,相比其它算法有效地提高了答案抽取的准确度。人们期待更快速准确的搜索技术出现;人们期待更快速准确的搜索技术出现;据统计,人们花费在答案抽取的时间
2、很长;据统计,人们花费在答案抽取的时间很长;传统的搜索引擎有很多弊端;传统的搜索引擎有很多弊端;问答系统因此产生。问答系统因此产生。绪论绪论背景与意义背景与意义 问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。 问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等; 信息检索模块的主要任务是对文档库或网络搜索引擎进行检索,返回一些与问题相关的文档或网页; 答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理,得到问题的候选答案集,并通过一定的算法从候选答案集中抽取出正确答案。绪论绪论背景与意义背景与意义答案抽取的基本步骤一般如下答案抽取的基本
3、步骤一般如下: : 把从信息检索模块得到的候选文档或网页进行处理,切分成单个句把从信息检索模块得到的候选文档或网页进行处理,切分成单个句子,作为候选答案集。子,作为候选答案集。 根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减少候选答案的空间。少候选答案的空间。 应用相似度计算算法,计算候选答案句与问题句的相似度。应用相似度计算算法,计算候选答案句与问题句的相似度。 根据相似度的高低对候选答案进行排序,返回相似高的句子。根据相似度的高低对候选答案进行排序,返回相似高的句子。 对于答案为一个词的问题,根据问题的类型,采用相应的抽
4、取策略,对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回精确的答案。精确的答案。绪论绪论简介简介本文所要做的具体工作: 1.问题分析模块的处理:通过改进规则对问题进行分类,通过对问句进行词法分析和句法分析,抽取和扩展问题关键词,必要时对重写问句,为答案抽取的研究做好准备工作。 2.信息检索模块的处理:将扩展后的关键词提交给Google搜索引擎,返回与问题相关的文档和网页。 3.答案抽取模块的处理:对返回的相关文档和网页进行处理,形成问题的候选答案集,对问题句和
5、候选答案句进行句法分析,计算问题句和候选答案句的相似度,以相似度的高低排序候选答案,根据相应的答案抽取策略,返回问题的答案。绪论绪论本文的工作本文的工作问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之间的关系如图所示:绪论绪论问答系统问答系统答案抽取模块的工作流程如下:把从信息检索模块得到的候选文档或网页切分成句子,作为候选答案集。根据问题的类型,对候选答案集进一步处理,排除冗余的句子,减少候选答案的空间。应用相似度计算算法,计算候选答案句与问题句的相似度。根据相似度的高低对候选答案进行排序,返回相似高的句子。对相似度高的句子进行重新分析,根据问题的类型所对应的抽取策略,返回给用
6、户需要的答案。基于句法分析的答案抽取算法基于句法分析的答案抽取算法 在第步中进行相似度计算时,需要进行如下考虑: 为了使相似度的计算更加准确,需要对句子进行句法分析,得到句子中的关键词,和关键词有相同语义的词语,有时还需要考虑词语之间的顺序,以及各个词语之间的相互依存关系,根据词语的重要程度,为不同的词语设置不同的权重。基于句法分析的答案抽取算法基于句法分析的答案抽取算法比较典型的算法有以下几种:(1)基于模式匹配的算法原理是:根据问题的类型,制定不同类型问题的答案模板。由于答案模板的覆盖率是有限的,因此这种算法的匹配程度不是很高。(2)基于信息检索和信息抽取的算法此算法主要是基于关键词来进行
展开阅读全文