词典及容错式检索课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《词典及容错式检索课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词典 容错 检索 课件
- 资源描述:
-
1、Introduction to Information Retrieval 现代信息检索现代信息检索中国科学院大学2019年秋季课程现代信息检索 更新时间:Modern Information RetrievalModern Information Retrieval第3讲 词典及容错式检索Dictionary and tolerant retrieval12019/8/62提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex2提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex3 现代信息检索上一讲内容 文档
2、 词条/词项 基于跳表指针的合并 短语查询的处理(双词索引和位置索引)4 现代信息检索文档 索引的基本单位与文件不是一回事,严格地说,一篇文档可能包含多个文件,也可能一个文件包含多篇文档依赖于具体应用句子级检索:一个句子为一篇文档段落级检索:一段文本为一篇文档56词类(type)/词条(token)的区别词条(Token)词或者词项在文档中出现的实例,出现多次算多个词条词类(Type)多个词条构成的等价类(equivalence class)集合In June,the dog likes to chase the cat in the barn.12 个词条,9个词类词类经过一些处理(去除停用
3、词、归一化)之后,最后用于索引的称为为词项677词条化中考虑的问题词之间的边界是什么?空格?撇号还是连接符?上述边界不一定是真正的边界(比如,中文)另外荷兰语、德语、瑞典语复合词中间没有空格(Lebensversicherungsgesellschaftsangestellter)788词项归一化中的问题词项实际上是一系列词条组成的等价类如何定义等价类?数字(3/20/91 vs.20/3/91)大小写问题词干还原,Porter工具形态分析:屈折 vs.派生其他语言中词项归一化的问题比英语中形态更复杂芬兰语:单个动词可能有12,000 个不同的形式different forms重音符号、元音变
4、音问题(umlauts,由于一个音被另一个音词化而导致的变化,尤其是元音的变化)899跳表指针91010位置(信息)索引10在无位置信息索引中,每条倒排记录只是一个docID在位置信息索引中,每条倒排记录是一个docID加上一个位置信息表一个查询的例子:“to1 be2 or3 not4 to5 be6”TO,993427:1:7,18,33,72,86,231;2:1,17,74,222,255;4:8,16,190,429,433;5:363,367;7:13,23,191;.BE,178239:1:17,25;4:17,191,291,430,434;5:14,19,101;.第4篇文档
5、能够与查询匹配!1111位置信息索引基于位置信息索引,能够处理短语查询(phrase query),也能处理邻近式查询(proximity query)111212本讲内容词典的数据结构:访问效率和支持查找的方式容错式检索(Tolerant retrieval):如果查询词项和文档词项不能精确匹配时如何处理?通配查询:包含通配符*的查询拼写校正:查询中存在错误时的处理1213提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex1314倒排索引对每个词项t,保存所有包含t的 文档列表14词典(dictionary)倒排记录表(posting list)词
6、典(dictionary)倒排记录表(postings)1515词典词典是指存储词项词汇表的数据结构词项词汇表(Term vocabulary):指的是具体数据词典(Dictionary):指的是数据结构151616采用定长数组的词典结构对每个词项,需要存储:文档频率(Document Frequency,DF)指向倒排记录表的指针.暂定每条词项的上述信息均采用定长的方式存储假定所有词项的信息采用数组存储161717采用定长数组的词典结构 空间消耗:20字节 4字节 4字节17 现代信息检索词项定位(即查词典)在词典中查找给定关键字 输入“信息”,如何在词典中快速找到这个词?很多词典应用中的基
7、本问题。以下介绍支持快速查找的词典数据结构。18信息信息数据数据挖掘挖掘181920212219用于词项定位的数据结构主要有两种数据结构:哈希表和树有些IR系统用哈希表,有些系统用树结构采用哈希表或树的准则:词项数目是否固定或者说词项数目是否持续增长?词项的相对访问频率如何?词项的数目有多少?19 现代信息检索哈希表20信息信息数据数据挖掘挖掘哈希函数,输入词项,输出正整数(通常是地址)f(信息)=18,f(数据)=19,f(挖掘)=19181920212221哈希表(Hash Table)每个词项通过哈希函数映射成一个整数尽可能避免冲突查询处理时:对查询词项进行哈希,如果有冲突,则解决冲突,
展开阅读全文