书签 分享 收藏 举报 版权申诉 / 125
上传文档赚钱

类型词典及容错式检索课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4864705
  • 上传时间:2023-01-19
  • 格式:PPTX
  • 页数:125
  • 大小:2.28MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《词典及容错式检索课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    词典 容错 检索 课件
    资源描述:

    1、Introduction to Information Retrieval 现代信息检索现代信息检索中国科学院大学2019年秋季课程现代信息检索 更新时间:Modern Information RetrievalModern Information Retrieval第3讲 词典及容错式检索Dictionary and tolerant retrieval12019/8/62提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex2提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex3 现代信息检索上一讲内容 文档

    2、 词条/词项 基于跳表指针的合并 短语查询的处理(双词索引和位置索引)4 现代信息检索文档 索引的基本单位与文件不是一回事,严格地说,一篇文档可能包含多个文件,也可能一个文件包含多篇文档依赖于具体应用句子级检索:一个句子为一篇文档段落级检索:一段文本为一篇文档56词类(type)/词条(token)的区别词条(Token)词或者词项在文档中出现的实例,出现多次算多个词条词类(Type)多个词条构成的等价类(equivalence class)集合In June,the dog likes to chase the cat in the barn.12 个词条,9个词类词类经过一些处理(去除停用

    3、词、归一化)之后,最后用于索引的称为为词项677词条化中考虑的问题词之间的边界是什么?空格?撇号还是连接符?上述边界不一定是真正的边界(比如,中文)另外荷兰语、德语、瑞典语复合词中间没有空格(Lebensversicherungsgesellschaftsangestellter)788词项归一化中的问题词项实际上是一系列词条组成的等价类如何定义等价类?数字(3/20/91 vs.20/3/91)大小写问题词干还原,Porter工具形态分析:屈折 vs.派生其他语言中词项归一化的问题比英语中形态更复杂芬兰语:单个动词可能有12,000 个不同的形式different forms重音符号、元音变

    4、音问题(umlauts,由于一个音被另一个音词化而导致的变化,尤其是元音的变化)899跳表指针91010位置(信息)索引10在无位置信息索引中,每条倒排记录只是一个docID在位置信息索引中,每条倒排记录是一个docID加上一个位置信息表一个查询的例子:“to1 be2 or3 not4 to5 be6”TO,993427:1:7,18,33,72,86,231;2:1,17,74,222,255;4:8,16,190,429,433;5:363,367;7:13,23,191;.BE,178239:1:17,25;4:17,191,291,430,434;5:14,19,101;.第4篇文档

    5、能够与查询匹配!1111位置信息索引基于位置信息索引,能够处理短语查询(phrase query),也能处理邻近式查询(proximity query)111212本讲内容词典的数据结构:访问效率和支持查找的方式容错式检索(Tolerant retrieval):如果查询词项和文档词项不能精确匹配时如何处理?通配查询:包含通配符*的查询拼写校正:查询中存在错误时的处理1213提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex1314倒排索引对每个词项t,保存所有包含t的 文档列表14词典(dictionary)倒排记录表(posting list)词

    6、典(dictionary)倒排记录表(postings)1515词典词典是指存储词项词汇表的数据结构词项词汇表(Term vocabulary):指的是具体数据词典(Dictionary):指的是数据结构151616采用定长数组的词典结构对每个词项,需要存储:文档频率(Document Frequency,DF)指向倒排记录表的指针.暂定每条词项的上述信息均采用定长的方式存储假定所有词项的信息采用数组存储161717采用定长数组的词典结构 空间消耗:20字节 4字节 4字节17 现代信息检索词项定位(即查词典)在词典中查找给定关键字 输入“信息”,如何在词典中快速找到这个词?很多词典应用中的基

    7、本问题。以下介绍支持快速查找的词典数据结构。18信息信息数据数据挖掘挖掘181920212219用于词项定位的数据结构主要有两种数据结构:哈希表和树有些IR系统用哈希表,有些系统用树结构采用哈希表或树的准则:词项数目是否固定或者说词项数目是否持续增长?词项的相对访问频率如何?词项的数目有多少?19 现代信息检索哈希表20信息信息数据数据挖掘挖掘哈希函数,输入词项,输出正整数(通常是地址)f(信息)=18,f(数据)=19,f(挖掘)=19181920212221哈希表(Hash Table)每个词项通过哈希函数映射成一个整数尽可能避免冲突查询处理时:对查询词项进行哈希,如果有冲突,则解决冲突,

    8、最后在定长数组中定位优点:在哈希表中的定位速度快于树中的定位速度查询时间是常数缺点:无法处理词项的微小变形(resume vs.rsum)不支持前缀搜索(比如所有以automat开头的词项)如果词汇表不断增大,需要定期对所有词项重新哈希212222树(Tree)树可以支持前缀查找(相当于对词典再建一层索引)最简单的树结构:二叉树搜索速度略低于哈希表方式:O(logM),其中 M 是词汇表大小,即所有词项的数目O(logM)仅仅对平衡树成立使二叉树重新保持平衡开销很大B-树 能够减轻上述问题B-树定义:每个内部节点的子节点数目在 a,b之间,其中 a,b 为合适的正整数,e.g.,2,4.222

    9、323二叉树232424B-树2425提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Soundex2526通配查询通配查询:包含通配符的查询,例如:mon*:找出所有包含以 mon开头的词项的文档符合条件的词项有:Monday,monster,monitor等*mon:找出所有包含以mon结尾的词项的文档符合条件的词项有:summon,common,cinnamon等2627通配查询的处理mon*:找出所有包含以 mon开头的词项的文档如果采用B-树词典结构,那么实现起来非常容易,只需要返回区间mon t moo上的词项t2728通配查询的处理*mon:找出所

    10、有包含以mon结尾的词项的文档将所有的词项倒转过来,然后基于它们建一棵附加的树返回区间nom t flew,from-form,munch-munich组合所有可能搜索“flea form munich”搜索“flew from munich”搜索“flew form munch”正确查询“flew from munich”会有最高的结果命中数(例如返回网页数)假定 flew有7个可能的候选词,form 有20个,munich 有3 个,那么需要穷举出多少个查询?112113113上下文敏感的拼写校正刚才提到的基于命中数的算法效率不高一种更高效的做法是:从查询库(比如历史查询)中搜索而不是从文

    11、档库中搜索 比较查询被输入的次数 匹配查询校正历史113114114拼写校正中的一般问题用户交互界面问题全自动 vs.推荐式校正方法(Did you mean?)推荐式校正方法通常只给出一个建议如果有多个可能的正确拼写怎么办?平衡:交互界面的简洁性 vs.强大性开销问题拼写校正的开销很大避免对所有查询都运行拼写校正模块只对返回结果很少的查询运行拼写校正模块猜测:主流搜索引擎的拼写校正模块非常高效,有能力对每个查询进行拼写校正114115115课堂练习:Peter Norvig拼写校正工具的理解115116提纲上一讲回顾上一讲回顾词典词典通配查询通配查询编辑距离编辑距离拼写校正拼写校正Sound

    12、ex116117Soundex一种特殊的拼写错误(发音相似的拼写错误)比如:chebyshev/tchebyscheffSoundex是寻找发音相似的单词的方法具体算法:将词典中每个词项转换成一个4字符缩减形式对查询词项做同样的处理基于4-字符缩减形式进行索引和搜索117118118Soundex 算法保留词项的首字母将后续所有的A、E、I、O、U、H、W及Y等字母转换为0。按照如下方式将字母转换成数字:B,F,P,V 1C,G,J,K,Q,S,X,Z 2D,T 3L 4M,N 5R 6将连续出现的两个同一字符转换为一个字符直至再没有这种现象出现。在结果字符串中剔除0,并在结果字符串尾部补足0

    13、,然后返回前四个字符,该字符由1个字母加上3个数字组成。118119119例子:采用Soundex算法处理HERMAN保留 HERMAN 0RM0N0RM0N 0650506505 0650506505 655返回 H655注意:HERMANN 会产生同样的编码119120120Soundex的应用情况在IR中并不非常普遍适用于“高召回率”任务(e.g.,国际刑警组织Interpol在全球范围内追查罪犯)Zobel and Dart(1996)提出了一个更好的发音匹配方法120121121课堂练习计算你的姓的拼音的计算你的姓的拼音的Soundex编码编码121122122本讲小结词典的数据结构

    14、:访问效率和支持查找的方式哈希表 vs.树结构容错式检索(Tolerant retrieval):通配查询:包含通配符*的查询轮排索引 vs.k-gram索引拼写校正:编辑距离 vs.k-gram相似度词独立校正法 vs.上下文敏感校正法Soundex算法122 现代信息检索前一段小结 目前的索引方式和查询方式布尔查询:普通倒排索引、+跳表短语查询:双词索引、位置索引通配查询:轮排索引、k-gram索引拼写错误的查询:k-gram索引发音错误的查询:Soundex索引 包含各种格式索引的搜索引擎甚至可以处理如下查询(SPELL(moriset)/3 toron*to)OR SOUNDEX(ch

    15、aikofski)124参考资料信息检索导论第3章、MG4.2高效拼写校正方法:K.Kukich.Techniques for automatically correcting words in text.ACM Computing Surveys 24(4),Dec 1992.J.Zobel and P.Dart.Finding approximate matches in large lexicons.Software-practice and experience 25(3),March 1995.*Mikael Tillenius:Efficient Generation and Ranking of Spelling Error Corrections.Masters thesis at Swedens Royal Institute of Technology.*Peter Norvig:How to write a spelling corrector *Soundex演示Levenshtein距离的演示Peter Norvig的拼写校正工具124 现代信息检索课后练习 待补充125

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:词典及容错式检索课件.pptx
    链接地址:https://www.163wenku.com/p-4864705.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库