现代信息检索课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《现代信息检索课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 现代 信息 检索 课件
- 资源描述:
-
1、1Introduction to Information Retrieval 现代信息检索现代信息检索中科院研究生院2011年秋季课程现代信息检索 更新时间:Modern Information Retrieval授课人:王斌http:/ introduction to Information retrieval”网上公开的课件,地址 http:/nlp.stanford.edu/IR-book/第8讲 检索评价&结果摘要Evaluation&Snippets2011/10/112提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要现代信息检索 现代信息检索 5 5回转归一化sourc
2、e:Lilian Lee现代信息检索 6 6快速返回top K结果的启发式方法以文档为单位(Document-at-a-time)的处理 计算查询-文档相似度时,先计算完文档 di 的得分,再开始文档 di+1的计算 文档在所有倒排记录表中的顺序应该保持一致以词项为单位(Term-at-a-time)的处理 计算查询-文档相似度时,先处理完词项 ti 的倒排记录表,再处理词项ti+1的倒排记录表 需要对每个未处理完的文档建立一个累加器7堆结构现代信息检索 8 8分层索引9 现代信息检索本讲内容 信息检索的评价指标 不考虑序的检索评价指标(即基于集合)考虑序的评价指标 信息检索评测语料及会议 检
3、索结果的摘要10提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要中科院研究生院2011年度秋季课程11 现代信息检索关于评价 评价无处不在,也很必要 工作、生活、娱乐、找对象、招生 评价很难,但是似乎又很容易 人的因素、标准、场景 评价是检验学术进步的唯一标准,也是杜绝学术腐败的有力武器中科院研究生院2011年度秋季课程12 现代信息检索从竞技体育谈起(曾经的一说)世界记录 vs.世界最好成绩 110米栏世界记录:罗伯斯,古巴,1287 男子马拉松世界最好成绩:保罗 特尔加特,肯尼亚,2小时4分55秒 评价要公平!环境要基本一致:天气、风速、跑道等等 比赛过程要一样:竞走中的犯规
4、指标要一样:速度、耐力中科院研究生院2011年度秋季课程13 现代信息检索为什么要评估IR?通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高 类比:110米栏各项技术-起跑、途中跑、跨栏、步频、冲刺等等 信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。中科院研究生院2011年度秋季课程14 现代信息检索IR中评价什么?效率(Efficiency)可以采用通常的评价方法 时间开销 空间开销 响应速度 效果(Effectiveness)返回的文档中有多少相关文档 所有相关文档中返回了多少 返回得靠不靠前 其他指标 覆盖率(Coverage)访问量
5、数据更新速度中科院研究生院2011年度秋季课程15 现代信息检索如何评价效果?相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。The Cranfield Experiments,Cyril W.Cleverdon,1957 1968(上百篇文档集合)SMART System,Gerald Salton,1964-1988(数千篇文档集合)TREC(Text REtrieval Conference),Donna Harman,美国标准技术研究所,1992-(上百万篇文档),信息检索的“奥运会”现代信息检索 中科院研究生院2011年度秋季课程16评价任务的例子 两个系
6、统,一批查询,对每个查询每个系统分别得到一些结果。目标:哪个系统好?17 现代信息检索评价的几部分 评价指标:某个或某几个可衡量、可比较的值 评价过程:设计上保证公平、合理18提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要中科院研究生院2011年度秋季课程19 现代信息检索评价指标分类 对单个查询进行评估的指标 在单个查询上检索系统的得分 对多个查询进行评估的指标 在多个查询上检索系统的得分中科院研究生院2011年度秋季课程20 现代信息检索评价指标分类 对单个查询进行评估的指标 在单个查询上检索系统的得分 对多个查询进行评估的指标 在多个查询上检索系统的得分现代信息检索 中科院
7、研究生院2011年度秋季课程21回到例子对于查询1的标准答案集合 d3,d4,d6,d9中科院研究生院2011年度秋季课程22整个文档集合的划分RRNNNRRN未检索出的不相关文档检索出的不相关文档检索出的相关文档未检索出的相关文档检索出(Retrieved)未检索出(Not Retrieved)不相关(Not Relevant)相关(Relevant)整个文档集合中科院研究生院2011年度秋季课程23 现代信息检索评价指标 召回率召回率(Recall):RR/(RR+NR),返回的相关结果数占实际相关结果总数的比率,也称为查全查全率率,R 0,1 正确率正确率(Precision):RR/(
8、RR+RN),返回的结果中真正相关结果的比率,也称为查准率查准率,P 0,1 两个指标分别度量检索效果的某个方面,忽略任何一个方面都有失偏颇。两个极端情况:返回有把握的1篇,P=100%,但R极低;全部文档都返回,R1,但P极低现代信息检索 中科院研究生院2011年度秋季课程24四种关系的矩阵表示真正相关文档 RR+NR真正不相关文档系统判定相关 RR+RN(检索出)系统判定不相关(未检索出)RecallPrecisionAns=RR+NRRet=RR+RN中科院研究生院2011年度秋季课程25 现代信息检索基于集合的图表示RR标准答案Ans返回结果RetRNNRPrecisionRecall
9、现代信息检索 中科院研究生院2011年度秋季课程26回到例子对于查询1的标准答案集合 d3,d4,d6,d9对于系统1,查询1,正确率2/5,召回率2/4对于系统2,查询1,正确率2/4,召回率2/4中科院研究生院2011年度秋季课程27 现代信息检索课堂提问:另一个计算例子 一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档 Recall=80/100=0.8 Precision=80/200=0.4 结论:召回率较高,但是正确率较低中科院研究生院2011年度秋季课程28 现代信息检索正确率和召回率的应用领域 拼写校对 中文分词 文本分类 人脸识
10、别 中科院研究生院2011年度秋季课程29 现代信息检索关于正确率和召回率的讨论(1)“宁可错杀一千,不可放过一人”偏重召回率,忽视正确率。冤杀太多。判断是否有罪:如果没有证据证明你无罪,那么判定你有罪。召回率高,有些人受冤枉 如果没有证据证明你有罪,那么判定你无罪。召回率低,有些人逍遥法外中科院研究生院2011年度秋季课程30 现代信息检索关于正确率和召回率的讨论(2)虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一
11、点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。现代信息检索 3131P/R指标的方差对于一个测试文档集来说,某些信息需求上效果很差(比如,在 R=0.1 点上 P=0.2),但是在一些其他需求上又相当好(如在R=0.1 点上P=0.95)实际上,同一系统在不同查询上的结果差异往往高于不同系统在同一查询上的结果也就是说,存在容易的信息需求和难的信息需求中科院研究生院2011年度秋季课程32 现代信息检索课堂提问:正确率和召回率的定义或者计算有什么问题或不足?对于查询1的标准答案集合 d3,d4,d6,d9对于系统1,查询1,正确率2/5,召回率2/4对于系统2,查询
12、1,正确率2/4,召回率2/4现代信息检索 中科院研究生院2011年度秋季课程33回到例子对于查询1的标准答案集合 d3,d4,d6,d9对于系统1,查询1,正确率2/5,召回率2/4对于系统2,查询1,正确率2/4,召回率2/4中科院研究生院2011年度秋季课程34 现代信息检索正确率和召回率的问题 召回率难以计算 解决方法:Pooling方法,或者不考虑召回率 两个指标分别衡量了系统的某个方面,但是也为比较带来了难度,究竟哪个系统好?大学最终排名也只有一个指标。解决方法:单一指标,将两个指标融成一个指标 两个指标都是基于(无序)集合进行计算,并没有考虑序的作用 举例:两个系统,对某个查询,
13、返回的相关文档数目一样都是10,但是第一个系统是前10条结果,后一个系统是最后10条结果。显然,第一个系统优。但是根据上面基于集合的计算,显然两者指标一样。解决方法:引入序的作用中科院研究生院2011年度秋季课程35 现代信息检索关于召回率的计算 对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率 缓冲池(Pooling)方法:对多个检索系统的Top N个结果组成的集合进行人工标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的(可以比较不同系统的相对效果),在TREC会议中被广泛采用。中科院研究生院2011年度秋季课程36 现代信息检
14、索4个系统的Pooling系统1 TOP N系统2 TOP N系统3 TOP N系统4 TOP N全部文档Pool中科院研究生院2011年度秋季课程37 现代信息检索课堂提问(某个系统的某个查询)通过Pooling计算出的召回率、正确率和真正的召回率、正确率的大小之间有什么关系?情况1(常见情况):如果只有部分结果进行了Pooling操作,那么显然在计算正确率时有 RRP=0)倍,1更重视召回率,1表示更重视P,E=1-F,b2=1/222PR=(P0,R0)11P+RFPR2211(P0,R0)1bEbPR 22(1)(P0,R0)PRFPR现代信息检索 3939为什么使用调和平均计算F值
15、为什么不使用其他平均来计算F,比如算术平均 如果采用算术平均计算F值,那么一个返回全部文档的搜索引擎的F值就不低于50%,这有些过高。做法:不管是P还是R,如果十分低,那么结果应该表现出来,即这样的情形下最终的F值应该有所惩罚 采用P和R中的最小值可能达到上述目的 但是最小值方法不平滑而且不易加权基于调和平均计算出的F 值可以看成是平滑的最小值函数现代信息检索 4040F1 及其他平均计算方法现代信息检索 4141精确率(Accuracy)精确率是所有判定中正确的比率 accuracy=(RR+NN)/(RN+RR+NR+NN)为什么通常使用P、R、F而不使用精确率?Web信息检索当中精确率为
16、什么不可用?现代信息检索 4242课堂练习 计算P、R、F1 下面的一个搜索引擎无论对于什么查询都返回0结果,为什么该引擎例子表明使用精确率是不合适的?现代信息检索 4343精确率不适合IR的原因 由于和查询相关毕竟占文档集的极少数,所以即使什么都不返回也会得到很高的精确率 什么都不返回可能对大部分查询来说可以得到 99.99%以上的精确率 信息检索用户希望找到某些文档并且能够容忍结果中有一定的不相关性 返回一些即使不好的文档也比不返回任何文档强 因此,实际中常常使用P、R和F1,而不使用精确率中科院研究生院2011年度秋季课程44 现代信息检索引入序的作用(1)R-Precision:检索结
17、果中,在所有相关文档总数位置上的准确率,如某个查询的相关文档总数为80,则计算检索结果中在前80篇文档的正确率。系统1,查询1d3d6 d8 d10d11系统2,查询1d6 d7 d2 d9 对于查询1的标准答案集合 d3,d4,d6,d9R-P1=2/4 R-P2=2/4中科院研究生院2011年度秋季课程45 现代信息检索引入序的作用(2)正确率-召回率 曲线(precision versus recall curve)检索结果以排序方式排列,用户不可能马上看到全部文档,因此,在用户观察的过程中,正确率和召回率在不断变化(vary)。可以求出在召回率分别为0%,10%,20%,30%,90%
18、,100%上对应的正确率,然后描出图像 在上面的曲线对应的系统结果更好现代信息检索 中科院研究生院2011年度秋季课程46P-R曲线的例子 某个查询q的标准答案集合为:Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 某个IR系统对q的检索结果如下:中科院研究生院2011年度秋季课程47 现代信息检索P-R曲线Precision-recall 曲 线Recall020406080100120Precision020406080100120中科院研究生院2011年度秋季课程48 现代信息检索P-R 曲线的插值问题 对于前面的例子,假设Rq=d3,d56,d1293
19、.d56 R=0.33,P=0.33;8.d129 R=0.66,P=0.25;15.d3 R=1,P=0.2 不存在10%,20%,90%的召回率点,而只存在 33.3%,66.7%,100%三个召回率点 在这种情况下,需要利用存在的召回率点对不存在的召回率点进行插值(interpolate)对于t%,如果不存在该召回率点,则定义t%为从t%到(t+10)%中最大的正确率值。对于上例,0%,10%,20%,30%上正确率为0.33,40%60%对应0.25,70%以上对应0.2中科院研究生院2011年度秋季课程49 现代信息检索P-R曲线图Precision-Recall曲 线Recall0
20、.0.2.4.6.81.01.2Precision.18.20.22.24.26.28.30.32.34Recall vs Precision 中科院研究生院2011年度秋季课程50 现代信息检索P-R的优缺点 优点:简单直观 既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况 缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣中科院研究生院2011年度秋季课程51 现代信息检索基于P-R曲线的单一指标 Break Point:P-R曲线上 P=R的那个点 这样可以直接进行单值比较 11点平均正确率(11 point average precision):在召回率分
21、别为0,0.1,0.2,1.0的十一个点上的正确率求平均,等价于插值的AP中科院研究生院2011年度秋季课程52 现代信息检索P-R曲线中的break pointPrecision-recall 曲线Recall020406080100120Precision020406080100120y=xBreak point现代信息检索 中科院研究生院2011年度秋季课程53引入序的作用(3)平均正确率(Average Precision,AP):对不同召回率点上的正确率进行平均 未插值的AP:某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则
22、AP=(1/1+2/2+3/5+4/10+5/20+0)/6 插值的AP:在召回率分别为0,0.1,0.2,1.0的十一个点上的正确率求平均,等价于11点平均 只对返回的相关文档进行计算的AP,AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果的系统,没有考虑召回率中科院研究生院2011年度秋季课程54 现代信息检索不考虑召回率 PrecisionN:在第N个位置上的正确率,对于搜索引擎,大量统计数据表明,大部分搜索引擎用户只关注前一、两页的结果,因此,P10,P20对大规模搜索引擎来说是很好的评价指标 bpref、NDCG:后面详细介绍。现代信息检索 中科院研究生
23、院2011年度秋季课程55回到例子查询1及查询2的标准答案集合分别为 d3,d4,d6,d9d1,d2,d13系统1查询1:P2=1,P5=2/5;系统1查询2:P2=1/2,P5=2/5;系统1查询1:P2=1/2,P5=2/5;系统1查询1:P2=1,P5=3/5中科院研究生院2011年度秋季课程56 现代信息检索评价指标分类 对单个查询进行评估的指标 对单个查询得到一个结果 对多个查询进行评估的指标 在多个查询上检索系统的得分求平均中科院研究生院2011年度秋季课程57 现代信息检索评价指标(9)平均的求法:宏平均(Macro Average):对每个查询求出某个指标,然后对这些指标进行
24、算术平均 微平均(Micro Average):将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算 如:Micro Precision=(对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)宏平均对所有查询一视同仁,微平均受返回相关文档数目比较大的查询影响(宏平均保护弱者,类比:乒乓球参赛资格限制)MAP(Mean AP):对所有查询的AP求宏平均现代信息检索 中科院研究生院2011年度秋季课程58回到例子查询1及查询2的标准答案集合分别为 d3,d4,d6,d9d1,d2,d13系统1查询1:P=2/5,R=2/4,F=4/9,AP=1/2;系统1查询2:P=2/5
25、,R=2/3,F=1/2,AP=7/15;系统2查询1:P=2/4,R=2/4,F=1/2,AP=3/8;系统2查询2:P=3/5,R=3/3.F=3/4,AP=11/12;系统1的MacroP=2/5,MacroR=7/12,MacroF=17/36,MAP=29/60,MicroP=4/10,MicroR=4/7,MicroF=8/17系统2的MacroP=11/20,MacroR=3/4,MacroF=5/8,MAP=31/48,MicroP=4/9,MicroR=5/7,MicroF=40/73中科院研究生院2011年度秋季课程59 现代信息检索课堂提问:两个查询q1、q2的标准答案数
展开阅读全文