第三章信息检索评价教材课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第三章信息检索评价教材课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第三 信息 检索 评价 教材 课件
- 资源描述:
-
1、第三章:信息检索系统的评价任飞亮东北大学自然语言处理实验室2010 内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究内容提要n引言引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究评价n评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等n信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动n从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应推动其研究、开发与应用用的一
2、种主要力量信息检索的评价n针对一个检索系统,可以从功能和性能两个方面对其进行分析评价n功能评价n可通过测试系统来判定是否支持某项功能n因此相对来说较容易n性能评价n时间与空间性能n相关度排序性能用户真正关心的性能评价信息检索系统的困难n相关性不是二值评价,而是一个连续的量n即使进行二值评价,很多时候也很难n从人的立场上看,相关性具有如下特点:n主观的,依赖于特定用户的判断n情景相关的,依赖于用户的需求n认知的,依赖于人的认知和行为能力n时变的,随着时间而变化准备条件:n在评价和比较检索系统的检索性能时,需要以下条件:n一个文档集合C。系统将从该集合中按照查询要求检出相关文档n一组用户查询要求q
3、1,q2,qn。每个查询要求qi描述了用户的信息需求n对应每个用户查询要求的标准相关文档集R1,R2,Rn。该集合可由人工方式构造n一组评价指标。n这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值内容提要n引言n性能评价指标性能评价指标n基本评价指标基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究基本评价指标n准确率与召回率n平均准确率基本评价指标n准确率与召回率准确率与召回率n平均准确率召回率和准确率(查全率和查准率)相关文本相关文本检索出的检索出的文本文本全部文本集合全部文本
4、集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设:文本集中所有文献已进行假设:文本集中所有文献已进行了检查了检查举例nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果:1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3 (准确率,召回率)(100%,
5、10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)准确率上升的时候准确率上升的时候,召回率在下降召回率在下降,反之亦然反之亦然!相关文档集准确率和召回率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾11点标准召回率下的准确率曲线n11个标准召回率下所对应的准确率:0%,10%,20%,100%02040608010020406080100插值法准确率召回率准确率准确率上升的上升的时候时候,召召回率在回率在下降下降,反反之亦然之亦然!基本评价指标n准确率与召回率n平均准确率平均准确率平均准确率n上述准确率召
6、回率的值对应一个查询n每个查询对应不同的准确/召回率曲线n为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:Nq:使用的查询总数Pi(r):在召回率为r时的第i个查询的准确率1()()qNiiqP rP rN多个查询下进行检索算法的比较n对多个查询,进行平均,有时该曲线也称为:准确率/召回率的值。n如下为两个检索算法在多个查询下的准确率/召回率的值。n第一个检索算法在低召回率率下,其准确率较高。n另一个检索算法在高召回率下,其准确率较高0102030405060708090100020406080100120RecallPrecision准确率与召
7、回率评价的适应性n这两个指标相互关联,评价不同方面,结合在一起形成单个测度更合适n测的是批处理模式下查询集合性能内容提要n引言n性能评价指标n基本评价指标n单值评价指标单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究单值评价方法n随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图 单值评价方法n随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值已检出相关文献的平均准
8、确率均值nP10nR准确率n准确率直方图 已检出相关文献的平均准确率均值nMean Average Precision,MAPn最近几年常用的评价标准n单个查询的平均准确率是逐个考察排序中每个新的相关文档,然后对其准确率值进行平均后的平均值;n查询集合的平均准确率是每个查询的平均准确率MAP的平均值,MAP的计算公式如下:11riiMAPri第 个相关文档的位置nMAP是反映系统在全部查询上性能的单值指标n系统检索出来的相关文档位置越靠前,MAP就可能越高.n如果系统没有返回相关文档,则MAP默认为0.r为相关文档数MAP-例子MAP=?nExampleRq=d3,d5,d9,d25,d39,
9、d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果:n1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3(1+0.66+0.5+0.4+0.3)/5=0.57相关文档集新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图 P10评价n定义:系统对于查询返回的前10个结果的准准确率确率.n考虑到用户在查看搜索引擎结果
10、时,往往希望在第一个页面(通常为10个结果)就找到自己所需的信息,因此P10能比较真实有效地反映在真实应用环境下所表现的性能.P10-例子P10=?nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果:n1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3 0.4相关文档集新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现n单值评价方法n
11、已检出相关文献的平均准确率均值nP10nR准确率准确率n准确率直方图 R准确率n单个查询的R准确率是指检索出R篇相关文篇相关文档档时的准确率准确率.nR是当前检索中相关文档总数n查询集合中所有查询的R准确率是每个查询的R准确率的平均值.PrRRecisionR前 篇文档中实际相关文档数R准确率-例子1.d123 6.d9 2.d847.d5113.d56 8.d1294.d69.d1875.d8 10.d25 10-准确率=?1.d1232.d843.d56 10-precision=4/10=0.43-准确率=?3-precision=1/3=0.333新的评价指标n随着测试集规模的扩大以及
12、人们对评测结果理解的深入,更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图准确率直方图 准确率直方图n用于快速比较两个检索算法的性能n在多个查询下,分别计算每一查询下的R准确率,计算其差值,并用直方图表示.n用RPA(i)和RPB(i)分别表示使用检索算法A和检索算法B检索第i个查询时得到的R准确率,它们之间的差值RPA-B(i)=RPA(i)-RPB(i)nRPA-B=0:对于第i个查询,两个算法有相同的性能nRPA-B0:对于第i个查询,算法A有较好的性能nRPA-B1时,表示准确率P的重要性大于召回率Rn当b1时,表示召
展开阅读全文