第三章信息检索评价教材课件.ppt

上传人（卖家）：晟晟文业

文档编号：4515373

上传时间：2022-12-16

格式：PPT

页数：81

大小：793.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《第三章信息检索评价教材课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第三信息检索评价教材课件

资源描述：: 1、第三章:信息检索系统的评价任飞亮东北大学自然语言处理实验室2010 内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究内容提要n引言引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究评价n评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值，或者是某项政策的效果等等n信息检索评价则是指对信息检索系统的性能（主要是其满足用户信息需求的能力）进行评估的活动n从信息检索系统诞生以来，对检索系统的评价就一直是推动其研究、开发与应推动其研究、开发与应用用的一
2、种主要力量信息检索的评价n针对一个检索系统，可以从功能和性能两个方面对其进行分析评价n功能评价n可通过测试系统来判定是否支持某项功能n因此相对来说较容易n性能评价n时间与空间性能n相关度排序性能用户真正关心的性能评价信息检索系统的困难n相关性不是二值评价，而是一个连续的量n即使进行二值评价，很多时候也很难n从人的立场上看，相关性具有如下特点：n主观的，依赖于特定用户的判断n情景相关的，依赖于用户的需求n认知的，依赖于人的认知和行为能力n时变的，随着时间而变化准备条件：n在评价和比较检索系统的检索性能时,需要以下条件:n一个文档集合C。系统将从该集合中按照查询要求检出相关文档n一组用户查询要求q
3、1,q2,qn。每个查询要求qi描述了用户的信息需求n对应每个用户查询要求的标准相关文档集R1,R2,Rn。该集合可由人工方式构造n一组评价指标。n这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值内容提要n引言n性能评价指标性能评价指标n基本评价指标基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究基本评价指标n准确率与召回率n平均准确率基本评价指标n准确率与召回率准确率与召回率n平均准确率召回率和准确率(查全率和查准率)相关文本相关文本检索出的检索出的文本文本全部文本集合全部文本
4、集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设：文本集中所有文献已进行假设：文本集中所有文献已进行了检查了检查举例nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果：1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3 (准确率,召回率)(100%,
5、10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)准确率上升的时候准确率上升的时候,召回率在下降召回率在下降,反之亦然反之亦然!相关文档集准确率和召回率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾11点标准召回率下的准确率曲线n11个标准召回率下所对应的准确率:0%,10%,20%,100%02040608010020406080100插值法准确率召回率准确率准确率上升的上升的时候时候,召召回率在回率在下降下降,反反之亦然之亦然!基本评价指标n准确率与召回率n平均准确率平均准确率平均准确率n上述准确率召
6、回率的值对应一个查询n每个查询对应不同的准确/召回率曲线n为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下：Nq:使用的查询总数Pi(r):在召回率为r时的第i个查询的准确率1()()qNiiqP rP rN多个查询下进行检索算法的比较n对多个查询，进行平均，有时该曲线也称为：准确率/召回率的值。n如下为两个检索算法在多个查询下的准确率/召回率的值。n第一个检索算法在低召回率率下，其准确率较高。n另一个检索算法在高召回率下，其准确率较高0102030405060708090100020406080100120RecallPrecision准确率与召
7、回率评价的适应性n这两个指标相互关联，评价不同方面，结合在一起形成单个测度更合适n测的是批处理模式下查询集合性能内容提要n引言n性能评价指标n基本评价指标n单值评价指标单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究单值评价方法n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图单值评价方法n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值已检出相关文献的平均准
8、确率均值nP10nR准确率n准确率直方图已检出相关文献的平均准确率均值nMean Average Precision,MAPn最近几年常用的评价标准n单个查询的平均准确率是逐个考察排序中每个新的相关文档,然后对其准确率值进行平均后的平均值;n查询集合的平均准确率是每个查询的平均准确率MAP的平均值,MAP的计算公式如下:11riiMAPri第个相关文档的位置nMAP是反映系统在全部查询上性能的单值指标n系统检索出来的相关文档位置越靠前,MAP就可能越高.n如果系统没有返回相关文档,则MAP默认为0.r为相关文档数MAP-例子MAP=?nExampleRq=d3,d5,d9,d25,d39,
9、d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果：n1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3(1+0.66+0.5+0.4+0.3)/5=0.57相关文档集新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图 P10评价n定义:系统对于查询返回的前10个结果的准准确率确率.n考虑到用户在查看搜索引擎结果
10、时,往往希望在第一个页面(通常为10个结果)就找到自己所需的信息,因此P10能比较真实有效地反映在真实应用环境下所表现的性能.P10-例子P10=?nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果：n1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3 0.4相关文档集新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n
11、已检出相关文献的平均准确率均值nP10nR准确率准确率n准确率直方图 R准确率n单个查询的R准确率是指检索出R篇相关文篇相关文档档时的准确率准确率.nR是当前检索中相关文档总数n查询集合中所有查询的R准确率是每个查询的R准确率的平均值.PrRRecisionR前篇文档中实际相关文档数R准确率-例子1.d123 6.d9 2.d847.d5113.d56 8.d1294.d69.d1875.d8 10.d25 10-准确率=?1.d1232.d843.d56 10-precision=4/10=0.43-准确率=?3-precision=1/3=0.333新的评价指标n随着测试集规模的扩大以及
12、人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图准确率直方图准确率直方图n用于快速比较两个检索算法的性能n在多个查询下,分别计算每一查询下的R准确率,计算其差值,并用直方图表示.n用RPA(i)和RPB(i)分别表示使用检索算法A和检索算法B检索第i个查询时得到的R准确率,它们之间的差值RPA-B(i)=RPA(i)-RPB(i)nRPA-B=0:对于第i个查询，两个算法有相同的性能nRPA-B0:对于第i个查询，算法A有较好的性能nRPA-B1时，表示准确率P的重要性大于召回率Rn当b1时，表示召
13、回率R的重要性大于准确率P其他测度方法n调和平均值nE评价指标n面向用户的测度方法面向用户的测度方法面向用户的测度方法n覆盖率：在用户已知的相关文档集合中,检出相关文档所占的比例n新颖率：检出的相关文献中用户未知的相关文献所占的比例covkRerageUuukRnoveltyRRU为用户已知的相关文档集Rk为系统检索出的文档集合A与集合U的交集Ru为检出的用户以前未知的相关文档集图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价
14、方法n国外信息检索评测国外信息检索评测n信息检索评价的研究国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEF国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试
15、方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEFTREC评测nTREC评测 n文本检索会议（Text Retrieval Conference，TREC）是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)（美
16、国国防部）共同资助，开始于1992年。n主要致力于以下几个方面n促进基于大规模测试文档集的检索研究。n为了反映现实系统的主题多样性，必须保证有足够的实验语料集，TREC的文献集合一般在2G左右，包括50100万篇文献；n建立一个开放的论坛来交流研究思想，使与会者能交流研究的成果与心得，促进企业学术机构和政府部门之间的交流沟通。n通过展示检索方法在解决实际问题中的有效性，来加速实验室技术的商业化产品转换。n通过提供大型的语料库、统一的测试程序，有系统地整理评测结果，达到改善文本检索评价和检验方法的目标。TREC评测任务n早期的评测任务：nAd hoc检索任务（传统的批处理检索）n类似图书馆里的书
17、籍检索，即书籍库（数据库、文档集合）相对稳定不变，而用户的查询要求是千变万化的。n主要研究任务包括对大数据库的索引查询、查询的扩展等；n固定主题检索任务(Information Routing)n用户的查询要求相对稳定，而文档集常常发生变化n研究的主要任务不是索引，而是对用户兴趣的建模，即如何为用户兴趣建立合适的数学模型；TREC评测任务n新的任务n博客任务：研究在博客上的信息检索方法n企业检索任务：研究企业搜索问题，即满足用户对组织机构的相关数据的信息检索需求；n基因数据检索任务：n法律文档检索任务：目的是提高律师检索电子文档集效率的技术n问答系统任务：要求系统能针对问题给出具体而明确的答案
18、n垃圾邮件过滤任务n超大规模文档检索任务：目的是研究是否以及什么时候把传统信息检索中基于测试集的评价方法应用于超大规模文档集。TREC评测影响n在测试集方法：TREC评测的测试集开创了大量文档集、结构化的查询、务实的相关性判断，被信息检索的研究团体广泛采用；n在评测任务方面：TREC致力于持续地研究发展许多新的测试任务，为新的热点研究提供了急需的数据和评价体系，促进了这些技术的快速发展。n在会议及论坛方面：TREC会议的举行使得研究者能透过系统测试以及相互间的观摩切磋，使系统的检索技术得到提高，并获得更高的检索效益。国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没
19、有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEFNTCIRnNTCIR评测nNTCIR(NACSIS Test Collection for IR Systems)始于1998年，是由日本国立信息学研究所（National Institute of Informatics，
20、简称NII）主办的搜索引擎评价型国际会议 n主要评测任务n传统的日文、中文、韩文、英文的单语ad hoc任务.n最重要的任务是跨语言信息检索。若以C、J、K、E分别代表中文、日文、韩文、英文，则有CCJKE、JCJKE、KCJKE、ECJKE等极为复杂的检索任务。n另外一个比较重要的任务是中枢语言信息检索，这个任务是模拟在语言资源不足的情况下进行跨语言信息检索。n如要进行CK的跨语言信息检索，但是没有中韩双语词典，只好借用中英词典以及英韩词典，此时，英语就被视为中枢语言。NTCIRn其他评测任务n问答挑战(Question Answering Challenge,QAC):它与TREC的QA任
21、务类似，是单语QA，但是QAC的难度更大。它提供一种特别的QA评测任务，这些任务由一系列问题构成，这些问题是环环相扣。n网页检索：与TREC的Web 检索任务类似；n自动文摘：为文档进行摘要。n专利检索：与日本知识产权局合作的专利检索评测任务，其目的是为了提升专利检索的品质与绩效。国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，
22、对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEFCLEFnCLEF(Cross-Language Evaluation Forum)评测nCLEF于2000年开始筹办，是欧洲各国共同合作进行的一项长期研究计划，主要想通过评测信息科技技术，促进欧洲语言中的各种单一语言以及多语言信息技术的发展，nCLEF的目标只在于跨语言信息检索以及多语言信息检索方面 nCLEF的评测任务n跨语言文本检索：包括三个子任务，即单语检索、双语检索以及多语检索。n跨语言专利数据检索：主要是使用专业领域上下文的信息进行单语言以及跨语言的
23、信息检索。n交互式跨语言检索(Interactive Cross-Language Retrieval(iCLEF):尝试模拟实际检索环境下使用者与检索系统的互动情形，以改善信息检索系统的性能。n多语问答:是一种跨语言QA检索评测n图像跨语言检索/跨语言语间检索内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究信息检索评价的研究信息检索评价的研究n在评测推动下，取得了很大的成果。n今后的研究问题与趋势n增加测试数据集合的规模n继续针对相关判断的完整性与一致性做进一步研究；n信息检索评价方法的研究发展方向以TREC等信息检
24、索评测具体的检索任务为发展方向。n中文信息检索评价以及评测还处于起步阶段，与国际知名评测仍有较大差距。本章小结n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究思考题n1、分析对比MRR评价方法与MAP评价方法，并指出何时二者等价。n2、分析信息检索评价方法中的准确率与召回率评价方法的局限性。n3、在一个检索评价中，产生了几个查询，对每个查询，检索系统按相关度从高到低的顺序对返回的文档结果排序。对某个特定的主题，相关文档集是这样生成的：先将每个检索系统提交结果中排序为1的文档放入文档集，然后再依次将排序为2、排序为3、的文档放入文档集，直到文档集中有不少于120个不重复的文档为止。这120个文档分成6组，每组20个文档，交给6个人，进行人工相关性判断。如果一个人没有提交他的相关判断的结果，那么就只好将那20个文档判断为非相关的。问题：n1、如果有一个人未提交他的判断结果，那么会对相应主题的评价结果产生什么样的影响？这个影响会有多大？n2、这个影响是否会因检索系统而异？n3、假设120个文档都经过相关判断，对某个查询来说仍会有上百个文档是未经过判断的。这种情况会对这个查询的评价结果产生什么样的影响？n请以召回率、准确率以及平均准确率为中心对此问题进行讨论。

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第三章信息检索评价教材课件.ppt
链接地址：https://www.163wenku.com/p-4515373.html

晟晟文业

内容提供者

实名认证

联系作者