RetrievalEvaluation医疗培训课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《RetrievalEvaluation医疗培训课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- RetrievalEvaluation 医疗 培训 课件
- 资源描述:
-
1、本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。OutlinenIntroductionnRetrieval Performance EvaluationRecall and precisionAlternative measuresnReference CollectionsTREC CollectionCACM&ISI CollectionCF CollectionnTrends and Research Issues本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。IntroductionnTy
2、pe of evaluationFunctional analysis phase,and Error analysis phasePerformance evaluationnPerformance evaluationResponse time/space requirednRetrieval performance evaluationThe evaluation of how precise is the answer set本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Retrieval Performance Evaluationn
3、評估以batch query 為主的IR 系統collectionRelevant DocsIn Answer Set|Ra|Relevant Docs|R|Answer Set|A|Recall=|Ra|/|R|Precision=|Ra|/|A|Sorted by relevance本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision versus recall curvenRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 P=100%at R=10%P=66%at R=20%P=50%at R=
4、30%Ranking for query q:1.d123*2.d843.d56*4.d65.d86.d9*7.d5118.d1299.d18710.d25*11.d3812.d4813.d25014.d1115.d3*Usually based on 11 standard recall levels:0%,10%,.,100%本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision versus recall curvenFor a single queryFig3.2本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有
5、不当之处,请联系网站或本人删除。Average Over Multiple QueriesnP(r)=average precision at the recall level rnNq=Number of queries usednPi(r)=The precision at recall level r for the i-th queryqNiiqrPNrP1)(1)(本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Interpolated precisionnRq=d3,d56,d129 P=33%at R=33%P=25%at R=66
6、%P=20%at R=100%nP(rj)=max ri r rj+1P(r)1.d1232.d843.d56*4.d65.d86.d97.d5118.d129*9.d18710.d2511.d3812.d4813.d25014.d1115.d3*本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Interpolated precisionnLet rj,j0,1,2,10,be a reference to the j-th standard recall levelnP(rj)=max ri r rj+1P(r)R=30%,P3(r)P4(r)
7、=33%R=40%,P4(r)P5(r)R=50%,P5(r)P6(r)R=60%,P6(r)P7(r)=25%本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Average recall vs.precision figure本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Single Value SummariesnAverage precision versus recall:Compare retrieval algorithms over a set of example queriesn
8、Sometimes we need to compare individual querys performance Average precision可能會隱藏演算法中不正常的部分可能需要知道,兩個演算法中,對某特定query的performance為何 nNeed a single value summaryThe single value should be interpreted as a summary of the corresponding precision versus recall curve本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网
9、站或本人删除。Single Value SummariesnAverage Precision at Seen Relevant DocumentsAveraging the precision figures obtained after each new relevant document is observed.Example:Figure 3.2,(1+0.66+0.5+0.4+0.3)/5=0.57此方法對於很快找到相關文件的系統是相當有利的(相關文件被排在越前面,precision值越高)nR-PrecisionThe precision at the R-th position
10、in the rankingR:the total number of relevant documents of the current query(total number in Rq)Fig3.2:R=10,value=0.4Fig3.3,R=3,value=0.33本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision HistogramsnUse R-precision measures to compare the retrieval history of two algorithms through visual ins
11、pectionnRPA/B(i)=RPA(i)-RPB(i)-1.5-1-0.500.511.512345678910Query NumbaerR-Precision A/B本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Summary Table Statisticsn將所有query相關的single value summary 放在table中the number of queries,total number of documents retrieved by all queries,total number of relevant do
12、cuments were effectively retrieved when all queries are consideredtotal number of relevant documents retrieved by all queries本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision and Recall 的適用性nMaximum recall值的產生,需要知道所有文件相關的背景知識nRecall and precision是相對的測量方式,兩者要合併使用比較適合。nMeasures which quantify
13、the informativeness of the retrieval process might now be more appropriatenRecall and precision are easy to define when a linear ordering of the retrieved documents is enforced本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Alternative MeasuresnThe Harmonic Mean ,介於0,1nThe E Measure-加入喜好比重b=1,E(j)=F
14、(j)b1,more interested in precisionb1,more interested in recall)(1)(12)(jPjrjF)(1)(2211)(jPjrbbjE本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。User-Oriented Measuren假設:Query與使用者有相關,不同使用者有不同的relevant docsCoverage=|Rk|/|U|Novelty=|Ru|/(|Ru|+|Rk|)Coverage越高,系統找到使用者期望的文件越多Noverlty越高,系統找到許多使用者之前不知道相關的文件
15、越多本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Reference Collectionn用來作為評估IR系統reference test collectionsTIPSTER/TREC:量大,實驗用CACM,ISI:歷史意義Cystic Fibrosis:small collections,relevant documents由專家研討後產生本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。IR system遇到的批評nLacks a solid formal framework as a ba
16、sic foundation無解!一個文件是否與查詢相關,是相當主觀的!nLacks robust and consistent testbeds and benchmarks較早,發展實驗性質的小規模測試資料1990後,TREC成立,蒐集上萬文件,提供給研究團體作IR系統評量之用本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC(Text REtrieval Conference)nInitiated under the National Institute of Standards and Technology(NIST)nGoals:
17、Providing a large test collectionUniform scoring proceduresForumn7th TREC conference in 1998:Document collection:test collections,example information requests(topics),relevant docsThe benchmarks tasks本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The Documents Collectionn由SGML編輯WSJ880406-0090AT&T U
展开阅读全文