RetrievalEvaluation医疗培训课件.ppt

上传人（卖家）：晟晟文业

文档编号：5155538

上传时间：2023-02-15

格式：PPT

页数：39

大小：295.26KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《RetrievalEvaluation医疗培训课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: RetrievalEvaluation 医疗培训课件

资源描述：: 1、本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。OutlinenIntroductionnRetrieval Performance EvaluationRecall and precisionAlternative measuresnReference CollectionsTREC CollectionCACM&ISI CollectionCF CollectionnTrends and Research Issues本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。IntroductionnTy
2、pe of evaluationFunctional analysis phase,and Error analysis phasePerformance evaluationnPerformance evaluationResponse time/space requirednRetrieval performance evaluationThe evaluation of how precise is the answer set本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Retrieval Performance Evaluationn
3、評估以batch query 為主的IR 系統collectionRelevant DocsIn Answer Set|Ra|Relevant Docs|R|Answer Set|A|Recall=|Ra|/|R|Precision=|Ra|/|A|Sorted by relevance本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Precision versus recall curvenRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 P=100%at R=10%P=66%at R=20%P=50%at R=
4、30%Ranking for query q:1.d123*2.d843.d56*4.d65.d86.d9*7.d5118.d1299.d18710.d25*11.d3812.d4813.d25014.d1115.d3*Usually based on 11 standard recall levels:0%,10%,.,100%本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Precision versus recall curvenFor a single queryFig3.2本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有
5、不当之处，请联系网站或本人删除。Average Over Multiple QueriesnP(r)=average precision at the recall level rnNq=Number of queries usednPi(r)=The precision at recall level r for the i-th queryqNiiqrPNrP1)(1)(本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Interpolated precisionnRq=d3,d56,d129 P=33%at R=33%P=25%at R=66
6、%P=20%at R=100%nP(rj)=max ri r rj+1P(r)1.d1232.d843.d56*4.d65.d86.d97.d5118.d129*9.d18710.d2511.d3812.d4813.d25014.d1115.d3*本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Interpolated precisionnLet rj,j0,1,2,10,be a reference to the j-th standard recall levelnP(rj)=max ri r rj+1P(r)R=30%,P3(r)P4(r)
7、=33%R=40%,P4(r)P5(r)R=50%,P5(r)P6(r)R=60%,P6(r)P7(r)=25%本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Average recall vs.precision figure本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Single Value SummariesnAverage precision versus recall:Compare retrieval algorithms over a set of example queriesn
8、Sometimes we need to compare individual querys performance Average precision可能會隱藏演算法中不正常的部分可能需要知道,兩個演算法中，對某特定query的performance為何 nNeed a single value summaryThe single value should be interpreted as a summary of the corresponding precision versus recall curve本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网
9、站或本人删除。Single Value SummariesnAverage Precision at Seen Relevant DocumentsAveraging the precision figures obtained after each new relevant document is observed.Example:Figure 3.2,(1+0.66+0.5+0.4+0.3)/5=0.57此方法對於很快找到相關文件的系統是相當有利的(相關文件被排在越前面,precision值越高)nR-PrecisionThe precision at the R-th position
10、in the rankingR:the total number of relevant documents of the current query(total number in Rq)Fig3.2:R=10,value=0.4Fig3.3,R=3,value=0.33本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Precision HistogramsnUse R-precision measures to compare the retrieval history of two algorithms through visual ins
11、pectionnRPA/B(i)=RPA(i)-RPB(i)-1.5-1-0.500.511.512345678910Query NumbaerR-Precision A/B本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Summary Table Statisticsn將所有query相關的single value summary 放在table中the number of queries,total number of documents retrieved by all queries,total number of relevant do
12、cuments were effectively retrieved when all queries are consideredtotal number of relevant documents retrieved by all queries本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Precision and Recall 的適用性nMaximum recall值的產生，需要知道所有文件相關的背景知識nRecall and precision是相對的測量方式，兩者要合併使用比較適合。nMeasures which quantify
13、the informativeness of the retrieval process might now be more appropriatenRecall and precision are easy to define when a linear ordering of the retrieved documents is enforced本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Alternative MeasuresnThe Harmonic Mean ,介於0,1nThe E Measure-加入喜好比重b=1,E(j)=F
14、(j)b1,more interested in precisionb1,more interested in recall)(1)(12)(jPjrjF)(1)(2211)(jPjrbbjE本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。User-Oriented Measuren假設：Query與使用者有相關,不同使用者有不同的relevant docsCoverage=|Rk|/|U|Novelty=|Ru|/(|Ru|+|Rk|)Coverage越高,系統找到使用者期望的文件越多Noverlty越高,系統找到許多使用者之前不知道相關的文件
15、越多本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Reference Collectionn用來作為評估IR系統reference test collectionsTIPSTER/TREC:量大，實驗用CACM,ISI:歷史意義Cystic Fibrosis:small collections,relevant documents由專家研討後產生本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。IR system遇到的批評nLacks a solid formal framework as a ba
16、sic foundation無解!一個文件是否與查詢相關，是相當主觀的!nLacks robust and consistent testbeds and benchmarks較早，發展實驗性質的小規模測試資料1990後，TREC成立，蒐集上萬文件，提供給研究團體作IR系統評量之用本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC(Text REtrieval Conference)nInitiated under the National Institute of Standards and Technology(NIST)nGoals:
17、Providing a large test collectionUniform scoring proceduresForumn7th TREC conference in 1998:Document collection:test collections,example information requests(topics),relevant docsThe benchmarks tasks本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。The Documents Collectionn由SGML編輯WSJ880406-0090AT&T U
18、nveils Services to Upgrade Phone Networks Under Global PlanJanet GuyonWSJ Staff)New YorkAmerican Telephone&Telegrapj Co.introduced the first of a newgeneration of phone service with broad本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC1-6 DocumentsDiskContentsSizeNumberWords/Doc.Words/Doc.MbDocs
19、(Median)(Mean)1 WSJ,1987-198926798,732245434AP,198925484,678446473.9ZIFF24275,180200473FR,198926025,9603911315.9DOE184226,087111120.42 WSJ,1990-199224274,520301508.4AP,198823779,919438468.7ZIFF17556,920182451.9FR,198820919,8603961378.13 SJMN,199128790,257379453AP,199023778,321451478.4ZIFF345161,0211
20、22295.4PAT,19932436,7114,44553914 FT,1991-1994564210,158316412.7FR,199439555,630588644.7CR,199323527,9222881373.55 FBIS470130,471322543.6LAT475131,896351526.56 FBIS490120,653348581.3本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。The Example Information Requests(Topics)n用自然語言將資訊需求描述出來nTopic number:給
21、不同類型的topics Number:168titleTopic:Financing AMTRAKDescription:.Narrative:A./top本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TRECTopics字數(包含停字)欄位最小字數最大字數平均字數Total44250107.4Title 111 3.8Description 541 17.9Narrative23209 64.5TREC-1(51-100)Concepts 4111 21.2Total54231130.8Title 2 9 4.9Description 6 4
22、1 18.7Narrative27165 78.8TREC-2(101-150)Concepts 3 88 28.5Total49180103.4Title 2 20 6.5Description 9 42 22.3TREC-3(151-200)Narrative26146 74.6Total 8 33 16.3TREC-4(201-250)Description 8 33 16.3Total29213 82.7Title 2 10 3.8Description 6 40 15.7TREC-5(251-300)Narrative19168 63.2Total47156 88.4Title 1
23、5 2.7Description 5 62 20.4TREC-6(301-350)Narrative17142 65.3n主題結構與長度n主題建構n主題篩選pre-search判斷相關文件的數量本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。前 25 篇文章中有多少篇是相關的?01-56-2020不採納此主題繼續閱讀檢索出的第 26-100 篇文件，判斷其相關性根據相關回饋等方式，輸入更多的查詢問句，再次執行檢索，並判斷前 100篇文件的相關性記錄相關文件的數量不採納此主題在 PRISE 系統中輸入關鍵字執行檢索TREC-6之主題篩選程序本文档所
24、提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC相關判斷n判斷方法Pooling Method人工判斷n判斷基準:二元式,相關與不相關n相關判斷品質完整性一致性本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Pooling法n針對每個查詢主題，從參與評比的各系統所送回之測試結果中抽取出前n(=100)篇文件，合併形成一個Pooln視為該查詢主題可能的相關文件候選集合，將集合中重覆的文件去除後，再送回給該查詢主題的原始建構者進行相關判斷。n利用此法的精神是希望能透過多個不同的系統與不同的檢索技術，盡量
25、網羅可能的相關文件，藉此減少人工判斷的負荷。本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。AdhocRouting各系統送至Pool 內之文件總數Pool 中實際之文件數(去除重覆)實際相關文件數各系統送至Pool 內之文件總數Pool 中實際之文件數(去除重覆)實際相關文件數TREC-188001279(39%)277(22%)TREC-122001067(49%)371(35%)TREC-240001106(28%)210(19%)TREC-240001466(37%)210(14%)TREC-327001005(37%)146(15%)T
26、REC-32300703(31%)146(21%)TREC-473001711(24%)130(08%)TREC-43800957(25%)132(14%)TREC-5101002671(27%)110(04%)TREC-53100955(31%)113(12%)TREC-684801445(42%)92(6.4%)TREC-644001306(30%)140(11%)TREC 候選集合與實際相關文件之對照表本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。The(Benchmark)Tasks at the TREC ConferencesnAd
27、 hoc task:Receive new requests and execute them on a pre-specified document collectionnRouting taskReceive test info.Requests,two document collectionsfirst doc:training and tuning retrieval algorithmSecond doc:testing the tuned retrieval algorithm本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Other
28、 tasks:n*ChinesenFiltering nInteractiven*NLP(natural language procedure)nCross languagesnHigh precisionnSpoken document retrievalnQuery Task(TREC-7)本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC評比Tasks/TracksTREC1TREC2TREC3 TREC4 TREC5 TREC6 TREC7RoutingMain TasksAdhocConfusionConfusionSpoken
29、DocumentRetrievalDatabase MergingFilteringHigh PrecisionInteractiveCross LanguageSpanishMultilingualChineseNatural Language ProcessingQueryVery Large Corpus本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC質疑與負面評價n測試集方面查詢主題並非真實的使用者需求,過於人工化缺乏需求情境的描述相關判斷二元式的相關判斷不實際 pooling method會遺失相關文件,導致回收率不準確
30、品質與一致性n效益測量方面只關注量化測量回收率的問題適合作系統間的比較,但不適合作評估本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC質疑與負面評價(續)n評比程序方面互動式檢索缺乏使用者介入靜態的資訊需求不切實際本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。TREC Topics本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Evaluation Measures at the TREC ConferencesnSummary tabl
31、e statistics nRecall-precisionnDocument level averages*nAverage precision histogram本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。The CACM CollectionnSmall collections about computer science literaturenText of docnStructured subfieldsword stems from the title and abstract sectionsCategoriesdirect r
32、eferences between articles:a list of pairs of documentsda,dbBibliographic coupling connections:a list of triplesd1,d2,ncitedNumber of co-citations for each pair of articlesd1,d2,ncitingnA unique environment for testing retrieval algorithms which are based on information derived from cross-citing pat
33、terns本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。The ISI CollectionnISI 的test collection是由之前在ISI(Institute of Scientific Information)的Small組合而成n這些文件大部分是由當初Small計畫中有關cross-citation study中挑選出來n支持有關於terms和cross-citation patterns的相似性研究本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。The Cystic Fibros
34、is Collectionn有關於“囊胞性纖維症”的文件nTopics和相關文件由具有此方面在臨床或研究的專家所產生nRelevance scores0:non-relevance1:marginal relevance2:high relevance本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Characteristics of CF collectionnRelevance score均由專家給定nGood number of information requests(relative to the collection size)The respective query vectors present overlap among themselves利用之前的query增加檢索效率本文档所提供的信息仅供参考之用，不能作为科学依据，请勿模仿；如有不当之处，请联系网站或本人删除。Trends and Research IssuesnInteractive user interface一般認為feedback的檢索可以改善效率如何決定此情境下的評估方式(Evaluation measures)?n其它有別於precise,recall的評估方式研究

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：RetrievalEvaluation医疗培训课件.ppt
链接地址：https://www.163wenku.com/p-5155538.html

晟晟文业

内容提供者

实名认证

联系作者