评分与向量空间模型课件-002.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《评分与向量空间模型课件-002.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 评分 向量 空间 模型 课件 _002
- 资源描述:
-
1、文档评分与向量空间模型主讲人:陈文亮李正华稍微删减苏州大学计算机学院1。提纲1.排序式检索2.词项频率词项频率3.tf-idf权重计算4.向量空间模型2。提纲1.排序式检索2.词项频率3.tf-idf权重计算4.向量空间模型3。为什么要排序4。5排序式检索(Ranked retrieval)迄今为止,我们主要关注的是布尔查询文档要么匹配要么不匹配对自身需求和文档集性质非常了解的专家而言,布尔查询是不错的选择对应用开发来说也非常简单,很容易就可以返回1000多条结果然而对大多数用户来说不方便大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询大部分用户不愿意逐条浏览1000多
2、条结果,特别是对Web搜索更是如此对于刚才的例子,40M的文档,相信大家都不会想去看。5。6布尔搜索的不足:结果过少或者过多布尔查询常常会倒是过少(=0)或者过多(1000)的结果查询 1(布尔或操作):standard user dlink 650 200,000 个结果 太多查询2(布尔与操作):standard user dlink 650 no card found 0 个结果 太少在布尔检索中,需要大量技巧来生成一个可以获得合适规模结果的查询6。7排序式检索排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多前提
3、:排序算法真的有效,即相关度大的文档结果会排在相关度小的文档结果之前7。8排序式检索中的评分技术我们希望,在同一查询下,文档集中相关度高的文档排名高于相关度低的文档如何实现?通常做法是对每个查询-文档对赋一个0,1之间的分值该分值度量了文档和查询的匹配程度怎么做?8。9查询-文档匹配评分计算如何计算查询-文档的匹配得分?原则先从单词项查询开始若该词项不出现在文档当中,该文档得分应该为0该词项在文档中出现越多,则得分越高9。提纲1.排序式检索2.词项频率3.tf-idf权重计算4.向量空间模型10。11二值关联矩阵每篇文档可以看成是一个二值的向量 0,1|V|Anthony and Cleopa
4、traJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRUTUS CAESARCALPURNIACLEOPATRAMERCYWORSER.11101111111000000001101100110010011101001011。12非二值关联矩阵(词频)每篇文档可以表示成一个词频向量 N|V|Anthony and CleopatraJulius Caesar The TempestHamlet Othello Macbeth.ANTHONYBRUTUS CAESARCALPURNIACLEOPATRAMERCYWORSER.15
5、74232057227315722710000000003102200810010051100008512。13词袋(Bag of words)模型不考虑词在文档中出现的顺序John is quicker than Mary 及 Mary is quicker than John are 的表示结果一样这称为一个词袋模型(bag of words model)在某种意思上说,这种表示方法是一种“倒退”,因为位置索引中能够区分上述两篇文档13。14词项频率 tf词项t的词项频率 tft,d 是指t 在d中出现的次数下面将介绍利用tf来计算文档评分的方法第一种方法是采用原始的tf值(raw tf)
6、但是原始tf不太合适:某个词项在A文档中出现十次,即tf=10,在B文档中 tf=1,那么A比B更相关但是相关度不会相差10倍相关度不会正比于词项频率tf14。15一种替代原始tf的方法:对数词频t 在 d 中的对数词频权重定义如下:tft,d wt,d:0 0,1 1,2 1.3,10 2,1000 4,等等文档-词项的匹配得分是所有同时出现在q和文档d中的词项的对数词频之和(1+log tft,d)如果两者没有公共词项,则得分为015。提纲1.排序式检索2.词项频率3.tf-idf权重计算4.向量空间模型16。17文档中的词频 vs.文档集中的词频哪种词重要?的 了 水果 火龙果 刘翔 体
7、育 苏州大学 计算机学院除词项频率tf之外,我们还想利用词项在整个文档集中的频率进行权重和评分计算17。18罕见词项所期望的权重罕见词项比常见词所蕴含的信息更多考虑查询中某个词项,它在整个文档集中非常罕见(例如 赫尔辛根默斯).某篇包含该词项的文档很可能相关于是,我们希望像“赫尔辛根默斯”一样的罕见词项将有较高权重阿尔代夫海滩马路18。19常见词项所期望的权重常见词项的信息量不如罕见词考虑一个查询词项,它频繁出现在文档集中(如 GOOD,INCREASE,LINE等等)一篇包含该词项的文档当然比不包含该词项的文档的相关度要高但是,这些词对于相关度而言并不是非常强的指示词于是,对于诸如GOOD、
8、INCREASE和LINE的频繁词,会给一个正的权重,但是这个权重小于罕见词权重19。20文档频率(Document frequency,df)对于罕见词项我们希望赋予高权重对于常见词我们希望赋予正的低权重接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分文档频率指但是出现词项的文档数目20。21idf 权重dft 是出现词项t的文档数目dft 是和词项t的信息量成反比的一个值于是可以定义词项t的idf权重:(其中N 是文档集中文档的数目)idft 是反映词项t的信息量的一个指标值得注意的是,对于tf 和idf我们都采用了对数计算方式21。22idf的计算样例(inverted do
9、cument freq)利用右式计算idft:词项dftidftcalpurniaanimalsundayflyunderthe1100100010,000100,0001,000,00064321022。23idf对排序的影响idf 会影响至少包含2个词项的查询的文档排序结果例如,在查询“马尔代夫 海滩”中,idf权重计算方法会增加 马尔代夫 的相对权重,同时降低 海滩 的相对权重对于单词项查询,idf对文档排序基本没有任何影响23。24文档集频率 vs.文档频率词项t的文档集频率(Collection frequency):文档集中出现的t词条的个数词项t的文档频率:包含t的文档篇数为什么
10、会出现上述表格的情况?即文档集频率相差不大,但是文档频率相差很大哪个词是更好的搜索词项?即应该赋予更高的权重上例表明 df(和idf)比cf(和“icf”)更适合权重计算单词文档集频率文档频率INSURANCETRY10440104223997876024。25tf-idf权重计算词项的tf-idf权重是tf权重和idf权重的乘积信息检索中最出名的权重计算方法注意:上面的“-”是连接符,不是减号其他叫法:tf.idf、tf x idf25。26tf-idf小结词项t在文档d中的权重可以采用下次计算tf-idf权重随着词项频率的增大而增大随着词项罕见度的增加而增大26。提纲1.排序式检索2.词项
展开阅读全文