第2章-信息检索模型课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第2章-信息检索模型课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 模型 课件
- 资源描述:
-
1、第2章 信息检索模型第2章 信息检索模型2.1 检索模型定义2.2 布尔模型2.3 向量模型2.4 概率模型2.5 扩展的布尔模型2.6 扩展的向量模型2.7 扩展的概率模型2.8 小结思考题第2章 信息检索模型在现实生活中,社会成员的信息需求千差万别,获取信息的方式与途径也各式各样,但通过信息检索来获取信息是最基本的手段。基于不同信息检索系统的检索,其基本原理是相同的,它们都是对用户信息需求与系统存储的信息资源所进行的某种匹配与选择。如何进一步严密地表述和论证信息检索过程,就需要从统计规律里抽象出数学模型,以便科学地进行研究,这个过程就是建模。第2章 信息检索模型所谓数学模型,是指为了某种特
2、定目的,通过对现实世界的某一特定对象做出一些必要的简化与假设,运用适当的数学工具得到的一种数学结构。数学模型可以在对对象属性的学习中获得,它具有保留本质、抑制细节的作用,它或者能解释特定现象的状态和性质,或者能预测它的未来状况,或者能提供对处理对象的最优决策或控制。信息检索中的数学模型,就是运用数学语言和工具,对信息检索系统中的信息及其处理过程加以抽象和描述,表述为某种数学公式,再进行演绎、推断、解释和检验。为了提高信息检索的效果,研究信息检索新技术新方法,建立数学模型是一种非常科学的方法。第2章 信息检索模型信息检索模型是对真实的检索过程的抽象概括。信息检索的基本任务是找出与用户需求匹配的相
3、关文档。因此信息检索的核心问题包括如何准确地表示文档与用户查询,以及预测哪些文档与用户查询相关,哪些文档不相关。图2-1是信息检索过程的一个示意图,从图中我们可以看出,检索模型要解决的三个关键问题是:查询的表示方法、文档的表示方法、查询与文档的匹配比较方法,概括成一句话就是“两个表示,一个比较”。第2章 信息检索模型图2-1 信息检索过程示意图第2章 信息检索模型查询与文档的匹配比较方法通常取决于所采用的排序算法,排序算法可以对检出的文档进行排序,排在最前面的文档被认为最相关,因此,排序算法是信息检索系统的核心。排序算法是根据“相关度”(relevance)来计算的。关于相关度的不同假设形成了
4、不同的信息检索模型,而所采用的信息检索模型又决定了哪些文档是相关的,哪些是不相关的。人们已经在集合论、代数论、概率论三个领域分别提出了布尔模型、向量模型、概率模型这三种经典模型。经典布尔模型的框架是由一组文档集和该集合上的标准布尔运算组成的;经典向量模型的框架是由一个n维矢量空间和矢量之上的标准线性代数运算组成的;经典概率模型的框架则是集合、标准概率运算和贝叶斯(Bayes)理论。第2章 信息检索模型基于这些经典模型,人们又提出了各种不同的改进模式,称为扩展模型。这些扩展模型包括扩展的布尔模型(如模糊集合论模型和扩展布尔模型)、扩展的向量模型(如广义向量模型、潜语义标引模型和神经网络模型)、扩
5、展的概率模型(如推理网络模型、信任度网络模型和语言模型)等。图2-2是信息检索模型的分类,本章将重点介绍这些基本的检索模型和扩展模型的原理以及应用。第2章 信息检索模型图2-2 信息检索模型分类示意图第2章 信息检索模型2.1 检索模型定义检索模型定义信息检索模型需要描述清楚以下关键问题:(1)如何表示查询和文档,即从什么样的视角去看待查询和文档;(2)基于什么样的理论和机制去看待查询和文档的关系;(3)如何计算查询和文档之间的相似度。因此一个信息检索模型应该包含几个重要因素,即文档和查询的表示、文档和查询的关系,以及相关程度的排序方法。下面是信息检索模型的形式化定义1。第2章 信息检索模型定
6、义定义2-1 信息检索模型是一个四元组(D,Q,F,R(qi,dj),其中:(1)D是表示文档集中的文档的一组文档逻辑视图;(2)Q是表示用户需求的一组逻辑视图,叫做查询;(3)F是一种机制,用来模拟文档表示、查询和它们之间的关系;(4)R(qi,dj)是排序函数,该函数输出一个表示查询qiQ和文档djD相关程度的实数,可用来对查询结果排序。第2章 信息检索模型一般而言,“相关度”是一个很难定义的概念,因为用户的需求往往是模糊的、不断变化的,另外,语言的复杂度也加深了信息检索的匹配难度。为了解决这个问题,检索模型通常需要对文档和查询的表示方法进行简化。首先假设句子中的词与词之间是相互独立的,没
7、有任何语义联系,词与词之间的顺序也无关紧要,这就是通常所说的“词袋模型”(bagofwords)。词袋方法把每个文档看做一个装满词的词袋,它认为信息检索完全是文档中的词与查询中的词的匹配,“词袋共享”假设则认为,所有查询和文档的词都来源于同一个词库,如果查询和文档共享了一些词,则它们是相关的。第2章 信息检索模型基于词袋假设,我们可以用一组有代表性的关键词,称为索引项(index term)或称索引词,来表示查询和文档。这些索引项或索引词是最能够表述文档或查询的主题的词语。定义定义2-2 索引项是从列表、文件或词典中提取的关键性的字(word)或词(phrase),可以反映对材料内容的主要或次
8、要层次上的描述。第2章 信息检索模型索引项通常从控制词汇(controlled vocabulary)中选取,以保证相同的词具有相同的含义。索引项的选择还与具体的检索应用相关,不同的检索应用选择索引项的标准是不相同的。例如全文检索把所有词都囊括进索引项的范围之内,而一般的普通检索则选择名词为索引项,因为名词本身具有语义,人们能够比较容易理解它的意思,形容词、副词、连词很少做索引项,因为它们主要起补充作用,不能单独表示语义。这说明不同的索引项的表达作用并不是完全相同的,即不同的索引项对查询或文档的贡献不一样,有些索引项比其他的词语更重要。例如一个数百篇文档的集合,若一个词出现在每一篇文档中,则这
9、样的词通常是不能作为索引项的,因为它不能叙述文档内容;若某个词仅出现在某几篇文档中,则它可能就非常有用,因为它更能有效区别这几篇文档和其他大量文档。显然,在描述文档内容时,不同索引项具有不同的能力,因此在描述一篇文档时,可以给每个索引项赋予一个权重(term weight),不同的权重决定了一个索引项对文档内容描述的贡献程度。如何确定权重也是检索模型要解决的问题。第2章 信息检索模型定义2-3给出了索引项的权重的形式化定义。定义定义2-3 用t表示系统中索引项的数目,ki表示第i个索引项,K=k1,k2,kt是所有索引项的集合,wi,j是文档dj中的索引项ki的权值,为非负实数,当ki没有出现
10、在文档dj中时,其对应的权值wi,j=0。文档dj可以用所有索引项对该文档的权值向量来表示:dj=(w1,j,w2,j,wt,j)。此外,函数gi用来表示索引项ki和文档dj之间的关系,即gi(dj)=wi,j。第2章 信息检索模型2.2 布尔模型布尔模型布尔模型是基于集合理论和布尔代数的一种简单的检索模型。在布尔模型中,一个文档被表示为索引项的集合,而查询则被表示为索引项的布尔组合,用“与(AND)、或(OR)、非(NOT)”连接起来,并可用括弧指示优先次序,称为布尔查询式。匹配过程则是:一个文档当且仅当它能够满足布尔查询式时,才被检索出来。布尔模型是早期信息检索系统最常用的检索模型,这是因
11、为它的概念直观,查询简单,容易理解。另外,通过使用复杂的布尔表达式,还可以方便地控制查询结果。第2章 信息检索模型布尔模型假定索引项在文档中要么出现,要么不出现,因此,索引项的权值全部被设定为二值数据,即wi,j0,1,查询q可由连接词not、and、or连接起来的多个索引项组成。因此查询q本质上是一个常规的布尔表达式,它可以表示为多个合取向量的析取,即析取范式(Disjunction Normal Form,DNF)2。例如,查询q=ka(kbkc)可以写成析取范式qdnf=(1,1,1)(1,1,0)(1,0,0)的形式,其中的每个分量都是三元组(ka,kb,kc)的二值加权向量,这些二值
12、加权向量称为qdnf的合取分量。图2-3列举了查询q的三个合取分量。第2章 信息检索模型图2-3 查询式q=ka(kbkc)的三个合取分量第2章 信息检索模型【例【例2-1】将查询式q=ka(kb kc)改写成析取范式。解:解:推演过程如下:)0,0,1()0,1,1()1,1,1()()()()()()()()()()()(cbacbacbacbabbcaccbacabacbakkkkkkkkkkkkkkkkkkkkkkkkkkkq布尔模型的文档与查询的相似度定义如下:定义定义2-4 用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量,gi(dj)和gi(qcc)分别表示索引项
13、ki在文档dj和查询q中的权重,文档dj和查询q的相似度可以定义为:第2章 信息检索模型如果sim(dj,q)=1,则布尔模型表示文档dj与查询q相关,否则不相关。即只要查询析取范式中的任一合取分量是某一文档的布尔向量表示,则这个文档和查询相关。因此,用布尔模型进行检索的主要步骤如下所述。其他 0,|如果 1),(simccdnfcccc)且()(qg)(dgkqqqqdijiij(2-1)第2章 信息检索模型(1)将文档集中的每个文档表示为索引项的布尔向量;(2)将查询表示为析取范式;(3)根据相似度计算公式(2-1)计算各文档与查询的相似度;(4)如果相似度为1,表示匹配,可将该文档作为结
14、果输出;如果相似度为0,表示不匹配,认为该文档不满足用户的需求。第2章 信息检索模型【例【例2-2】有一个由4个文档(d1,d2,d3,d4)组成的文档集,其中:d1=“computer information retrieval”;d2=“computer retrieval”;d3=“information”;d4=“computer information”。现在有两个查询分别为:q1=“informationretrieval”,q2=“information computer”,如果采用布尔检索模型,则这两个查询q1和q2在该文档集中分别可以检索出哪些文档?解:解:首先注意到,该文档
15、集的索引项K=k1,k2,k3=computer,information,retrieval。第一步:文档表示,根据这些索引项是否出现在该文档中,4个文档分别表示为如下布尔向量:d1=1,1,1;d2=1,0,1;d3=0,1,0;d4=1,1,0第2章 信息检索模型第二步:查询表示,两个查询分别可以表示为如下的析取范式:q1=0,1,11,1,1;q2=0,1,0 0,1,1第三步:计算各文档与查询的相似度:sim(d1,q1)=1,sim(d2,q1)=0,sim(d3,q1)=0,sim(d4,q1)=0;sim(d1,q2)=0,sim(d2,q2)=0,sim(d3,q2)=1,si
16、m(d4,q2)=0第四步,输出检索结果:对查询q1,检索结果是d1;对于查询q2,检索结果是d3。第2章 信息检索模型一般认为,布尔模型具有计算简单(simplicity)、容易理解(easy understanding)、简洁的形式化(clean formalism)等突出优点。所以早期的信息检索系统很多采用布尔模型,但是布尔模型存在一些问题,如:(1)不支持部分匹配(partial match),检索结果都是完全匹配的,要么相关,要么不相关。而完全匹配可能导致返回太多或者太少的结果文档。(2)文档和查询表示采用布尔权重,是高度的概括,无法真实客观地反映文档和查询。(3)采用布尔模型的输出
17、结果无法进行排序,如果输出结果多,将导致用户无法选择。第2章 信息检索模型2.3 向量模型向量模型向量模型3-5又叫向量空间模型(Vector Space Model,VSM),是基于代数的一种常用模型。向量模型试图克服布尔模型的缺陷,它采用非布尔向量来表示文档和查询,采用非二值实数表示相似度,这样输出结果就可以按照文档和查询的相似程度来进行排序了,客观上实现了部分匹配。采用向量空间模型最明显的效果就是能提供排序的结果集,这个结果集比通过布尔模型得到的结果集要合理得多,从某种意义上说,能更好地匹配用户的信息需求。第2章 信息检索模型定义定义2-5 对于向量模型,文档向量和查询向量可以分别表示如
18、下:dj=(w1,j,w2,j,wt,j)q=(w1,q,w2,q,wt,q)上面的定义中,t是系统中索引项(关键词)的数目;wi,j是二元组(ki,dj)的权值,表示索引项ki在文档dj中的权重,wi,j0;wi,q表示二元组(ki,q)的权值,表示索引项ki在查询q中的权重,wi,q0。第2章 信息检索模型按照上述向量模型的定义,信息检索系统中如果包含n个索引项,则可以建立一个n维的向量空间,每一维都代表不同的索引项,例如:(中国,广东,华南,理工,大学,)。文档向量是一个n元组,其中的每个坐标都通过对应索引项的权重来表示。权重越大,则相应索引项对该文档来说越重要。例如:(中国:0.12,
19、广东:0.8,华南:1.6,理工:3.6,大学:2.9,)。查询向量与文档向量类似,只不过查询向量中的索引项的权重表示该索引项对于用户而言的重要程度。一般说来,如果以0,1表示权重的取值范围,权重1则表示期望在文档中出现的词条,而0表示不希望出现的词条。第2章 信息检索模型2.3.1 索引项权重索引项权重向量空间模型的关键是采用索引项权重将文档或查询表示成向量。索引项的权重代表着索引项的表述能力、相关度和重要性,它的取值直接影响检索的结果。向量模型本身没有规定采用什么方法计算索引项的权重,下面介绍一些比较常用的计算权重的方法:(1)二元法。索引项在文档中出现,其权重值计为1;索引项在文档中不出
20、现,其权重值计为0。即采用布尔向量来表征文档或查询,这时,向量模型退化为布尔模型。第2章 信息检索模型(2)TF法。权重值等于索引项在文档中出现的频率,即词频(Term Frequency,TF)。设ki表示给定的索引项,dj表示文档,则TF公式如下所示:的出现次数中出现次数最多的单词在文档中出现的次数在文档jjijiddk,tf(2-2)采用词频作为权重,在一定程度上客观地反映了这样一个事实,即在某个文档中出现次数越多的索引项对该文档描述的内容贡献越大。但需要注意到,一些介词、量词、语气词如“的”、“呢”和“呀”等大量重复出现于文档中,而这些词对内容的描述性不强,因此需要考虑去除这些词的影响
21、。第2章 信息检索模型(3)TFIDF法。只采用词频来计算权重值,有时并不能很好地在文档之间进行区分。比如一个索引项在一个文档里经常出现,其TF值很高,但如果它在所有文档中都频繁出现,则它并不能很好地代表这个文档,不具有很好的区别能力。所以常常采用TFIDF来计算权重。IDF称为逆文档频率(Inverse Document Frequency),它表示索引项的辨别能力,即这个索引项将某个文档区别于其他文档的能力。将TF和IDF结合起来表示文档和查询向量是目前最常用的方法。下面是IDF和TFIDF权重的定义:(2-3)iinNlogidf(2-4)iijjiwidftf,第2章 信息检索模型公式
22、(2-3)中:N表示文档集中文档的个数;ni表示包含索引项ki的文档个数。从上面的定义可以看到,如果wi在很多文档中普遍出现,则ni值将会很大,而idfi值则相应很小,这反映了普遍出现的单词的区分能力低的事实。如果索引项只出现于一个文档中,很有可能是这个文档的代表词,此时该索引项的idf值达到最大值,而wi的权重值wi,j也相应很大,反映了该索引项的重要程度。可以对公式(2-4)进行适当的变形。比如,tfi,j采用标准化频率fi,j代替:第2章 信息检索模型(2-5)ijijifwidf,jlljijif,freqmaxfreq(2-6)iqllqiqinNwlog)freqmaxfreq5.
23、05.0(,(2-7)式中:freqi,j表示索引项ki在文档dj中的出现频率,即索引项ki在文档dj中被提及的次数。式(2-4)、(2-6)和公式的一些变形6,是最常用的索引项加权方案,称为TF-IDF方案(TF-IDF schema)。查询中的索引项的权重可以用类似的方法计算6:第2章 信息检索模型2.3.2 相似度量相似度量 前面已经介绍过,在向量空间模型中,查询和文档都可用向量来表示,因此,在向量模型中,查询和文档的相似度计算就是比较查询向量和文档向量之间的相似程度,如图2-4所示。通过计算查询和文档之间的相似度,检索系统可以根据相似度大小对文档进行排序,作为该查询的检索输出;也可以通
24、过设定阈值,控制被检索出来的文档的数量,把相似度低于阈值的文档忽略,不输出给用户;还可用于相关反馈中,以便对原始的查询式进行修正,这将在第5章讲述。第2章 信息检索模型图2-4 余弦相似度的一个例子第2章 信息检索模型向量相似度的计算方法有很多,比较常用的方法有内积和余弦方法。(1)内积(Inner Product)法。文档向量d和查询向量q之间的相似度通过内积进行计算:(2-8)(),sim(,1qkdktkwwqd其中,wk,d是文档d中的词项k的权重,wk,q是查询q中索引项k的权重。对于二值向量,内积是查询中的索引项和文档中的索引项相互匹配的数量,对于加权向量,内积是查询式和文档中相互
25、匹配的索引项的权重乘积之和。下面是内积计算的两个例子:第2章 信息检索模型【例【例2-3】如果用二元法表示的文档d和查询向量q如下所示:d=(1,1,1,0,1,1,0),q=(1,0,1,0,0,1,1)试用内积法计算d和q之间的相似度。解:解:根据公式(2-8),可得:sim(d,q)=11+10+11+00+10+11+01=3得到的相似度结果说明,有3个索引项(第1、第3和第6个)既出现在查询中,又出现在文档中。【例【例2-4】如果用加权向量表示的文档d1、d2和查询q如下所示:d1=(2,3,5),d2=(3,7,1),q=(0,0,2)试用内积法计算相似度,并说明哪个文档和查询q更
展开阅读全文