信息检索模型课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息检索模型课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 检索 模型 课件
- 资源描述:
-
1、信息检索n信息检索信息检索(information retrieval,IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。n发展的几个阶段 n手工检索(早期,情报检索)n穿孔卡片检索(1950s)n计算机检索(面向主题,1960s)n联机检索(1970s,1980s)nWeb检索(1990s)Ad hoc retrieval(特别检索:文档集合保持不变)Collection“Fixed Size”Q2Q3Q1Q4Q5IR的两种形式:Ad Hoc and FilteringFiltering(过滤:用户需求不变)Documents StreamUser 1Profil
2、eUser 2ProfileDocs Filteredfor User 2Docs forUser 1IR的两种形式:Ad Hoc and Filtering相关概念n停用词停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a,it等;在中文中常见的有“是”,“的”,“地”等。n索引词索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组.n词干提取词干提取(英文中)countries=country,interesting=interestn组合词组合词:北京大学n中文中文分词分词(word segmen
3、tation),或称切词切词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络/与/分布式/系统/实验室/”。信息检索模型信息检索模型的概述信息检索模型n信息检索模型信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组 其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj)是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值文档逻辑视图nD是一个文档集合,通常由文档逻辑视图来表示。文档逻辑视图可以是一组索引词或关键词。也可以用n
4、-gram方式表示。既可以自动提取,也可以是由人主观指定。(从全文到一组标引词)信息检索模型nQ是一个查询集合,用户任务的表达,由查询需求的逻辑视图来表示。nF是一个框架,用以构建文档,查询以及它们之间关系的模型nR(qi,dj)是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值n即:IR模型由上述四个要素组成 信息检索模型的分类三类:基于内容的信息检索模型,结构化模型,浏览型检索模型.基于内容的信息检索模型有n集合论模型:布尔模型、模糊集合模型、扩展布尔模型n代数模型:向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型n概率模型:经典概率论模型、推理网络模型、置
5、信(信念)网络模型非重叠链表模型邻近结点模型 结构化模型 检索:特别检索 过滤 浏览 用户任务 经典模型 布尔模型 向量模型 概率模型 集合论模型 模糊集合论模型 可扩展布尔模型 概率模型 推理网络模型 信任度网络模型 代数模型 广义向量模型 潜语义标引模型 神经网络模型 浏览 扁平式模型 结构导向模型 超文本模型信息检索模型的分类经典信息检索模型n布尔模型n向量空间模型n经典概率模型经典信息检索模型n经典的信息检索模型有三个:布尔模型、向量模型和概率模型。n每篇文档可以用一组有代表性的关键词即索引词集合来描述。索引词是文档中的词,其语义可以帮助理解文档的主题;因此,索引词常用于编制索引和概括
6、文档的内容。n索引词通常由名词构成,因为名词本身具有语义,人们能够比较容易地理解它的意思。形容词、副词、连词很少作为索引词,因为它们主要起补充作用,不能单独表示语义。布尔模型(Boolean Model)布尔检索模型n一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上。n 遵循两条基本规则:每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。n查询是由三种布尔逻辑运算符 and,or,not 连接索引词组成的布尔表达式。n根据布尔逻辑的运算规定,提问式可以被表示成由合取子项(conjunctive component)组成的析取范式(disjunctive norma
7、l form,简称DNF)形式。离散数学相关概念n用连词把几个公式连接起来而构成的公式叫做合取,而此合取式的每个组成部分叫做合取项。p并且q,记作“pq”n用连词把几个公式连接起来所构成的公式叫做析取,而此析取式的每一组成部分叫做析取项。p或q,记作“pq”n非p p离散数学相关概念n析取范式:仅由有限个简单合取式构成的析取式A=(pqr)(pq)(qq)n合取范式:仅由有限个简单析取式构成的合取式A=(pqr)(pq)(qq)n范式存在定理任一命题公式都存在着与之等值的析取范式和合取范式离散数学相关概念n主析取范式主析取范式极小项极小项在n个变元的简单合取式中,若每个变元与其否定不同时存在,
8、而二者之一必出现且仅出现一次,这种合取式叫做极小项n任何命题公式的主析取范式都是存在的,并且是唯一的。定义形如AA1A2An基中Ai(I=1,2,3n)为极小项极小项记为:(m1m2m2n-1)布尔检索模型n首先,将查询转化为一个析取范式DNFn 例如:查询为 n进一步表达为 n即:每一个分量都是三元组 的二值向量()abcqkkk(1,1,1)(1,1,0)(1,0,0)dnfq(,)abckkk(1,1,1)(1,0,0)(1,1,0)KaKbKc布尔检索模型n定义:用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。文献dj 与查询q的相似度为如果 ,则表示文献dj与q相关
9、,否则为不相关。sim(dj,q)为该模型的匹配函数。ccccdnfcc1 if q|(qq)(,()(q)(,)0 otherwiseiijijk g dgsim d q(,)1jsim dq 布尔检索模型简单实例nq=病毒 AND(计算机 OR 电脑)AND NOT医 nd1:据报道,计算机病毒近日猖獗nd2:小王虽然是学医的,但对研究电脑病毒也很感兴趣,最近发明了一种nd3:计算机程序发现了爱滋病病毒的传播途径 n哪些文档会被检索出来?布尔模型n文档表示n一个文档被表示为关键词的集合n查询式表示n查询式(Queries)被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先
展开阅读全文