网络信息获取与情报分析技术(七)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《网络信息获取与情报分析技术(七)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网络 信息 获取 情报 分析 技术 课件
- 资源描述:
-
1、网络情报获取分析技术提纲2 信息检索概述信息检索概述 倒排索引倒排索引 布尔查询的处理布尔查询的处理提纲3 信息检索概述信息检索概述 倒排索引倒排索引 布尔查询的处理布尔查询的处理信息检索Information Retrieval Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually st
2、ored on computers). 信息检索是从大规模非结构化数据(通常是文本)的集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的过程。 Document 文档 Unstructured 非结构化 Information need 信息需求 Collection文档集、语料库4IR vs数据库: 结构化 vs 非结构化数据 结构化数据即指“表”中的数据5EmployeeManagerSalarySmithJones50000ChangSmith6000050000IvySmith数据库常常支持范围或者精确匹配查询 。e.g.,Salary 60000 AND Mana
3、ger = Smith.非结构化数据 通常指自由文本 允许 关键词加上操作符号的查询 更复杂的 概念性查询, 找出所有的有关西藏的网页 经典的检索模型一般都针对自由文本进行处理6半结构化数据 没有数据是完全无结构的 李甲主页 半结构化查询 Title contains data AND Bullets contain search 这里还没有提文本的语言结构7非结构化 vs. 结构化 vs. 半结构化 半结构化(Semi-structured): 李甲主页 8传统信息检索 vs. 现代信息检索 传统信息检索主要关注非结构化、半结构化数据 现代信息检索中也处理结构化数据9非结构化数据(文本) v
4、s. 结构化数据(数据库) 1996年10数据量市场规模非结构化数据(文本) vs. 结构化数据(数据库) 2013年020406080100120140160180200Data volumeMarket CapUnstructuredStructured11数据量市场规模布尔检索 针对布尔查询的检索,布尔查询是指利用 AND, OR 或者 NOT操作符将词项 连接起来的查询 信息 AND 检索 信息 OR 检索 信息 AND 检索 AND NOT 教材 Google的高级搜索?12提纲13 信息检索概述信息检索概述 倒排索引倒排索引 布尔查询的处理布尔查询的处理一个简单的例子(莎士比亚全集
5、) 莎士比亚的哪部剧本包含Brutus及Caesar但是不包含Calpurnia? 布尔表达式为 Brutus AND Caesar AND NOT Calpurnia。 笨方法: 从头到尾扫描所有剧本,对每部剧本判断它是否包含Brutus AND Caesar ,同时又不包含Calpurnia 笨方法为什么不好? 速度超慢 (特别是大型文档集) 处理NOT Calpurnia 并不容易(一旦包含即可停止判断) 不太容易支持其他操作 (e.g., find the word Romans near countrymen) 不支持检索结果的排序 (即只返回较好的结果)14词项-文档(term-d
6、oc)的关联矩阵Antony and CleopatraJulius CaesarThe TempestHamletOthelloMacbethAntony110001Brutus110100Caesar110111Calpurnia010000Cleopatra100000mercy101111worser101110若某剧本包含某单词,则该位置上为1,否则为0BrutusBrutus AND CaesarCaesar BUT NOT CalpurniaCalpurnia 关联向量(incidence vectors) 关联矩阵的每一列都是 0/1向量,每个0/1都对应一个词项 给定查询Br
7、utus AND Caesar AND NOT Calpurnia 取出三个列向量 ,并对Calpurnia 的列向量求补,最后按位进行与操作 110100 AND 110111 AND 101111 = 100100. 16上述查询的结果文档 Antony and Cleopatra, Act III, Scene ii Agrippa Aside to DOMITIUS ENOBARBUS: Why, Enobarbus, When Antony found Julius Caesar dead, He cried almost to roaring; and he wept When a
8、t Philippi he found Brutus slain. Hamlet, Act III, Scene ii Lord Polonius: I did enact Julius Caesar I was killed i the Capitol; Brutus killed me.17IR中的基本假设 文档集Collection: 由固定数目的文档组成 目标: 返回与用户需求相关的文档并辅助用户来完成某项任务 相关性Relevance 主观的概念 反映对象的匹配程度 不同应用相关性不同18典型的搜索过程文档集文档集任务任务信息需求信息需求查询查询 自然语言描自然语言描述述结果结果搜索
9、搜索引擎引擎查询查询重构重构Get rid of mice in a politically correct wayInfo about removing micewithout killing them How do I trap mice alive?mouse trap是否转义?是否转义?是否转义?检索效果的评价 正确率(Precision) : 返回结果文档中正确的比例。如返回80篇文档,其中20篇相关,正确率1/4 召回率(Recall) : 全部相关文档中被返回的比例,如返回80篇文档,其中20篇相关,但是总的应该相关的文档是100篇,召回率1/5 正确率和召回率反映检索效果的两个
10、方面,缺一不可。 全部返回,正确率低,召回率100% 只返回一个非常可靠的结果,正确率100%,召回率低 将在后面介绍(有兴趣的可以先看)20大文档集 假定N = 1 百万篇文档(1M), 每篇有1000个词(1K) 假定每个词平均有6个字节(包括空格和标点符号) 那么所有文档将约占6GB 空间. 假定 词汇表的大小(即词项个数) M = 500K21词项-文档矩阵将非常大 矩阵大小为 500K x 1M=500G 但是该矩阵中最多有10亿(1G)个1 词项-文档矩阵高度稀疏(sparse). 稀疏矩阵 应该有更好的表示方式 比如我们仅仅记录所有1的位置22Why?倒排索引(Inverted
展开阅读全文