第五章网络信息检索概论课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第五章网络信息检索概论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第五 网络 信息 检索 概论 课件
- 资源描述:
-
1、第五章第五章 网络信息检索概论网络信息检索概论 Internet 网络信息资源网络信息资源 网络搜索引擎网络搜索引擎 网络信息检索网络信息检索 第一节、第一节、InternetInternet InternetInternet的进入方的进入方式式 IPIP地址地址 n信息高速公路(一)(一)Internet的进入方式的进入方式(二二)IP)IP地址地址识别主机的身份证,唯一性识别主机的身份证,唯一性形式:四组小于形式:四组小于256256的十进制表示。如:的十进制表示。如:210.40.0.58210.40.0.58字符型的字符型的IPIP地址,即域名(地址,即域名(DNDN),格式如:),格
2、式如:主机名主机名 机构名机构名 网络类型网络类型 最高域名最高域名最高层域名有两种类型:最高层域名有两种类型:机构名称机构名称最高层域名为最高层域名为3 3个以上字母个以上字母。这些字母标明机构的类。这些字母标明机构的类型。型。地理名称地理名称高层域名为高层域名为2 2个字母个字母。这两个字母的代码确定了某个。这两个字母的代码确定了某个国家或地区。国家或地区。例如:例如:cn-cn-中国,中国,ca-ca-加拿大,加拿大,DN与与IP一般是一一对应,通过一般是一一对应,通过Internet上域名服务器可自动将上域名服务器可自动将DN转换成转换成IP。美国的顶层域按机构性质分为:域名 意义 域
3、名 意义 C CO OM M 商业组织 N NE ET T 主要网络支持中心 E ED DU U 教育机构 O OR RG G 上述以外的机构 G GO OV V 政府部门 I IN NT T 国际组织 M MI IL L 军事部门 C Co om mn nt tr ry y C Co od de e 国家代码 此外,有关组织于此外,有关组织于1997年建议增加年建议增加7个顶级域名个顶级域名,对有关域名空间作了进一步细分,以消除对有关域名空间作了进一步细分,以消除com域中域中出现的拥挤现象。所建议的顶级域名是:出现的拥挤现象。所建议的顶级域名是:info(提供信息服务的组织提供信息服务的组
4、织),web(与与WWW特别相关的组织特别相关的组织),firm(商业公司商业公司),arts(文化和娱乐组织文化和娱乐组织),nom(个体或个人个体或个人),rec(强调消遣娱乐的组织强调消遣娱乐的组织),store(商业销售企业商业销售企业)。第二节第二节 网络信息资源网络信息资源网络信息资源的含义网络信息资源的含义网络信息资源的类型网络信息资源的类型含义含义是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和信息的总和。有人认为是:通过计算机网络可以利用通过计算机网络可以利用的各种的各种信息资源的总和信息资源的总和。二、二、网络信息资源
5、的类型网络信息资源的类型1 1、按所采用的传输协议分、按所采用的传输协议分万维网万维网(world wide web,简称简称WWW或或Web)信息)信息资源:资源:它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息Telnet信息资源信息资源:telnet是远程登陆协议。telnet信息资源包括和。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。FTP信息资源信息资源:它使用ftp(file transfer protocol)协议,该协议主要用语连网计算机之间传输文件。FTP相当于在网络上
6、两个主机之间复制文件.用户服务组信息资源用户服务组信息资源:包括新闻组,电子邮件组等。Gopher信息资源:信息资源:2 2、按文献类型分、按文献类型分 电子报纸电子报纸 电子图书电子图书 电子期刊电子期刊 动态信息动态信息 如政府机构发布的消息、政策法规、如政府机构发布的消息、政策法规、会议消息、论文集、研究成果、项目进展报告、会议消息、论文集、研究成果、项目进展报告、产品目录、出版目录、广告等。产品目录、出版目录、广告等。书目数据库,书目数据库,参考数据库参考数据库 等等等等3 3、按媒体性质分、按媒体性质分 文本信息文本信息 如数据、论文、书刊、目录和数如数据、论文、书刊、目录和数据库、
7、广告。据库、广告。图形图形 图像图像 如图表、图形、影像、影视。如图表、图形、影像、影视。声音声音 包括各种网上发表的演讲、报告及音包括各种网上发表的演讲、报告及音乐信息。乐信息。软件软件 如免费软件、赠送软件、商品软件及如免费软件、赠送软件、商品软件及软件升级版本。软件升级版本。全文型信息全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等;事实型信息事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等;数值型信息数值型信息:主要是指各种统计数据、实验数据;数据库类信息数据库类信息:如DIALO
8、G,万方等,是传统数据库的网络化;微内容(微内容(web2.0特征)特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。其它类型其它类型:投资行情和分析,图形图象,影视广告等。第三节第三节 网络搜索引擎网络搜索引擎 网络搜索引擎的类型网络搜索引擎的类型 检索结果的排序方法检索结果的排序方法 国内外主要搜索引擎简介国内外主要搜索引擎简介 搜索引擎的语法规则搜索引擎的语法规则 搜索引擎的检索功能搜索引擎的检索功能 搜索引擎的检索方法搜索引擎的检索方法 全文索引,全文索引,元搜索引擎元搜索引擎,目录索引,目录索引,垂直搜索引擎,垂直搜索引擎,集合式搜索引擎,集合式搜索引擎,门户搜索引擎与免
9、费链接列表,等等。门户搜索引擎与免费链接列表,等等。仅介绍前面两种主要的搜索引擎。仅介绍前面两种主要的搜索引擎。一、搜索引擎的主要类型一、搜索引擎的主要类型1、独立、独立(全文全文)搜索引擎:搜索引擎:允许用户递交查询,检索出与查询相关的网页等结果允许用户递交查询,检索出与查询相关的网页等结果列表,并且排序输出。如百度,列表,并且排序输出。如百度,Google,WEB信息资源信息资源 用户系统用户系统 信息采集模块信息采集模块 信息检索模块信息检索模块 索引数据库索引数据库 信息标引模块信息标引模块2、元搜索引擎、元搜索引擎对应的排名结果称对应的排名结果称“自然排名自然排名”。确定相关度的方法
10、有:确定相关度的方法有:A、概率方法、概率方法:根据关键词在文中出现的频率来判定文件的相关性:根据关键词在文中出现的频率来判定文件的相关性(关键词出现次数越多,相关度就越高);(关键词出现次数越多,相关度就越高);、位置方法:、位置方法:根据关键词在文中出现的位置来判定(关键词出现根据关键词在文中出现的位置来判定(关键词出现越靠前,文件的相关程度越高);越靠前,文件的相关程度越高);、网页被引用次数、网页被引用次数 google主要采取此方法,有两种计算法:一主要采取此方法,有两种计算法:一是有多少网页与该记录链接,被链接越多,赋予的分值越高是有多少网页与该记录链接,被链接越多,赋予的分值越高
11、(即相关性越高);二是网页的访问量,网页在一段时间内被(即相关性越高);二是网页的访问量,网页在一段时间内被点击的频率越高其相关性越高。点击的频率越高其相关性越高。、被匹配提问词的数量、被匹配提问词的数量如果提问式中包含如果提问式中包含3个单词,那么全部个单词,那么全部包含包含3个单词的记录要比只包含个单词的记录要比只包含2个或个或1个单词的记录分值要高。个单词的记录分值要高。、词的邻近度、词的邻近度如果两个词紧挨着出现要比分开出现的分值高。如果两个词紧挨着出现要比分开出现的分值高。(2)付费排名)付费排名近年来搜索引擎公司推出了一种近年来搜索引擎公司推出了一种“付费搜索付费搜索”业务,打破了
12、自然排名原则,把搜索引擎检索业务,打破了自然排名原则,把搜索引擎检索结果网页(结果网页(search engine result page,SERP)排名位置拍卖给从事网络推广的广告)排名位置拍卖给从事网络推广的广告主。这些广告可以按主。这些广告可以按“每次浏览每次浏览”或或“每次点每次点击击”等原则出价,出价越高则其结果在等原则出价,出价越高则其结果在SERP中的排名越高,这一原则称为中的排名越高,这一原则称为“竞价排名竞价排名”原原则,对应的排名结果叫则,对应的排名结果叫“付费排名付费排名”,三、常用中外搜索引擎简介三、常用中外搜索引擎简介 常用中文独立搜索引擎常用中文独立搜索引擎(P76
13、-)常用外文常用外文独立独立搜索引擎(搜索引擎(P79-)常用中外元搜索引擎常用中外元搜索引擎(P86-)四、搜索引擎的语法规则(搜索引擎的语法规则(P1P1)(1)使用逻辑算符)使用逻辑算符:AND、OR、NOT:如如“计算机营销状况,但对计算机营销状况,但对IBM的情况不关心的情况不关心”,检索式为:检索式为:“计算机营销计算机营销 NOT IBM”。(2)使用)使用“+”、“-”或或should,should not、must等:用来强调某个词汇必须等:用来强调某个词汇必须(可能可能)出现或出现或者不出现在搜索结果中,如查找者不出现在搜索结果中,如查找“联想公司的联想公司的计算机产品,但
14、不是天琴系列计算机产品,但不是天琴系列”,检索式是检索式是:“计算机计算机 AND(+联想联想-天琴)天琴)”四、搜索引擎的语法规则(四、搜索引擎的语法规则(P2P2)四、搜索引擎的语法规则(四、搜索引擎的语法规则(P3P3)(5)使用逗号、括号、引号)使用逗号、括号、引号:一般情况下:一般情况下:逗逗号的作用和号的作用和OR的作用一样的作用一样;括号的作用和数括号的作用和数学中的作用一样学中的作用一样,如:;引号是告诉搜索引擎将几个关键引号是告诉搜索引擎将几个关键字作为一个完整的组合字符串进行搜索。字作为一个完整的组合字符串进行搜索。如:查找电子杂志方面的文献,可输入“electronic
15、magazine”(带引号)(带引号),若不加引号,两字间的空格一般均作为“OR”解释。四、搜索引擎的语法规则(四、搜索引擎的语法规则(P4P4)(6)使用通配符)使用通配符“*”:通配符可以用来指代词汇的某一部分。如com*,可以代表computer,communication,company等 五、搜索引擎的五、搜索引擎的检索检索功能功能(p1)(p1)1.1.布尔逻辑检索布尔逻辑检索 几乎所有的搜索引擎都具有布尔几乎所有的搜索引擎都具有布尔逻辑功能。逻辑功能。2.2.加权检索加权检索“”号或选择号或选择“must contain”,:表示某个关键词表示某个关键词“一定要出现一定要出现”或
16、或 “必须包含必须包含”在检索结果中;在检索结果中;“”号或选择号或选择“must not contain”,“should not”:表表示某个关键词示某个关键词“一定不能出现一定不能出现”或或“可能不包含可能不包含”在在检索结果中;检索结果中;不加符号或选择不加符号或选择“should contain”,“should”,表示表示某个关键词某个关键词“可以出现可以出现”或或“可以包含可以包含”在检索结果在检索结果中。中。3.3.词语检索词语检索 在一串词后加双引号(在一串词后加双引号(“”“”)或用连字符)或用连字符()连接()连接,限定检索结果中的词语必须精确匹配。,限定检索结果中的词语
17、必须精确匹配。4.4.截词检索截词检索 五、搜索引擎的检索功能(五、搜索引擎的检索功能(P2P2)5.5.字段限定检索字段限定检索 如如“t i t i l:t i t i l:”、“a b s t r a c t:a b s t r a c t:”、“keyword:keyword:“、“主机名限制(主机名限制(hosthost:)、:)、超链限制(超链限制(anchoranchor:)、域名限制:)、域名限制(domaindomain:)、:)、URLURL限制(限制(urlurl:)、链:)、链接 限 制(接 限 制(l i n kl i n k:)、网 址 限 制:)、网 址 限 制(
展开阅读全文