《物联网导论》课件:第12章-搜索引擎v1.1.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《物联网导论》课件:第12章-搜索引擎v1.1.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 物联网导论 联网 导论 课件 12 搜索引擎 v1
- 资源描述:
-
1、内容提要提供“普适性的数据分析与服务”的搜索搜索引擎引擎才能诠释出物联网“更深入的智能化”的内涵。本章将介绍搜索引擎的基本概念,体系结构和相关技术。第11章介绍了海量信息存储技术和数据中心物联网对海量数据存储的需求三种网络存储体系结构数据中心的基本概念以及典型的数据中心如何降低数据中心的成本本章重点介绍搜索引擎的基本概念,包括发展历程,体系结构(信息采集,索引技术,搜索服务),并针对一个类Google Web搜索引擎进行简要分析。内容回顾12.1 搜索引擎简介搜索引擎简介12.2 搜索引擎体系结构12.3 物联网搜索引擎搜索引擎有哪些?有哪三大模块组成?本章内容12.1 搜索引擎简介Web搜索
2、引擎搜索引擎一个能够在合理响应时间内,根据用户的查询关键词,返回一个包含相关信息的结果列表(hits list)服务的综合体。传统的Web搜索引擎是基于查询关键词的,对于相同的关键词,会得到相同的查询结果。常见Web搜索引擎搜索引擎的发展搜索引擎的起源可追溯到1992年,由NCSA维护的“Whats NEW!”页面。第一个原始搜索引擎W3Catalog(1993.9)第一个Web机器人程序“World Wide Web Wanderer”(1993.6 MIT)里程碑: WebCrawler(1994),Lycos(1994)商用Google的建立:斯坦福博士生Larry Page 和 Ser
3、gey Brin 创立了Google网络爬虫模块网络爬虫模块:主要功能是通过对Web页面的解析,根据Web页面之间的连接关系抓取这些页面,并储存页面信息交给索引模块处理。索引模块索引模块:主要完成对于抓取的数据进行预处理建立关键字索引以便搜索模块输出。搜索模块搜索模块:对于用户的关键词,根据数据库的索引知识给出合理的搜索结果。Web搜索引擎的结构Web搜索引擎的工作模式12.1 搜索引擎简介12.2 搜索引擎体系结构搜索引擎体系结构12.3 物联网搜索引擎搜索引擎具有怎样的体系结构和相关技术?本章内容Web搜索引擎的3个重要问题响应时间响应时间:一般来说合理的响应时间在秒这个数量级关键词搜索关
4、键词搜索:得到合理的匹配结果搜索结果排序搜索结果排序:如何对海量的结果数据排序搜索引擎的体系结构搜索引擎的体系结构信息采集索引技术搜索服务体系结构:信息采集搜索引擎体系结构信息采集索引技术搜索服务Web搜索引擎的信息采集模块主要功能:Web上收集页面信息,即Web机器人(爬虫)程序基于超文本传输协议(Hypertext Transfer Protocol, 简称HTTP)体系结构:信息采集搜索引擎体系结构信息采集索引技术搜索服务典型的基于超文本传输协议的网络应答网络爬虫程序的工作模式搜索引擎体系结构信息采集索引技术搜索服务网络爬虫程序网络爬虫程序根据HTTP协议,发送请求,并通过TCP连接接受
5、服务器的应答。由于Web搜索引擎需要抓取数以亿计的页面,所以建立快速分布式的网络爬虫程序才能满足搜索引擎对性能和服务的要求,其物理实现可能是一组终端。网络爬虫程序的工作模式搜索引擎体系结构信息采集索引技术搜索服务爬虫程序物理设备架构图网络爬虫程序的基础结构搜索引擎体系结构信息采集索引技术搜索服务网络爬虫程序的基础结构搜索引擎体系结构信息采集索引技术搜索服务首先网络爬虫程序从URL链接库读取一个或多个URL作为初始输入并进行域名解析然后根据域名解析结果(IP)访问Web服务器,建立TCP连接,发送请求,接受应答,储存接受数据,并分析提取链接信息(URL)放入URL连接库里。爬虫程序递归执行该过程
6、直到URL链接库为空。信息采集优化搜索引擎体系结构信息采集索引技术搜索服务网络连接优化策略网络连接优化策略持久性连接多进程并发设计域名系统的缓存策略域名系统的缓存策略:由于网络爬虫程序会频繁调用域名系统,域名系统缓存可提高爬虫程序性能。LRU(Least Recently Used)算法LFU(Lease Frequently Used)算法FIFO(First-In, First-Out)算法网页抓取算法搜索引擎体系结构信息采集索引技术搜索服务深度优先算法深度优先算法在Web收集页面信息时,使用一个或一组预定义URL地址开始,然后根据页面内容中的超链接深度抓取页面,直到搜索结束(没有新的UR
展开阅读全文