搜索引擎工作原理简介课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《搜索引擎工作原理简介课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 工作 原理 简介 课件
- 资源描述:
-
1、第三节:搜索引擎工作原理简介第三节:搜索引擎工作原理简介整理ppt搜索引擎工作过程搜索引擎工作过程n 搜索引擎的工作过程大体上可以分为三个阶段:搜索引擎的工作过程大体上可以分为三个阶段:一:爬行和抓取一:爬行和抓取-搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。二:预处理二:预处理-索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。三:排名三:排名-用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。整理ppt整理ppt第一步:爬行和抓取第一步:爬行和抓取n 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务
2、。爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。n 1、蜘蛛、蜘蛛 定义:搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。爬行方式:多个蜘蛛并发分布爬行。爬行抓取规则:蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt。蜘蛛身份:每一个搜索引擎的蜘蛛名称也不同,如下:Baiduspider+百度蜘蛛 Sogou+web+robot+搜狗蜘蛛 Sosospider+搜搜蜘蛛整理ppt第一步:爬行和抓取第一步:爬行和抓取n 2、跟踪链接、跟踪链接 整个互联网是由相互链接的网站及页面组成的,蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进
3、行。爬行策略-1、深度优先;2、广度优先 整理ppt爬行和抓取爬行和抓取n 3、吸引蜘蛛、吸引蜘蛛 问:为何要吸引蜘蛛?答:单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面,但是实际上不能,也不会这么做,在这种前提下,蜘蛛所要做的就是尽量抓取重要页面。所以,我们SEO人员要想让自己的更多页面被收录,就要想方设法吸引蜘蛛来抓取。n 被搜索引擎认为符合重要页面的几个因素:1、网站和页面权重 2、页面更新度 3、导入链接 4、与首页点击距离整理ppt第一步:爬行和抓取第一步:爬行和抓取n 4、地址库、地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已
4、经被抓取的页面。地址库中URL的来源:1、人工录入的种子网站 2、蜘蛛抓取后从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。3、站长通过搜索引擎网站提交入口提交进来的网址。蜘蛛会按照重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。备注备注:搜索引擎所收录的大部分页面是蜘蛛自己根据跟踪链接得到的,搜索引擎更喜欢自己沿着链接发现新页面。整理ppt第一步:爬行和抓取第一步:爬行和抓取n 5、文件存储、文件存储 搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据域用户浏览器得到的
5、HTML是完全一样的,每个URL都有一个独特的文件编号。n 6、爬行时的复制内容检测、爬行时的复制内容检测 通常删除复制内容是在预处理步骤中执行的,但是现在蜘蛛在爬行和抓取文件时,也会进行一定程度的复制内容检测,遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。实践情况:有的站长在自己网站日志中发现了蜘蛛,但是页面从来没有被真正的收录过的原因。整理ppt第二步:预处理第二步:预处理n 在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。n 搜索引擎预处理工作内容:搜索引擎预处理工作内容:1、提取文字除去HTML代码后,剩下的用于排名的文字只是这一行:新浪
展开阅读全文