搜索引擎基础原理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《搜索引擎基础原理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 基础 原理 课件
- 资源描述:
-
1、搜索引擎基础搜索引擎基础搜索引擎工作原理搜索引擎工作原理 搜索引擎工作主要分为:搜索引擎工作主要分为:页面抓取(信息收集)页面抓取(信息收集)页面分析(预处理)页面分析(预处理)建立索引(预处理)建立索引(预处理)页面排序(排名)页面排序(排名)1 抓取页面(信息收集)抓取页面(信息收集)这个工作主要由叫做这个工作主要由叫做“机器人(机器人(robot)”、“爬虫爬虫(crawler)”或者或者“蜘蛛(蜘蛛(spider)”的程序,根据一定的程序,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个
2、网站。一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。为保证采集的资料最新,它还会回访已抓取过的网页。这个工作是搜索引擎所有工作的基础这个工作是搜索引擎所有工作的基础页面抓取的两种方式页面抓取的两种方式吸引蜘蛛吸引蜘蛛 网站的权重和网站的权重和PR值值 网站的更新频率网站的更新频率 页面的质量度页面的质量度 页面的连接数页面的连接数页面存储页面存储 搜索引擎在存储原始页面时,不单只存储原始页搜索引擎在存储原始页面时,不单只存储原始页面,还会存储其他的附加信息,例如:文件类型、面,还会存储其他的附加信息,例如:文件类型、文件大小、最后修改时间、文件大
3、小、最后修改时间、URL、IP地址、抓取地址、抓取时间等时间等页面收录原理页面收录原理URL列表列表抓取页面抓取页面提取提取URL存储原始页面存储原始页面用户提交用户提交搜索引擎还允许用户自己提交网站(一般只需要提交首页或者网站域名即可)百度:搜狗:360:SOSO:Google:Google英文:http:/?continue=/addurl2.1 页面分析(预处理)页面分析(预处理)对页面内容进行分析,提取相关网页信息(包括对页面内容进行分析,提取相关网页信息(包括网页所在网页所在URL、编码类型、页面内容包含的所有、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它关
4、键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。主要就是提取用于排名处网页的链接关系等)。主要就是提取用于排名处理的网页文字。理的网页文字。对页面正文内容进行对页面正文内容进行“切词切词”,为这些词建立索,为这些词建立索引,得到页面和关键字之间的对应关系引,得到页面和关键字之间的对应关系页面分析(预处理)页面分析(预处理)页面分析主要包括:页面分析主要包括:正文信息提取:主要是对标签和注释等信息的过滤正文信息提取:主要是对标签和注释等信息的过滤切词切词/分词:对页面内容进行切分,形成与用户查询条件相分词:对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的信息列表匹配的关键
5、字为单位的信息列表 匹配分词:和预设的海量词汇的匹配分词:和预设的海量词汇的“辞典辞典”中的词比较,中的词比较,如果有匹配的词,则为命中。如果有匹配的词,则为命中。统计分词:根据相邻的统计分词:根据相邻的2个或者多个字(词)出现的概个或者多个字(词)出现的概率判断这率判断这2个字(词)是否会形成一个词。个字(词)是否会形成一个词。2.2 建立索引(预处理)建立索引(预处理)关键字索引:在切词处理后,形成了关键字列表。关键字关键字索引:在切词处理后,形成了关键字列表。关键字列表的每条记录包含:关键字、关键字编号、出现次数、列表的每条记录包含:关键字、关键字编号、出现次数、在网页中的位置信息等。在
展开阅读全文