搜索引擎学习课件-2-3-.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《搜索引擎学习课件-2-3-.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 搜索引擎 学习 课件
- 资源描述:
-
1、2.3 中文分词和排序算法介绍2.3.1 中文分词:中文分词:中文本身存在着很大的歧义性,同样一句话,不同的断句,中文本身存在着很大的歧义性,同样一句话,不同的断句,表达的意思就不一样。这对于计算机去做机器分析,就带来表达的意思就不一样。这对于计算机去做机器分析,就带来了巨大的困难。了巨大的困难。下面的中文断句,来自百度广告宣传片下面的中文断句,来自百度广告宣传片:我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道2.3 中文分词和排序算法介绍2.3.1 中文分词:另外中文的具体含义,还必须放在具体的前后语言环境中去分另外中文的具体含义,还必须放在具体的前后语
2、言环境中去分析。析。比如说:比如说:乒乓球拍卖完了乒乓球拍卖完了我去学校我去学校商店商店,发现乒乓,发现乒乓 球拍球拍 卖卖 完完 了了在今天的在今天的慈善拍卖会慈善拍卖会上,世界冠军们夺冠时的乒乓球上,世界冠军们夺冠时的乒乓球 拍卖拍卖 完完 了了 中文分词,在具体的算法实现上分为三种:1.字符串匹配(正序、逆序、最少切分、最大切分等)2.基于理解(词法,句法等方式处理)3.基于统计在中文搜索引擎中,目前基本上是这三种算法混合使用。第二种的算法实现起来过于复杂,所以以第一种和第三种算法为主。2.3 中文分词和排序算法介绍语言本身也是在不停的进化和发展的,新的词语层出不穷,一些语言本身也是在不
3、停的进化和发展的,新的词语层出不穷,一些老的词语渐渐被弃用。作为中文分词的基础老的词语渐渐被弃用。作为中文分词的基础-词库,其新词词库,其新词补充和老词删除就是非常重要的工作。补充和老词删除就是非常重要的工作。“超级女声超级女声”、“超女超女”、“李宇春李宇春”、“八荣八耻八荣八耻”、“非非典典”,当这些新词的出现时,搜索引擎需要快速捕捉到,并,当这些新词的出现时,搜索引擎需要快速捕捉到,并且马上把其添加到分词系统中去。且马上把其添加到分词系统中去。如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主如何判断那些词是新词,这就全部倚靠算法来实现。新词捕捉主要来源于新闻和网络要来源于新闻和网
4、络BBS论坛,主要机制是依靠统计程序,统论坛,主要机制是依靠统计程序,统计上升速度最高的词。另外作为搜索引擎公司,对众多用户计上升速度最高的词。另外作为搜索引擎公司,对众多用户的搜索词进行的搜索词进行“用户行为用户行为”分析,也能提高其分析,也能提高其“新词补充新词补充”效果。效果。2.3 中文分词和排序算法介绍2.3.2 排序算法:排序算法:搜索引擎的排序算法(搜索引擎的排序算法(ranking algorithm),决定了各个网),决定了各个网页、图片、页、图片、MP3等数据的重要性排列顺序,也决定了最终用等数据的重要性排列顺序,也决定了最终用户查询到的数据排序。搜索引擎的户查询到的数据排
5、序。搜索引擎的排序算法排序算法是人工智能的完是人工智能的完满体现,它是对百亿级数据进行重要性分析的数学实现。满体现,它是对百亿级数据进行重要性分析的数学实现。“PageRank”是是Google公司在排序算法上的专利技术,也是公司在排序算法上的专利技术,也是Google能从众多搜索引擎公司中脱颖而出的最核心技术,作能从众多搜索引擎公司中脱颖而出的最核心技术,作为其搜索服务能够超过其他竞争对手最有力的武器。为其搜索服务能够超过其他竞争对手最有力的武器。2.3 中文分词和排序算法介绍不同搜索引擎公司排序算法的优劣,直接决定了广大搜索引擎用户对搜索服务的选择,在互联网上,一个普通用户更换搜索服务只需
6、要5秒钟,所以排序算法就成为了各个搜索引擎公司最核心机密。另外,每个搜索引擎公司也必须不停地改进其排序算法。2.3 中文分词和排序算法介绍 排序算法部分参考指标:排序算法部分参考指标:指标指标加分加分减分减分网站硬件指标网站硬件指标网站网络好,系统稳定网站网络好,系统稳定网站系统不稳定,网络不好网站系统不稳定,网络不好网站包含网页数网站包含网页数总网页数目多总网页数目多总网页数目少总网页数目少网页大小网页大小网页大小适中网页大小适中网页多大或过小网页多大或过小其他网页链到本网页其他网页链到本网页数目多数目多数目少数目少网页内网页内URL数数数目适中数目适中过多或过少过多或过少网页相关性网页相关
7、性URL连接网页是相关内容连接网页是相关内容URL连接网页不是相关内容连接网页不是相关内容网页更新网页更新/生成日期生成日期日期近的日期近的日期远的日期远的网页类型网页类型静态网页静态网页动态网页动态网页网页内样式网页内样式网页设计样式中等网页设计样式中等网页设计样式过于复杂或简单网页设计样式过于复杂或简单网页具体内容网页具体内容分词后,各个词权重总和高分词后,各个词权重总和高分词后,各个词权重总和低分词后,各个词权重总和低用户访问行为用户访问行为点击多的网页点击多的网页点击少的网页点击少的网页2.3 中文分词和排序算法介绍排序算法虽然解决了网页排序的问题,但是有时候有些搜索结排序算法虽然解决
展开阅读全文