《大数据》配套之九:第8章-互联网大数据处课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据》配套之九:第8章-互联网大数据处课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据 数据 配套 互联网 课件
- 资源描述:
-
1、全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用大数据刘鹏主编张燕张重生张志立副主编B I G 教授,清华大学博士。现任南京大数据研究院院长、中国信息协会大数据分会副会长、中国大数据技术与应用联盟副理事长。主持完成科研项目25项,发表论文80余篇,出版专业书籍15本。获部级科技进步二等奖4项、三等奖4项。主编的云计算被全国高校普遍采用,被引用量排名中国计算机图书第一名。创办了知名的中国云计算()和中国大数据()网站。曾率队夺得2002 PennySort国际计算机排序比赛冠军,两次夺得全国高校科技比赛最高奖,并三次夺得清华大学科技比赛最高奖。荣获“全军十大学习成才标兵”(排名第一)、
2、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。刘 鹏第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of4138.5历史信息检索习题8.1互联网信息抓取第八章 互联网大数据处理8.1.1概述of414互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。爬虫可以被分为两类:一类叫作“通用爬虫”;另一类叫作“聚焦爬虫”。目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样
3、的灵活方便的开源爬虫搜索引擎。8.1互联网信息抓取第八章 互联网大数据处理8.1.1概述of415目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫(爬虫搜索引擎)。百度蜘蛛对某网站的抓取频率8.1互联网信息抓取第八章 互联网大数据处理8.1.2Nutch爬虫of416Nutch爬虫的部署与使用Nutch版本的选择NO.1Nutch工作环境NO.2NO.3Nutch的安装与配置NO.4Nutch的简单使用8.1互联网信息抓取第八章 互联网大数据处理of417Nutch1.x是基
4、于Hadoop集成环境的,Nucth的数据是存储在HDFS上的。Nutch2.x是基于Apach Gora的,Nutch可以访问HBase、Cassandra、MySQL等,所以,在编译Nutch之前,需要先安装HBase,另外Nutch的编译需要ant命令,所以,在编译Nutch之前还要安装Ant。Nutch版本的选择8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理of418Nutch工作环境:(1)Nutch仅支持在Linux系统下使用,本书使用的是Ubuntu 14.04.3 LTS,若要在Windows下使用Nutch,需要安装模拟Linux操作系统的软件Cygwi
5、n。(2)JDK:本书使用的是jdk-8u51-linux-x64.tar.gz。(3)HBase:可从网上下载最新版。(4)Ant:本书使用的是apache-ant-1.9.6-bin.tar.gz。(5)Nutch-2.2.1:可在Nutch官方网站下载最新版本的Nutch。(6)Tomcat:本书使用的是apache-tomcat-8.0.24.tar.gz。8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理of419JDK的安装与配置下载并解压HBaseAnt的安装与配置Nutch的安装与配置将Nutch和Solr集成在一起Nutch的安装与配置应该包括下面5个部分:
6、8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理of4110一站式抓取进入apache-nutch-2.2.1/runtime/local目录查看一站式抓取命令。分布式抓取可以分为2步:Nutch数据文件夹组成和生成抓取列表。Nutch的简单使用8.1.2Nutch爬虫8.1互联网信息抓取第八章 互联网大数据处理8.1.3案例:招聘网站信息抓取of4111考虑如下场景:现在需要通过调查全国所有公司的规模和分布情况,来评估每个省份的经济实力。我们要做的第一步就是数据的收集工作。可以通过编写爬虫程序,自动进行数据收集工作,特别是从招聘网站上的公司介绍页面获取数据。Nutch查询
7、界面8.1互联网信息抓取第八章 互联网大数据处理of41121.采用聚焦爬虫2.生成“种子”3.依次打开每一个URL,得到页面HTML4.对HTML进行解析,提取需要的信息5.使用多线程使用Python实现简单的聚焦爬虫来完成这项任务8.1.3案例:招聘网站信息抓取8.1互联网信息抓取第八章 互联网大数据处理8.1.4案例:舆情信息汇聚of4113通常情况下,网络舆情监控系统由采集层(舆情采集模块)、分析层和呈现层(分析浏览模块)实现。可通过网络信息自动抓取等技术手段,便捷、高效地获取与自己相关的网络舆情,不仅信息保真,而且覆盖全面。通过网络舆情监控系统最终形成专题简报、专题追踪、舆情简报等,
8、为全面掌握网络舆情动态,正确引导舆情动向,提供了可靠、有力的数据分析依据。舆情监控系统架构8.1互联网信息抓取第八章 互联网大数据处理of4114抓取河南大学新闻网新闻主题河南大学新闻网页关键信息提取河南大学新闻网页关键字检索8.1.4案例:舆情信息汇聚第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of41158.5历史信息检索习题8.2文本分词第八章 互联网大数据处理8.2.1概述of4116文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。中文分词也叫作切分,是将中文文本
9、分割成若干个独立、有意义的基本单位的过程。定义分词算法基本的工作原理是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。分词原理图8.2文本分词第八章 互联网大数据处理of4117123基于字符串匹配的分词方法它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。基于统计的分词方法由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。基于理解的分词方法该方法通过语义信息和语句信息来解决歧义分
10、词问题,并且在分词的同时进行语义和句法分析。现有的中文分词算法可以分为以下3类:8.2.1概述8.2文本分词第八章 互联网大数据处理of4118分词方法基于字符串基于理解基于统计歧义识别差强强新词识别差强强词库需要不需要不需要语料库不需要不需要需要规则库不需要需要不需要算法复杂性容易很难一般技术成熟度成熟不成熟成熟实施难度容易很难一般分词准确度一般准确较准分词速度快慢一般各种分词方法的优劣对比表8.2.1概述8.2文本分词第八章 互联网大数据处理8.2.2MMSEG分词工具of4119取最大匹配的Chunk取平均词长最大的Chunk取词长标准差最小的Chunk取单字词自由语素度之和最大的Chu
11、nkMMSEG分词算法中有两个重要的概念:Chunk和规则(Rule)。其中,一个Chunk就是一段字符串文本的一种分割方式,包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解,我们可以将规则看做过滤器。MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则。8.2文本分词第八章 互联网大数据处理of4120属性含义长度(Length)Chunk中各个词的长度之和平均长度(Average Length)长度/词数标准差的平方(Variance)标准差的平方自由语素度(Degree of Morphemic Freedom
12、)各单字词词频的对数之和Chunk中各属性及其含义8.2.2MMSEG分词工具8.2文本分词第八章 互联网大数据处理8.2.3斯坦福NLTK分词工具of4121有些文本的形成和变化过程与时间是紧密相关的,因此,如何将动态变化的文本中时间相关的模式与规律进行可视化展示,是文本可视化的重要内容。引入时间轴是一类主要方法,常见的技术以河流图居多。河流图按照其展示的内容可以划分为主题河流图、文本河流图及事件河流图等。第八章互联网大数据处理8.1互联网信息抓取8.2文本分词8.3倒排索引8.4 网页排序算法全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用of41228.5历史信息检索习题8.3
展开阅读全文