书签 分享 收藏 举报 版权申诉 / 42
上传文档赚钱

类型Hadoop大数据平台构建与应用课件项目2Hadoop大数据平台的构建.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:3725633
  • 上传时间:2022-10-07
  • 格式:PPTX
  • 页数:42
  • 大小:3.98MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《Hadoop大数据平台构建与应用课件项目2Hadoop大数据平台的构建.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    Hadoop 数据 平台 构建 应用 课件 项目
    资源描述:

    1、Hadoop大数据平台构建与应用项目2 Hadoop大数据平台的构建AB项目描述通过分析学生专业课程技能考核、学生就业、学生学习兴趣、企业岗位需求、互联网招聘等数据信息,建立岗位模型、知识模型和学情模型,指导公司进行就业和学情分析系统的研发。在综合分析相关技术和应用实践的前提下,选择了主流的Hadoop大数据平台,并采用Apache Ambari管理平台构建Hadoop开发环境。任务2.1 搭建Ambari Hadoop系统任务描述1.借助学习论坛、网络视频等网络资源和各种图书资源,学习Cloudera Manager、Ambari和MapR等大数据平台管理工具。2.借助学习论坛、网络视频等网

    2、络资源和各种图书资源,学习Hadoop生态系统的相关技术,了解各项技术的功能。3.完成Ambari的安装与配置。任务目标1.了解Hadoop背景知识,熟悉Hadoop的生态系统。2.学会Hadoop分布式集群的组建方法。3.学会Ambari Server和Ambari Agent的配置方法。知识准备1.认识Hadoop平台产品相比于SQL数据库,Hadoop在某些方面仍然显得不够完善。Cloudera、Hortonworks、MapR是最具有代表性的公司,他们带来众多的创新并提供强大的集群工具。这些管理工具分别是Cloudera Manager、Ambari和MapR,它们均能对集群进行自动化

    3、安装、管理、监控、诊断和集成。如图2-1所示为3大Hadoop平台的供应商。下面向读者扩展一下这些公司的产品服务。图2-1 三大Hadoop平台的供应商图1-7 Apache Spark 开源项目(1)Cloudera图2-3 HDP资源栈(2)Hortonworks(3)MapR2.熟悉Hadoop生态系统MindmapSuitable for all categories business and personal presentation(14(1)Ambari(6)Pig(4)Oozie(5)Hive(13)Sqoop(11)YARN(12)HDFS(7)Shark(8)MapRedu

    4、ce(3)HBase(2)ZooKeeper(9)Tez(10)Spark(14)Flume任务实施Ambari管理平台通过安装向导来进行集群的搭建,简化了集群供应。Ambari支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。Ambari是一个分布式架构的软件,主要由Ambari Server和 Ambari Agent两部分组成,如图2-5所示。图2-5 Ambari Server架构(1)基本环境配置本任务以两台节点为例来组建 Hadoop分布式集群,这里采用的系统版本为CentOS 7,具体要求见表2-1。根据表中的资源配置来组建大数据基础平台。图1-8 Apache Sto

    5、rm开源项目主机名内存硬盘IP地址角色master8 GB100 GB192.168.200.131Ambari-Server、Ambari-Agent、MySQLslave14 GB100 GB192.168.200.133Ambari-Agent首先需要配置主机名。首先需要配置主机名。配置主机名。#master#hostnamectl set-hostname master#hostnamemaster#slave1#hostnamectl set-hostname slave1#hostnameslave11 修改 hosts 映射文件。#master#vi/etc/hosts192.1

    6、68.200.131 master.hadoop master192.168.200.133 slave1.hadoop#slave1#vi/etc/hosts192.168.200.131 master.hadoop192.168.200.133 slave1.hadoop slave12 配置Yum源。#master将BigData-v2.0-BASE.iso复制到/mnt目录下,将其中的ambari 解压到/opt目录下,并在master节点配置ftp服务。注意:因为安装大数据相关软件包时,可能会用到相关依赖软件包,所以需要配置CentOS 7 Yum 源,可以配置CentOS 7的本地

    7、Yum源文件,如果有网络的话也可以配置公网的Yum源。这里可以采用本地 CentOS 7 Yum 源。#master&slave1#cd/etc/yum.repos.d/#rm-vf*注意:如果配置公网Yum源,则不需要删除原来的repo文件。3编写REPO文件,指定Ambari安装包路径和CentOS 7安装包路径。#vi ambari.repo centos7baseurl=ftp:/192.168.2.10/centos7/(注:具体的Yum 源根据真实环境配置,本次为实验室测试环境。)gpgcheck=0 enabled=1 name=centos ambari name=ambari

    8、baseurl=ftp:/10.0.3.61/ambari(注:具体的Yum 源根据真实环境配置,本次为实验室测试环境。)enabled=1 gpgcheck=0#master#yum-y install httpd将/mnt/目录下的HDP-2.4-BASE和HDP-UTILS-1.1.0.20两个文件夹拷贝到/var/www/html/目录下。启动httpd服务。#systemctl enable httpd.service#systemctl status httpd.service 配置ntp。#master#yum-y install ntp#vi/etc/ntp.conf注释或者删

    9、除以下4行server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburstserver 3.centos.pool.ntp.org iburst添加以下两行server 127.127.1.0fudge 127.127.1.0 stratum 10#systemctl enable ntpd#systemctl start ntpd4#slave1#yum-y install ntpdate#ntpdate master.hadoop#syste

    10、mctl enable ntpdate 配置SSH。#master&slave1检查 2个节点是否可以通过无密钥相互访问,如果未配置,则进行SSH无密码公钥认证配置。如下:#yum install openssh-clients#ssh-keygen#ssh-copy-id master.hadoop#ssh-copy-id slave1.hadoopssh登录远程主机查看是否成功。#ssh master.hadoop#exit#ssh slave1.hadoop#exit5 禁用 Transparent Huge Pages。操作系统后台有一个khugepaged 的进程,它会一直扫描所有进

    11、程占用的内存,在可能的情况下会把4k page交换为Huge Pages,在这个过程中,对于操作的内存的各种分配活动都需要各种内存锁,直接影响程序的内存访问性能,并且这个过程对于应用是透明的,在应用层面不可控制,对于专门为4k page优化的程序来说,可能会造成随机的性能下降现象。#master&slave1#cat/sys/kernel/mm/transparent_hugepage/enabledalways madvise never#echo never /sys/kernel/mm/transparent_hugepage/enabled#echo never /sys/kernel

    12、/mm/transparent_hugepage/defrag#cat/sys/kernel/mm/transparent_hugepage/enabledalways madvise never重启后失效,需要再次执行。6 安装配置 JDK。#master#mkdir/usr/jdk64/#mount-o loop XianDian-BigData-v2.0.5-BASE.iso/mnt/#cd/mnt/#tar-zxvf jdk-8u77-linux-x64.tar.gz-C/usr/jdk64/#vi/etc/profileexport JAVA_HOME=/usr/jdk64/jdk1

    13、.8.0_77 export PATH=$JAVA_HOME/bin:$PATH#source/etc/profile#Java versionJava version 1.8.0_77Java(TM)SE Runtime Environment(build 1.8.0_77-b03)Java HotSpot(TM)64-Bit Server VM(build 25.77-b03,mixed mode)7#slave1#mkdir/usr/jdk64/#scp 172.24.14.106:/mnt/jdk-8u77-linux-x64.tar.gz.#tar-zxvf jdk-8u77-lin

    14、ux-x64.tar.gz-C/usr/jdk64/#vi/etc/profileexport JAVA_HOME=/usr/jdk64/jdk1.8.0_77 export PATH=$JAVA_HOME/bin:$PATH#source/etc/profile#Java versionJava version 1.8.0_77Java(TM)SE Runtime Environment(build 1.8.0_77-b03)Java HotSpot(TM)64-Bit Server VM(build 25.77-b03,mixed mode)(2)配置Ambari Server#maste

    15、r#yum-y installambari-server配置MariaDB数据库。#master安装MariaDB数据库。#yum install mariadb mariadb-server mysql-connector-java启动MariaDB数据库。#systemctl enable mariadb#systemctl start mariadb配置MariaDB数据库。#mysql_secure_installation按Enter 键确认后设置数据库 root 密码,这里设置为“bigdata”Remove anonymous users?Y/n yDisallow root l

    16、ogin remotely?Y/n nRemove test database and access to it?Y/n yReload privilege tables now?Y/n y创建Ambari数据库。#mysql-uroot-pbigdataMariaDB(none)create database ambari;MariaDB(none)grant all privileges on ambari.*to ambarilocalhost identified by bigdata;MariaDB(none)grant all privileges on ambari.*to am

    17、bari%identified by bigdata;MariaDB(none)use ambari;MariaDB ambari source/var/lib/ambari-server/resources/Ambari-DDL-MySQL-CREATE.sqlMariaDB ambari Bye安装配置Ambari Server。#master#ambari-server setupWARNING:SELinux is set to permissive mode and temporarily disabled.OK to continue y/n(y)?Customize user a

    18、ccount for ambari-server daemon y/n(n)?nChecking JDK.1 Oracle JDK 1.8+Java Cryptography Extension(JCE)Policy Files 8 2 Oracle JDK 1.7+Java Cryptography Extension(JCE)Policy Files 7 3 Custom JDK=Enter choice(1):3Path to JAVA_HOME:/usr/jdk64/jdk1.8.0_77Validating JDK on Ambari Server.done.Completing s

    19、etup.Configuring database.Enter advanced database configuration y/n(n)?yConfiguring database.=Choose one of the following options:1-PostgreSQL(Embedded)2-Oracle3-MySQL4-PostgreSQL5-Microsoft SQL Server(Tech Preview)6-SQL Anywhere=Enter choice(1):3Hostname(localhost):Port(3306):Database name(ambari):

    20、Username(ambari):Enter Database Password(bigdata):Proceed with configuring remote database connection properties y/n(y)?Ambari Server setup completed successfully.启动Ambari Server服务。#ambari-server start打开浏览器,登录页面 http:/192.168.200.131:8080/,在“用户名”的文本框中输入“admin”,在“密码”的文本框中输入“admin”,如图2-6所示。图2-6 Ambari

    21、登录页面(3)配置Ambari Agent#master&slave1安装Ambari Agent并修改ambari-agent.ini文件指定Ambari Server的地址或者主机名。#yum-y install ambari-agent#vi/etc/ambari-agent/conf/ambari-agent.iniserverhostname=master#ambari-agent restart打开Ambari Agent的log日志文件/var/log/ambari-agent/ambari-agent.log,查看是否存在“Building Heartbeat:response

    22、Id=”等字样,如果有则表示Ambari Server和Ambari Agent之间已经成功传递了心跳连接信号。#tail-f/var/log/ambari-agent/ambari-agent.logINFO 2017-01-12 09:44:20,919 Controller.py:265-Heartbeat response received(id=1340)INFO 2017-01-12 09:44:30,820 Heartbeat.py:78 -Building Heartbeat:responseId =1340,timestamp=1484214270820,commandsIn

    23、Progress=False,componentsMapped=True(4)部署管理 Hadoop集群登录页面http:/IPAddress:8080/,在“用户名”的文本框中输入“admin”,在“密码”的文本框中输入“admin”。接下来就可以启动安装向导、创建集群和安装服务。如图2-7和图2-8所示。图2-7 Ambari管理页面图2-8 Ambari安装向导在“选择安装栈”时指定安装源HDP-2.4和HDP-UTILS-1.1.0.20的位置。指定相应的目标主机并选择手动注册主机,选择所需要安装的服务,本任务需安装HDFS、YARN+MapReduce2、Zookeeper、Amba

    24、ri Metrics、Hive、HBase、Mahout、Sqoop、Spark等服务。在整个过程需要设置Grafana Admin和Hive的密码。部署完成页面,如图2-9所示。图2-9 部署完成页面单击页面导航栏的“主界面”按钮,在主界面中可以查看集群状态和监控信息,如图2-10所示。单击页面导航栏的“主界面”按钮,在主界面中可以查看集群状态和监控信息,如图2-10所示。至此,大数据基础平台已经部署完毕了。图2-10 平台主界面任务2.2使用Apache Ambari管理Hadoop集群任务目标1.学会使用Ambari Web管理界面对Hadoop服务进行管理的方法。2.学会使用Ambar

    25、i Web管理界面对集群主机进行管理的方法。3.学会使用Ambari Web管理界面对Hadoop服务进程进行管理的方法。4.学会使用Ambari Web管理界面对服务配置文件进行管理的方法。(1)服务管理在页面左侧的服务列表中,可以选中任何一个想要操作的服务。以 HDFS为例,单击左侧服务列表中的“HDFS”按钮后,就会在服务列表右侧看到该服务的相关信息,如图2-11所示。图2-11 HDFS概要展示页面Hadoop的集群部署完成后,并不知道这个集群是否可用。这时候就可以借助“运行服务检查”命令来确保集群服务可以正常运行。选择这个命令后,就会在弹出的对话框中出现如图2-12所示的HDFS服务

    26、操作进度显示。当进度条执行完毕后,全绿代表服当进度条执行完毕后,全绿代表服务运行正常,全红代表服务运行失败,黄色代表出现告警信息。务运行正常,全红代表服务运行失败,黄色代表出现告警信息。图2-12 HDFS服务操作进度显示“服务操作”下拉菜单中的“启动”、“停止”、“重启所有”3个命令的含义分别是指:启动、停止、重启集群中所有该服务的进程。当执行进度页面打开时,可以进入查看每个主机进程的操作进度和运行log,如图2-13所示。图2-13 HDFS服务重启界面(2)主机管理单击页面导航栏中“主机”按钮,就可以打开Ambari所管理的主机列表,如图2-14所示:图2-14 主机列表单击导航栏左下方

    27、的“动作”按钮,在弹出的下拉菜单中列出与主机相关操作的命令,这个效果和“服务操作”是类似的,只是执行的范围不一样,如图2-15所示。图2-15 主机动作操作在导航栏右下方有一个“主机动作”按钮,通过单击该按钮可以进行一系列的操作,如图2-16所示。图2-16 主机监控页面(3)进程管理进入到master节点中,找到需要进行管理的进程,如NameNode,该进程后面有个“Started”按钮,表示该进程正在运行中,单击该按钮可以改变进程的运行状态,如“重启”、“停止”、“移动”、“打开维护模式”、“均衡HDFS”等,如图2-17所示。图2-17主机进程操作(4)配置管理具体操作步骤如下:在页面导

    28、航栏中选择“服务HDFS”命令,然后在其服务列表右侧选择“配置AdvancedGeneralBlock replication”命令,将Block replication修改为2,然后单击“保存”按钮,如图2-18所示。图2-18 HDFS修改Block复制因子保存成功后,可以看到相应的版本信息,如图2-19所示,然后单击“重启”按钮,重启所有标记重启的组件。图2-19 相关服务提示重启项目小结本项目主要介绍了Hadoop基本知识、相关产品及其衍生产品等,了解了它们之间的关系和工作模式以及每个产品的特点,学习了利用Ambari部署工具来构建大数据平台并对集群进行管理的方法,不仅为学情分析系统的实现做好了平台准备,而且为今后进行企业大数据平台管理与维护打下坚实的基础。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:Hadoop大数据平台构建与应用课件项目2Hadoop大数据平台的构建.pptx
    链接地址:https://www.163wenku.com/p-3725633.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库