书签 分享 收藏 举报 版权申诉 / 52
上传文档赚钱

类型大数据处理技术简介PPT课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:2618674
  • 上传时间:2022-05-11
  • 格式:PPTX
  • 页数:52
  • 大小:6.51MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据处理技术简介PPT课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据处理 技术 简介 PPT 课件
    资源描述:

    1、2000年年 数字数据只占全球数据量的数字数据只占全球数据量的1/41/42007年年 所有数据中只有所有数据中只有7%7%是存储在报纸、书是存储在报纸、书籍、图片等媒介上的模拟数据,其余籍、图片等媒介上的模拟数据,其余93%93%全是全是数字数据(二进制数据)数字数据(二进制数据)Google 单日单日数据处理数据处理量量超过超过 24 24 PBPBFacebook 单日单日照片更新量超过照片更新量超过 1 1千万千万张张淘宝网淘宝网 单日数据产生量超过单日数据产生量超过 5 5万万 GBGB “大数据大数据”是指一个是指一个数据集(数据集(Datasets),它它的尺寸大到已经无法由的尺

    2、寸大到已经无法由传统的数据库软件传统的数据库软件去采集、去采集、储存、管理和分析。储存、管理和分析。行数据行数据, ,存储在数据库里存储在数据库里, ,可以用二维表可以用二维表结构结构来逻辑来逻辑表达实现的表达实现的数据。数据。例如:二维表自描述,数据结构和内容混杂在自描述,数据结构和内容混杂在一起一起的数据。的数据。例如: XML、HTML等。除去以上两种类型除去以上两种类型例如:音视频、图片等。l无法储存几亿行长,几百万行宽的表格,无法储存几亿行长,几百万行宽的表格,巨大的数据巨大的数据直接导致数据库崩溃直接导致数据库崩溃l半半结构化数据和脏数据结构化数据和脏数据将会导致出错(类型不严格)

    3、将会导致出错(类型不严格).10G100M/S10G10G10G10G99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76% 10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G10G1.系统要求:系统要求:Linux(Ubuntu/CentOS/)2.java运行环境(安装运行环境(安装JDK)3.安装安装SSH4.安装安装Hadoop Hadoop云的实际操作 public class WordCount public static class Map extends MapReduceBase imp

    4、lements Mapper private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void (LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); wh

    5、ile (tokenizer.hasMoreTokens() word.set(tokenizer.nextToken();output.collect(word, one); /输出:输出: 1 计算节点和储存节点普通机器即可计算节点和储存节点普通机器即可 通过增加节点即扩展通过增加节点即扩展 副本机制副本机制 Map/Reduce框架框架l适合一次写入多次读取(适合一次写入多次读取(HDFS)为程序员提供类SQL语句编写,底层将HiveQL(Hive- SQL)转换为MapReduce编译运行提供给用户使用的脚本语言,简化MapReduce代码编写低延时、分布式的非关系型数据库分布式协同工作系统向Hadoop应用(Hive/Pig)共享元数据

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据处理技术简介PPT课件.pptx
    链接地址:https://www.163wenku.com/p-2618674.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库