《大数据导论》简答题与答案.docx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据导论》简答题与答案.docx》由用户(最好的沉淀)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据导论 数据 导论 答题 答案
- 资源描述:
-
1、大数据导论简答题与答案1.人类社会的数据产生方式经历了哪些阶段?简述各阶段的特点。人类历史上从未有哪个时代和今天一样产生如此海量的数据,人类社会的数据产生方式大致经历了3个阶段:运营式系统、用户原创内容阶段、感知式系统阶段。(1)运营式系统:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始,这些数据规范、有秩序、强调数据的一致性,且这些数据的产生方式是被动的。(2)用户原创内容阶段:互联网的诞生促使人类社会数
2、据量出现第二次大的飞跃,但真正的数据爆发产生于Web2.0时代,其重要标志就是用户原创内容。以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;新型移动设备出现,易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷数据结构复杂,无秩序,不强调数据的一致性或只强调弱一致性,这些数据的产生方式是主动的。(3)感知式系统:人类社会数据量第三次大的飞跃最终导致了大数据的产生,这次飞跃的根本原因在于感知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落,通过这些设备对整个社会的运转进行监控,这些设备会源源不断地产生新数据,这些数据的产
3、生方式是自动的,数据呈现多源异构、分布广泛、动态演化等。简单来说,数据产生经历了被动、主动和自动三个阶段,这些被动、主动和自动的数据共同构成了大数据的数据来源。2. 大数据处理的关键技术都有哪些?并做简要描述。大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。1) .数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。2) .数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、转换、归约等并最终加载到数据存
4、储的过程。3) .数据存储,需要将采集到的数据进行存储管理,建立相应的数据库。4) .数据计算处理。单台计算机必然无法完成海量的数据处理工作,需要分布式架构的计算平台。5) .数据分析与挖掘,是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。6) .大数据可视化技术,可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户,供其分析使用。3. 简述网络大数据的一般采集过程。大数据采集主要包括:系统日志采集、网络数据采集、数据库采集和其他数据采集四种。网络数据采集常用的是通过
5、网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。网络大数据的一般采集过程:先在URL队列中写入一个或多个目标链接作为爬虫爬取信息的起点;爬虫从URL队列中读取链接,并访问该网站;从该网站爬取内容;从网页内容中抽取出目标数据和所有URL链接;从数据库中读取已经抓取过内容的网页地址;过滤URL,将当前队列中的URL和已经抓取过的URL进行比较;如果该网页地址没有被抓取过,则将该地址(SpiderURL)写入数据库,并访问该网站;如果该地
6、址已经被抓取过,则放弃对这个地址的抓取操作;获取该地址的网页内容,并抽取出所需属性的内容值;将抽取的网页内容写入数据库,并将抓取到的新链接加入URL队列。4. 解释为什么要进行数据预处理。高质量的数据是能够满足应用需求的数据。数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。1)不完整数据的出现可能有多种原因:重要的信息并非总是可以得到、用户输入时的遗漏、用户理解错误导致相关数据没有记录、设备故障导致的输入缺失、记录中不一致数据的删除、记录历史或被修改的数据被忽略、缺失的数据,特别是某些属性缺失值的元组。2)不正确数据的出现原因有:收集数据的设备出现故障、人为或计算机
7、内部错误在数据输入时出现、数据传输中的错误也可能出现、出于个人隐私考虑,用户故意向强制输入字段输入不正确的信息。3)不一致数据,如命名约定或所用的数据代码不一致、输入字段(如日期)的格式不一致等。4)时效性:数据更新不及时对数据质量产生负面影响。5)可信性反映了有多少数据是用户信赖的。6)可解释性反映了数据是否容易被理解。以上因素影响数据质量,低质量的数据将导致低质量的挖掘效果,因此需要对数据进行预处理。5. 试给出几种对数据缺失值的处理方法。对缺失值的处理一般是想方设法的把他补充上或者干脆弃之不用,一般的处理方法有以下几种:(1)忽略元组。通常当在缺少类标号时,通过这样的方法来填补缺失值。除
8、非元组有多个属性缺少值,否则该方法的有效性不高,而且大量有价值的数据有可能被忽略。(2)人工填写缺失值。由于用户自己最了解关于自己的数据,因此,这个方法产生数据偏离的问题最小,但该方法十分费时,尤其是当数据集很大、存在很多缺失值时,靠人工填写的方法不具备实际的可操作性。(3)使用一个全局常量填充缺失值。该方法是将缺失的属性值用同一个常数进行替换,如”。这种方法虽然简单,但可用性较差。由于此方法大量采用同一属性值,又可能会误导挖掘程序得出有偏差甚至错误的结论,因此,也要谨慎使用。(4)使用属性的中心度量(如均值或中位数)填充缺失值:均值和中位数从不同角度反映了数据的某些统计特征,例如,对于对称分
9、布的数据而言,缺失的数据与均值的偏差期望是最小的,因此用均值补充缺失值可以在最大限度上控制人工添加的值对数据整体特征的影响。(5)使用与给定元组属同一类的所有样本的属性均值或中位数:例如,如果将顾客按信用风险分类,并假设顾客收入的数据分布是对称的,则将具有相同信用风险顾客的平均收入替代数据库列表中收入income列的缺失值;如果顾客收入的数据分布是倾斜的,则中位数是更好的选择。(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他客户顾客的属性,可以构造一棵决策树来预测家庭月总收入的缺失值。6. 大数据预处理技术都有哪些?并做简要描
10、述。主流数据预处理技术:数据清洗、数据集成、数据变换、数据规约1 .数据清洗。数据清洗过程主要包括数据的缺省值处理、噪声数据处理、数据不一致处理。2 .数据集成。数据集成过程是将多个数据源中的数据合并存放到一个一致的数据存储(如数据仓库)中。其中数据源可以包含多个数据库、数据立方体或一般文件。数据集成需要考虑诸多问题,如数据集成中对象匹配问题、冗余问题和数据值的冲突检测与处理问题。3 .数据变换。数据变换是把原始数据转化为适合于数据挖掘的数据形式。数据转换主要包括光滑、聚集、数据泛化、数据规范化和新属性构造。4 .数据规约。数据归约得到数据集的简化表示,它小得多,但能够产生同样的(或几乎同样的
11、)分析结果。数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量保持数据的原始状态。有许多数据归约策略,包括数据聚集(例如建立数据立方体)、属性子集选择(例如通过相关分析去掉不相关的属性)、维度归约(例如使用诸如最小长度编码或小波等编码方案)和数据数值归约(例如使用聚类或参数模型等较小的表示“替换数据)、数据离散化。7. 简述数据集成过程应考虑哪些问题及如何解决。数据集成需要考虑诸多问题,如数据集成中对象匹配问题、冗余问题和数据值的冲突检测与处理问题。(1)对象匹配:模式集成和对象匹配涉及到实体识别问题。例如,如何才能确定一个数据库中的customer_id和另一个数据库中的cust
12、_number指的是相同属性?在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。(2)冗余:一个属性如果能由另一个或一组属性导出,则这个属性可能是冗余的。有些冗余可以被相关分析检测到。对于数值属性,可以使用相关系数(CorrelationCoefficient)和协方差(Covariance)来评估一个属性的值如何随另一个属性变化。(3)数据值的冲突检测与处理:对于来自同一个世界的某一实体,在不同的数据库中可能有不同的属性值。例如:某一表示长度的属性在不同数据库中分别用“厘米”和“分米”表示。检测到这类数
13、据值冲突后,可以根据需要修改某一数据库的属性值以使来自不同的数据库中但为同一实体的属性值统一起来。8. 简述大数据面临存储的问题与挑战。随着结构化数据和非结构化数据数量的不断增长,以及分析数据来源的多样化,之前的存储系统设计已经无法满足大数据应用的需求。对于大数据的存储,存在以下问题和挑战:1 .容量问题:大数据通常可达到pb级的数据规模,因此大数据存储系统需要达到相应等级的扩展能力。2 .延迟问题:大数据应用还存在实时性的问题,很多大数据应用环境,如涉及网上交易或者金融类相关的应用,都需要较高的每秒进行读写操作的次数3 .安全问题:某些特殊行业的应用,例如金融数据、医疗信息以及政府情报等又都
14、自己的安全标准和保密性需求4 .成本问题对于使用大数据环境的企业,成本控制是关键问题5 .数据的积累,需要基于大数据的应用要求较长的数据保存时间,为了实现长期的数据保存,需要存储厂商开发出能持续进行数据一致性检测、备份和容灾等保证长期高可用性的技术6 .灵活性大数据存储系统的基础设置规模庞大,保证存储系统的灵活性和扩展性是一大挑战。为了应对大数据对存储系统的挑战,数据存储领域的工作者通过不懈努力提升数据存储系统的能力,主要提升有3个方面:提升系统的存储容量、提升系统的吞吐量、系统的容错性等。9. 简述传统存储系统架构分类经过多年发展,存储系统架构由早期的DAS(Direct-AttachedS
15、torage,直连式存储)发展到NAS(Network-AttachedStorage,网络附加存储)和SAN(StorageAreaNetwork,存储区域网络),现在已经进入到云存储阶段。1. 直连式存储(DirectAttachedStorage,DAS)是最早出现的最直接的扩展数据存储模式,即与普通的PC架构一样,存储设备与主机系统直接相连,挂接在服务器内部总线上。2. 网络附加存储(NetworkAttachedStorage,NAS)是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。3. 存储区域网络(StorageAreaNetwork,SAN)指存储设备相互连接并与服务
16、器群相连而成网络,创造了存储的网络化。通过专用高速网将一个或多个网络存储设备和服务器连接起来的专用存储系统,数据处理服务器上的操作系统可以像访问本地盘数据一样对这些存储设备进行高速访问。10. 云存储技术具有哪些特点?并加以解释云存储技术具有以下特点(1)可靠性。云存储通过增加冗余度提高存储的可靠性。但是增加可靠性受到可靠性原理、成本及性能等方面的制约,因此在在保证可靠性的同时,提高系统的整体运行效率是当前一个亟待解决问题。(2)可用性。企业需要全天候地为世界不同地区的用户提供服务支持,因此可用性至关重要。对于云存储平台,冗余的架构部分可以减少停机风险。同时,多路径、控制器、不同的光纤网、RA
17、ID技术、端到端的架构控制/监控和成熟的变更管理过程等方案均可提高云存储可用性。(3)安全性。云存储服务间传输以及保存的数据都有被截取或篡改的隐患,因此当服务通过云交付时,数据分片混淆存储和数据加密传输成为了实现用户数据私密性和保证安全性的重要手段。(4)动态伸缩性。指的是读/写性能和存储容易的扩展与缩减。一个设计优良的云存储系统可以在系统运行过程中简单地通过添加或移除节点来自由扩展和缩减,这些操作对用户来说是透明的。(5)低成本。云存储可以降低企业级存储成本,包括购置存储的成本、驱动存储的成本、修复存储的成本及管理存储的成本。11. 云存储架构分哪些层次,各层实现了什么功能?云存储是一个由网
18、络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等组成的复杂系统。以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。云存储的架构由上而下可以分为访问层、应用接口层、基础管理层和存储层。1)存储层:云存储的最基础部分。云存储中的存储设备通常分布在不同地域且数量非常庞大,通过互联网、广域网或FC光纤通道网络把各个存储设备连接在一起。统一存储设备管理系统在存储设备的上一层,它能够完成多链路冗余管理,存储设备的逻辑虚拟化管理以及硬件设备的状态监控与故障维护。2)基础管理层:云存储最核心最难以实现的部分,基础管理层的主要功能是使云存储中多个存储设备之间可以协同工作,以便
19、对外提供同一种服务,能够提供更大、更好、更强的数据访问性能,它所采用的技术主要有集群系统、分布式文件系统和网格计算等。为了保证云存储中的数据不会被未授权的用户所访问,它还提供了CDN内容分发系统以及数据加密技术。同时,为了确保云存储中的数据不丢失以及云存储自身的安全和稳定,它还采取了各种数据备份、数据容灾技术和措施。3)应用接口层:云存储中灵活性最好的部分,根据实际业务类型的不同,不同的云存储运营单位开发的应用服务接口及提供的应用服务也不一样。例如在线音乐播放应用平台、网络硬盘应用平台、IPTV和视频点播应用平台、远程教学应用平台等。4)访问层:用户获得云存储系统的授权后,就可以通过标准的公用
20、应用接口进行登录并享受云存储服务。云存储提供的访问类型和访问手段会根据云存储运营单位的不同而有所不同。12. 存储虚拟化技术有哪几个实施层次,分别叙述这几个层次的特点。根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存储设备虚拟化和基于存储网络虚拟化。1)基于主机虚拟化。基于主机的虚拟化存储的核心技术是,通过增加一个运行在操作系统下的逻辑卷管理软件将磁盘上的物理块号映射成逻辑卷号,从而把多个物理磁盘阵列映射成一个统一的虚拟逻辑块,来进行存储虚拟化的控制和管理。2)基于存储设备虚拟化。基于存储设备虚拟化技术依赖于提供相关功能的存储设备的阵列控制器模块,常见于高端存储设备,其主要应用
21、针对异构的SAN存储构架。3)基于存储网络虚拟化。基于存储网络虚拟化技术的核心是在存储区域网中增加虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现的。13. 云存储关键技术云存储技术是多种技术的集合体,这些技术涉及硬件、软件和网络等计算机技术的各个方面,具有高可用性、高可靠性、高安全性和低成本等特征。1 .存储虚拟化。存储虚拟化可以将系统中不同厂商、不同型号、不同通信技术、不同类型的存储设备映射为一个统一的存储资源池,屏蔽了存储实体之间的物理位置及异构特征,从而对这些存储资源进行统一分配管理。在虚拟化存储环境中,服务器及应用系统面对的都是物理设备的逻
展开阅读全文