综合实战:日志的挖掘与应用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《综合实战:日志的挖掘与应用课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 综合 实战 日志 挖掘 应用 课件
- 资源描述:
-
1、5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用习题5.1 日志概念第五章 综合实战:日志的挖掘与应用东方:每天记录。荀子.强国:“王者之功名,不可胜日志也。”杨谅注:“日记识其政事。”周礼注:志,古文识;识,记也。”西方:犹日记。柯岩 奇异的书简船长:“贝汉廷,这位在他的航海日志上没有误过一天航期的船长这时却毫不迟疑地答应了。”5.1 日志概念第五章 综合实战:日志的挖掘与应用所谓日志(Log)是指系统所指定对象的某些操作和其操作结果按时间有序的集合。百度百科日志数据的核心就是日志消息或者日志。日志消息就是计算机
2、系统、设备、软件等在某种刺激下反应生成的东西.日志管理与分析权威指南5.1 日志概念第五章 综合实战:日志的挖掘与应用入侵检测主机日志(不同于NIDS日志)可用于入侵检测分析;资源管理日志记录系统运行状态、软硬件状态、性能容量等资源使用情况信息;故障排除日志可用于还原故障现场、梳理故障条例、分析故障根源和系统调试等;取证取证是在事件发生后重建“发生了什么”的情景过程;审计日志可用于验证系统或过程是否如预期般运行的过程;5.5日志分析与挖掘实例第五章 综合实战:日志的挖掘与应用5.1日志概念5.2日志处理5.3日志分析原理及工具5.4日志挖掘应用大数据应用人才培养系列教材习题5.2 日志处理第五
3、章 综合实战:日志的挖掘与应用生成日志:操作系统、数据库、中间件、应用、硬件设备等生成日志。传输日志:日志基于某种协议传输。如:SNMP、Syslog协议。存储日志:日志的存储和快速检索分析。分析日志:通过某种组合命令、日志工具或系统分析日志信息,挖掘日志“内涵”。5.2 日志处理第五章 综合实战:日志的挖掘与应用拉:应用程序从来源拉取日志消息。该方式一般基于C-S模型。通常以专有格式保存日志数据。例如:拉取CheckPoint防火墙日志。推:设备或应用向本地磁盘或者网络发出消息,必须配备一个日志收集器接收消息。例如:Syslog、SNMP、Windows事件日志。日志传输是将日志消息从一个地
4、方转移到另一地方的方式。日志记录系统获取日志的方式分为两类:5.2 日志处理第五章 综合实战:日志的挖掘与应用日志格式传输协议知名的日志传输协议:Syslog UDPSyslog TCP加密SyslogSOAP over HTTPSNMP传统文件传输方式,如FPT、SCP等。知名的日志格式:W3C扩展日志文件格式(Extended Log File Format,ELF)Apache访问日志Cisco SDEE/CIDEEArc SightSyslogIDMEF5.2 日志处理第五章 综合实战:日志的挖掘与应用日志的存储和快速检索是日志分析的关键问题。日志文件的文本存储优点:低资源消耗、文本格
5、式可直接读取分析、集成成本低。缺点:面对大数据、复杂分析无法胜任。日志文件的数据库存储优点:可使用SQL直接检索、数据库访问权限健全、集成工具兼容。缺点:较文本存储模式系统资源开销大(CPU、Mem、存储、网络延迟、文件压缩比等)。日志文件的Hadoop存储优点:分布式文件系统(Hadoops Distributed File System,HDFS)将数据存储为有结构的扁平文件。性能远优于文本、数据库存储方式。缺点:日志工具对Hadoop文件系统支持有限。5.2 日志处理第五章 综合实战:日志的挖掘与应用HDFS(Hadoop Distributed File System)Hadoop分布
6、式文件系统是其核心组件。HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。HDFS的读具体步骤为:HDFS的写具体步骤为:5.2 日志处理第五章 综合实战:日志的挖掘与应用HOW?WHAT?WHERE?WHEN?WHO?WHY?日志信息应该包括:WHO(涉及谁?)、WHAT(发生了什么?)、WHERE(发生在哪里?)、WHEN(发生
7、在何时?)、WHY(为什么发生?)、HOW(如何发生?)5.2 日志处理第五章 综合实战:日志的挖掘与应用sedgrepawkgrep(global search regular expression(RE)and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。sed是一款强大的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替
8、换、删除、新增、选取等特定工作类UNIX操作系统内置了多款命令,可以组合用于日常简单分析日志信息。tailtail 命令从指定点开始将 File 参数指定的文件写到标准输出。常与如上命令配置使用。5.2 日志处理第五章 综合实战:日志的挖掘与应用正则表达式概念来自于神经学。Walter PittsWarren Mcculloch在最近的六十年中,正则表达式逐渐从模糊而深奥的数学概念,发展成为在计算机各类工具和软件包应用中的主要功能。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻
9、辑。给定一个正则表达式和另一个字符串,我们可以达到如下的目的:1.给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2.可以通过正则表达式,从字符串中获取我们想要的特定部分。正则表达式的特点是:1.灵活性、逻辑性和功能性非常的强;2.可以迅速地用极简单的方式达到字符串的复杂控制。3.对于刚接触的人来说,比较晦涩难懂。绝大多数日志分析软件均基于正则表达式。5.2 日志处理第五章 综合实战:日志的挖掘与应用时间戳严重等级分隔符日志编码换行符日志轮转日志权限在数据中心里,繁杂各异格式的日志成为了日志分析的噩梦。可规范应用系统日志开发及管理过程,进行精准日志实时监控、提升突发故障排错效率、提供
10、丰富信息用于大数据分析、实现应用系统的安全审计功能。出于不同的目的,业界流传多种日志最佳实践。其中一部分是针对特定行业或日志工具,而大部分最佳实践都是通用的,本处仅讨论普通文本日志,可参照如下指标:时间戳:表示事件发生的时刻严重级别:表示事件的紧急程度分隔符:用于在一个记录中将一个字段与前后相邻字段区分开日志编码:日志文件的编码格式换行符:Unix系统里,每行结尾只有“”,即“n”;Windows系统里面,每行结尾是“”,即“rn”;Mac系统里,每行结尾是“”日志轮转:基于某个时间周期/预设文件大小/综合考虑的日志轮转日志权限:日志文件对不同用户的读/写/执行权限5.5日志分析与挖掘实例第五
展开阅读全文