日志审计与分析系统课件QAX-第3章-事件归一化.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《日志审计与分析系统课件QAX-第3章-事件归一化.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 日志 审计 分析 系统 课件 QAX 事件 归一化
- 资源描述:
-
1、第3章 事件归一化w w w.q i a n x i n.c o m3.1 事件过滤3.2 归一化的原因3.3 归一化的方法及效果目录1.了解事件过滤的原理2.了解事件过滤的方法3.理解事件归一化的原因4.理解事件归一化的效果4.掌握事件归一化使用的方法本章学习目标事件过滤3.1 在日志记录和日志管理的过程中,为减轻管理员审核日志、寻找潜在问题的工作负担,当今的日志分析系统提供自动化机制来对原始日志事件进行过滤、规范化和关联。日志事件处理过程日志事件处理过程(1)概念:事件过滤是对从不同远程机器上收集的原始日志数据进行分析,保留对管理员有用的日志消息,而将无关的日志消息抛弃,以减少整个系统的负
2、载。(2)事件过滤的必要性:大规模网络通常具有复杂性,再加上各种日志记录的事件具有不确定性,导致各种日志设备产生的日志信息可能不完善甚至存在某些错误。因此,为了保证日志归一化的准确度和效率,必须对原始日志数据进行过滤操作。(3)事件过滤的主旨 旨在按照需求对不完整、错误的或者无关紧要的数据从日志中删除。事件过滤概述(1)信息不全面:日志收集与分析系统所收集的各种设备日志的某些重要属性值可能缺失,直接处理这些信息毫无意义,应将其过滤掉。(2)IP地址错误:很多网络攻击者为了逃避追踪常常会使用虚假的源IP地址,因此需要过滤这类日志信息。当目的IP不在检测网络范围内时,应将其过滤掉。(3)重复记录:
3、对于同一个事件,可能短期内会产生多条日志记录。据有关统计,DDOS攻击可以诱发IDS在92秒内产生92832条相同的日志警告信息。原始日志存在错误信息(1)Marcus Ranum 在1997年创造的概念。(2)核心机制:通过寻找管理员熟悉的日志数据,从而发现管理员尚不知道的事件。人为忽略(1)状态级别识别:通常运行日志中,主要分为medium、info、error三个级别表示程序运行情况,medium代表正常,info代表警告、error代表错误,所以在数据筛选时主要取error的日志。(2)服务进程识别:在监控的服务进程中,日志存在processname字段,可以看到所有的进程日志,需要筛
4、选用户启动的服务进程,如浏览器进程或者进程等具体流程。(3)日志去重:在实际进行取值的过程中,需要对事件日志进行去重操作,在数万条的记录中,筛选出最新的,最有价值的日志信息,进行后续操作,从而缩小日志范围。事件过滤使用的方法(1)读入一条日志数据;(2)判断该日志是否是错误日志,如果包含错误信息则将其删除;(3)判断该日志是否是用户所关心的日志,如果不是则将其删除;(4)最后按时间顺序对日志记录进行去重。事件过滤流程(1)根据日志的标志字段进行事件过滤:对从不同远程机器上收集的日志汇总到中央日志处理服务器上,分析日志中不同字段,通常日志中包含错误代码、传输协议、IP地址、进程名、远程地址、用户
5、名、URL、时间等字段。(2)根据存储格式或内容规范进行过滤:通过检查日志记录中每个属性的存储格式以及检查其实际内容是否符合规范对事件进行过滤,如空缺值,识别、删除孤立点,删除某些重复记录,对属性值的有效性进行检验等等。事件过滤分类(1)忽略元组:除非元组有多个属性缺少值,否则该方法不是很有效。(2)人工填写空缺值:一般来说,该方法很费时,并且当数据集很大、空缺值很多时,该方法行不通。(3)使用一个全局变量填补空缺值:将空缺的属性值用同一个常数(如“Unknown”或-)替换。如果空缺值都用“Unknown”替换,程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”
6、。因此虽然该方法简单,但一般不使用。(4)使用属性的平均值填充空缺值。(5)使用与给定元组属同一类的所有样本的平均值。(6)使用最可能的值填充空缺值:可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。空缺值处理方法(1)方法1针对元组数据,除非元组有多个属性缺少值,否则该方法不是很有效。(2)方法2的时间成本比较高,而且在数据量很大时可行性较低。(3)方法36使数据倾斜,填入的值可能不正确。(4)方法F是最常用的方法,与其他方法相比,它使用现存数据的多数信息来推测空缺值。在估计某个属性的空缺值时,通过考虑其他属性的值,有更大的机会保持收入和其他属性之间的联系。空缺值处理方法比较(1)重
7、复数据会导致错误的归并模式,因此有必要去除数据集中的重复数据,以提高其后归并的精度和速度。(2)每种重复记录检测方法都需要确定是否有两个及以上的实例表示的是同一实体。(3)有效的检测方法是对每一个实例都与其他实例进行对比,从而发现重复实例。重复数据(1)排序一合并方法,该方法是检测数据库中完全重复记录的标准方法。基本思想是:Step1.对数据集排序;Step2.比较相邻一记录是否相等。(2)基本近邻排序算法(Basic Sorted Neighborhood Method,SNM)。该方法的思想是:Step1.将数据集中的记录按指定的关键字(key)排序;Step2.在排序后的数据集上移动一个
8、固定大小的窗口,只检测窗口内的记录,并判定它们是否匹配,以此来减少记录的比较次数。检测重复数据的方法(1)噪声数据的出现可能有多种原因,由于噪声数据的存在使得数据不在规定的数据域内,从而会影响后面的挖掘效果和结果。(2)噪声是一个测量变量中的随机错误或偏差。噪声数据(1)分箱(binning):分箱法是通过考察“邻居”(即周围的值)来平滑存贮数据的值,即,存储的值被分布到一些“桶”或箱中。分箱法参考的是邻居数据,进行的是局部平滑。(2)聚类(clustering):孤立点可以被聚类检测。聚类将类似的值组织成群或“聚类”。落在聚类集合之外的值则被视为孤立点。(3)计算机与人工检查结合:通过计算机
9、和人工检查结合的方法来识别孤立点。(4)回归(regression):使用回归,找出适合数据的数学方程式,能够帮助消除数据中的噪声。通过让数据适合一个函数如回归函数来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面。去噪声方法(1)由于系统和应用造成的数据类型、格式、制式、粒度和编码方式等。(2)由于错误的输入,硬件或软件故障,不及时更新造成的数据库状态改变等。不一致数据产生的原因(1)分析不一致性数据产生原因。(2)应用多种变换函数、格式函数、汇总分解函数库去实现清理。不一致数据过滤的方法归
10、一化的原因3.2(1)从数据库中提取数据是复杂的。需要提取的数据是多表融合的数据,需将不同表字段值合并为一个字段值(或重命名字段);或取某字符字段值的子字符串;或需对某些数据进行较高层次的聚集,如对某数值字段的平均。(2)存在多个输入数据源。待转换的数据一般来自不同数据源中的不同表,这就要求数据与数据源的对应关系逻辑上很清楚,以便从正确的数据源提取正确的数据。(3)源数据库的键及其它约束在目标数据库中可能改变。将多表数据融合后,原来的约束常常改变,目标数据库中的新约束与待转换数据是否矛盾,需要仔细考察和妥善解决。(4)源数据与目标数据类型的转换问题。不同的数据库系统的数据类型不同,在将数据存入
11、目标数据库时需要做类型的转换。归一化的原因(1)日志归一化实现将不同格式的原始日志归一化为一种具有统一格式的日志。(2)日志归一化为其他模块集中处理日志奠定基础。归一化归一化的方法及效果3.3(1)获取过滤后的原始日志消息。(2)阅读原始日志数据形式及每个字段的说明。(3)数据转换和数据归并,提出格式化数据所用的对应的解析表达式,大部分日志分析系统利用正则表达式来解析数据。(4)在样本原始日志数据上测试解析逻辑。(5)部署解析逻辑。(6)存储。归一化的基本步骤 不管归一化事件所使用的最终存储机制是什么,最终都需要保留一些通用的字段,这些字段包括:(1)源和目标IP地址:在后续关联分析过程中非常
12、有用。(2)源和目标端口:用于理解哪些服务试图访问或者被访问。(3)分类学:分类学是分类和编码日志消息含义的一种手段。(4)时间戳:最关心的两类时间戳是日志消息在设备上生成的时间,日志记录系统接收日志消息的时间。(5)用户信息:用户名、命令、目录位置等用户信息。(6)优先级:有些日志消息自身包含了某种优先级。(7)原始日志:作为归一化过程的一部分,应该保留原始日志数据。这用于确保归一化事件的有效性。另一个用例是日志留存,可以将保存原始日志作为事件归一化的一部分,或者将其保存在磁盘上,提供一种从归一化事件中“取回”原始日志消息的手段。通用字段(1)基于软件工具的转换方法 数据库管理系统一般都提供
展开阅读全文