日志审计与分析系统课件QAX-第3章-事件归一化.pptx

上传人（卖家）：晟晟文业

文档编号：4289405

上传时间：2022-11-26

格式：PPTX

页数：43

大小：441.64KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《日志审计与分析系统课件QAX-第3章-事件归一化.pptx》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 日志审计分析系统课件 QAX 事件归一化

资源描述：: 1、第3章事件归一化w w w.q i a n x i n.c o m3.1 事件过滤3.2 归一化的原因3.3 归一化的方法及效果目录1.了解事件过滤的原理2.了解事件过滤的方法3.理解事件归一化的原因4.理解事件归一化的效果4.掌握事件归一化使用的方法本章学习目标事件过滤3.1 在日志记录和日志管理的过程中，为减轻管理员审核日志、寻找潜在问题的工作负担，当今的日志分析系统提供自动化机制来对原始日志事件进行过滤、规范化和关联。日志事件处理过程日志事件处理过程（1）概念：事件过滤是对从不同远程机器上收集的原始日志数据进行分析，保留对管理员有用的日志消息，而将无关的日志消息抛弃，以减少整个系统的负
2、载。（2）事件过滤的必要性：大规模网络通常具有复杂性，再加上各种日志记录的事件具有不确定性，导致各种日志设备产生的日志信息可能不完善甚至存在某些错误。因此，为了保证日志归一化的准确度和效率，必须对原始日志数据进行过滤操作。（3）事件过滤的主旨旨在按照需求对不完整、错误的或者无关紧要的数据从日志中删除。事件过滤概述（1）信息不全面：日志收集与分析系统所收集的各种设备日志的某些重要属性值可能缺失，直接处理这些信息毫无意义，应将其过滤掉。（2）IP地址错误：很多网络攻击者为了逃避追踪常常会使用虚假的源IP地址，因此需要过滤这类日志信息。当目的IP不在检测网络范围内时，应将其过滤掉。（3）重复记录：
3、对于同一个事件，可能短期内会产生多条日志记录。据有关统计，DDOS攻击可以诱发IDS在92秒内产生92832条相同的日志警告信息。原始日志存在错误信息（1）Marcus Ranum 在1997年创造的概念。（2）核心机制：通过寻找管理员熟悉的日志数据，从而发现管理员尚不知道的事件。人为忽略（1）状态级别识别：通常运行日志中，主要分为medium、info、error三个级别表示程序运行情况，medium代表正常，info代表警告、error代表错误，所以在数据筛选时主要取error的日志。（2）服务进程识别：在监控的服务进程中，日志存在processname字段，可以看到所有的进程日志，需要筛
4、选用户启动的服务进程，如浏览器进程或者进程等具体流程。（3）日志去重：在实际进行取值的过程中，需要对事件日志进行去重操作，在数万条的记录中，筛选出最新的，最有价值的日志信息，进行后续操作，从而缩小日志范围。事件过滤使用的方法（1）读入一条日志数据；（2）判断该日志是否是错误日志，如果包含错误信息则将其删除；（3）判断该日志是否是用户所关心的日志，如果不是则将其删除；（4）最后按时间顺序对日志记录进行去重。事件过滤流程（1）根据日志的标志字段进行事件过滤：对从不同远程机器上收集的日志汇总到中央日志处理服务器上，分析日志中不同字段，通常日志中包含错误代码、传输协议、IP地址、进程名、远程地址、用户
5、名、URL、时间等字段。（2）根据存储格式或内容规范进行过滤：通过检查日志记录中每个属性的存储格式以及检查其实际内容是否符合规范对事件进行过滤，如空缺值，识别、删除孤立点，删除某些重复记录，对属性值的有效性进行检验等等。事件过滤分类（1）忽略元组：除非元组有多个属性缺少值，否则该方法不是很有效。（2）人工填写空缺值：一般来说，该方法很费时，并且当数据集很大、空缺值很多时，该方法行不通。（3）使用一个全局变量填补空缺值：将空缺的属性值用同一个常数（如“Unknown”或-）替换。如果空缺值都用“Unknown”替换，程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值“Unknown”
6、。因此虽然该方法简单，但一般不使用。（4）使用属性的平均值填充空缺值。（5）使用与给定元组属同一类的所有样本的平均值。（6）使用最可能的值填充空缺值：可以用回归、贝叶斯形式化方法工具或判定树归纳等确定空缺值。空缺值处理方法（1）方法1针对元组数据，除非元组有多个属性缺少值，否则该方法不是很有效。（2）方法2的时间成本比较高，而且在数据量很大时可行性较低。（3）方法36使数据倾斜，填入的值可能不正确。（4）方法F是最常用的方法，与其他方法相比，它使用现存数据的多数信息来推测空缺值。在估计某个属性的空缺值时，通过考虑其他属性的值，有更大的机会保持收入和其他属性之间的联系。空缺值处理方法比较（1）重
7、复数据会导致错误的归并模式，因此有必要去除数据集中的重复数据，以提高其后归并的精度和速度。（2）每种重复记录检测方法都需要确定是否有两个及以上的实例表示的是同一实体。（3）有效的检测方法是对每一个实例都与其他实例进行对比，从而发现重复实例。重复数据（1）排序一合并方法，该方法是检测数据库中完全重复记录的标准方法。基本思想是：Step1.对数据集排序；Step2.比较相邻一记录是否相等。（2）基本近邻排序算法（Basic Sorted Neighborhood Method，SNM）。该方法的思想是：Step1.将数据集中的记录按指定的关键字（key）排序；Step2.在排序后的数据集上移动一个
8、固定大小的窗口，只检测窗口内的记录，并判定它们是否匹配，以此来减少记录的比较次数。检测重复数据的方法（1）噪声数据的出现可能有多种原因，由于噪声数据的存在使得数据不在规定的数据域内，从而会影响后面的挖掘效果和结果。（2）噪声是一个测量变量中的随机错误或偏差。噪声数据（1）分箱（binning）：分箱法是通过考察“邻居”（即周围的值）来平滑存贮数据的值，即，存储的值被分布到一些“桶”或箱中。分箱法参考的是邻居数据，进行的是局部平滑。（2）聚类（clustering）：孤立点可以被聚类检测。聚类将类似的值组织成群或“聚类”。落在聚类集合之外的值则被视为孤立点。（3）计算机与人工检查结合：通过计算机
9、和人工检查结合的方法来识别孤立点。（4）回归（regression）：使用回归，找出适合数据的数学方程式，能够帮助消除数据中的噪声。通过让数据适合一个函数如回归函数来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线，使得一个变量能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个变量，数据要适合一个多维面。去噪声方法（1）由于系统和应用造成的数据类型、格式、制式、粒度和编码方式等。（2）由于错误的输入，硬件或软件故障，不及时更新造成的数据库状态改变等。不一致数据产生的原因（1）分析不一致性数据产生原因。（2）应用多种变换函数、格式函数、汇总分解函数库去实现清理。不一致数据过滤的方法归
10、一化的原因3.2（1）从数据库中提取数据是复杂的。需要提取的数据是多表融合的数据，需将不同表字段值合并为一个字段值（或重命名字段）；或取某字符字段值的子字符串；或需对某些数据进行较高层次的聚集，如对某数值字段的平均。（2）存在多个输入数据源。待转换的数据一般来自不同数据源中的不同表，这就要求数据与数据源的对应关系逻辑上很清楚，以便从正确的数据源提取正确的数据。（3）源数据库的键及其它约束在目标数据库中可能改变。将多表数据融合后，原来的约束常常改变，目标数据库中的新约束与待转换数据是否矛盾，需要仔细考察和妥善解决。（4）源数据与目标数据类型的转换问题。不同的数据库系统的数据类型不同，在将数据存入
11、目标数据库时需要做类型的转换。归一化的原因（1）日志归一化实现将不同格式的原始日志归一化为一种具有统一格式的日志。（2）日志归一化为其他模块集中处理日志奠定基础。归一化归一化的方法及效果3.3（1）获取过滤后的原始日志消息。（2）阅读原始日志数据形式及每个字段的说明。（3）数据转换和数据归并，提出格式化数据所用的对应的解析表达式，大部分日志分析系统利用正则表达式来解析数据。（4）在样本原始日志数据上测试解析逻辑。（5）部署解析逻辑。（6）存储。归一化的基本步骤不管归一化事件所使用的最终存储机制是什么，最终都需要保留一些通用的字段，这些字段包括：（1）源和目标IP地址：在后续关联分析过程中非常
12、有用。（2）源和目标端口：用于理解哪些服务试图访问或者被访问。（3）分类学：分类学是分类和编码日志消息含义的一种手段。（4）时间戳：最关心的两类时间戳是日志消息在设备上生成的时间，日志记录系统接收日志消息的时间。（5）用户信息：用户名、命令、目录位置等用户信息。（6）优先级：有些日志消息自身包含了某种优先级。（7）原始日志：作为归一化过程的一部分，应该保留原始日志数据。这用于确保归一化事件的有效性。另一个用例是日志留存，可以将保存原始日志作为事件归一化的一部分，或者将其保存在磁盘上，提供一种从归一化事件中“取回”原始日志消息的手段。通用字段（1）基于软件工具的转换方法数据库管理系统一般都提供
13、将外部文件数据转移到本身数据库表中的数据装入工具，利用这些软件工具可简单、快速地实现数据转换。（2）基于中间数据库的转换方法在两个具体的数据库之间转换时，依据关系定义，从源数据库中读出数据通过中间数据库写入目的数据库中。这种方法，所需转换模块少，且扩展性较强，但实现过程复杂，转换时需要大量的空间。（3）基于数据库组件的转换方法利用Delphi等数据库应用程序开发技术，通过源数据库与目的数据库组件来存取数据信息，实现直接转换。但若源数据库与目的数据库对应的数据类型不相同，必须先进行类型的转化，然后双方才能实施赋值。异构数据源间数据转换的方法（1）简单变换即数据类型转换，转换源数据库表中的某
14、些字段类型、长度以及NULL约束。（2）日期、时间格式的转换几乎所有数据转换的实现都必须将日期和时间变换成数据定义的规范格式。（3）由编码到名称的转换为使数据转换后的数据被大多数用户所理解，在数据转换之前，根据编码从代码表中查到对应的文字描述（名称），使用该文字描述代编码。（4）字段值合并将数据库中的多个字段值合并成一个字段的值加载到数据库，主要针对文本类型字段。（5）字段值拆分合并字段的逆过程。将元数据库中的一个字段值拆分成多个字段的值进行转换。数据转换的主要内容（1）模式归并：来自多个信息源的现实世界的实体如何才能“匹配”，这涉及实体识别问题。数据库有元数据(关于数据的数据)可以避
15、免模式集成中的错误。（2）冗余：如果一个属性能由另一个表导出，那么它是冗余的。属性或维命名的不一致可能导致数据集中的冗余，可以用相关分析来检测。（3）数据值冲突的检测与处理：由于各自表示、比例或编码不同，导致这些来自不同数据源的属性值也可能不同。将多个数据源中的数据集成起来，能够减少或避免结果数据集中数据的冗余和不一致性。数据归并考虑的问题日志归一化从原始日志池或者磁盘缓存文件中读取原始日志。（1）进行数据转换和数据归并。（2）解析原始日志的特殊字段，得到不同的原始日志来源，选择相应的的规则文件，对原始日志进行归一化的任务。归一化流程图归一化流程（1）技术：针对日志的归一化预处理，当前主要采
16、用可扩展标识语言（Extensive Markup Language，XML）规则对原始日志进行重新构造，产生新的XML格式日志，进一步转化为二进制的XML格式日志。（2）优点：提高审计效率减少日志的存储容量表达方式简单、易读日志归一化处理技术（1）概念：XML是一种新的Internet异构环境中的数据交换标准，与使用HTML标签来描述外观和数据不同。XML严格的定义可移植的结构化数据，其应用范围从最早的WEB信息描述，到现在成为开放环境下描述数据的开放标准，具有自描述性、可扩展性、层次性、异构系统间的信息互通性等特征。（2）XML三要素：DTD(XMLSehema)，XSL和Xlink。XM
17、LXML的基本格式如下：n（1）每个元素说明特定数据字段的内容。一个字段只能映射到表中的一列，并不是所有字段都需要映射到列。（2）数据文件中字段的长度可以是固定或可变的，也可以由字符结尾。（3）“字段值”可以表示为字符（使用单字节表示形式）、宽字符（使用Unicode双字节表示形式）、本机数据库格式或文件名。XML 基本格式（1）样式表（eXtensible Stylesheet Languge，XSL）：描述XML的元数据文件格式的语言。（2）样式表转换（eXtensible Stylesheet Languge Tramsformation，XSLT）：负责将XML的源代码转换为另一种格式
18、。（3）文档类型定义（Document Type Definition，DTD）：对XML文件进行格式上的定义和规范，用DTD来确定为正确的XML文档称为有效XML。（4）XML组织结构（XMLSchema）：也是一种用来规范XML文档的一种组织结构，与DTD具有异曲同工的作用，由于有其自身的优越性，有取代DTD的趋势。（5）Xlink：XML中的链接语言。（6）文档对象模型（Document object Model，DOM）：在应用程序中，基于DOM的XML分析器将一个XML文档转换成一个对象模型的集合（通常称DOM树）。（7）SAX（Simple APIs for XML）：XML简单应
19、用程序接口。XML的重要术语（1）符合XML语法限制（well-formed XML）：容易验证。（2）根据应用为其定义语义上的限制（validating XML）：需要另一个关联的文档来定义XML标记规范。XML的文档规范 XML DTD是近几年来XML技术领域所使用的最广泛的一种模式，但是由于XML DTD并不能完全满足XML自动化处理的要求。具体：（1）不能很好实现应用程序不同模块间的相互协调。（2）缺乏对文档结构、属性、数据类型等约束的足够描述。XML DTD（1）XML用户在使用XML Schema的时候，不需要为了理解XML Schema而重新学习，节省了时间。（2）由于XML S
20、chema本身也是一种XML，所以许多的XML编辑工具、API开发包、XML语法分析器可以直接的应用到XML Schema，而不需要修改。（3）作为XML的一个应用，XML Schema理所当然的继承了XML的自描述性和可扩展性，这使得XML Schema更具有可读性和灵活性。（4）由于格式完全与XML一样，XML Schema除了可以像XML一样处理外，也可以同它所描述的XML文档以同样的方式存储在一起，方便管理。（5）XML Schema与XML格式的一致性，使得以XML为数据交换的应用系统之间，也可以方便的进行模式交换。（6）XML有非常高的合法性要求，XML DTD对XML的描述，往往
21、也被用作验证XML合法性的一个基础，但是XML DTD本身的合法性却缺少较好的验证机制，必须独立处理。XML Schema则不同，它与XML有着同样的合法性验证机制。Schema文档优点对多源异构日志数据转换分为设计模块和实现模块两部分：设计模块实现对XML的设计；实现模块主要为数据转换具体的使用方法。多源异构日志数据转换流程图多源异构日志数据转换流程（1）数据转换设计模块数据转换设计模块包括设计XML文档格式、生成schema文件、利用XMLBean将schema中的元素生成java类三个部分。（2）数据转换实现模块数据转换实现模块将XMLBean转换出的java类库文件导入Java中
22、,在java环境下编程操作schema中的数据。多源异构日志数据转换模块说明（1）多源异构日志具有数据种类不一致、数据类型不统一的特点。（2）对多源异构日志进行数据归并,首先需要进行数据转换,将多源异构日志数据转换成数据种类一致、数据类型统一的XML文档。（3）在设计XML文档格式时,需要按照各个日志数据之间的逻辑关系分层次、按结构设计。设计XML文档格式（1）根据XML文档格式,利用XML Schema设计工具生成schema文件。（2）Schema文件是按照SAIM-Message中元素层次结构来组织的。对顶级元素SAIM-Message进行描述,包括该元素功能性描述、元素属性描述、子元素
23、概要描述。对SAIM-Message的子元素Alert、Heartbeat、Monitor、RespQuery按类似方法分别逐层展开描述。其中,Alert、Heartbeat元素基本与IDMEF中对应元素相同,只是根据多源日志模型的自身需要在某些地方略作改动。生成schema文件（1）XMLBean是一种可以将schema文件映射成Java类库的工具。XMLBean拥有可执行规范的能力。它提供在架构和Java类型间的自动映射。（2）XMLBean用面向对象的观点来对待和处理XML数据。同时又忠实于该XML数据对应的XML结构和schema。XMLBean转换schema（1）用XMLBean读
24、取XML文件：要读取某一个符合transfer.xsd的XML文件,可使用如下的语句：MyFriendsDocument fldoc：MyFriendsDocument.Factory.parse(xmlFile),其中,MyFriendsDocument是XMLBean自动生成的类,它代表这个XML文档。（2）用XMLBean生成XML文件用XMLBean生成的XML文档都是符合特定的schema的,可以使用下面的语句来生成某一个文档。首先要利用工厂类生成一个新的XML文档对象：MyFriendsDocument mfdoc：MyFriendsDocument.Factory.newInstance()；这个mfdoc对象代表了一个空白的XML文档，然后需要增加新的根元素,之后增加节点,设置节点的值和属性。数据转化实现模块（1）IP地址验证：日志解析过程发现IP地址很重要，由于IP地址的固有形式可以通过形如d+d.d+.d+.d+的正则表达式进行解析。（2）正则表达式：设计正则表达式时除了需要针对不同的消息设计不同的正则表达式进行解析之外，在设计正则表达式的时候还需要考虑正则表达式的性能因素。事件归一化的效果

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：日志审计与分析系统课件QAX-第3章-事件归一化.pptx
链接地址：https://www.163wenku.com/p-4289405.html

晟晟文业

内容提供者

实名认证

联系作者