数据挖掘在精选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘在精选课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 精选 课件
- 资源描述:
-
1、2019-12数据挖掘在地震预测中的应用数据挖掘在地震预测中的应用 1、关联规则、关联规则 2、时间序列的相似性、时间序列的相似性 3、神经网络及其集成、神经网络及其集成 4、支持向量机、支持向量机 5、粗糙集、粗糙集 6、主成分分析、主成分分析 7、因子分析、因子分析 8、数据挖掘在地震领域中的应用研究展望、数据挖掘在地震领域中的应用研究展望 寻找地震相关地区,进而预报相关地震是人们较为熟悉寻找地震相关地区,进而预报相关地震是人们较为熟悉的地震预报方法之一的地震预报方法之一。提出提出基于主从模式设计的并行关联规则挖掘算法基于主从模式设计的并行关联规则挖掘算法 FPM-LP(Fast Para
2、llel Mining of Local Pruning),以期实现高效发现地,以期实现高效发现地震相关地区的关联规则挖掘。震相关地区的关联规则挖掘。结果解释和说明:结果解释和说明:区域编号区域编号15711571:新疆乌孜别里山一带;:新疆乌孜别里山一带;区域编号区域编号10981098:云南丽江一带。:云南丽江一带。规则规则“157115711098”1098”的支持度为的支持度为40%40%,可信度为,可信度为60%60%,说明在,说明在19601960到到20192019的的400400多个月里,有大约多个月里,有大约40%40%的时间段,即的时间段,即160160多个月新疆和云南同时
3、发多个月新疆和云南同时发生了地震。而新疆、云南相伴发生地震的可能性为生了地震。而新疆、云南相伴发生地震的可能性为60%60%。1571 1098 support=40%,confidence=60%在三种不同数在三种不同数据组合实验中,据组合实验中,每次的挖掘结果每次的挖掘结果都发现云南与新都发现云南与新疆之间的地震关疆之间的地震关联和新疆各地区联和新疆各地区之间的地震关联。之间的地震关联。经归纳,云南与经归纳,云南与新疆之间的地震新疆之间的地震关联大致如图中关联大致如图中所示,地震关联所示,地震关联地区用方框标明。地区用方框标明。事实上,从事实上,从19701970年到年到20192019年
4、,两地区地震的年,两地区地震的M-TM-T图(震图(震级与时间关系图,其中级与时间关系图,其中M M为震级,为震级,T T为地震发生时间)如下:为地震发生时间)如下:每当新疆发生一次地震,在云南地区不超过每当新疆发生一次地震,在云南地区不超过1 1个月就会相伴个月就会相伴发生一次地震,从发生一次地震,从19701970年到年到20192019年都有这样的规律。年都有这样的规律。定义:设定义:设S和和R为两个不同的地震时间序列,则为两个不同的地震时间序列,则S和和R的相似性可用两序列中的相似性可用两序列中对应元素的相似性记分函数加权和来度量。对应元素的相似性记分函数加权和来度量。相似性度量模型相
5、似性度量模型定义为:定义为:2 2 基于序列相似性的地震相关性分析基于序列相似性的地震相关性分析),(*),(),(|,|ax1iRiSWiRiSRSScoreRSmi这里,这里,(1)S和和R分别是在指定时间范围内对分别是在指定时间范围内对S和和R补充了空元素以后形成的补充了空元素以后形成的稠密地震序列。如果将稠密地震序列。如果将S和和R中的空元素除去后则还原为中的空元素除去后则还原为S和和R。(2)|S|=|R|;(即;(即S、R两序列长度相等)两序列长度相等)(3)W(x,y)是权重函数,定义为是权重函数,定义为:W(x,y)=maxx(t),y(t);如果;如果x(t)M 或者或者 y
6、(t)M W(x,y)=minx(t),y(t);如果如果x(t)M 并且并且 y(t)M 实验实验1 1:固定时间差为:固定时间差为1 1年的粗粒度序列相似性分析年的粗粒度序列相似性分析选取选取1980年年1月月1日开始的日开始的5.0级级以上地震转换成时间序列,地以上地震转换成时间序列,地理位置按地理坐标进行理位置按地理坐标进行55分块,时间间隔为分块,时间间隔为1年年,=1,相关地震支持数阈值,相关地震支持数阈值Sup-min为为10。得到部分实验结果如。得到部分实验结果如下表所示:下表所示:thresholdM区域1经度范围纬度范围(度)区域2经度范围纬度范围(度)相关次数452100
7、-10525-30492120-12520-251841490-9530-35492120-12520-251641595-10030-35492120-12520-251537575-8035-40492120-12520-2514452100-10525-3041490-9530-351341385-9030-35492120-12520-2513488100-10520-25492120-12520-2513452100-10525-3037575-8035-4012例,下图为区域例,下图为区域452(位置在四川位置在四川-云南境内,其经度范围云南境内,其经度范围100 105,纬度范围
8、,纬度范围25 30)和区域和区域492(台湾省周围,其经度范围台湾省周围,其经度范围120 125,纬度范围为,纬度范围为20 25)相匹配的地区相关性分析相匹配的地区相关性分析M-T图。图。图中匹配的次数为图中匹配的次数为18次,即在四川次,即在四川云南境内的每一次云南境内的每一次5级以上级以上地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。地震几乎都可以在台湾省周围找到与之匹配的一次地震记录。四 川 云 南 台 湾 省 区域 A经度(度)纬度(度)次数比例区域 B经度(度)纬度(度)次数比例相关数1182112112224259260.1391126010010127-282440
9、.5291291201912112223246020.2041126010010127-282440.5041239077777839-404930.2251126010010127-282440.4551118897777840-416120.1671126010010127-282440.4181028942122-12340-415470.1831126010010127-282440.410100 实验实验2:较小时空窗口的细粒度序列相似性分析:较小时空窗口的细粒度序列相似性分析采用自采用自1972年年1月月1日开始的震级在日开始的震级在3.0以上的地震数据,用以上的地震数据,用WSM
10、3S算法进行较小时空窗口的细粒度序列相似性分析。实验算法进行较小时空窗口的细粒度序列相似性分析。实验中具体参数为:地理位置按地理坐标进行中具体参数为:地理位置按地理坐标进行1 1 分块,时间间分块,时间间隔为隔为10天天,=1,地震相关支持数阈值,地震相关支持数阈值Sup-min为为100,无,无固定时间差。固定时间差。时间间隔为时间间隔为1010天的地区相关性比较实验结果天的地区相关性比较实验结果 以表以表3-33-3中第一条记录为例进行分析,算法发现块中第一条记录为例进行分析,算法发现块1182111821和块和块1126011260的地震相的地震相关次数为关次数为129129次,说明它们
11、很可能是地震相关地区。次,说明它们很可能是地震相关地区。1182111821块处于我国台湾块处于我国台湾省台北市的下方,位于我国较大的一个地震频繁发生的地震带上,而省台北市的下方,位于我国较大的一个地震频繁发生的地震带上,而1126011260块处于云南和四川交界处,位于另一个地震带上。从块处于云南和四川交界处,位于另一个地震带上。从19801980年到年到19851985年这两年这两块区域中每月取一个块区域中每月取一个3 3级以上最大地震所得到的对应级以上最大地震所得到的对应M MT T图。图。台湾省台北市附近 云南和四川交界处 3.神经网络集成神经网络集成MEm/EPb值k值Mmax T2
12、.01:主震-余震型2:震群型3:孤立型地震序列类型判断指标DOEERBF 提出了一种基于正交设计和均匀设计的异构提出了一种基于正交设计和均匀设计的异构RBF神经网络集成方法神经网络集成方法DOEERBF。3.1 地震序列类型判断地震序列类型判断比较实验和结果 单个RBFNN外推精度为68.33%,内符精度77.12%固定集成结构和训练参数外推精度65%,内符精度69.64%均匀设计确定集成结构和参数外推精度78.33%,内符精度81.36%提出了一种自动确定神经网络集成自动确定神经网络集成结构和参数调整的构造选择性结构和参数调整的构造选择性RBF神神经网络集成算法经网络集成算法CSERBF
13、前兆及地震学异常的持续时间和种类多少与未来地震震级大小有一定关系 14项异常指标的持续时间+异常的数量未来地震震级CSERBF 3.2 地震震级预测地震震级预测震级预报3.3 基于特征加权的神经网络集成基于特征加权的神经网络集成 FWEART 地震序列类型判断中的应用 4.支持向量机支持向量机 SVM方法的基本思想:方法的基本思想:基于Mercer核展开定理,通过非线性映射,把样本空间映射到一个高维乃至于无穷维的特征空间,使得在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类分类和回归回归等问题。最优超平面的分类函数为最优超平面的分类函数为 )sgn()(1kiiiibyxfx
14、x 4.1 我国大陆强震预测的支持向量机方法我国大陆强震预测的支持向量机方法 全球强震主要分布在环太平洋地震带和欧亚全球强震主要分布在环太平洋地震带和欧亚地震带。许多学者研究表明,我国大陆强震与全地震带。许多学者研究表明,我国大陆强震与全球主要板块边界的强震活动之间具有一定的关系,球主要板块边界的强震活动之间具有一定的关系,但是这种关系具有较强的非线性。但是这种关系具有较强的非线性。将板板块边界的强震活动分为将板板块边界的强震活动分为16个区域个区域,取取这这16个区域在一年中的个区域在一年中的Ms7.0级地震次数级地震次数Ni为支为支持向量机输入项;输出项为次年我国大陆是否发持向量机输入项;
15、输出项为次年我国大陆是否发生生7级以上强震。如果发生,取值为级以上强震。如果发生,取值为1;否则为;否则为0。表1 使用支持向量机和BP神经网络对14个待检验样本的检验结果 预 测 年 份 1968 1969 1982 1983 1984 1985 1991 1992 1993 1994 2019 2019 2019 2019 中国大陆最大地震震级 5.7 7.4 6.6 6.8 6.2 7.4 6.5 6.9 6.6 7.3 8.1 5.9 6.8 6.7 检 验 结 果(SVM)0 0 0 0 0 1 0 0 0 1 1 0 1 0 检 验 结 果(BP)0 1 1 1 0 1 0 0 0
16、 1 1 0 1 0 通过支持向量机对上述通过支持向量机对上述65个样本的学习,据此对学习个样本的学习,据此对学习样本的内符检验全部正确;对样本的内符检验全部正确;对14个待检验样本的检验结个待检验样本的检验结果果(表表1)表明,有表明,有12个样本的检验结果正确,两个报错个样本的检验结果正确,两个报错(1969、2019年),报准率为年),报准率为 1214=0.86。使用使用BP神经网络模型进行外推检验,报准率为神经网络模型进行外推检验,报准率为 1114=0.79。支持向量机的预测检验结果要优于。支持向量机的预测检验结果要优于BP神神经网络。经网络。4.2.1 地震时间序列预测方法(地震
17、时间序列预测方法(1)依次取前13年中我国大陆每年的最大地震震级 Mi+1,Mi+2,Mi+13,预测第14年的我国大陆最大地震震级Mi+14,(i=1,2,m)。这样支持向量机的输入项为前13年中每年的最大地震 Mi+1,Mi+2,Mi+13;输出项为1个,即为第14年的我国大陆最大地震震级 Mi+14。4.2 中国大陆强震时间序列预测的支持向量机方法中国大陆强震时间序列预测的支持向量机方法表表1 预测方法()的预测样本检验结果预测方法()的预测样本检验结果 预预 测测 年年 份份 1991 1992 1993 1994 2019 2019 2019 2019 2019 2000 2019
18、2019 2019 20191991 1992 1993 1994 2019 2019 2019 2019 2019 2000 2019 2019 2019 2019中国大陆最大中国大陆最大地震震级地震震级 6.5 6.9 6.6 7.3 7.3 7.1 7.5 6.6 7.0 6.5 8.1 7.2 6.8 6.76.5 6.9 6.6 7.3 7.3 7.1 7.5 6.6 7.0 6.5 8.1 7.2 6.8 6.7 检检 验验 结结 果果 7.0 7.2 6.9 6.9 7.3 6.7 7.1 7.0 7.2 6.9 6.9 7.3 6.7 7.1 7.57.5 6.9 7.0 6.
19、9 7.0 6.9 6.9 7.0 6.8 7.0 7.0 6.8 7.0 预测与实际震预测与实际震级之差级之差-0.5-0.3-0.3 0.4 0.0 0.4 0.4-0.5-0.3-0.3 0.4 0.0 0.4 0.4-0.9-0.9 0.1-0.5 0.1-0.5 1.21.2 0.2 0.0-0.3 0.2 0.0-0.3 取预测与实际最大地震震级之差小于等于0.5为报准,则有12个样本的检验结果正确,2个报错。这样报准率为12/14=0.86。4.2.2 地震时间序列预测方法(地震时间序列预测方法(2)支持向量机的输入项为前13年中每年的最大地震震级 Mi+1,Mi+2,Mi+13
20、。还增加8个输入项,它们分别是全球地震活动第12和13年的年频次,第13年的年释放能量,第12和13年与前一年的释放能量的差分值,第13年的太阳年平均黑子数,第12和13年与前一年的太阳黑子数差分值。这样支持向量机的输入项共为21个;输出项为1个,仍为所预测的我国大陆第14年的最大地震震级。表表2 预测方法(预测方法(2)的预测样本检验结果)的预测样本检验结果 预预 测测 年年 份份 1991 1992 1993 1994 2019 2019 2019 2019 2019 2000 2019 2019 2019 20191991 1992 1993 1994 2019 2019 2019 20
21、19 2019 2000 2019 2019 2019 2019中国大陆最大中国大陆最大地震震级地震震级 6.5 6.9 6.6 7.3 7.3 7.1 7.5 6.6 7.0 6.5 8.1 7.2 6.8 6.76.5 6.9 6.6 7.3 7.3 7.1 7.5 6.6 7.0 6.5 8.1 7.2 6.8 6.7 检检 验验 结结 果果 7.0 7.0 6.9 7.0 7.0 7.0 7.0 7.0 6.9 7.0 7.0 7.0 6.9 7.0 7.0 7.0 7.0 7.0 6.9 7.0 7.07.0 7.0 7.0 6.9 7.0 7.0 6.9 预测与实际震预测与实际震级
22、之差级之差-0.5-0.2-0.3 0.1 0.3 0.1 0.5-0.4 0.1-0.5 -0.5-0.2-0.3 0.1 0.3 0.1 0.5-0.4 0.1-0.5 1.11.1 0.2-0.2-0.2 0.2-0.2-0.2 取预测与实际最大地震震级之差小于等于0.5为报准,则有13个样本的检验结果正确,1个报错。这样报准率为13/14=0.93,支持向量机与神经网络预测方法预测检验结果比较方法1(SVM)方法1(神经网络)方法2(SVM)方法2(神经网络)报准率 12/14=0.869/11=0.8213/14=0.9310/11=0.91平均误差 0.400.450.340.43
展开阅读全文