数据挖掘原理、-算法及应用第6章-时间序列数据挖掘-PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘原理、-算法及应用第6章-时间序列数据挖掘-PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 原理 算法 应用 时间 序列 PPT 课件
- 资源描述:
-
1、第第6章时间序列数据挖掘章时间序列数据挖掘第第6章时间序列数据挖掘章时间序列数据挖掘6.1概述6.2时间序列数据建模6.3时间序列预测6.4时间序列数据库相似搜索6.5从时间序列数据中发现感兴趣模式 第第6章时间序列数据挖掘章时间序列数据挖掘6.1概述概述 时间序列是一种重要的高维数据类型,它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列,在经济管理以及工程邻域具有广泛应用。例如证券市场中股票的交易价格与交易量、外汇市场上的汇率、期货和黄金的交易价格以及各种类型的指数,这些数据都形成一个持续不断的时间序列。利用时间序列数据挖掘,可以获得数据中蕴含的与时间有关的有用
2、信息,实现知识的提取。第第6章时间序列数据挖掘章时间序列数据挖掘时间序列数据本身具备有高维性、复杂性、动态性、高噪声特性以及容易达到大规模的特性,因此时间序列数据挖掘是数据挖挖中最具有挑战性的十大研究方向之一。目前的重点研究内容包括时间序列的模式表示、时间序列的相似性度量和查询、时间序列的聚类、时间序列的异常检测、时间序列的分类、时间序列的预测等。第第6章时间序列数据挖掘章时间序列数据挖掘6.2时间序列数据建模时间序列数据建模 对于一个时间序列yt,t=1,2,n,通常所建立的回归模型都假定yt在整个时间范围内具有相同的变化模式,这在许多情况下是适宜的。但在实际中也确实存在着很多这样的时间序列
3、,它在整个时间序列里明显地具有两种或两种以上的变化模式,对这样的时间序列如果仍在整个时间序列里建立回归模式(即假定它们在整个时间范围里服从同一变化模式),就明显的不太适合,效果也就不会太好。对这样的时间序列要采取非常规的建模方法,反映出它在不同时间范围里的不同变化。第第6章时间序列数据挖掘章时间序列数据挖掘在实际中,具有不同变化规律的时间序列建立模型的方法有很多,较常用的有虚拟变量法,段拟合法、样条函数法和门限模型法四种,下面我们就来介绍和讨论这四种方法。为简单起见,我们假定时间序列yt(t=1,2,n)在整个时间范围里具有两种不同的变化规律(具有多种变化规律时处理方法类似),分界点或转折点是
4、k,即当t=1,2,k时,yt按某一模式变化,而当t=k+1,k+2,n时,yt按另一模式变化。这里,分界点或转折点k常可通过观察分析y的散点图或曲线图来确定。第第6章时间序列数据挖掘章时间序列数据挖掘1.虚拟变量法虚拟变量法虚拟变量法就是设置一个在转折点前后具有不同特征的虚拟变量Dt,在对yt建立回归建模时引进Dt,从而通过Dt来反映yt的不同变化规律。虚拟变量Dt最常用的形式是:(6.1)ktktDt当当,1,0第第6章时间序列数据挖掘章时间序列数据挖掘这样以t和Dt为自变量和解释变量,yt为因变量和解释变量,即可建立起回归模型。通常是建立起如下最常用的线性回归模型、指数回归模型或自回归模
5、型:ttbDatcy(6.2)tbDattcey(6.3)tttbDaycy1(6.4)第第6章时间序列数据挖掘章时间序列数据挖掘2.分段拟合法分段拟合法既然yt在前后两个时间段里具有不同的变化规律,那么一个很自然的做法就是在这两个时间段里对yt分别建立回归模型,并且一般来说,这两个在不同时间段里具有不同变化规律的数据所建立的回归模型是不同的,因此可以反映出yt的转折性变化。这种方法就是分段拟合法。第第6章时间序列数据挖掘章时间序列数据挖掘分段拟合时,两个时间段的拟合模式或回归函数类型可以是一样的,也可以是不一样的,因此分段拟合结果为kttfkttfyt当当),(),(21(6.5)这里,f1
6、和f2一般可取为时间t的线性函数、多项式函数或指数函数,有时也可取为yt的滞后值yt-1、yt-2等的线性函数或这几种函数的混合函数。第第6章时间序列数据挖掘章时间序列数据挖掘3.样条函数法样条函数法上述两种方法对yt建立的回归模型在t=k处一般是不连续的,例如对模型(6.2)式,在t=k处的左极限(即当t从小于k处或k的左边趋于k时的极限)为 ty akcytktlim(6.6)而 在t=k处的右极限(即当t从大于k处或k的右边趋于k时的极限)为:ty bakcytktlim(6.7)第第6章时间序列数据挖掘章时间序列数据挖掘由于b0,因此(6.6)式和(6.7)式不相等,即在t=k处不连续
7、。这种不连续性一般是和实际相背的,对于社会经济现象中的数据更是如此。因此上述两种方法的拟合效果一般来说也不会很令人满意。而样条函数法正是对这一缺陷的一种补救方法,它是在多项式分段拟合(对其他函数形式也可如此处理,只是稍复杂而且也不常用)的基础上加上分段多项式在转折点t=k处的连续性和可微性的条件而形成的。下面我们给出实际中常用的几种样条函数拟合模型的形式,它们的具体推导就不在此详述了。一次、二次、三次样条函数拟合模型分别为ty 第第6章时间序列数据挖掘章时间序列数据挖掘ktktbatcktatcyt当当),(,ktktdbtatcktbtatcyt当当,)(,222ktktfdtbtatckt
8、dtbtatcyt当当,)(,33232(6.8)(6.9)(6.10)第第6章时间序列数据挖掘章时间序列数据挖掘如果引入(6.1)式中的虚拟变量Dt,则上述三个模型可以简写为)(ktbDatcytt22)(ktdDbtatcytt332)(ktfDdtbtatcytt(6.11)(6.12)(6.13)由此简写形式可以很容易地根据实际数据求出上述模型的系数,因而也就能很容易地求出所需要的样条函数拟合模型。第第6章时间序列数据挖掘章时间序列数据挖掘6.3时间序列预测时间序列预测 6.3.1局域线性化方法局域线性化方法局部线性化方法是时间序列建模以及预测的有效方法,其基本思想是采用相空间重构的办
9、法,将时间序列当前时刻点的领域线性化,然后由所构造的线性模型做出预测。局部线性化方法的原理如下所述。第第6章时间序列数据挖掘章时间序列数据挖掘设观测到时间序列xt,t=1,2,N,其中是采样间隔数。根据下式从余震发生间隔时间序列重构相空间:x(i)=(xi,xi+,xi+(m-1)T,i=1,2,N(6.14)其中,m为相空间维数,为间隔时间。TktttX),.,()()2()1(xxxTTktTtTtxxx),.,()()2()1(yTmttttxxx),.,()1()(x(6.15)(6.16)(6.17)第第6章时间序列数据挖掘章时间序列数据挖掘其中,XRkm,yRk1,且应使km。将按
10、列零均值化,将也零均值化,那么在目标点的邻域内建立如下线性模型:y=Xw+e(6.18)其中,e是零均值白噪声,XRk1;w是参数向量,。wRk1第第6章时间序列数据挖掘章时间序列数据挖掘w的最小二乘估计为 w y1TTX)XX(w(6.19)根据 并由下式求出由在t时刻对t+T时刻的预测值w t Txw x T)t(Ttx(6.20)当X不是列满秩或者X的条件数过大时,矩阵XTX接近奇异,将导致(6.19)式得出的参数估计不可信。另外如何选择嵌入维数m也是令人困扰的问题。第第6章时间序列数据挖掘章时间序列数据挖掘1.SVD最小二乘法最小二乘法引理1矩阵 的SVD分解可描述为:存在n1阶和n2
11、阶正交矩阵U和V,使 A=UDVT (6.21)式中,;,12r0是A的全部非零奇异值。21nnrRAOOOD),(r21diag第第6章时间序列数据挖掘章时间序列数据挖掘因此,可以得到如下SVD最小二乘法:考虑(5)式的线性回归模型,如果数据矩阵X是列满秩的,即r=n2,设X的条件数c=1/r不大于一个给定的正数M,且X的SVD分解为X=UDVT,则w的SVD最小二乘估计为 (6.22)gwV 第第6章时间序列数据挖掘章时间序列数据挖掘式中,g=(g1,g2,gr)T,且(6.23)其中,ui,1ir是U的第i个列向量;i,1ir是X的第i个奇异值。证明证明:根据引理,得X的SVD分解为X=
12、UDVT,因为是正交矩阵,得Dg=UTy,g=VTw注意到X列满秩,且V是正交矩阵,D具有引理给出的形式,可得结论。rigiTii1,/yu第第6章时间序列数据挖掘章时间序列数据挖掘2.自适应确定嵌入维数自适应确定嵌入维数既然当X不是列满秩或者X的条件数过大时,导致线性最小二乘估计法的参数不可信,因此需要改良X,以使其列满秩条件数不大于一个给定的正数M,从而保证参数估计的稳健性。设想在当前时刻点,如果足够大的嵌入维数是合理的,那么数据矩阵X列满秩且其条件数不大于M;反之,X很可能是病态的。基于这个分析,我们可以在不损失估计精度的前提下达到此目的。做法是:先选一个初始嵌入维数m0,然后在当前时刻
13、点,如果X是病态的,就做降维处理,从而找到一个最大的使X列满秩且其条件数不大于M的嵌入维数m。第第6章时间序列数据挖掘章时间序列数据挖掘算法流程如下:(1)初选嵌入维数m0,选定邻近点数目k,并给定条件数阈值M0;(2)在当前时刻t,构造X,并对X做SVD分解;(3)while(1/rM)(4)r=r-1;r=r-1(5)end while(6)m=r 第第6章时间序列数据挖掘章时间序列数据挖掘3.自适应局部线性化预测方法自适应局部线性化预测方法一般的局部线性化预测方法是取固定的嵌入维数,按照相关的嵌入定理(Whitney定理和Taken定理),宜选择较大的嵌入维数。但是鉴于样本数目有限,在相
14、空间上的某些数据点处,可能找不到k个彼此足够接近的数据点,这是导致预测误差增加的主要原因。而如果是在较低维的相空间中,就比较容易找到与当前数据点足够接近的k个数据点,因此可以提高预测精度。故在当前时刻,自适应地选择合适的嵌入维数,可望获得比固定嵌入维数更好的预测结果。确定了合适的嵌入维数m后,就可以重构相空间,然后计算在当前时刻点的预测值。自适应局部线性化预测方法的步骤如下:第第6章时间序列数据挖掘章时间序列数据挖掘(1)根据Taken定理初选嵌入维数m0;选定临近点数目k,并给定条件数阈值M0;(2)在当前时刻,调用自适应的算法确定合适的嵌入维数m;(3)如果m=m0,则根据式(6.20)和
15、式(6.22)计算出 ,做出预测;(4)否则,根据m重构相空间,并用式(6.18)和式(6.20)做出预测;(5)重复步骤(2)和步骤(3)直到结束。上述算法中的条件阈值M一般根据实验结果合理选择,根据经验,对许多实际问题,一般取M=100较合适。w 第第6章时间序列数据挖掘章时间序列数据挖掘6.3.3神经网络方法神经网络方法神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联。在学习阶段,通过调整神经网络的权,使其能够预测输入样本的正确类标标号来学习。由于单元之间的连接,神经网络学习又称连接者学习。神经网络需要很长的训练时间,因而对于有足够长训练时间的应用更合适。它需要大量的参数
16、,这些参数通常主要靠经验确定,如网络拓扑或“结构”。神经网络的优点包括其对噪声数据的高承受能力,以及它对未经训练的数据分类模式的能力。第第6章时间序列数据挖掘章时间序列数据挖掘对时间序列进行预测时,给定的预测原点为k,预测步长为t,即给定Y(k)的值和若干k时刻之前的时间点,要求预测y(k+t)的值。如果在k时刻预测y(k+t),需要先建立预测原点k和预测k+t之间的定量关系。由Takens定理可知,在重构的相空间中存在一个映射F:RmRm,使得:Y(k+t)=F(Y(k)式中,y(k+t)为当前状态Y(k)的t步演化状态。因此只要能够逼近真实函数F(g),就能够对y(k+t)的值作出预测。第
17、第6章时间序列数据挖掘章时间序列数据挖掘BP网络通过将网络输出误差反馈回传来对网络参数进行修正,从而实现网络的映射能力。已经证明,具有一个隐藏层的3层BP网络可以有效地逼近任意连续函数,这个3层网络包括输入层、隐藏层和输出层。考虑到实际应用当中对于网络预测泛化性能的要求,网络设计应坚持尽可能减小网络复杂性的原则。第第6章时间序列数据挖掘章时间序列数据挖掘对于一个给定的时间序列,其具体的预测步骤如下:(1)为了便于预测,首先对获得的时间序列进行归一化处理。归一化方法为(6.24)(2)选择合适的m和重构系统的状态相空间,依据预测步长要求构造训练数据。输入数据为:Y(k)=y(k),y(k-),y
18、(k-(m-1),k=1,2,N;输出数据为:y(k+t),k=1,2,N。)(min)(max)()()(kykykymeankykykkk第第6章时间序列数据挖掘章时间序列数据挖掘(3)设计BP网络结构。网络的输入节点数目为重构相空间的维数m,根据具体情况选择合适的隐节点数目,因为每次只是预测出一个数据点,输出节点为单节点。用于实际预测的神经网络结构如图6-1所示。图6-1神经网络结构图第第6章时间序列数据挖掘章时间序列数据挖掘(4)多次输入训练数据Yk和对应的理想输出数据y(k+t),对BP网络进行训练。训练结束以后就可以利用该网络进行预测了。第第6章时间序列数据挖掘章时间序列数据挖掘6
19、.4时间序列数据库相似搜索时间序列数据库相似搜索 6.4.1问题描述问题描述对象之间相似性的定义和度量研究在统计理论、机器学习以及数据挖掘等方面都具有重大的意义。基于大量甚至海量时间序列数据库的数据挖掘技术,其研究目的是从大量时间序列数据中发现未知的模式和知识,因而主要研究时间序列数据之间的相互关系,即以某种度量来表征两个时间序列之间的相似性,并以此为基础实现多个时间序列数据中的相似性搜索、聚类、分类和模式发现。因此,相似性问题成为时间序列数据挖掘中的基础问题。第第6章时间序列数据挖掘章时间序列数据挖掘时间序列数据的相似性搜索问题最早由IBM公司的Agrawal等人于1993年提出,该问题被描
20、述为“给定某个时间序列,要求从一个大型的时间序列数据库中找出与之最相似的序列”。第第6章时间序列数据挖掘章时间序列数据挖掘6.4.2时间序列相似性定义时间序列相似性定义时间序列相似搜索(又称为相似查询)的目的是在时间序列数据库中发现与给定序列模式相似的序列或查找库中相似的序列。时间序列相似查询可分为完全匹配和子序列匹配两种情况,前者对应查询序列和被查询序列长度相等的情况,而后者是在长时间序列中查询与查询序列相似的子序列。完全匹配查询和子序列匹配查询进一步又分为三种情况:第第6章时间序列数据挖掘章时间序列数据挖掘(1)范围查询(Range Query)。给定查询序列q和时间序列数据集X,在X中搜
21、索全部满足d(q,x)的序列x。这里d(q,x)是q与x之间的距离,阈值是大于0的常数。(2)全部配对查询(All 2 Pairs Query),也称为空间联合(Spatial Joint)。在时间序列集合X中找出所有相互之间距离小于阈值的所有序列对。将范围查询的条件略加修改,可以得到k最近邻查询。(3)k最近邻查询(kNearest Neighbor Query)。给定查询序列q和时间序列数据集X,在X中搜索k个与q距离最近的序列。第第6章时间序列数据挖掘章时间序列数据挖掘6.4.3高级数据表示与索引高级数据表示与索引1.高级数据表示高级数据表示TSDM面对的时间序列数据通常是海量数据,直接
22、用原始数据进行基于内容的查询以及时间序列聚类与分类分析等操作效率低下,甚至是不可行的。因此就需要研究合适的时间序列高级数据表示形式,在更高级的数据表示层次上进行数据挖掘处理。从数学的观点看,所谓时间序列高级数据表示,就是将原始时间序列映射到某个特征空间中,并用它在这个特征空间中的映像来描述原始的时间序列。这样处理有两个好处:实现了数据压缩,从而将显著减少后续处理的计算代价;在更抽象的层次上描述时间序列,有利于从中发现规律。第第6章时间序列数据挖掘章时间序列数据挖掘目前已有的时间序列高级数据表示形式大致可以分为如下几类。1)离散傅立叶变换(Discrete Fourier Transform,D
23、FT)离散傅立叶变换是最早被运用于时间序列的相似性降维方法。在对时间序列数据的相似分析中,大多数人采用欧氏几何距离作为相似性计算的依据,因此所选用的方法多采用保持欧氏距离的正交变换法。离散傅立叶变换是一种十分常用的独立于数据的变换。一方面由于在时间域中两个信号的距离与频率域中的欧氏距离相等;第第6章时间序列数据挖掘章时间序列数据挖掘 另一方面因为DFT开头的几个系数表现十分突出,可以集中信号的极大部分的能量,因此可以通过保留DFT前几个系数来实现数据降维,成功地计算出实际距离的下界。自从DFT被Agrawal最早应用于时间序列数据相似性搜索后,又有其他一些论文相继提出了DFT的许多扩展和改进方
24、法,但核心思想并没有什么变化。DFT算法的时间复杂度(n lgn),相比于点对点的比较的时间复杂度O(mn),甚至是O(nm2),已经有了很大的提高。离散傅立叶变换的基本算法如下。第第6章时间序列数据挖掘章时间序列数据挖掘对于连续信号x(t),它的Fourier变换定义为式中,虚数,f为频率,X(f)为频域函数。设时间序列x(k)(k=0,1,L,N-1)是由连续信号x(t)采样得到的,采样间隔为t,则有 2()()diftXfx t et(6.25)1i102)()(NknkNienxkX同时信号可以通过逆变换恢复为 nkNiNkekXnx210)()(6.26)(6.27)第第6章时间序列
25、数据挖掘章时间序列数据挖掘DFT所保留的系数越多,恢复特征也就越多;DFT在数据截取的过程中,舍弃了信号的高频成分,平滑了信号的局部极大值和极小值,因而造成了信息的遗漏。欧氏几何距离在经过DFT变换之后依然得到保持,所以可以用欧氏距离作为时间序列的相似性度量,即通过计算两序列差的平方和的平方根作为这两个时间序列的距离函数。如果计算的结果小于一个由用户所定义的阈值,则可以认为这两个时间序列是相似的。欧氏距离是一种较优越的估计距离的方法,尤其是在信号受到高斯噪声干扰的时候,由于DFT变换具有保持欧氏几何距离、计算简便且能够把信号大部分能量集中到很少的几个系数当中等优点,所以用它来表示时间序列数据可
展开阅读全文