大数据探索性分析版课件第5章.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据探索性分析版课件第5章.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 探索 分析 课件
- 资源描述:
-
1、 第第1 1节节 空间数据基本知识空间数据基本知识 第第2 2节节 空间统计介绍空间统计介绍 第第3 3节节 探索性空间数据分析探索性空间数据分析 第第4 4节节 空间自相关分析空间自相关分析 第第5 5节节 时空扫描统计分析时空扫描统计分析 第第6 6节节 空间回归分析空间回归分析 第第7 7节节 空间面板分析空间面板分析 第第8 8节节 贝叶斯时空模型贝叶斯时空模型 第第9 9节节 空间估算空间估算 第第1010节节 空间分析的综合应用空间分析的综合应用 发病率数据发病率数据 第第1111节空间分析的综合应用节空间分析的综合应用企业创新数据企业创新数据 有空间坐标或相对位置的数据通称空间数
2、据。有空间坐标或相对位置的数据通称空间数据。如发病率在县区、乡村的分布;气象台监测的气温、如发病率在县区、乡村的分布;气象台监测的气温、降水;大气污染物分布;土壤重金属在区域各抽样降水;大气污染物分布;土壤重金属在区域各抽样点的数值;全国各省、直辖市、自治区的点的数值;全国各省、直辖市、自治区的GDPGDP,区,区域社会经济调查(抽查或普查数据)等。域社会经济调查(抽查或普查数据)等。用来描述来自于现实的目标,将数据统一化,从而用来描述来自于现实的目标,将数据统一化,从而来表明空间实体的形状大小以及位置和分布特征。来表明空间实体的形状大小以及位置和分布特征。定位是指在已知的坐标系里空间目标都具
3、有唯一的定位是指在已知的坐标系里空间目标都具有唯一的空间位置;空间位置;定性是指有关空间目标的自然属性,它伴随着目标定性是指有关空间目标的自然属性,它伴随着目标的地理位置;的地理位置;时间是指空间目标是随时间的变化而变化;时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。数据结构来表示人们赖以生存的自然世界的数据。是数字地球的基础信息,数字地球功能的绝大部分是数字地球的基础信息,数字地球功能的绝大部分将以空间数据
4、为基础。将以空间数据为基础。矢量数据结构就是通过记录坐标的方式,将抽象的矢量数据结构就是通过记录坐标的方式,将抽象的点、线、面等地理实体精确地表达为计算机可以识点、线、面等地理实体精确地表达为计算机可以识别、存储和处理的格式。别、存储和处理的格式。栅栏数据结构是指将地理实体表面划分为均匀分布、栅栏数据结构是指将地理实体表面划分为均匀分布、大小相等、紧密相邻的网格阵列,每个网格作为一大小相等、紧密相邻的网格阵列,每个网格作为一个像元或栅格,由行、列号确定其位置,即用二维个像元或栅格,由行、列号确定其位置,即用二维坐标中的(坐标中的(x,yx,y)来表示,并包含一个代码,表示该)来表示,并包含一个
5、代码,表示该像元的属性类型。像元的属性类型。点数据(点数据(piontpiont data data)连续数据(连续数据(continuous datacontinuous data)面数据面数据(areal data)(areal data),也称格数据(也称格数据(lattice datalattice data)线数据线数据 空间数据的分析还必须研究空间数据的特殊性质。空间数据的分析还必须研究空间数据的特殊性质。研究表明,空间数据的特殊性质是多方面的,包括研究表明,空间数据的特殊性质是多方面的,包括空间异质性、空间自相关、可塑性面积单元问题、空间异质性、空间自相关、可塑性面积单元问题、不
6、确定性等,这些性质直接影响了空间数据分析和不确定性等,这些性质直接影响了空间数据分析和建模的方法。建模的方法。由于空间数据的聚集性及空间相互作用的存在,一由于空间数据的聚集性及空间相互作用的存在,一个空间位置上的样本数据会依赖于其他位置上的观个空间位置上的样本数据会依赖于其他位置上的观测值。测值。空间依赖程度是通过空间自相关测度的,可以认为空间依赖程度是通过空间自相关测度的,可以认为空间自相关就是空间依赖性概念的数学表达,空间空间自相关就是空间依赖性概念的数学表达,空间自相关的指标多样,可分为两种类型:全局测度和自相关的指标多样,可分为两种类型:全局测度和局部测度。局部测度。全局方法对研究区域
7、的整体给出一个参数或指数,全局方法对研究区域的整体给出一个参数或指数,而局部方法提供数据观测点等量的参数或指标。而局部方法提供数据观测点等量的参数或指标。异质性源于各地方的独特性质,表示空间数据的变异质性源于各地方的独特性质,表示空间数据的变化化缺缺少平稳性少平稳性。空间异质性与空间上行为关系缺乏稳定性有关,这空间异质性与空间上行为关系缺乏稳定性有关,这一特征也成为空间非平稳性,意味着功能形式和参一特征也成为空间非平稳性,意味着功能形式和参数所研究领域的不同个地方是不一样的,但在区域数所研究领域的不同个地方是不一样的,但在区域局部,变化是一致的。局部,变化是一致的。空间非平稳性是空间数据这一特
8、征的数学表达,对空间非平稳性是空间数据这一特征的数学表达,对大部分空间数据而言,假设空间过程非平稳和各向大部分空间数据而言,假设空间过程非平稳和各向异质性能更为真实地反映地理问题的实质。异质性能更为真实地反映地理问题的实质。数据分析的结果随着面积单元的定义不同而发生变数据分析的结果随着面积单元的定义不同而发生变化,就是所谓的可塑性面积单元问题。化,就是所谓的可塑性面积单元问题。面积单元对于分析结果的影响来源于两类效应:面积单元对于分析结果的影响来源于两类效应:其一是尺度效应,即当空间单元经过聚合而变化改其一是尺度效应,即当空间单元经过聚合而变化改变其尺度大小时,空间数据的统计分析结果也会相变其
9、尺度大小时,空间数据的统计分析结果也会相应发生变化,由于从精细空间尺度聚集到大的空间应发生变化,由于从精细空间尺度聚集到大的空间单元的组合途径通常很多不同聚集到大的空间单元单元的组合途径通常很多不同聚集到大的空间单元的组合途径通常很多,不同聚集方案得到的结果是的组合途径通常很多,不同聚集方案得到的结果是不同的。不同的。其二是划区效应,即在同一粒度或聚合水平上,由其二是划区效应,即在同一粒度或聚合水平上,由于聚合方式的不用或划分方案的不同导致的分析结于聚合方式的不用或划分方案的不同导致的分析结果的变化。果的变化。概而言之,可塑性面积单元问题(概而言之,可塑性面积单元问题(MAUPMAUP)是由区
10、)是由区域的数量、规模、形状对空间数据分析的结果所产域的数量、规模、形状对空间数据分析的结果所产生的不确定性影响。生的不确定性影响。空间数据的不确定性关心的主要问题是空间数据的空间数据的不确定性关心的主要问题是空间数据的质量因为空间数据的质量对于建模分析、表示、结质量因为空间数据的质量对于建模分析、表示、结果以及决策的正确性等都有十分重要的影响。果以及决策的正确性等都有十分重要的影响。空间数据质量的特殊性在于它包括两个方面:属性空间数据质量的特殊性在于它包括两个方面:属性数据的质量和空间对象的质量,而两者之间又是相数据的质量和空间对象的质量,而两者之间又是相互依赖的。互依赖的。由于数据还具有时
11、间坐标,记录的时间误差也隐含由于数据还具有时间坐标,记录的时间误差也隐含在数据集中,因此空间数据包括空间和时间坐标上在数据集中,因此空间数据包括空间和时间坐标上的属性值,三者之间相互影响。的属性值,三者之间相互影响。至少有至少有4 4种类型种类型:空间不确定性空间不确定性 对象定义的不确定性对象定义的不确定性 关系不确定性关系不确定性 分区问题分区问题 当对象不具有离散、确定的范围时,就会产生空间当对象不具有离散、确定的范围时,就会产生空间的不确定性的不确定性 这种不确定性是因为对象定义的主观性而产生的,这种不确定性是因为对象定义的主观性而产生的,可能存在不清晰的边界(例如湿地在哪里精确终可能
12、存在不清晰的边界(例如湿地在哪里精确终止),其影响超出了它们的边界,或者空间对象仅止),其影响超出了它们的边界,或者空间对象仅仅是统计上的实体。仅是统计上的实体。当不能清晰或严格定义对象时,就会导致模糊性的当不能清晰或严格定义对象时,就会导致模糊性的产生,如在治安管理中,管区犯罪发生率为多少时产生,如在治安管理中,管区犯罪发生率为多少时才能定义为高犯罪地域,这些都依赖于一些人为的才能定义为高犯罪地域,这些都依赖于一些人为的规定。规定。地理要素之间通常具有各种关系,当地理要素之间通常具有各种关系,当y y被用作被用作x x的替的替代或指示器时,因为代或指示器时,因为x x不可用,此时就会产生模糊
13、不可用,此时就会产生模糊性,可分为直接指示器或间接指示器两种情况。性,可分为直接指示器或间接指示器两种情况。直接指示器表明现象之间的联系是直接的和相当清直接指示器表明现象之间的联系是直接的和相当清晰的,例如土壤的养分水平(晰的,例如土壤的养分水平(y y)是作物产量()是作物产量(x x)的直接指示器。的直接指示器。非直接的指示器趋向于更加模糊和不透明,例如湿非直接的指示器趋向于更加模糊和不透明,例如湿地(地(y y)是动物多样性()是动物多样性(x x)的非直接指示器。)的非直接指示器。区域是为了识别地理现象,分析研究或管理的需要区域是为了识别地理现象,分析研究或管理的需要而进行的定义,所以
14、产生了分区问题,例如气候类而进行的定义,所以产生了分区问题,例如气候类型区的划分问题,专家对于哪些特征的组合定义一型区的划分问题,专家对于哪些特征的组合定义一个类型区域的观点并不一致,这些特征如何加权生个类型区域的观点并不一致,这些特征如何加权生成一个复核指标,以及确定区域最小规模的阈值是成一个复核指标,以及确定区域最小规模的阈值是多少,都会影响类型的划分。多少,都会影响类型的划分。在在GISGIS中涉及空间数据的获取,表示和分析等系列中涉及空间数据的获取,表示和分析等系列过程,而在这个过程的各个阶段都会产生不确定性。过程,而在这个过程的各个阶段都会产生不确定性。从来源上看可归结为测量的不确定
15、性,空间数据表从来源上看可归结为测量的不确定性,空间数据表示的不确定性和空间数据分析的不确定性,其中分示的不确定性和空间数据分析的不确定性,其中分析的不确定性主要是和空间尺度依赖有关的析的不确定性主要是和空间尺度依赖有关的MAUPMAUP问题。问题。地理现象刻度的不确定性主要是空间数据和属性数地理现象刻度的不确定性主要是空间数据和属性数据获取过程中产生的误差,包括对象的物理测量误据获取过程中产生的误差,包括对象的物理测量误差、社会经济属性记录误差,数字化数据的误差,差、社会经济属性记录误差,数字化数据的误差,以及不同来源数据集整合时的误差。以及不同来源数据集整合时的误差。地理现象的表示的不确定
16、性表示与测量之间密切相地理现象的表示的不确定性表示与测量之间密切相关,表示绝非仅仅是分析的输入,而且还是分析的关,表示绝非仅仅是分析的输入,而且还是分析的结果,主要包括栅栏数据表示的不确定性和矢量数结果,主要包括栅栏数据表示的不确定性和矢量数据表示的不确定性。据表示的不确定性。应用空间统计分析思想最早可以追溯到应用空间统计分析思想最早可以追溯到150150多年前多年前一次重大的公共卫生事件,一次重大的公共卫生事件,18541854年英国伦敦霍乱大年英国伦敦霍乱大流行。流行。在这次事件中,在这次事件中,John SnowJohn Snow博士利用基于地图的空博士利用基于地图的空间分析原理,将死亡
17、病例标注在伦敦地图上,同时间分析原理,将死亡病例标注在伦敦地图上,同时还将水井的信息也标注在地图上,通过相关分析,还将水井的信息也标注在地图上,通过相关分析,最后将污染源锁定在城中心的一个水井的抽水机上。最后将污染源锁定在城中心的一个水井的抽水机上。在他的建议下市政府将该抽水机停用,此后霍乱大在他的建议下市政府将该抽水机停用,此后霍乱大幅度下降,并得到有效的控制。幅度下降,并得到有效的控制。John SnowJohn Snow利用空间分析思想控制疫情这件事具有利用空间分析思想控制疫情这件事具有重要的里程碑意义,它被看成了空间统计分析和流重要的里程碑意义,它被看成了空间统计分析和流行病学两个学科
18、的共同起源;行病学两个学科的共同起源;但是此后相当长的一段时间内由于缺乏刻画数据的但是此后相当长的一段时间内由于缺乏刻画数据的空间相关性和异质性的方法,人们在分析空间属性空间相关性和异质性的方法,人们在分析空间属性的数据时,往往把所涉及的数据自身空间效应作为的数据时,往往把所涉及的数据自身空间效应作为噪声或者误差来处理,这种缺乏对空间自相关和异噪声或者误差来处理,这种缺乏对空间自相关和异质性的刻画,限制了以地图为基础的空间属性数据质性的刻画,限制了以地图为基础的空间属性数据在公共卫生领域中应用的深入研究。在公共卫生领域中应用的深入研究。直到直到19501950年年MoranMoran首次提出空
19、间自相关测度来研究首次提出空间自相关测度来研究二维或更高维空间随机分布的现象,二维或更高维空间随机分布的现象,19511951年南非学年南非学者者KrigeKrige提出了空间统计学萌芽思想,后经法国数学提出了空间统计学萌芽思想,后经法国数学家家MatheronMatheron完善,于完善,于19631963年和年和19671967年提出了地统计年提出了地统计学和克里金技术。学和克里金技术。19731973年年,Cliff,Cliff和和OrdOrd发表了空间自相关(发表了空间自相关(Spatial Spatial AutocorrelationAutocorrelation)的分析方法,)的
20、分析方法,19811981年出版了年出版了Spatial Spatial ProcessProcess:Model and ApplicationModel and Application专著,形成了空间统专著,形成了空间统计理论体系,以及计理论体系,以及GetisGGetisG和和LisaLisa提出的空间异质性提出的空间异质性的局部统计使空间统计理论日趋成熟。的局部统计使空间统计理论日趋成熟。近年来随着空间分析技术以及空间分析软件(如近年来随着空间分析技术以及空间分析软件(如GISGIS、GeodaGeoda、SaTScanSaTScan、WinbugsWinbugs等)的迅速发展,等)的
21、迅速发展,与疾病分布有关的空间统计分析也得以较快发展。与疾病分布有关的空间统计分析也得以较快发展。空间统计具有明显的多学科交叉特征,其显著特点空间统计具有明显的多学科交叉特征,其显著特点是思想多源、方法多样、技术复杂,并随着相关学是思想多源、方法多样、技术复杂,并随着相关学科如计算机软硬件技术的发展而发展。科如计算机软硬件技术的发展而发展。空间统计分析是以地理实体为研究对象,空间统计空间统计分析是以地理实体为研究对象,空间统计模型为工具,以地理实体空间相关性和空间变异性模型为工具,以地理实体空间相关性和空间变异性为出发点,来分析地理对象空间格局、空间关系、为出发点,来分析地理对象空间格局、空间
22、关系、时空变化规律,进而揭示其成因的一门新科学。时空变化规律,进而揭示其成因的一门新科学。首先从研究变量类型来看,经典统计学研究的是纯首先从研究变量类型来看,经典统计学研究的是纯随机变量,该随机变量的取值遵循某种概率分布变随机变量,该随机变量的取值遵循某种概率分布变化化 而空间统计学研究的是区域化变量,该区域化变量而空间统计学研究的是区域化变量,该区域化变量根据其在一个区域内的空间位置不同而取不同的值,根据其在一个区域内的空间位置不同而取不同的值,即随机变量是与位置有关的随机函数。即随机变量是与位置有关的随机函数。因此,空间统计学研究的变量具有随机性和结构性因此,空间统计学研究的变量具有随机性
23、和结构性特点。特点。在经典统计学中,待分析的变量一般应具有独立性。在经典统计学中,待分析的变量一般应具有独立性。而空间统计学的区域化变量是在不同空间位置上的而空间统计学的区域化变量是在不同空间位置上的抽样,因而邻近的样本之间通常不独立,存在某种抽样,因而邻近的样本之间通常不独立,存在某种程度的空间相关性。程度的空间相关性。经典统计学以频率分布图为基础,研究样本的各种经典统计学以频率分布图为基础,研究样本的各种数字特征(如均值、方差),并对总体进行推断。数字特征(如均值、方差),并对总体进行推断。而空间统计学主要考虑变量空间分布理论和估算方而空间统计学主要考虑变量空间分布理论和估算方法。法。经典
24、统计学与经典统计学与GISGIS结合不紧密,而空间统计学能与结合不紧密,而空间统计学能与GISGIS有效结合,很容易实现空间可视化。有效结合,很容易实现空间可视化。此外,试验次数不同,经典统计学所研究的变量理此外,试验次数不同,经典统计学所研究的变量理论上可以无限次重复或进行大量重复观测试验。而论上可以无限次重复或进行大量重复观测试验。而空间统计学所研究的区域化变量一旦在某一空间位空间统计学所研究的区域化变量一旦在某一空间位置上取得样品后,就不可能再在同一位置取得该样置上取得样品后,就不可能再在同一位置取得该样品,即区域化变量取值只有一次。品,即区域化变量取值只有一次。当然空间统计并不是抛弃所
25、有的经典统计学理论,当然空间统计并不是抛弃所有的经典统计学理论,而是对这些理论加以完善,以便更适用于空间数据而是对这些理论加以完善,以便更适用于空间数据统计分析。统计分析。目前空间统计学技术主要基于目前空间统计学技术主要基于3S3S技术,即技术,即GISGIS(Geographic Information SystemGeographic Information System)、)、RSRS(Remote Remote Sensing Sensing)、)、GPS(Global Positioning System)GPS(Global Positioning System)。3S3S技术就好
展开阅读全文