书签 分享 收藏 举报 版权申诉 / 261
上传文档赚钱

类型大数据探索性分析版课件第5章.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4105187
  • 上传时间:2022-11-11
  • 格式:PPTX
  • 页数:261
  • 大小:9.36MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据探索性分析版课件第5章.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 探索 分析 课件
    资源描述:

    1、 第第1 1节节 空间数据基本知识空间数据基本知识 第第2 2节节 空间统计介绍空间统计介绍 第第3 3节节 探索性空间数据分析探索性空间数据分析 第第4 4节节 空间自相关分析空间自相关分析 第第5 5节节 时空扫描统计分析时空扫描统计分析 第第6 6节节 空间回归分析空间回归分析 第第7 7节节 空间面板分析空间面板分析 第第8 8节节 贝叶斯时空模型贝叶斯时空模型 第第9 9节节 空间估算空间估算 第第1010节节 空间分析的综合应用空间分析的综合应用 发病率数据发病率数据 第第1111节空间分析的综合应用节空间分析的综合应用企业创新数据企业创新数据 有空间坐标或相对位置的数据通称空间数

    2、据。有空间坐标或相对位置的数据通称空间数据。如发病率在县区、乡村的分布;气象台监测的气温、如发病率在县区、乡村的分布;气象台监测的气温、降水;大气污染物分布;土壤重金属在区域各抽样降水;大气污染物分布;土壤重金属在区域各抽样点的数值;全国各省、直辖市、自治区的点的数值;全国各省、直辖市、自治区的GDPGDP,区,区域社会经济调查(抽查或普查数据)等。域社会经济调查(抽查或普查数据)等。用来描述来自于现实的目标,将数据统一化,从而用来描述来自于现实的目标,将数据统一化,从而来表明空间实体的形状大小以及位置和分布特征。来表明空间实体的形状大小以及位置和分布特征。定位是指在已知的坐标系里空间目标都具

    3、有唯一的定位是指在已知的坐标系里空间目标都具有唯一的空间位置;空间位置;定性是指有关空间目标的自然属性,它伴随着目标定性是指有关空间目标的自然属性,它伴随着目标的地理位置;的地理位置;时间是指空间目标是随时间的变化而变化;时间是指空间目标是随时间的变化而变化;空间关系通常一般用拓扑关系表示。空间关系通常一般用拓扑关系表示。空间数据是一种用点、线、面以及实体等基本空间空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。数据结构来表示人们赖以生存的自然世界的数据。是数字地球的基础信息,数字地球功能的绝大部分是数字地球的基础信息,数字地球功能的绝大部分将以空间数据

    4、为基础。将以空间数据为基础。矢量数据结构就是通过记录坐标的方式,将抽象的矢量数据结构就是通过记录坐标的方式,将抽象的点、线、面等地理实体精确地表达为计算机可以识点、线、面等地理实体精确地表达为计算机可以识别、存储和处理的格式。别、存储和处理的格式。栅栏数据结构是指将地理实体表面划分为均匀分布、栅栏数据结构是指将地理实体表面划分为均匀分布、大小相等、紧密相邻的网格阵列,每个网格作为一大小相等、紧密相邻的网格阵列,每个网格作为一个像元或栅格,由行、列号确定其位置,即用二维个像元或栅格,由行、列号确定其位置,即用二维坐标中的(坐标中的(x,yx,y)来表示,并包含一个代码,表示该)来表示,并包含一个

    5、代码,表示该像元的属性类型。像元的属性类型。点数据(点数据(piontpiont data data)连续数据(连续数据(continuous datacontinuous data)面数据面数据(areal data)(areal data),也称格数据(也称格数据(lattice datalattice data)线数据线数据 空间数据的分析还必须研究空间数据的特殊性质。空间数据的分析还必须研究空间数据的特殊性质。研究表明,空间数据的特殊性质是多方面的,包括研究表明,空间数据的特殊性质是多方面的,包括空间异质性、空间自相关、可塑性面积单元问题、空间异质性、空间自相关、可塑性面积单元问题、不

    6、确定性等,这些性质直接影响了空间数据分析和不确定性等,这些性质直接影响了空间数据分析和建模的方法。建模的方法。由于空间数据的聚集性及空间相互作用的存在,一由于空间数据的聚集性及空间相互作用的存在,一个空间位置上的样本数据会依赖于其他位置上的观个空间位置上的样本数据会依赖于其他位置上的观测值。测值。空间依赖程度是通过空间自相关测度的,可以认为空间依赖程度是通过空间自相关测度的,可以认为空间自相关就是空间依赖性概念的数学表达,空间空间自相关就是空间依赖性概念的数学表达,空间自相关的指标多样,可分为两种类型:全局测度和自相关的指标多样,可分为两种类型:全局测度和局部测度。局部测度。全局方法对研究区域

    7、的整体给出一个参数或指数,全局方法对研究区域的整体给出一个参数或指数,而局部方法提供数据观测点等量的参数或指标。而局部方法提供数据观测点等量的参数或指标。异质性源于各地方的独特性质,表示空间数据的变异质性源于各地方的独特性质,表示空间数据的变化化缺缺少平稳性少平稳性。空间异质性与空间上行为关系缺乏稳定性有关,这空间异质性与空间上行为关系缺乏稳定性有关,这一特征也成为空间非平稳性,意味着功能形式和参一特征也成为空间非平稳性,意味着功能形式和参数所研究领域的不同个地方是不一样的,但在区域数所研究领域的不同个地方是不一样的,但在区域局部,变化是一致的。局部,变化是一致的。空间非平稳性是空间数据这一特

    8、征的数学表达,对空间非平稳性是空间数据这一特征的数学表达,对大部分空间数据而言,假设空间过程非平稳和各向大部分空间数据而言,假设空间过程非平稳和各向异质性能更为真实地反映地理问题的实质。异质性能更为真实地反映地理问题的实质。数据分析的结果随着面积单元的定义不同而发生变数据分析的结果随着面积单元的定义不同而发生变化,就是所谓的可塑性面积单元问题。化,就是所谓的可塑性面积单元问题。面积单元对于分析结果的影响来源于两类效应:面积单元对于分析结果的影响来源于两类效应:其一是尺度效应,即当空间单元经过聚合而变化改其一是尺度效应,即当空间单元经过聚合而变化改变其尺度大小时,空间数据的统计分析结果也会相变其

    9、尺度大小时,空间数据的统计分析结果也会相应发生变化,由于从精细空间尺度聚集到大的空间应发生变化,由于从精细空间尺度聚集到大的空间单元的组合途径通常很多不同聚集到大的空间单元单元的组合途径通常很多不同聚集到大的空间单元的组合途径通常很多,不同聚集方案得到的结果是的组合途径通常很多,不同聚集方案得到的结果是不同的。不同的。其二是划区效应,即在同一粒度或聚合水平上,由其二是划区效应,即在同一粒度或聚合水平上,由于聚合方式的不用或划分方案的不同导致的分析结于聚合方式的不用或划分方案的不同导致的分析结果的变化。果的变化。概而言之,可塑性面积单元问题(概而言之,可塑性面积单元问题(MAUPMAUP)是由区

    10、)是由区域的数量、规模、形状对空间数据分析的结果所产域的数量、规模、形状对空间数据分析的结果所产生的不确定性影响。生的不确定性影响。空间数据的不确定性关心的主要问题是空间数据的空间数据的不确定性关心的主要问题是空间数据的质量因为空间数据的质量对于建模分析、表示、结质量因为空间数据的质量对于建模分析、表示、结果以及决策的正确性等都有十分重要的影响。果以及决策的正确性等都有十分重要的影响。空间数据质量的特殊性在于它包括两个方面:属性空间数据质量的特殊性在于它包括两个方面:属性数据的质量和空间对象的质量,而两者之间又是相数据的质量和空间对象的质量,而两者之间又是相互依赖的。互依赖的。由于数据还具有时

    11、间坐标,记录的时间误差也隐含由于数据还具有时间坐标,记录的时间误差也隐含在数据集中,因此空间数据包括空间和时间坐标上在数据集中,因此空间数据包括空间和时间坐标上的属性值,三者之间相互影响。的属性值,三者之间相互影响。至少有至少有4 4种类型种类型:空间不确定性空间不确定性 对象定义的不确定性对象定义的不确定性 关系不确定性关系不确定性 分区问题分区问题 当对象不具有离散、确定的范围时,就会产生空间当对象不具有离散、确定的范围时,就会产生空间的不确定性的不确定性 这种不确定性是因为对象定义的主观性而产生的,这种不确定性是因为对象定义的主观性而产生的,可能存在不清晰的边界(例如湿地在哪里精确终可能

    12、存在不清晰的边界(例如湿地在哪里精确终止),其影响超出了它们的边界,或者空间对象仅止),其影响超出了它们的边界,或者空间对象仅仅是统计上的实体。仅是统计上的实体。当不能清晰或严格定义对象时,就会导致模糊性的当不能清晰或严格定义对象时,就会导致模糊性的产生,如在治安管理中,管区犯罪发生率为多少时产生,如在治安管理中,管区犯罪发生率为多少时才能定义为高犯罪地域,这些都依赖于一些人为的才能定义为高犯罪地域,这些都依赖于一些人为的规定。规定。地理要素之间通常具有各种关系,当地理要素之间通常具有各种关系,当y y被用作被用作x x的替的替代或指示器时,因为代或指示器时,因为x x不可用,此时就会产生模糊

    13、不可用,此时就会产生模糊性,可分为直接指示器或间接指示器两种情况。性,可分为直接指示器或间接指示器两种情况。直接指示器表明现象之间的联系是直接的和相当清直接指示器表明现象之间的联系是直接的和相当清晰的,例如土壤的养分水平(晰的,例如土壤的养分水平(y y)是作物产量()是作物产量(x x)的直接指示器。的直接指示器。非直接的指示器趋向于更加模糊和不透明,例如湿非直接的指示器趋向于更加模糊和不透明,例如湿地(地(y y)是动物多样性()是动物多样性(x x)的非直接指示器。)的非直接指示器。区域是为了识别地理现象,分析研究或管理的需要区域是为了识别地理现象,分析研究或管理的需要而进行的定义,所以

    14、产生了分区问题,例如气候类而进行的定义,所以产生了分区问题,例如气候类型区的划分问题,专家对于哪些特征的组合定义一型区的划分问题,专家对于哪些特征的组合定义一个类型区域的观点并不一致,这些特征如何加权生个类型区域的观点并不一致,这些特征如何加权生成一个复核指标,以及确定区域最小规模的阈值是成一个复核指标,以及确定区域最小规模的阈值是多少,都会影响类型的划分。多少,都会影响类型的划分。在在GISGIS中涉及空间数据的获取,表示和分析等系列中涉及空间数据的获取,表示和分析等系列过程,而在这个过程的各个阶段都会产生不确定性。过程,而在这个过程的各个阶段都会产生不确定性。从来源上看可归结为测量的不确定

    15、性,空间数据表从来源上看可归结为测量的不确定性,空间数据表示的不确定性和空间数据分析的不确定性,其中分示的不确定性和空间数据分析的不确定性,其中分析的不确定性主要是和空间尺度依赖有关的析的不确定性主要是和空间尺度依赖有关的MAUPMAUP问题。问题。地理现象刻度的不确定性主要是空间数据和属性数地理现象刻度的不确定性主要是空间数据和属性数据获取过程中产生的误差,包括对象的物理测量误据获取过程中产生的误差,包括对象的物理测量误差、社会经济属性记录误差,数字化数据的误差,差、社会经济属性记录误差,数字化数据的误差,以及不同来源数据集整合时的误差。以及不同来源数据集整合时的误差。地理现象的表示的不确定

    16、性表示与测量之间密切相地理现象的表示的不确定性表示与测量之间密切相关,表示绝非仅仅是分析的输入,而且还是分析的关,表示绝非仅仅是分析的输入,而且还是分析的结果,主要包括栅栏数据表示的不确定性和矢量数结果,主要包括栅栏数据表示的不确定性和矢量数据表示的不确定性。据表示的不确定性。应用空间统计分析思想最早可以追溯到应用空间统计分析思想最早可以追溯到150150多年前多年前一次重大的公共卫生事件,一次重大的公共卫生事件,18541854年英国伦敦霍乱大年英国伦敦霍乱大流行。流行。在这次事件中,在这次事件中,John SnowJohn Snow博士利用基于地图的空博士利用基于地图的空间分析原理,将死亡

    17、病例标注在伦敦地图上,同时间分析原理,将死亡病例标注在伦敦地图上,同时还将水井的信息也标注在地图上,通过相关分析,还将水井的信息也标注在地图上,通过相关分析,最后将污染源锁定在城中心的一个水井的抽水机上。最后将污染源锁定在城中心的一个水井的抽水机上。在他的建议下市政府将该抽水机停用,此后霍乱大在他的建议下市政府将该抽水机停用,此后霍乱大幅度下降,并得到有效的控制。幅度下降,并得到有效的控制。John SnowJohn Snow利用空间分析思想控制疫情这件事具有利用空间分析思想控制疫情这件事具有重要的里程碑意义,它被看成了空间统计分析和流重要的里程碑意义,它被看成了空间统计分析和流行病学两个学科

    18、的共同起源;行病学两个学科的共同起源;但是此后相当长的一段时间内由于缺乏刻画数据的但是此后相当长的一段时间内由于缺乏刻画数据的空间相关性和异质性的方法,人们在分析空间属性空间相关性和异质性的方法,人们在分析空间属性的数据时,往往把所涉及的数据自身空间效应作为的数据时,往往把所涉及的数据自身空间效应作为噪声或者误差来处理,这种缺乏对空间自相关和异噪声或者误差来处理,这种缺乏对空间自相关和异质性的刻画,限制了以地图为基础的空间属性数据质性的刻画,限制了以地图为基础的空间属性数据在公共卫生领域中应用的深入研究。在公共卫生领域中应用的深入研究。直到直到19501950年年MoranMoran首次提出空

    19、间自相关测度来研究首次提出空间自相关测度来研究二维或更高维空间随机分布的现象,二维或更高维空间随机分布的现象,19511951年南非学年南非学者者KrigeKrige提出了空间统计学萌芽思想,后经法国数学提出了空间统计学萌芽思想,后经法国数学家家MatheronMatheron完善,于完善,于19631963年和年和19671967年提出了地统计年提出了地统计学和克里金技术。学和克里金技术。19731973年年,Cliff,Cliff和和OrdOrd发表了空间自相关(发表了空间自相关(Spatial Spatial AutocorrelationAutocorrelation)的分析方法,)的

    20、分析方法,19811981年出版了年出版了Spatial Spatial ProcessProcess:Model and ApplicationModel and Application专著,形成了空间统专著,形成了空间统计理论体系,以及计理论体系,以及GetisGGetisG和和LisaLisa提出的空间异质性提出的空间异质性的局部统计使空间统计理论日趋成熟。的局部统计使空间统计理论日趋成熟。近年来随着空间分析技术以及空间分析软件(如近年来随着空间分析技术以及空间分析软件(如GISGIS、GeodaGeoda、SaTScanSaTScan、WinbugsWinbugs等)的迅速发展,等)的

    21、迅速发展,与疾病分布有关的空间统计分析也得以较快发展。与疾病分布有关的空间统计分析也得以较快发展。空间统计具有明显的多学科交叉特征,其显著特点空间统计具有明显的多学科交叉特征,其显著特点是思想多源、方法多样、技术复杂,并随着相关学是思想多源、方法多样、技术复杂,并随着相关学科如计算机软硬件技术的发展而发展。科如计算机软硬件技术的发展而发展。空间统计分析是以地理实体为研究对象,空间统计空间统计分析是以地理实体为研究对象,空间统计模型为工具,以地理实体空间相关性和空间变异性模型为工具,以地理实体空间相关性和空间变异性为出发点,来分析地理对象空间格局、空间关系、为出发点,来分析地理对象空间格局、空间

    22、关系、时空变化规律,进而揭示其成因的一门新科学。时空变化规律,进而揭示其成因的一门新科学。首先从研究变量类型来看,经典统计学研究的是纯首先从研究变量类型来看,经典统计学研究的是纯随机变量,该随机变量的取值遵循某种概率分布变随机变量,该随机变量的取值遵循某种概率分布变化化 而空间统计学研究的是区域化变量,该区域化变量而空间统计学研究的是区域化变量,该区域化变量根据其在一个区域内的空间位置不同而取不同的值,根据其在一个区域内的空间位置不同而取不同的值,即随机变量是与位置有关的随机函数。即随机变量是与位置有关的随机函数。因此,空间统计学研究的变量具有随机性和结构性因此,空间统计学研究的变量具有随机性

    23、和结构性特点。特点。在经典统计学中,待分析的变量一般应具有独立性。在经典统计学中,待分析的变量一般应具有独立性。而空间统计学的区域化变量是在不同空间位置上的而空间统计学的区域化变量是在不同空间位置上的抽样,因而邻近的样本之间通常不独立,存在某种抽样,因而邻近的样本之间通常不独立,存在某种程度的空间相关性。程度的空间相关性。经典统计学以频率分布图为基础,研究样本的各种经典统计学以频率分布图为基础,研究样本的各种数字特征(如均值、方差),并对总体进行推断。数字特征(如均值、方差),并对总体进行推断。而空间统计学主要考虑变量空间分布理论和估算方而空间统计学主要考虑变量空间分布理论和估算方法。法。经典

    24、统计学与经典统计学与GISGIS结合不紧密,而空间统计学能与结合不紧密,而空间统计学能与GISGIS有效结合,很容易实现空间可视化。有效结合,很容易实现空间可视化。此外,试验次数不同,经典统计学所研究的变量理此外,试验次数不同,经典统计学所研究的变量理论上可以无限次重复或进行大量重复观测试验。而论上可以无限次重复或进行大量重复观测试验。而空间统计学所研究的区域化变量一旦在某一空间位空间统计学所研究的区域化变量一旦在某一空间位置上取得样品后,就不可能再在同一位置取得该样置上取得样品后,就不可能再在同一位置取得该样品,即区域化变量取值只有一次。品,即区域化变量取值只有一次。当然空间统计并不是抛弃所

    25、有的经典统计学理论,当然空间统计并不是抛弃所有的经典统计学理论,而是对这些理论加以完善,以便更适用于空间数据而是对这些理论加以完善,以便更适用于空间数据统计分析。统计分析。目前空间统计学技术主要基于目前空间统计学技术主要基于3S3S技术,即技术,即GISGIS(Geographic Information SystemGeographic Information System)、)、RSRS(Remote Remote Sensing Sensing)、)、GPS(Global Positioning System)GPS(Global Positioning System)。3S3S技术就好

    26、比人的两只眼睛和一个大脑,一只眼睛技术就好比人的两只眼睛和一个大脑,一只眼睛GPSGPS进行定位,另外一只眼睛进行定位,另外一只眼睛RSRS采集周边环境信息,采集周边环境信息,GISGIS对采集过来的数据进行统一存储、加工与处理。对采集过来的数据进行统一存储、加工与处理。GISGIS具有功能完善空间分析模块,可以进行疾病的具有功能完善空间分析模块,可以进行疾病的探索性和证实性分析,进行疾病或传播媒介与潜在探索性和证实性分析,进行疾病或传播媒介与潜在地理、气候、社会、经济等因素之间的关联分析。地理、气候、社会、经济等因素之间的关联分析。例如通过环境因素与疾病的叠加分析、空间相关分例如通过环境因素

    27、与疾病的叠加分析、空间相关分析和空间回归分析、疾病的遥感模型、传染病模型析和空间回归分析、疾病的遥感模型、传染病模型等来探索和描述疾病的传播规律和寻求病因,评估等来探索和描述疾病的传播规律和寻求病因,评估潜在的环境和特定时空交互行为对疾病发生的影响潜在的环境和特定时空交互行为对疾病发生的影响 这一方面对决策人员制定科学的防治策略、确定防这一方面对决策人员制定科学的防治策略、确定防范重点、分配有限医疗资源等具有重要的指导意义范重点、分配有限医疗资源等具有重要的指导意义 另一方面,也有助于卫生领域的研究人员设计合理另一方面,也有助于卫生领域的研究人员设计合理的科学实验进行传染病的病毒学和分子流行病

    28、学研的科学实验进行传染病的病毒学和分子流行病学研究,加速彻底战胜传染病的进程。究,加速彻底战胜传染病的进程。在疾病预防研究中,疾病空间样点资料是有限的,在疾病预防研究中,疾病空间样点资料是有限的,如何利用有限的空间样点资料去掌握整个区域的全如何利用有限的空间样点资料去掌握整个区域的全局流行特征,突破人为行政区划的限制,从一种整局流行特征,突破人为行政区划的限制,从一种整体宏观全局角度来把握疾病和健康的空间分布格局,体宏观全局角度来把握疾病和健康的空间分布格局,从而为公共卫生资源的配置和防控策略的制定提供从而为公共卫生资源的配置和防控策略的制定提供依据。依据。空间插值数据是根据相邻样点的相似原理

    29、来生成表空间插值数据是根据相邻样点的相似原理来生成表面,即用已知的样点的值生成表面来预测整个研究面,即用已知的样点的值生成表面来预测整个研究区域内每个位置的值,并评估预测表面的误差和变区域内每个位置的值,并评估预测表面的误差和变异性。异性。克里金插值又称之为地统计学,以空间自相关为前克里金插值又称之为地统计学,以空间自相关为前提,区域化变量理论为基础,以变异函数为主要工提,区域化变量理论为基础,以变异函数为主要工具的一门新学科。具的一门新学科。其实质是利用区域化变量的原始数据和变异函数的其实质是利用区域化变量的原始数据和变异函数的结构特点,对未采样点的区域化变量的取值进行线结构特点,对未采样点

    30、的区域化变量的取值进行线性无偏、最优估计。性无偏、最优估计。半变异函数主要块金值、变程、基台值、偏基台值半变异函数主要块金值、变程、基台值、偏基台值几部分组成几部分组成。块金基台比块金基台比C0C0C0+C1C0+C1,其大小反映空间自相关,其大小反映空间自相关部分引起疾病空间异质性程度的大小。部分引起疾病空间异质性程度的大小。如果块金基台比较大,说明随机部分引起的疾病空如果块金基台比较大,说明随机部分引起的疾病空间异质性起主要作用,空间自相关弱。间异质性起主要作用,空间自相关弱。反之,块金基台比较小,说明空间自相关部分引起反之,块金基台比较小,说明空间自相关部分引起的疾病空间异质程度起主要作

    31、用,空间自相关性强。的疾病空间异质程度起主要作用,空间自相关性强。描述污染物空间分布是风险评估的一个重要组成部描述污染物空间分布是风险评估的一个重要组成部分分 CattleCattle等人采用指示克里金技术基于已知抽样点污等人采用指示克里金技术基于已知抽样点污染物浓度去估计非抽样点污染物浓度。染物浓度去估计非抽样点污染物浓度。AsmarianAsmarian等人采用泊松克里金插值对等人采用泊松克里金插值对2003-20072003-2007年年336336个县食道癌发病数据进行分析,得出了个县食道癌发病数据进行分析,得出了ArdebilArdebil、MazandaranMazandaran

    32、、KordestanKordestan三省与其他省相比有较高三省与其他省相比有较高的风险。的风险。AdhikarAdhikar等人采用指标和概率克里格方法描述印度德等人采用指标和概率克里格方法描述印度德里市里市NajafgarhNajafgarh街区地下水铜、铁、锰污染情况。街区地下水铜、铁、锰污染情况。疾病的聚集性分析目的在于研究潜在危险因素的时疾病的聚集性分析目的在于研究潜在危险因素的时空聚集性,从整体上检验疾病的空间分布是随机还空聚集性,从整体上检验疾病的空间分布是随机还是聚集?是聚集?如果是聚集分布,进一步回答:聚集在什么地方?如果是聚集分布,进一步回答:聚集在什么地方?疾病聚集程度高

    33、低及与周边地区关系如何?疾病聚集程度高低及与周边地区关系如何?聚集在多大的空间尺度才有效?聚集在多大的空间尺度才有效?这些与地点相关的聚集因素可以是未知的感染因子、这些与地点相关的聚集因素可以是未知的感染因子、地方污染物等。地方污染物等。XiaoXiao等人采用局部等人采用局部GetisGGetisG热点探测发现了中国大陆热点探测发现了中国大陆2008-20112008-2011年在县区水平上手足口病空间聚集性及随年在县区水平上手足口病空间聚集性及随时间的变化趋势。时间的变化趋势。于石成等利用时空扫描技术对全国重症手足口病例于石成等利用时空扫描技术对全国重症手足口病例进行了时空聚集性分析,发现

    34、重症病例聚集区域,进行了时空聚集性分析,发现重症病例聚集区域,为进一步研究重症病例成因奠定了基础。为进一步研究重症病例成因奠定了基础。WangWang等采用等采用SatscanSatscan时空扫描工具探测北京时空扫描工具探测北京2008-2008-20122012年手足口病时空聚集模式。年手足口病时空聚集模式。同时在其他传染病分析中也得到广泛应用,如细菌同时在其他传染病分析中也得到广泛应用,如细菌性痢疾、丙型肝炎、出血热病性痢疾、丙型肝炎、出血热病 、HFRS HFRS、H7N9H7N9等等疾病分析。疾病分析。同样在癌症研究中,研究人员使用空间聚集分析确同样在癌症研究中,研究人员使用空间聚集

    35、分析确定地理区域的高危人群,然后筛选人群疾病可以改定地理区域的高危人群,然后筛选人群疾病可以改善癌症控制。善癌症控制。通过时空模型分析不同时期疾病或媒介的空间动态通过时空模型分析不同时期疾病或媒介的空间动态变化,了解疾病随时间的变化规律,对疾病未来的变化,了解疾病随时间的变化规律,对疾病未来的发展趋势做出分析、预测和评估,从而在疾病的预发展趋势做出分析、预测和评估,从而在疾病的预警系统中发挥作用。警系统中发挥作用。在这些时空模型中,在这些时空模型中,KulldorffKulldorff于于19981998年提出了时空年提出了时空扫描统计量,以及在扫描统计量,以及在20012001年提出的前瞻性

    36、时空重排年提出的前瞻性时空重排扫描统计量,在传染病暴发预警中具有较好的应用扫描统计量,在传染病暴发预警中具有较好的应用前景。前景。前瞻性时空重排扫描统计量以动态变化的扫描窗口前瞻性时空重排扫描统计量以动态变化的扫描窗口对不同的时间和区域进行扫描,可以有效地对未知对不同的时间和区域进行扫描,可以有效地对未知的时空聚集性进行探索性分析,达到早期预警的目的时空聚集性进行探索性分析,达到早期预警的目的。的。该方法最大的优势在于,由于采用了重排算法,该该方法最大的优势在于,由于采用了重排算法,该模型在建模过程中不需要使用人口数据。模型在建模过程中不需要使用人口数据。而基于而基于PoissonPoisso

    37、n分布的时空扫描统计量,在计算过程分布的时空扫描统计量,在计算过程中需要各区域的人口数据,但确切的人口数据常常中需要各区域的人口数据,但确切的人口数据常常很难获得。很难获得。MostashariMostashari等利用死禽数据进行空间统计扫描分析等利用死禽数据进行空间统计扫描分析对西尼罗病毒暴发进行早期预警。对西尼罗病毒暴发进行早期预警。MugglinMugglin等采用贝叶斯时空模型通过对苏格兰流行性等采用贝叶斯时空模型通过对苏格兰流行性感冒病例资料进行分析和预测,可以让医院在应诊感冒病例资料进行分析和预测,可以让医院在应诊能力准备上做得更好。能力准备上做得更好。疾病制图是空间统计学的基本

    38、功能疾病制图是空间统计学的基本功能 其目的是将疾病的危险的空间变异或时空变异在地其目的是将疾病的危险的空间变异或时空变异在地图上呈现出来图上呈现出来,为进一步病因学研究或其他研究提供为进一步病因学研究或其他研究提供线索。线索。地理环境相关性研究是研究与环境有关的地理变量地理环境相关性研究是研究与环境有关的地理变量(如空气、水体、土壤等)或生活方式等因素与健(如空气、水体、土壤等)或生活方式等因素与健康之间的相互关系,能够环境危险因素的研究提供康之间的相互关系,能够环境危险因素的研究提供必要的信息。必要的信息。自然与社会环境、营养、基因、行为、病媒生物等自然与社会环境、营养、基因、行为、病媒生物

    39、等是许多疾病的致病因子,通常具有空间分布。是许多疾病的致病因子,通常具有空间分布。疾病分布如同自然景观的概念一样,不同疾病的分疾病分布如同自然景观的概念一样,不同疾病的分布结构来自于不同的病因分布结构,这种结构的变布结构来自于不同的病因分布结构,这种结构的变化同样影响着疾病的发生、传播和消长的变化。化同样影响着疾病的发生、传播和消长的变化。通过分析这些要素和疾病空间分布之间的关系,可通过分析这些要素和疾病空间分布之间的关系,可以探测是否存在威胁健康的环境危险因素,这些危以探测是否存在威胁健康的环境危险因素,这些危险因素是否存在交互作用险因素是否存在交互作用“地理探测器地理探测器”(GeoDet

    40、ectorGeoDetector)方法基于空间方差分)方法基于空间方差分析来分析来探测环境风险因子。析来分析来探测环境风险因子。主要包括四个方面的功能:风险探测器可以指示风主要包括四个方面的功能:风险探测器可以指示风险区域;因子探测器可以定量评价不同的环境因子险区域;因子探测器可以定量评价不同的环境因子的风险程度;生态探测器可以分析不同的环境因子的风险程度;生态探测器可以分析不同的环境因子的影响是否有显著差异;交互探测器可以分析环境的影响是否有显著差异;交互探测器可以分析环境因子是独立作用还是多种因子交互作用的结果。因子是独立作用还是多种因子交互作用的结果。自从地理探测器问世以来,在公共卫生领

    41、域得到了自从地理探测器问世以来,在公共卫生领域得到了广泛的应用。广泛的应用。WangWang等利用了地理探测器发现了引起山西省和顺等利用了地理探测器发现了引起山西省和顺县神经管畸形的环境致病因子以及致病因子之间的县神经管畸形的环境致病因子以及致病因子之间的相互关系。相互关系。WuWu等(等(2004)2004)等人通过空间探索分析为获得导致出等人通过空间探索分析为获得导致出生缺陷的环境致病因子生缺陷的环境致病因子,为进一步分析致病因子奠定为进一步分析致病因子奠定了基础。了基础。HUHU等利用地理加权回归分析了气象因子等利用地理加权回归分析了气象因子对我国手足口病影响在地理空间上的异质性。对我国

    42、手足口病影响在地理空间上的异质性。DengDeng等采用空间面板模型分析广东气象因素对手足等采用空间面板模型分析广东气象因素对手足口病的影响。层次贝叶斯时空模型方法在疾病制图口病的影响。层次贝叶斯时空模型方法在疾病制图及分析疾病的影响因素方面取得较好的效果,获得及分析疾病的影响因素方面取得较好的效果,获得了疾病危险的空间及时空变异的信息。了疾病危险的空间及时空变异的信息。第3节 空间模型应用实例 探索性空间数据分析指基于数据的空间属性,利用探索性空间数据分析指基于数据的空间属性,利用空间统计学原理和图表相结合,对空间数据的性质空间统计学原理和图表相结合,对空间数据的性质进行探索性分析。进行探索

    43、性分析。ESDAESDA提供直方图、提供直方图、QQQQ图、变异云图、趋势图、地图、变异云图、趋势图、地区分布图、泰森多边型区分布图、泰森多边型(voronivoroni map)map),对数据的离群,对数据的离群值、正态性、趋势性及变异性进行分析。通过地区值、正态性、趋势性及变异性进行分析。通过地区分布图和三维趋势分析,可直观描述疾病分布的趋分布图和三维趋势分析,可直观描述疾病分布的趋势性及不均匀性。势性及不均匀性。疾病地区分布图是一种常用的空间数据可视化方法。疾病地区分布图是一种常用的空间数据可视化方法。将疾病数据根据区域进行统计,使每个区域得到一将疾病数据根据区域进行统计,使每个区域得

    44、到一个描述疾病发生的聚合信息;然后根据该信息通过个描述疾病发生的聚合信息;然后根据该信息通过不同的填充颜色或图案对各个地区进行渲染,最后不同的填充颜色或图案对各个地区进行渲染,最后得到的图即为疾病地区分布图。得到的图即为疾病地区分布图。疾病地区分布图用不同的颜色或图案把疾病高发区、疾病地区分布图用不同的颜色或图案把疾病高发区、低发区直观描述出来,揭示空间分布趋势,为疾病低发区直观描述出来,揭示空间分布趋势,为疾病进一步研究提供线索。进一步研究提供线索。趋势分析生成数据的三维趋势图,可识别数据的全趋势分析生成数据的三维趋势图,可识别数据的全局趋势。局趋势。x x轴、轴、y y轴分别代表疾病采样点

    45、对应的经度和纬度,轴分别代表疾病采样点对应的经度和纬度,z z轴表示采样点的疾病指标。轴表示采样点的疾病指标。三维趋势图中与三维趋势图中与y y轴对应的线条表示在南北方向上轴对应的线条表示在南北方向上趋势值的变化,与趋势值的变化,与x x轴对应的线条表示在东西方向轴对应的线条表示在东西方向上趋势值的变化。上趋势值的变化。三维趋势图可直观展示疾病的空间分布趋势。三维趋势图可直观展示疾病的空间分布趋势。空间自相关,指一个区域单位上的某种属性值空间自相关,指一个区域单位上的某种属性值(如发如发病率病率)与邻近区域单位上的同一属性值间的相关程度,与邻近区域单位上的同一属性值间的相关程度,其基本度量指标

    46、是空间自相关系数,用空间自相关其基本度量指标是空间自相关系数,用空间自相关系数来检验区域单位的某一属性值是否高高相邻,系数来检验区域单位的某一属性值是否高高相邻,低低相邻或者高低间错分布,即有无聚集性。低低相邻或者高低间错分布,即有无聚集性。一种是正相关,指邻近区域有相同或相似的属性值。一种是正相关,指邻近区域有相同或相似的属性值。如果某变量属性值在空间分布上呈现出高的地方周如果某变量属性值在空间分布上呈现出高的地方周围也高,低的地方周围也低,称为空间正相关,表围也高,低的地方周围也低,称为空间正相关,表明此变量属性值具有空间扩散特性;明此变量属性值具有空间扩散特性;另一种是负相关,指邻近区域

    47、有不同的属性值。如另一种是负相关,指邻近区域有不同的属性值。如果在空间分布上呈现出高的地方周围低,低的地方果在空间分布上呈现出高的地方周围低,低的地方周围高,则称为空间负相关,表明此变量属性值具周围高,则称为空间负相关,表明此变量属性值具有空间极化特性;有空间极化特性;第三种是无相关,指变量属性值在空间分布上呈现第三种是无相关,指变量属性值在空间分布上呈现出随机性,表明空间自相关不明显,是一种随机分出随机性,表明空间自相关不明显,是一种随机分布的现象。布的现象。I0I0,正相关,正相关,I0INewFile-New,即打,即打开一个空白的窗口(如下图开一个空白的窗口(如下图6-86-8所示)。

    48、在这个窗口所示)。在这个窗口中可以通过编写代码的方式建立模型、导入数据和中可以通过编写代码的方式建立模型、导入数据和设置迭代初始条件。设置迭代初始条件。WinBUGSWinBUGS中自带很多事例,可供初学者学习。在中自带很多事例,可供初学者学习。在这里我们提供一个处理空间数据的事例,该事例属这里我们提供一个处理空间数据的事例,该事例属于于GeoBUGSGeoBUGS模块。模块。点击菜单栏中的点击菜单栏中的Map-ManualMap-Manual,进入如下界面(该,进入如下界面(该界面是界面是GeoBUGSGeoBUGS的手册,界面中可能有少量乱码,的手册,界面中可能有少量乱码,但一般不影响阅读

    49、):但一般不影响阅读):在在ContentsContents下的目录中,点击下的目录中,点击ExamplesExamples,进入以下,进入以下界面:界面:()iiOPoisson 01lnln/10iiiiExb0平态分布-51 N(0,10)(0.5,0.0005)gamma 要在要在WinBUGSWinBUGS建立并求解模型,首先通过输入必建立并求解模型,首先通过输入必要的代码。代码分为三部分:建立模型的代码、导要的代码。代码分为三部分:建立模型的代码、导入数据的代码和设定迭代初始条件的代码。入数据的代码和设定迭代初始条件的代码。首先输入建立模型的代码。在苏格兰唇癌发病率的首先输入建立模

    50、型的代码。在苏格兰唇癌发病率的事例中,找到建立模型的代码(下图红框中),将事例中,找到建立模型的代码(下图红框中),将其复制到之前新建的空白窗口中。其复制到之前新建的空白窗口中。以下解释上述代码的含义。首行的以下解释上述代码的含义。首行的modelmodel表示建立表示建立模型。模型的内容全部写在模型。模型的内容全部写在modelmodel下的大括号中。下的大括号中。for(for(i i in 1:N)in 1:N)O Oi idpoisdpois(mu(mui i)log(mu log(mui i)-log(E)-log(Ei i)+alpha0+alpha1)+alpha0+alpha1

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据探索性分析版课件第5章.pptx
    链接地址:https://www.163wenku.com/p-4105187.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库