数据分析中数理统计方法的正确使用(;691KB)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据分析中数理统计方法的正确使用(;691KB)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 数理统计 方法 正确 使用 691 KB 课件
- 资源描述:
-
1、数据分析中数理统计方法的正确使用重要假定v作者所处理的数据属于随机变量的特定样本。作者所处理的数据属于随机变量的特定样本。v作者已经掌握最基本的数理统计学常识,如概率、作者已经掌握最基本的数理统计学常识,如概率、假设检验、均值、方差、标准差、正态分布、相假设检验、均值、方差、标准差、正态分布、相关分析、回归分析、方差分析关分析、回归分析、方差分析。数理统计问题的重要性数理统计问题的重要性v 在科学研究中,经常会涉及到对随机变量在科学研究中,经常会涉及到对随机变量大小大小、离散离散及及分布分布特征的描述以及对特征的描述以及对2 2个或多个随机变量之间的个或多个随机变量之间的关系关系描述问题。描述
2、问题。地学、环境科学研究也不例外地学、环境科学研究也不例外。v 对随机变量及随机变量之间的关系进行定量描述的数学工具对随机变量及随机变量之间的关系进行定量描述的数学工具就是就是数理统计学数理统计学。v 在科学研究中,能否正确使用各种数理统计方法关系到所得在科学研究中,能否正确使用各种数理统计方法关系到所得出结论的客观性和可信性。所以,出结论的客观性和可信性。所以,来稿中使用的数理统计方来稿中使用的数理统计方法是否正确法是否正确应是学术期刊编辑和作者极为重视的问题。应是学术期刊编辑和作者极为重视的问题。v 目前,国内科技期刊对稿件中数理统计方法问题的重视程度目前,国内科技期刊对稿件中数理统计方法
3、问题的重视程度存在差异。存在差异。1 统计软件的选择统计软件的选择 v统计分析通常涉及大量的数据,需要较大的计统计分析通常涉及大量的数据,需要较大的计算工作量。算工作量。v在进行统计分析时,尽管作者可以自行编写计在进行统计分析时,尽管作者可以自行编写计算程序,但在统计软件很普及的今天,这样做算程序,但在统计软件很普及的今天,这样做是毫无必要的。是毫无必要的。v出于对出于对工作效率工作效率以及对以及对算法的通用性、可比性算法的通用性、可比性的考虑,一些学术期刊要求作者采用专门的数的考虑,一些学术期刊要求作者采用专门的数理统计软件进行统计分析。理统计软件进行统计分析。1 统计软件的选择统计软件的选
4、择问题:问题:作者未使用专门的数理统计软件,而作者未使用专门的数理统计软件,而采用采用Excel这样的电子表格软件进行数据统这样的电子表格软件进行数据统计分析。计分析。v由于电子表格软件提供的统计分析功能十由于电子表格软件提供的统计分析功能十分有限,只能借助它进行较为简单的统计分有限,只能借助它进行较为简单的统计分析,故我们不主张作者采用这样的软件分析,故我们不主张作者采用这样的软件进行统计分析。进行统计分析。1 统计软件的选择统计软件的选择v目前,国际上已开发出的专门用于统计分析的商目前,国际上已开发出的专门用于统计分析的商业软件很多,比较著名有业软件很多,比较著名有SPSS(Statist
5、ical Package for Social Sciences)和和SAS(Statistical Analysis System)。此外,还有此外,还有BMDP和和STATISTICA等等。vSPSS是专门为社会科学领域的研究者设计的,但是专门为社会科学领域的研究者设计的,但此软件在自然科学领域也得到广泛应用。此软件在自然科学领域也得到广泛应用。vBMDP是专门为生物学和医学领域研究者编制的统是专门为生物学和医学领域研究者编制的统计软件。计软件。1 1 统计软件的选择统计软件的选择v目前,国际学术界有一条不成文的约定:凡目前,国际学术界有一条不成文的约定:凡是用是用SPSS和和SAS软件进
6、行统计分析所获得的软件进行统计分析所获得的结果,在国际学术交流中不必说明具体算法。结果,在国际学术交流中不必说明具体算法。由此可见,由此可见,SPSS和和SAS软件已被各领域研究软件已被各领域研究者普遍认可。者普遍认可。v我们建议作者们在进行统计分析时尽量使用我们建议作者们在进行统计分析时尽量使用这这2个专门的统计软件。目前,有关这个专门的统计软件。目前,有关这2个软个软件的使用教程在书店中可很容易地买到。件的使用教程在书店中可很容易地买到。2.1 2.1 均值的计算均值的计算:理论问题v1)均值(准确的称呼应为)均值(准确的称呼应为“样本均值样本均值”)的统计)的统计学意义:反映随机变量样本
7、的大小特征。学意义:反映随机变量样本的大小特征。v2)均值对应于随机变量总体的数学期望)均值对应于随机变量总体的数学期望总体的总体的数学期望客观上决定着样本的均值,反过来,通数学期望客观上决定着样本的均值,反过来,通过计算样本的均值可以描述总体的数学期望。过计算样本的均值可以描述总体的数学期望。2.1 均值计算:理论问题(续)均值计算:理论问题(续)v3)在处理实验数据或采样数据时,经常会遇)在处理实验数据或采样数据时,经常会遇到对相同采样或相同实验条件下同一随机变量到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。的多个不同取值进行统计处理的问题。v4)为找到代表这些
8、观测值总体大小特征的代)为找到代表这些观测值总体大小特征的代表值(统计量,该统计量根据样本数据算出),表值(统计量,该统计量根据样本数据算出),多数作者会不假思索地直接给出算术平均值和多数作者会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的标准差。显然,这种做法是不严谨的不一不一定总是正确的定总是正确的2.2 均值计算:技术问题均值计算:技术问题v在数理统计学中,作为描述随机变量样本的在数理统计学中,作为描述随机变量样本的总体大小特征的统计量有算术平均值、几何总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。平均值和中位数等多个。v何时用算术平均值?何时用几何平均值?
9、以何时用算术平均值?何时用几何平均值?以及何时用中位数?及何时用中位数?这不能由研究者根据主观这不能由研究者根据主观意愿随意确定,而要根据随机变量的分布特意愿随意确定,而要根据随机变量的分布特征确定征确定。2.2 均值计算:技术问题(续)均值计算:技术问题(续)v反映随机变量总体大小特征的统计量是数学期望,而在随机反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其数学期望就可以用样本的算变量的分布服从正态分布时,其数学期望就可以用样本的算术平均值描述。此时,可用样本的术平均值描述。此时,可用样本的算术平均值算术平均值描述随机变量描述随机变量的大小特征。的大小特征。
10、v如果所研究的随机变量不服从正态分布,则算术平均值不能如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计态分布,则几何平均值就是数学期望的值。此时,就可以计算变量的算变量的几何平均值几何平均值。v如果随机变量既不服从正态分布也不服从对数正态分布,则如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计
11、量描述该变量的按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。此时,可用大小特征。此时,可用中位数中位数来描述变量的大小特征。来描述变量的大小特征。3 3 相关分析相关分析:相关系数的选择:相关系数的选择 v 在相关分析中,作者们常犯的错误是:简单地计算在相关分析中,作者们常犯的错误是:简单地计算Pearson 积矩相关系数,而且既不给出正态分布检验结果,积矩相关系数,而且既不给出正态分布检验结果,也往往不明确指出所计算的相关系数就是也往往不明确指出所计算的相关系数就是Pearson 积矩相积矩相关系数。关系数。v 在数理统计学中,除有针对数值变量设计的在数理统计学中,除有针对数
12、值变量设计的Pearson 积矩积矩相关系数(对应于相关系数(对应于“参数方法参数方法”)外,还有针对顺序变量)外,还有针对顺序变量(即(即“秩变量秩变量”)设计的)设计的Spearman秩相关系数和秩相关系数和Kendall秩相关系数(对应于秩相关系数(对应于“非参数方法非参数方法”)等。)等。v Pearson 积矩相关系数可用于描述积矩相关系数可用于描述2个随机变量的线性相关个随机变量的线性相关程度,程度,Spearman或或Kendall秩相关系数用来判断两个随机秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势。变量在二维和多维空间中是否具有某种共变趋势。3 相关分
13、析:相关系数的选择相关分析:相关系数的选择n在相关分析中,计算各种相关系数是有前提条件在相关分析中,计算各种相关系数是有前提条件的。的。n在相关分析中,对于秩变量,一般别无选择,只在相关分析中,对于秩变量,一般别无选择,只能计算能计算Spearman或或Kendall秩相关系数。秩相关系数。n对于数值变量,只要条件许可,应尽量使用对于数值变量,只要条件许可,应尽量使用检验检验功效最高功效最高的参数方法,即计算用的参数方法,即计算用Pearson 积矩相积矩相关系数。只有计算关系数。只有计算Pearson 积矩相关系数的前提积矩相关系数的前提不存在时,才考虑退而求其次,计算专门为秩变不存在时,才
14、考虑退而求其次,计算专门为秩变量设计的量设计的Spearman或或Kendall秩相关系数(秩相关系数(尽管尽管这样做会导致检验功效的降低这样做会导致检验功效的降低)。)。3 相关分析:相关系数的选择相关分析:相关系数的选择v 对于数值变量,相关系数选择的依据是变量是否服从正态对于数值变量,相关系数选择的依据是变量是否服从正态分布,或变换后的数据是否服从正态分布。分布,或变换后的数据是否服从正态分布。v 对于二元相关分析,如果对于二元相关分析,如果2个随机变量服从二元正态分布假个随机变量服从二元正态分布假设,则应该用设,则应该用Pearson 积矩相关系数描述这积矩相关系数描述这2个随机变量个
15、随机变量间的相关关系。间的相关关系。v 如果样本数据不服从二元正态分布,则可尝试进行数据变如果样本数据不服从二元正态分布,则可尝试进行数据变换,看变换后的数据是否符合正态分布?如果是,则可以换,看变换后的数据是否符合正态分布?如果是,则可以针对变换后的数据计算针对变换后的数据计算Pearson 积矩相关系数;否则,就积矩相关系数;否则,就不能计算不能计算Pearson 积矩相关系数,而应改用检验功效较低积矩相关系数,而应改用检验功效较低的的Spearman或或Kendall秩相关系数(此时,如果强行计秩相关系数(此时,如果强行计算算Pearson 积矩相关系数有可能会得出完全错误的结论)。积矩
16、相关系数有可能会得出完全错误的结论)。4 相关分析与回归分析的区别相关分析与回归分析的区别 n相关分析和回归分析是极为常用的相关分析和回归分析是极为常用的2种数理种数理统计方法,在环境科学及其它科学研究领域统计方法,在环境科学及其它科学研究领域有着广泛的用途。然而,由于这有着广泛的用途。然而,由于这2种数理统种数理统计方法在计算方面存在很多相似之处,且在计方法在计算方面存在很多相似之处,且在一些数理统计教科书中没有系统阐明这一些数理统计教科书中没有系统阐明这2种种数理统计方法的内在差别,从而使一些研究数理统计方法的内在差别,从而使一些研究者不能严格区分相关分析与回归分析者不能严格区分相关分析与
17、回归分析。4 相关分析与回归分析的区别相关分析与回归分析的区别1)最常见的错误是)最常见的错误是:用回归分析的结果解释用回归分析的结果解释相关性问题。例如,作者将相关性问题。例如,作者将“回归直线(曲回归直线(曲线)图线)图”称为称为“相关性图相关性图”或或“相关关系相关关系图图”;将回归直线的;将回归直线的R2(拟合度,或称拟合度,或称“可可决系数决系数”)错误地称为错误地称为“相关系数相关系数”或或“相相关系数的平方关系数的平方”;根据回归分析的结果宣称;根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。个变量之间存在正的或负的相关关系。4 相关分析与回归分析的区别相关分析与回归分
18、析的区别2)相关分析与回归分析均为研究)相关分析与回归分析均为研究2个或多个或多个变量间关联性的方法,但个变量间关联性的方法,但2种数理统计种数理统计方法存在本质的差别,即它们用于不同方法存在本质的差别,即它们用于不同的研究目的。的研究目的。3)相关分析的目的在于检验两个随机变)相关分析的目的在于检验两个随机变量的共变趋势(即共同变化的程度),量的共变趋势(即共同变化的程度),回归分析的目的则在于试图用自变量来回归分析的目的则在于试图用自变量来预测因变量的值。预测因变量的值。4 相关分析与回归分析的区别相关分析与回归分析的区别4)在相关分析中,两个变量必须同时都)在相关分析中,两个变量必须同时
19、都是随机变量,如果其中的一个变量不是是随机变量,如果其中的一个变量不是随机变量,就不能进行相关分析。这是随机变量,就不能进行相关分析。这是相关分析方法本身所决定的。相关分析方法本身所决定的。4 相关分析与回归分析的区别相关分析与回归分析的区别5)对于回归分析,其中的因变量肯定为)对于回归分析,其中的因变量肯定为随机变量(这是回归分析方法本身所决随机变量(这是回归分析方法本身所决定的),而自变量则可以是普通变量定的),而自变量则可以是普通变量(有确定的取值)也可以是随机变量。(有确定的取值)也可以是随机变量。4 相关分析与回归分析的区别相关分析与回归分析的区别6 6)如果自变量是普通变量,即模型
20、)如果自变量是普通变量,即模型回归分析,回归分析,采用的回归方法就是最为常用的最小二乘法。采用的回归方法就是最为常用的最小二乘法。7)如果自变量是随机变量,)如果自变量是随机变量,即模型即模型回归分析,回归分析,所采用的回归方法与计算者的目的有关。所采用的回归方法与计算者的目的有关。在以预测为目的的情况下,仍采用在以预测为目的的情况下,仍采用“最小二乘法最小二乘法”(但精度下降(但精度下降最小二乘法是专为模型最小二乘法是专为模型 设计的,设计的,未考虑自变量的随机误差);未考虑自变量的随机误差);在以估值为目的(如计算可决系数、回归系数等)在以估值为目的(如计算可决系数、回归系数等)的情况下,
21、应使用相对严谨的方法(如的情况下,应使用相对严谨的方法(如“主轴法主轴法”、“约化主轴法约化主轴法”或或“BartlettBartlett法法”)。)。4 相关分析与回归分析的区别相关分析与回归分析的区别8)显然,对于回归分析,如果是模型)显然,对于回归分析,如果是模型回归分析,鉴于两个回归分析,鉴于两个随机变量客观上存在随机变量客观上存在“相关性相关性”问题,只是由于回归分析问题,只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段,因此,若以预测为目的,最好不提确的检验手段,因此,若以预测为目的,最好不提“相关相关
22、性性”问题;问题;若以探索两者的若以探索两者的“共变趋势共变趋势”为目的为目的,应该改,应该改用相关分析。用相关分析。9)如果是模型)如果是模型回归分析,就根本不可能回答变量的回归分析,就根本不可能回答变量的“相关相关性性”问题,问题,因为普通变量与随机变量之间不存在因为普通变量与随机变量之间不存在“相关性相关性”这一概念这一概念(问题在于,大多数的回归分析都是模型(问题在于,大多数的回归分析都是模型回归回归分析!)。此时,即使作者想描述分析!)。此时,即使作者想描述2个变量间的个变量间的“共变趋共变趋势势”而改用相关分析,也会因相关分析的前提不存在而使而改用相关分析,也会因相关分析的前提不存
23、在而使分析结果毫无意义。分析结果毫无意义。4 相关分析与回归分析的区别相关分析与回归分析的区别10)需要特别指出的是,回归分析中的)需要特别指出的是,回归分析中的R2在数学上恰好是在数学上恰好是Pearson积矩相关系数积矩相关系数r的平方。因此,这极易使作者们错的平方。因此,这极易使作者们错误地理解误地理解R2的含义,认为的含义,认为R2就是就是“相关系数相关系数”或或“相关系相关系数的平方数的平方”。问题在于,对于自变量是普通变量(即其取值。问题在于,对于自变量是普通变量(即其取值有确定性的变量)、因变量为随机变量的模型有确定性的变量)、因变量为随机变量的模型回归分析,回归分析,2个变量之
24、间的个变量之间的“相关性相关性”概念根本不存在,又何谈概念根本不存在,又何谈“相关相关系数系数”呢?呢?11)更值得注意的是,一些早期的教科书作者不是用)更值得注意的是,一些早期的教科书作者不是用R2来描来描述回归效果(拟合程度,拟合度)的,而是用述回归效果(拟合程度,拟合度)的,而是用Pearson积矩积矩相关系数来描述。这就更容易误导读者。相关系数来描述。这就更容易误导读者。5 重要的数理统计学常识5.1 假设检验基本思想基本思想v统计推断统计推断:是根据样本数据推断总体特征的一:是根据样本数据推断总体特征的一种方法。种方法。v假设检验:假设检验:是进行是进行统计推断统计推断的途径之一(另
25、一的途径之一(另一种途径是参数估计,如点估计和区间估计)。种途径是参数估计,如点估计和区间估计)。v假设检验中的关键问题假设检验中的关键问题:1)在原假设成立的情)在原假设成立的情况下,如何计算样本值或某一极端值发生的概况下,如何计算样本值或某一极端值发生的概率?率?2)如何界定小概率事件?)如何界定小概率事件?5.1 假设检验基本思路基本思路首先,对总体参数值提出假设(原假设);然后,首先,对总体参数值提出假设(原假设);然后,利用样本数据提供的信息来验证所提出的假设是利用样本数据提供的信息来验证所提出的假设是否成立(统计推断)否成立(统计推断)如果样本数据提供的信如果样本数据提供的信息不能
展开阅读全文