书签 分享 收藏 举报 版权申诉 / 88
上传文档赚钱

类型R-数据处理、绘图、编程与统计检验解析课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4105794
  • 上传时间:2022-11-11
  • 格式:PPT
  • 页数:88
  • 大小:1.04MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《R-数据处理、绘图、编程与统计检验解析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    R_ 数据处理 绘图 编程 统计 检验 解析 课件
    资源描述:

    1、1语言介绍 数据处理、绘图、编程与统计检验2什么是R?The R Project for Statistical ComputingR是一种统计绘图语言,也指实现该语言的软件 1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,基于S语言的源代码,编写了一能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言 从S统计绘图语言演变而来,可看作S的“方言”!免费、软件本身及程序包的源代码公开。3 R登陆界面(Windows版)路径:开始所有程序R 2.11.0菜单栏菜单栏快捷按钮快捷按钮控制台控制台光标光标:等待输入等待

    2、输入4R程序包(R Packages)程序包是什么?程序包是什么?R程序包是多个函数的集合,具有详细的说明和示例。Window下的R程序包是经过编译的zip包。每个程序包包含R函数、数据、帮助文件、描述文件等。为什么要安装程序包?为什么要安装程序包?R程序包是R功能扩展,特定的分析功能,需要用相应的程序包实现。例如:系统发育分析,常用到ape程序包,群落生态学vegan包等。5常用R程序包(I)ade4利用欧几里得方法进行生态学数据分析adephylo系统进化数据挖掘与比较方法ape系统发育与进化分析apTreeshape 进化树分析bootBootstrap检验cluster聚类分析ecod

    3、ist生态学数据相异性分析FD功能多样性分析geiger物种形成速率与进化分析6常用R程序包(II)picante群落系统发育多样性分析raster栅格数据分析与处理seqinrDNA序列分析sp空间数据处理spatstat空间点格局分析,模型拟合与检验splancs空间与时空点格局分析statsR统计学包Bioconductor生物学数据分析工具vegan植物与植物群落的排序,生物多样性计算7安装程序包的方法1 用函数 install.packages(),如果已经连接到互联网,在括号中输入要安装的程序包名称,选择镜像后,程序将自动下载并安装程序包。例如:要安装picante包,在控制台中输

    4、入 install.packages(picante)2 安装本地zip包路径:Packagesinstall packages from local files选择本地磁盘上存储zip包的文件夹。8程序包使用程序包的中函数,都要先导入,再使用,因此导入程序包是第一步。在控制台中输入如下命令:library(affy)程序包内的函数的用法与R内置的基本函数用法一样。library(affy)9查看函数的帮助文件函数的默认值是什么?函数的默认值是什么?怎么使用?怎么使用?使用时需要注意什么问题?使用时需要注意什么问题?需要查询函数的帮助。需要查询函数的帮助。1?t.test 2 RGuiHelp

    5、Html help3 apropos(t.test)4 help(t.test)5 help.search(t.test)6 查看查看R包包pdf手册手册10二 函数与对象11R的函数R是一种解释性语言,输入后可直接给出结果。功能靠函数实现。函数形式:函数(输入数据,参数=)如果没有指定,则参数的以默认值为准。例如:平均值 mean(x,trim=0,na.rm=FALSE,.)线性模型 lm(yx,data=test)12R的函数每一个函数执行特定的功能,后面紧跟括号,例如:平均值 mean()求和 sum()绘图 plot()排序 sort()除了基本的运算之外,R的函数又分为”高级”和”

    6、低级”函数,高级函数可调用低级函数,这里的”高级”函数习惯上称为泛型函数。如plot()就是泛型函数,可以根据数据的类型,调用底层的函数,应用相应的方法绘制相应的图形。这就是面向对象编程的思想。13R有哪些函数?查询的方法:查询的方法:HelpHtml helppackageslog()log10()exp()sin()cos()tan()asin()acos()binom.test()fisher.test()chisq.test()glm(y x1+x2+x3,binomial)friedman.test()mean()sd()var().14R函数调用及其选项箱线图绘制函数的调用boxp

    7、lot(daytype,data=bac,col=red,xlab=Virus,ylab=days)daytype,以type为横轴,day为纵轴绘制箱线图。data=bac 数据来源baccol=“red”箱线图为红色xlab=“Virus”横轴名称为Virusylab=“days”纵轴名称为days15赋值与注释在控制台中键入如下命令2+2a-2代替b-2c 1+11 2 1+1*71 8(1+1)*71 14 x x1 1 y=2 y1 2 3-z z1 3(x+y)*z1 9Math:Variables:17 x x1 0 1 2 3 4 y y1 1 2 3 4 5 z z 1 1

    8、2 3 4 5 6 7 8 9 10 11 12 13 14 1516 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3031 31 32 33 34 35 36 37 38 39 40 41 42 43 44 4546 46 47 48 49 50Arrays:18运算符数学运算 运算后给出数值结果+,-,*,/,(幂幂)比较运算 运算后给出判别结果(TRUE FALSE),=,=,!=逻辑运算 与、或、非!,&,&,|,|19外部数据读取 最为常用的数据读取方式是用read.table()函数或read.csv()函数读取外部txt或csv格式的文件。

    9、txt文件,制表符间隔 csv文件,逗号间隔 一些R程序包(如foreign)也提供了直接读取Excel,SAS,dbf,Matlab,spss,systat,Minitab文件的函数。例:test.data-read.csv(D:/R/test2.csv,header=T)header=T表示将数据的第一行作为标题。read.table(file=file.choose(),header=T)可以弹出对话框,选择文件。20例:从数据输入到t检验编号123456身高 m1.751.801.651.901.741.91体重kg607257909572表2 六名患者的身高和体重现有6名患者的身高和

    10、体重,检验体重除以身高的平方是否等于22.5。21第一种方式:从控制台输入数据数据量较少时可以从控制台直接输入:height-c(1.75,1.80,1.65,1.90,1.74,1.91)weight-c(60,72,57,90,95,72)sq.height-height2 ratio-weight/sq.height t.test(ratio,mu=22.5)22图14 在Excel中将数据存为txt文件23例:t检验(续)一般从txt文档读取数据。每一行作为一个观测值。每一行的变量用制表符,空格或逗号间隔开。read.table(”位置位置”,header=T)read.csv(”位置

    11、位置”,header=T)#从外部读取数据data1-read.table(d:/t.test.data.txt,header=T)bmi-data1$weight/data1$height2t.test(bmi,mu=22.5)#t检验24向量的创建四种类型的向量字符型character-c(China,Korea,Japan,UK,USA,France,India,Russia)数值型numeric-c(1,3,6,7,3,8,6,4)逻辑型logical-c(T,F,T,F,T,F,F,T)复数型 略25向量的创建生成向量的函数 c(),rep(),seq(),”:”c(2,5,6,9)

    12、rep(2,times=4)seq(from=3,to=21,by=3)1 3 6 9 12 15 18 21“:”1:15 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15通过与向量的组合,产生更为复杂的向量。rep(1:2,c(10,15)26向量创建产生随机数rfunc(n,p1,p2,.),其中func指概率分布函数,n为生成数据的个数,p1,p2,.是分布的参数数值。上面的表给出了每个分布的详情和可能的缺省值(如果没有给出缺省值,则意味着用户必须指定参数)。用01之间的均匀分布产生10个随机点:runif(10)or runif(10,min=0,max=1

    13、)rnorm(10,mean=0,sd=1)大多数这种统计函数都有相似的形式,只需用d、p或者q去替代r,比如概率密度(dfunc(x,.)dunif(x,min=0,max=1,log=FALSE)累积函数 punif(q,min=0,max=1,)分位数 qunif(p,min=0,max=1,)显著性水平为5%的正态分布的双侧临界值是:qnorm(0.025)-1.959964 qnorm(0.975)=1.9599642728矩阵的创建生成矩阵的函数 dim()和和matrix()dim()定义矩阵的行列数,例如:定义矩阵的行列数,例如:x-1:12 dim(x)-c(3,4),1,2

    14、,3,4 1,1 4 7 10 2,2 5 8 11 3,3 6 9 12 matrix.x-matrix(1:12,nrow=3,byrow=T)t(x)#转置为行或列添加名称:row.names()col.names()29数据框的创建创建数据框的函数:data.frame(),as.data.frame(),cbind(),rbind()cbind()#按列组合成数据框rbind()#按行组合成数据框data.frame()#生成数据框head()#默认访问数据的前6行30工作空间imageR的所有对象都在计算机内存的工作空间中。ls()列出工作空间中的对象rm()删除工作空间中的对象r

    15、m(list=ls()删除空间中所有对象save.image()保存工作镜像sink()将运行结果保存到指定文件中getwd()显示当前工作文件夹setwd()设定工作文件夹可将结果保存在image中,形式为.Rdata文件,里面保存了R当前工作空间中的各种对象,包括函数。31三 脚本编程Scripting32例-线性回归转速rpm 202224262830323436384042杂质率%8.49.511.810.413.314.813.214.716.416.518.918.5n对一批涂料进行研究,确定搅拌速度对杂质含量的影响,数据如下,试进行回归分析表3 搅拌速度对涂料中杂质的影响33脚本

    16、举例#将以下代码粘贴到编辑器中,另存为regression.r文件。rate-c(20,22,24,26,28,30,32,34,36,38,40,42)impurity-c(8.4,9.5,11.8,10.4,13.3,14.8,13.2,14.7,16.4,16.5,18.9,18.5)plot(impurityrate)regFileOpen Script#Ctrl+R运行3 直接粘贴到R控制台ctrl+c,ctrl+v第三种最为简单直接35四 R绘图36图19 R绘制的图形37高级绘图函数plot()绘制散点图等多种图形,根据数据的类,调用相应的函数绘图hist()频率直方图boxpl

    17、ot()箱线图stripchart()点图barplot()柱状图dotplot()点图piechart()饼图matplot()数学图形38图23 散点图与箱线图39低级绘图函数lines()添加线curve()添加曲线abline()添加给定斜率的线points()添加点segments()折线arrows()箭头axis()坐标轴box()外框title()标题text()文字mtext()图边文字40绘图参数参数用在函数内部,在没有设定值时使用默认值。font=字体lty=线类型lwd=线宽度pch=点的类型,xlab=横坐标ylab=纵坐标xlim=横坐标范围ylim=纵坐标范围也可

    18、以对整个要绘制图形的各种参数进行设定参见 par()41举例:绘图生成0到2之间的50个随机数,分别命名为x,yx-runif(50,0,2)y-runif(50,0,2)绘图:将主标题命名为“散点图”,横轴命名为”横坐标”,纵轴命名为“纵坐标”plot(x,y,main=散点图散点图,xlab=横坐标横坐标,ylab=纵坐标纵坐标)text(0.6,0.6,text at(0.6,0.6)abline(h=.6,v=.6)42图24 绘图举例43例:分步绘图1.打开绘图窗口,不绘制任何对象plot(x,y,type=n,xlab=,ylab=,axes=F)2.添加坐标点points(x,y

    19、)3.添加坐标轴axis(1);axis(at=seq(0.2,1.8,0.2),side=2)4.补齐散点图的边框box()5.添加标题、副标题、横轴说明、纵轴说明title(main=Main title,sub=subtitle,xlab=x-label,ylab=y-label)44图25 分步绘图12345645一页多图图26 一页多图par()par(mfrow=c(2,2).46在原有图形上添加元素举例:举例:x-rnorm(100)#生成随机数hist(x,freq=F)#绘制直方图curve(dnorm(x),add=T)#添加曲线h-hist(x,plot=F)#绘制直方图

    20、ylim-range(0,h$density,dnorm(0)#设定纵轴的取值范围hist(x,freq=F,ylim=ylim)#绘制直方图curve(dnorm(x),add=T,col=red)#添加曲线47图27 在原有直方图上添加曲线48五 编写函数49编程基础 R可以灵活的编写程序,用户自己编写的程序可以直接调用。编程时无需声明变量的类型,这与C,C+等语言不同。基本格式 函数名函数名-function(数据数据,参数参数1=默认值默认值,)异常处理;表达式(循环/判别);return(返回值);函数内部也可用#添加注释50函数实例图28 函数实例 data2mat()51程序流程

    21、控制 ifif(条件)表达式 if(条件)表达式1 else 表达式2 举例p=0.03if(p=0.05)print(p 0.05!)52循环循环 for,whilefor(变量 in 向量)表达式用法:for(i in 1:10)print(i)while(条件)表达式 用法:i-1while(i10)print(i)i-i+153返回值返回值表示函数输出的结果。返回值必须是一个对象。R默认将最后一行作为返回值。如果函数的结果需要有多个返回值,可以创建一个list(),并返回该对象。也可以用return()函数,设定返回值。但是一个函数的返回的对象只有一个。54异常处理如数据输入不能满足要

    22、求,或者参数设定错误等等,可能造成函数给出错误的结果,则需要对函数的运行过程发出警告或终止,以提高程序的稳健性。警告的写法if(any(is.na(inputdata)inputdata-na.omit(inputdata)cat(“NAs are found in the input data,and has been removed.n)终止的写法if(any(is.na(xx)stop(NAs are not allowed!n)55函数举例问题:输入直角三角形的两个边长,求其斜边长。定义函数:rcal-function(x,y)z-x2+y2 result-sqrt(z)return(

    23、result)调用函数:rcal(3,4)56write.table()write.csv()save.image()sink()unlink()若有LaTeX基础,可以用Sweave()函数该函数能将脚本、程序说明和运算结果直接保存成.tex文件,用LaTeX编译成pdf文件。六数据保存常用概率分布常用概率分布重点回顾生物科学研究中常用的几种随机变量的概率分布重点回顾生物科学研究中常用的几种随机变量的概率分布正态分布、正态分布、二项分布、二项分布、波松分布波松分布 如果表示试验结果的变量如果表示试验结果的变量x,其可能取值至多为可列个,其可能取值至多为可列个,且且 以各种确定的概率取这些不同

    24、的值以各种确定的概率取这些不同的值,则则 称称 x 为为 离离 散散 型型 随随 机机 变变 量量 (discrete random variable);如果表示试验结果的变量如果表示试验结果的变量x,其可能取值为某范围内的任,其可能取值为某范围内的任何数值何数值,且,且x在其取值范围内的任一区间中取值时,其概率在其取值范围内的任一区间中取值时,其概率是确定的,则称是确定的,则称x为为 连续连续 型型 随随 机机 变变 量量 (continuous random variable)。59要了解离散型随机变量要了解离散型随机变量x的统计规律,就必须的统计规律,就必须 知知 道它的一切道它的一切可

    25、能值可能值xi及取每种可能值的概率及取每种可能值的概率pi。如果我们将离散型随机变量如果我们将离散型随机变量x的一切可能取值的一切可能取值xi (i=1,2,),及其对应的概率及其对应的概率pi,记作,记作 P(x=xi)=pi i=1,2,(43)则称则称(43)式为离散型随机变量)式为离散型随机变量x的概率分布或分布。的概率分布或分布。常用常用 分分 布布 列列(distribution series)来表示离散型随机变量:来表示离散型随机变量:x1 x2 xn .p1 p2 pn 显然离散型随机变量的概率分布具有显然离散型随机变量的概率分布具有pi0和和pi=1这两个基本性质。这两个基本

    26、性质。连续型随机变量的概率分布连续型随机变量的概率分布 连续型随机变量连续型随机变量(如体长、体重、蛋重如体长、体重、蛋重)的概率分布不的概率分布不能用分布列来表示,能用分布列来表示,因为其可能取的值是不可数的。我因为其可能取的值是不可数的。我们改用随机变量们改用随机变量x在某个区间内取值的概率在某个区间内取值的概率P(axb)来表来表示。示。下面通过频率分布密度曲线予以说明。下面通过频率分布密度曲线予以说明。60若记概率分布密度函数为若记概率分布密度函数为f(x),则,则x取值于区间取值于区间a,b)的概)的概率为图中阴影部分的面积,即率为图中阴影部分的面积,即 P(axb)=式式 为为 连

    27、连 续续 型型 随机变量随机变量 x 在在 区间区间a,b)上取值概率的表达式。)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。可见,连续型随机变量的概率由概率分布密度函数确定。badxxf)(连续型随机变量概率分布的性质:连续型随机变量概率分布的性质:1、分布密度函数总是大于或等于、分布密度函数总是大于或等于0,即,即f(x)0;2、当随机变量、当随机变量x取某一特定值时,其概率等于取某一特定值时,其概率等于0;即;即 (c为任意实数为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某

    28、一个值的概率。值的概率,而不去讨论取某一个值的概率。ccdxxfcxP0)()(3、在在 一次试验中一次试验中 随机变量随机变量x之取值之取值 必在必在-x+范围内,为一必然事件。所以范围内,为一必然事件。所以 表示分布密度曲线下、横轴上的全表示分布密度曲线下、横轴上的全 部面积为部面积为1。1)()(dxxfxP一、正态分布的定义及其特征一、正态分布的定义及其特征 (一)(一)正态分布的定义正态分布的定义 若连续型随机变量若连续型随机变量x的概率分布密的概率分布密度函数为度函数为 其中其中为平均数,为平均数,2为方差,则称随机变量为方差,则称随机变量x服从正态分布服从正态分布(normal

    29、distribution),记为记为xN(,2)。相应的概率分布函。相应的概率分布函数为数为 222)(21)(xexfxxdxexF222)(21)(二二)正态分布的特征正态分布的特征 1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为为x=;2、f(x)在在 x=处达处达 到到 极极 大大,极大值极大值 ;3、f(x)是非负函数,以是非负函数,以x轴为渐近线,分布从轴为渐近线,分布从-至至+;21)(f4、曲线在、曲线在x=处各有一个拐点,即曲线在处各有一个拐点,即曲线在(-,-)和和(+,+)区区间上是下凸的,在间上是下凸的,在-,+

    30、区间内是上凸的;区间内是上凸的;5、正态分布有两个参数,即平均数、正态分布有两个参数,即平均数和标准差和标准差。是位置参数,当是位置参数,当恒定时,恒定时,愈大,则曲线沿愈大,则曲线沿x轴愈向右移动;轴愈向右移动;反之,反之,愈小,曲线沿愈小,曲线沿x轴愈向左移动。轴愈向左移动。是变异度参数,是变异度参数,当当恒定时,恒定时,愈大,表示愈大,表示 x 的取值愈分散,的取值愈分散,曲线愈曲线愈“胖胖”;愈小,愈小,x的取值愈集中在的取值愈集中在附近,曲线愈附近,曲线愈“瘦瘦”。我们称我们称=0,2=1的正态分布为标准正态分布的正态分布为标准正态分布(standard normal distrib

    31、ution)。标准正态分布的概率密度函数及分布函数分别记作标准正态分布的概率密度函数及分布函数分别记作(u)和和(u),由,由(4-6)及及(4-7)式得:式得:随机变量随机变量u服从标准正态分布,记作服从标准正态分布,记作uN(0,1),2221)(ueudueuuu22121)(对于任何一个服从正态分布对于任何一个服从正态分布N(,2)的随机变量的随机变量x,都可以通,都可以通过标准化变换:过标准化变换:u=(x-)将将 其变换为服从标准正态分布的随机变量其变换为服从标准正态分布的随机变量u。u 称称 为为 标标 准准 正正 态变量或标准正态离差态变量或标准正态离差(standard no

    32、rmal deviate)。三、正态分布的概率计算三、正态分布的概率计算 (一)标准正态分布的概率计算(一)标准正态分布的概率计算 设设u服从标准正态分布,则服从标准正态分布,则 u 在在u1,u2)何内取值的概率为)何内取值的概率为:(u2)(u1)而而(u1)与与(u2)可由附表可由附表1查得。查得。dueduedueuuuPuuuuuuu122221221212121212121)(U1 U2 例如,例如,u=1.75,1.7放在第一列放在第一列0.05放在第一行放在第一行。在附表在附表1中中,1.7所在行与所在行与 0.05 所在列相交处的数值为所在列相交处的数值为0.95994,即,

    33、即 (1.75)=0.95994 有有 时时 会会 遇遇 到到 给给 定定 (u)值值,例例 如如(u)=0.284,反过反过来查来查u值。这只要在附表值。这只要在附表1中找到与中找到与 0.284 最接近的值最接近的值0.2843,对应行的第一列数对应行的第一列数-0.5,对应列的第一行数对应列的第一行数 值值 0.07,即相应的,即相应的u值为值为 u=-0.57,即,即 (-0.57)=0.284 如果要求更精确的如果要求更精确的u值,可用线性插值法计算。值,可用线性插值法计算。关于标准正态分布,以下几种概率应当熟记:关于标准正态分布,以下几种概率应当熟记:P(-1u1)=0.6826

    34、P(-2u2)=0.9545 P(-3u3)=0.9973 P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99 这表明服从正态分布这表明服从正态分布N(,2)的随机变量的随机变量x 在在 x1,x2)内)内取值的概率取值的概率,等等 于服于服 从从 标标 准准 正正 态态 分分 布布 的的 随随 机机 变变 量量 u 在在(x1-)/,(x2-)/)内取值的概率)内取值的概率。因此,计算一般正态分布的概率时,因此,计算一般正态分布的概率时,只要将区间的上下限只要将区间的上下限作适当变换作适当变换(标准化标准化),就可用查标准正态分布的概率表的方法就可用查标准正态分布的概率

    35、表的方法求得概率了。求得概率了。设设x服从服从=30.26,2=5.102的正态分布,试求的正态分布,试求P(21.64x32.98)。令令 则则u服从标准正态分布,故服从标准正态分布,故 =P(-1.69u0.53)=(0.53)-(-1.69)=0.7019-0.04551 =0.6564 )10.526.3098.3210.526.3010.526.3064.21()98.3264.21(xPxP10.526.30 xu关于一般正态分布,以下几个概率关于一般正态分布,以下几个概率(即随机变量即随机变量x落在落在加减不同倍数加减不同倍数区间的概率区间的概率)是经常用到的。是经常用到的。P(

    36、-x+)=0.6826 P(-2x+2)=0.9545 P(-3x+3)=0.9973 P(-1.96x+1.96)=0.95 P(-2.58x+2.58)=0.9971设X服从平均值为1,标准差为2的正态分布(高斯分布),即X N(1,4),求P0X1.6解:这里X是一个连续型随机变量。求X在某段区间上的概率,用X的分布函数在区间两端的值的差。方法一:P0 pnorm(1.6,1,2)-pnorm(0,1,2)1 0.3093739方法二:转化为标准正态分布。Px1 X x2=P(x1-)/(X-)/(x1-)/=(x2-)/)-(x1-)/)即P0 pnorm(1.6-1)/2)-pnor

    37、m(0-1)/2)#pnorm函数的缺省参数mean=0,sd=1,即默认标准正态分布1 0.3093739二项分布二项分布 一、贝努利试验及其概率公式一、贝努利试验及其概率公式 将某随机试验重复进行将某随机试验重复进行n次,若各次试验结果互不影响次,若各次试验结果互不影响,即即每次试验结果出现的概率都不依赖于其它各次试验的结果,则每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这称这n次试验是独立的。次试验是独立的。对于对于n次独立的试验次独立的试验,如果每次试验结果出现且只出现对立如果每次试验结果出现且只出现对立事件事件A与与 之一,之一,在每次试验中出现在每次试验中出现A的概率是

    38、常数的概率是常数p(0p 1-sum(pbinom(0:1,400,0.02)1 0.996856178二项分布记为X b(n,p),E(x)=np,Var(x)=np(1-p)pbinom(q,size,prob),q是特定取值,比如pbinom(8,20,0.2)指第8次伯努利实验的累计概率。size指总的实验次数,prob指每次实验成功发生的概率dbinom(x,size,prob),x同上面的q同含义。dfunction()对于离散分布来说结果是特定值的概率,对连续变量来说是密度(Density)rbinom(n,size,prob),产生n个b(size,prob)的二项分布随机数

    39、二项分布的应用条件有三:二项分布的应用条件有三:(1)各观察单位)各观察单位 只具有互相对立只具有互相对立 的一种结果,如阳性或阴性的一种结果,如阳性或阴性,生存或死亡等,生存或死亡等,属于二项分类资料;属于二项分类资料;(2)已知发生某一结果)已知发生某一结果(如死亡如死亡)的概率为的概率为p,其对立结果的,其对立结果的概率则为概率则为1-P=q,实际中要求,实际中要求p 是从大量观察中获得的比较稳定是从大量观察中获得的比较稳定的数值;的数值;(3)n个观察单位的观察结果互相独立,即每个观察单位的观个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。察结果

    40、不会影响到其它观察单位的观察结果。波松分布波松分布 波松分布是一种波松分布是一种 可以用来描述和分析随机地发生在单位空可以用来描述和分析随机地发生在单位空间或间或 时间里的稀有事件的概率分布。要观察到这类事件,样本时间里的稀有事件的概率分布。要观察到这类事件,样本含量含量 n 必须很大必须很大。泊松分布的参数是单位时间(或单位面积)内随机事件的平均发生率.泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等.在生物、医学研究中,服从波松分布的随机变量是常见的。在生物、医学研究

    41、中,服从波松分布的随机变量是常见的。如,如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,数,畜群中遗传的畸形怪胎数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计每升饮水中大肠杆菌数,计数器小方格中血球数,数器小方格中血球数,单位空间中某些野生动物或昆虫数等,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。都是服从波松分布的。一、波松分布的意义一、波松分布的意义 若随机变量若随机变量x(x=k)只取零和正整数值只取零和正整数值0,1,2,且其概,且其概率分布为率分布为 ,k=0,1,其中其中0;e=2.7182 是自然对数的底

    42、数,则是自然对数的底数,则 称称 x 服服 从从 参参 数数 为为 的的 波波 松分布松分布(Poissons distribution),记,记 为为 xP()。ekkxPk!)(波松分布重要的特征:波松分布重要的特征:平均数和方差相等,都等于常数平均数和方差相等,都等于常数,即,即 =2=【例例】调查某种猪场闭锁育种群仔猪畸形数,共记录调查某种猪场闭锁育种群仔猪畸形数,共记录200窝窝,畸形仔猪数的分布情况如表所示。试判断畸形仔猪数是否畸形仔猪数的分布情况如表所示。试判断畸形仔猪数是否服从波松分布。服从波松分布。样本均数和方差样本均数和方差S2计算结果如下:计算结果如下:=fk/n =(1

    43、200+62+152+23+14)/200 =0.51 x83将将0.51代替公式中的代替公式中的得:得:(k=0,1,2,)因为因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:,所以畸形仔猪数各项的概率为:P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)=0.512(2!1.6653)=0.0781 51.0!51.0)(ekkxPkP(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各项概率乘以总观察窝数把上面各项概率乘以总观察

    44、窝数(n=200)即得各项按波松分布的即得各项按波松分布的理论窝数。理论窝数。波松分布与相应的频率分布列波松分布与相应的频率分布列0001.09999.01)(1)4(40kkxpxP畸形仔猪数的波松分布畸形仔猪数的波松分布 将实际计算得的频率与根据将实际计算得的频率与根据=0.51的泊松分布计算的概率的泊松分布计算的概率相比较相比较,发现畸形仔猪的频率分布与,发现畸形仔猪的频率分布与=0.51 的的 波松分布是吻波松分布是吻合得很好的合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。这进一步说明了畸形仔猪数是服从波松分布的。【例例4.14】为监测饮用水的污染情况,为监测饮用水的污染情况,

    45、现检验某社区每毫升现检验某社区每毫升饮用水中细菌数饮用水中细菌数,共得共得400个记录如下:个记录如下:可见细菌数的频率分布与可见细菌数的频率分布与=0.5的波松分布是相当吻合的的波松分布是相当吻合的,进进一步说明用波松分布描述单位容积中细菌数的分布是适宜的。一步说明用波松分布描述单位容积中细菌数的分布是适宜的。是波松分布所依赖的唯一参数。是波松分布所依赖的唯一参数。值愈小分布愈偏倚值愈小分布愈偏倚,随着,随着的增大的增大,分,分 布趋于对称。当布趋于对称。当=20时分布接近于时分布接近于正态分布;当正态分布;当=50时,时,可以认可以认 为波松分布呈正态分布。为波松分布呈正态分布。所以在实际

    46、工作中,当所以在实际工作中,当 20时就可以用正态分布来近似时就可以用正态分布来近似地处理波松分布的问题。地处理波松分布的问题。前面讨论的三个重要的概率分布中,前一个属连续型随机变前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布量的概率分布,后两个属离散型随机变量的概率分布。三三 者间的关系如下:者间的关系如下:对于二项分布,在对于二项分布,在n,p0,且且 n p=(较小常数较小常数)情况情况下下,二项分布,二项分布 趋于趋于 波波 松布。在这种场合,波松分布中的松布。在这种场合,波松分布中的参数参数 用二项分布的用二项分布的n p代之;在代

    47、之;在n,p0.5时时,二项二项分布趋于正态分布。在这种场合分布趋于正态分布。在这种场合,正态分布中的,正态分布中的、2用二项分布的用二项分布的n p、n p q代之。代之。在实际计算中,当在实际计算中,当p0.1且且n 很大时很大时,二项分布可由波松二项分布可由波松分布近似;当分布近似;当p0.1且且n很大时很大时,二项分布可由正态分布,二项分布可由正态分布近似。近似。8788推荐的教材Crawley Statistics an introduction using R Peter Dalgaard Introductory statistics with RE.Paradis R for Beginners Verzani SimpleR.D G Rossiter Introduction to the R Project for Statistical Computing for use at ITC J.Maindonald Using R for data analysis and graphics introduction code and commentary using RVenables,W.N.&Ripley,B.D.Modern Applied Statistics with S

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:R-数据处理、绘图、编程与统计检验解析课件.ppt
    链接地址:https://www.163wenku.com/p-4105794.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库