R语言CH7-统计回归分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《R语言CH7-统计回归分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 CH7 统计 回归 分析 课件
- 资源描述:
-
1、R语言基础与数据科学应用沈刚 主编人民邮电出版社内容导航C O N T E N T S数据的数值度量定性与定量数据概率分布与假设检验7.17.27.3回归分析7.4定性数据l 如果一个样本的取值属于一组已知的且互不重叠的类型,我们把这样的数据样本被称为定性数据,也称作分类数据。l iris数据是R自带的内置数据集之一,其中的鸢尾花分类信息就是一个定性数据的实际例子。str(iris)data.frame:150 obs.of 5 variables:$Sepal.Length:num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9.$Sepal.Width:num 3.
2、5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1.$Petal.Length:num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5.$Petal.Width:num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1.$Species :Factor w/3 levels setosa,versicolor,.:1 1 1 1 1 1 1 1 1 1.定性数据l 该数据集的最后一列是属性Species,包含了对鸢尾花品种的分类。品种的名称分别用setosa、versicolor、virginica等不同级别的因
3、子来表示,这就是一个定性数据的例子。iris$Species 1 setosa setosa setosa setosa setosa setosa 7 setosa setosa setosa setosa setosa setosa 145 virginica virginica virginica virginica virginica virginica Levels:setosa versicolor virginica定性数据l 数据变量的频数分布是对数据在一组不重叠的类别中出现次数的概括。species species.freq species.relfreq species.r
4、elfreqspecies setosa versicolor virginica 0.3333333 0.3333333 0.3333333定性数据l 使用柱状图可视化频数信息 barplot(species.freq)l 使用饼状图可视化频数信息 pie(species.freq)l 自定义饼图颜色 colors=c(red,yellow,blue)pie(species.freq,col=colors)定性数据 species s_species s_iris options(digits=3)mean(s_iris$Sepal.Length)1 5.01 tapply(iris$Sep
5、al.Length,iris$Species,mean)setosa versicolor virginica 5.01 5.94 6.59l 以setosa的花萼长度为例,可以分步骤得出其花萼长度的平均值。l option()函数指定R与用户的交互方式。l tapply()函数实现同样的效果。定量数据 head(faithful,3)eruptions waiting1 3.600 792 1.800 543 3.333 74l 计算喷发持续时间的频数分布步骤:使用range()函数得到数据上下界 将变量活动范围分成不重叠的区间 对变量进行区间分类 得到统计信息 l 预览faithful数据
6、集的前三行。定量数据l使用range()函数得到数据上下界 duration range(duration)1 1.6 5.1 l将变量活动范围分成不重叠的区间 breaks breaks 1 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5l 查看数据活动范围。l 以0.5为间隔的序列得到向量定量数据l对变量进行区间分类 duration.cut str(duration.cut)Factor w/8 levels 1.5,2),2,2.5),.:5 1 4 2 7 3 7 5 1 6.l得到统计信息 duration.freq duration.freq colors
7、 hist(duration,right=FALSE,col=colors,main=“老忠实喷发次数”,xlab=“持续时间(分钟),ylab=频数)定量数据l 累计频数分布 cumsum(1:10)1 1 3 6 10 15 21 28 36 45 55#breaks的长度比duration.freq多1,手动添加0。cumfreq0 plot(breaks,cumfreq0,main=“老忠实喷发持续时间,xlab=持续时间(分钟),ylab=累积喷发频数)lines(breaks,cumfreq0)定量数据l 茎叶图 duration stem(duration)The decimal
8、 point is 1 digit(s)to the left of the|16|070355555588 18|000022233333335577777777888822335777888 20|00002223378800035778 48|00000022335800333 50|0370l 小数点位于“|”左侧一位,所以相邻两个树干的间隔为0.2。l 在树叶排列时按照升序排列,因此在最后一行“0370”中,第一个0表示的是5.0,而第二个0表示的则是5.1。l 第一行:1.60、1.67、1.70、1.73、1.75、1.75、1.75、1.75、1.75、1.75、1.78和1.
9、78分钟。定量数据 duration waiting head(cbind(duration,waiting),3)duration waiting1,3.600 792,1.800 543,3.333 74 plot(duration,waiting,xlab=喷发持续时间,ylab=等待时间)内容导航C O N T E N T S数据的数值度量定性与定量数据概率分布与假设检验7.17.27.3回归分析7.4均值l 观测样本的均值,等于数据值的和与数据个数的比值,是对数据值的中心位置的数值度量。如果数据的规模为n,其样本均值定义为:l 函数mean()返回的是一个数值向量的均值,可将na.r
10、m设置为TRUE排除向量中的缺失值。duration mean(duration)1 3.487783中位值、四分位数和百分位数l 中位值 median(duration)#调用median()函数1 4 l 四分位数 quantile(duration)#调用quantile()函数 0%25%50%75%100%1.60000 2.16275 4.00000 4.45425 5.10000l 百分位数 quantile(duration,c(.25,.5,.96)25%50%96%2.16275 4.00000 4.83572 四分位距l 四分位距是一个观测变量上下四分位数之差 IQR(d
11、uration)#调用IQR()函数1 2.2915 l 箱形图适用于直观地表示出四分位数和四分位距 par(mfrow=c(1,2)#绘图布局,用1行2列排列方式 boxplot(faithful$eruptions)boxplot(faithful$waiting)par(mfrow=c(1,1)summary()函数#R语言中提供的summary()函数可以直接对数据生成一些统计信息 summary(faithful)eruptions waiting Min.:1.600 Min.:43.0 1st Qu.:2.163 1st Qu.:58.0 Median:4.000 Median:
12、76.0 Mean :3.488 Mean :70.9 3rd Qu.:4.454 3rd Qu.:82.0 Max.:5.100 Max.:96.0 方差与标准差l 方差是对数据相对于其均值的分散程度的一个数值度量。l 函数var()计算给定数值向量的方差。观测变量的标准差是其方差的平方根,用函数sd()得到。var(duration)#调用var()函数1 1.3027 sd(duration)#调用sd()函数1 1.1414协方差l 数据集中两个变量x和y的协方差用于度量两者之间的线性相关度。如果协方差为正数,表明变量之间存在着正相关的关系,负的协方差表明两者之间是负相关关系。l co
13、v()函数可以计算出两个向量的协方差 cov(duration,waiting)#调用cov()函数1 13.978相关系数l 两个变量的相关系数等于它们的协方差除以各自标准差的乘积。l 当相关系数接近于1时,意味着变量之间线性正相关,在散点图上表现为散点几乎沿着一条斜率为正的直线分布。如果相关系数接近-1,则表示变量存在线性负相关关系,散点几乎落在一条斜率为负的直线附近。如果相关 系数为0,表明变量之间线性相关性很弱。l cor()函数就可以计算出它们的相关系数。cor(duration,waiting)#调用cor()函数计算相关系数1 0.901内容导航C O N T E N T S数据
展开阅读全文