第4章-R语言数据预处理(ppt可编辑修改)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第4章-R语言数据预处理(ppt可编辑修改)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语言 数据 预处理 ppt 编辑 修改 课件
- 资源描述:
-
1、宋万里宋万里计算机工程学院计算机工程学院数据分析与R语言 大数据应用开发大数据应用开发第4章 数据预处理2022-8-5 3 数据变换31数据清洗4数据集成2数据规约目录5R语言主要数据预处理函数 4l 在数据挖掘的过程中,数据预处理占到了整个过程的60%。l 数据预处理的主要任务包括数据清洗,数据集成,数据变换和数据规约。处理过程如图所示:数据预处理 5数据清洗l 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值等。6缺失值处理l 处理缺失值的方法可分为三类:删除记录、数据插补和不处理。其中常用的数据插补方法见下表。7线性回归n lm=linear mod
2、eln lm(ab)就是对a=k*b+c进行线性拟合n 线性回归模型,a是应变量,b是自变量 8线性回归 9线性回归n x y plot(yx)10线性回归 11线性回归 mod summary(mod)Call:lm(formula=y 1+x)Residuals:Min 1Q Median 3Q Max 残差的-2.0431-0.7056 0.1694 0.6633 2.2653 Coefficients:#估计值标准差值值 Estimate Std.Error t value Pr(|t|)(Intercept)28.493 1.580 18.04 5.88e-09*x 130.835
3、9.683 13.51 9.50e-08*-Signif.codes:0*0.001*0.01*0.05.0.1 1Residual standard error:1.319 on 10 degrees of freedom残差标准差,自由度为Multiple R-squared:0.9481,Adjusted R-squared:0.9429 调整F-statistic:182.6 on 1 and 10 DF,p-value:9.505e-08统计量和值。12线性回归n 接下来对所得结果进行分析:n 结果中Call部分列出了相应的回归模型公式;n Residuals部分列出了残差的最小值点
4、、四分之一分位点、中位数点、四分之三分位点和最大值点;n Coefficients部分中 Estimate 是回归方程参数的估计值,Std.Error表示回归参数的标准差,t value 即为t值,Pr(|t|)即为p值,后面的*为显著性标记,*越多越显著;n Multiple R-squared即为R2,越接近于1越优。13线性回归n 模型建立好后可以进行预测:newX predict(mod,newdata=newX,interval=prediction,level=0.95)#interval=pred表示要给出置信区间 fit lwr upr1 49.42639 46.36621 5
5、2.48657 14线性回归n 当模型通过检验,可用于预测,此时我们需要用到R中的predict()函数,假设我们要预测x等于0.16时y的值,其中interval=prediction表示求预测点的值的同时要给出相应的预测区间,level=0.95表示我们求95%的置信区间。n 分析结果:fit 值即为x=0.16时y的预测值,lwr和upr分别表示预测区间的上下限。一般的回归分析做到这里就可以了。15缺失值处理l 插值方法有Hermite插值、分段插值、样条插值法,而最主要的有拉格朗日插值法和牛顿插值法。以下便对这两种进行介绍。拉格朗日插值法 第一步:求已知的n个点对 的基函数 第二步:求
6、已知的n个点对 的插值多项式 第三步:将缺失的函数值对应的点 代入插值多项式得到缺失值的近似值 1122(,),(,)(,)nnx yxyxy,njijj o j iijxxlxxx1122(,),(,)(,)nnx yxyxy 0,nnjiij o j iijxxL xyxx L x 16缺失值处理牛顿插值法 第一步:求已知的n个点对 的所有阶差商公式 ;第二步:联立以上差商公式建立如下插值多项式 第三步:将缺失的函数值对应的点 代入插值多项式得到缺失值的近似 值 1122(,),(,),(,)nnx yxyxy11111()(),f xf xf xf xf x xxxxx121212,f
7、x xf xxf xx xxx()f x213213213,f x x xfx xf x x x xxxx11211232112343211211211211()()(),()(),()()(),()()(),()()(),nnnnnnf xf xxxf x xxxxxf x x xxxxxxxf x x x xxxxxxxf xxx xxxxxxxf xxx x()f x 17缺失值处理实例l 餐饮系统中的销量数据可能出现缺失值,下表为某餐厅一段时间的销量表,其中有一天的数据缺失,用拉格朗日插值与牛顿插值法对缺失值补缺。18mice()函数用法n 步骤详细介绍:n 函数mice()首先从一个
8、包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。n 每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。由于插补有随机的成分,因此每个完整数据集都略有不同。n 然后,with()函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型),n 最后,pool()函数将这些单独的分析结果整合为一组结果。最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。19mice()函数用法n 结果解读:n(1)imp对象中,包含了:每个变量缺失值个数信息、每个变量插补方式(PMM,预测均值法常见)、插补的变量有哪些、预测变量矩阵(在矩阵
9、中,行代表插补变量,列代表为插补提供信息的变量,1和0分别表示使用和未使用);n 同时 利用这个代码imp$imp$sales 可以找到,每个插补数据集缺失值位置的数据补齐具体数值是啥。20mice()函数用法n mice函数主要参数有mice(数据集,m=5,meth=”PMM“)n m为默认插补数据集数量,5为默认值;meth为默认插补方式,PMM为默认方式预测均值匹配。n 还有一些其他methods插补方法,比如贝叶斯线性回归(norm)、基于bootstrap的线性回归(norm.boot)、线性回归预测值(norm.predict)、分类回归树(cart)、随机森林(rf)等等。(详
10、情可help(mice)获取信息)n 使用这些插补方法对数据有严格的要求,比如贝叶斯线性回归等前三个模型都需要数据符合numeric格式,而PMM、cart、rf任意格式都行。n 使用以上模型遇见的问题有:n 1、PMM相当于某一指标的平均值作为插补,会出现插补值重复的问题;n 2、cart以及rf是挑选某指标中最大分类的那个数字,是指标中的某一个数字,未按照规律;n 3、要使用norm.predict,必须先对数据进行格式转换,这个过程中会出现一些错误。21mice包n md.pattern()n 通常,一个可靠的最大阈值是数据集总数的5%。如果某些特征或样本缺失的数据超过了5%,你可能需要
展开阅读全文