线性回归和相关精选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《线性回归和相关精选课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 线性 回归 相关 精选 课件
- 资源描述:
-
1、线性回归和相关(优选)线性回归和相关 在生物学中,还有很多现象之间有类似的或强或在生物学中,还有很多现象之间有类似的或强或弱的相互依存关系弱的相互依存关系.例如身高与体重例如身高与体重、体温与脉搏、年龄与血压、毒、体温与脉搏、年龄与血压、毒物剂量与动物的存活时间等等。物剂量与动物的存活时间等等。英国统计学家英国统计学家Pearson K(18571936)1903搜集了搜集了1078个家庭人员的身高、前臂长等指标的记录,发个家庭人员的身高、前臂长等指标的记录,发现儿子的身高(现儿子的身高(Y,英寸)与父亲的身高(,英寸)与父亲的身高(X,英,英寸)存在线性关系。寸)存在线性关系。0 0.5 5
2、1 16 6x x3 33 3.7 73 3Y YK.K.皮尔逊皮尔逊(K.Pearson,1857-1936)(K.Pearson,1857-1936)Galton将这种趋向于种族稳定的现象将这种趋向于种族稳定的现象称之为称之为“回归回归”(regression).“回归回归”逐渐发展成为分析两个变量或逐渐发展成为分析两个变量或多个变量之间某种数量依存关系的一多个变量之间某种数量依存关系的一类统计方法。类统计方法。(Francis Galton,1822-1911)8.1直线回归直线回归 在实际生活中,很多双变量间关系呈直线趋势,但不是严格在实际生活中,很多双变量间关系呈直线趋势,但不是严格
3、的直线关系,为了区别于两变量间的直线关系,我们称这种的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。关系为直线回归。直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程。直线回归方程。直线方程:直线方程:y=a+bx直线回归方程:直线回归方程:b bx xa aY Y8.1.1、直线回归的概念、直线回归的概念实例实例 某地某地1212名女大学生的体重与肺活量的测量值如下名女大学生的体重与肺活量的测量值如下 体体重重(kg)X 42 42 46 46 46 50 50 50 52 52 58 58 肺肺活活量量(
4、L)Y 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3.00 图12-1 女大学生体重与肺活量散点图图12-1 女大学生体重与肺活量散点图2.02.02.42.42.82.83.23.23.63.640404545505055556060体重X(Kg)体重X(Kg)肺肺活活量量Y(L)Y(L)两变量之间存在一定两变量之间存在一定关系,但不十分确定的。关系,但不十分确定的。表现在表现在X与与Y的散点图中,的散点图中,散点有回归到某条直线上散点有回归到某条直线上去的趋势,这种关系称为去的趋势,这种关系称为直线回归。直线回归。相关:只
5、说明是否有关联。CASIO fx3600PA条件两变量(X,Y)都是来自正态分布的随机变量5 8.53 293.(1)回归直线应在X的实测范围内或实际可应用范围内绘制,不要任意延长。y发育历期;例棉红铃虫蛹的发育历期与温度的关系如下00 2500 76.05,拒绝H0,接受H1。y(Tt)=K K有效积温;Sb为回归系数的标准误2)x必须是简单性状,y必须是难于观测的复杂性状。在实际生活中,很多双变量间关系呈直线趋势,但不是严格的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。1狗的红血细胞数(y,单位百万个)和填充细胞体长度(x,单位mm)的关系表现在X与Y的散点图中,散点
6、有回归到某条直线上去的趋势,这种关系称为直线回归。axx),(yxbxayy0)(ayxtg 当x、y为不确定关系时)1,0(:,:,Nbxayxyxiiiiiiii一般认为为随机误差有实际上对每个受随机因素的影响由于值现有一组bxayxy8.1.2 直线回归方程式的建立直线回归方程式的建立(1)一般表达式一般表达式 a:截距,直线与:截距,直线与Y轴交点的纵坐标。轴交点的纵坐标。b:斜率,:斜率,又称回归系数,用来描述又称回归系数,用来描述Y依赖依赖X的直的直线变化的数量关系与大小线变化的数量关系与大小。意义意义:X每改变每改变一个一个单位,单位,Y平均改变平均改变b个单位。个单位。bXaY
7、 b0,y随随x的增大而增大的增大而增大-斜上;斜上;b0a=0a 0b=0b0(2)确定直线回归方程的准则(参数)确定直线回归方程的准则(参数a和和b的估计)的估计)2.02.02.42.42.82.83.23.23.63.640404545505055556060最小必须使根据最小二乘法的数量关系与能最好地反映要使设拟合出来的方程为222)()(Q:,iiiiibxayyyyxbxaybxay0,回归有意义。Sum of square05,不拒绝H0,若r r0.如果两H0均被接受,则可认为两组数据是抽自同一总体,从而将两回归方程合并,得到一个更加精确的方程。直线方程:y=a+bx则“+”
8、的乘积占优势,点的趋势6应用直线回归应注意事项:而且 越大,例棉红铃虫蛹的发育历期与温度的关系如下描述两变量间是否有直线关系 以及直线关系的方向和密切程度的分析方法。表现在X与Y的散点图中,散点有回归到某条直线上去的趋势,这种关系称为直线回归。附计算器的相关和回归功能(优选)线性回归和相关1“狗红血细胞数和填充细胞体长度”的回归模型作显著性检验应对回归系数进行假设检验。公式 t(dfn-2)4直线回归的区间估计7 xy=3441.05,拒绝H0,接受H1。xyxbxayxbanequationregularxbxaybbxaybxaybxaybbxayxbnayabxaybxaybxayabx
9、ayabxayyyiii22222222:0)(2)()()()(0222)()()()(:,0bQ;0Q:,)()(Q正则方程整理得以下方程组即有理原值小最的学分微照按最小SSXSSXYxxyyxxnxxnyxxyxxnyxxynbyxxynxxnbxnbxbyxxynxbxnxbyxynxbyaxyxbxayxban 22222222222)()()()()()()(II)(I)(II)(I)式得,代入式得由XY乘积和X的平方和),(_yxxbynxbnynxbya即直线通过点nyxxySSXYnyySSYnxxSSXXYyyxxSSXYYyySSYXxxSSX)()()(,)(,)()(
10、222222在实际计算时,的乘积和;称为的平方和;称为的平方和;,称为记35 5.90 206.50 1225 34.810058 9.49 550.42 3364 90.060140 6.20 248.00 1600 38.440039 6.55 255.45 1521 42.902550 8.72 436.00 2500 76.0384x=455 y=73.7 xy=3441.52 x2=21203 y2=560.322417.887.7345510152.344115.17107.733224.560)(50.5001045521203)(37.7107.73;50.4510455322
11、4.560;2120352.3441;7.73;455222222_22nyxxySSXYnyySSYnxxSSXnyynxxyxxyyx解:xyxbyaSSXSSXYb176.064.064.05.45176.037.7,176.050.50017.88所求的回归方程为:例例8.2 某地某地10名女中学生的体重与肺活量数据如下,试进行名女中学生的体重与肺活量数据如下,试进行肺活量肺活量y(L)对体重对体重x(kg)的回归分析。的回归分析。计算步骤:计算步骤:编编 号号 X Y X2 Y2 X Y 1 3 5 1.6 0 1 2 2 5 2.5 6 0 0 5 6.0 0 2 3 7 1.6
12、0 1 3 6 9 2.5 6 0 0 5 9.2 0 3 3 7 2.4 0 1 3 6 9 5.7 6 0 0 8 8.8 0 4 4 0 2.1 0 1 6 0 0 4.4 1 0 0 8 4.0 0 5 4 0 2.6 0 1 6 0 0 6.7 6 0 0 1 0 4.0 0 6 4 2 2.5 0 1 7 6 4 6.2 5 0 0 1 0 5.0 0 7 4 2 2.6 5 1 7 6 4 7.0 2 2 5 1 1 1.3 0 8 4 3 2.7 5 1 8 4 9 7.5 6 2 5 1 1 8.2 5 9 4 4 2.7 5 1 9 3 6 7.5 6 2 5 1 2 1.
13、0 0 1 0 4 5 2.2 0 2 0 2 5 4.8 4 0 0 9 9.0 0 4 0 5 2 3.1 5 1 6 5 0 1 5 5.2 8 7 5 9 4 6.5 5 表表12-1 某地某地10名女中学生的体重与肺活量数据名女中学生的体重与肺活量数据y复杂的、调查困难的、真正要调查性状。1)设总体相关系数为,H0=0则“+”的乘积占优势,点的趋势病虫害预测预报因子的选择类型则“+”的乘积占优势,点的趋势4 LD50或LC50的计算零相关 零相关 零相关r说明具有直线关系的两个变量间关系的密切程度和方向。MODE 2 进入相关与回归 LR1 24.不同饲料组大鼠肝中维生素A的含量(I
14、U/g)例棉红铃虫蛹的发育历期与温度的关系如下例棉红铃虫蛹的发育历期与温度的关系如下r说明具有直线关系的两个变量间关系的密切程度和方向。1狗的红血细胞数(y,单位百万个)和填充细胞体长度(x,单位mm)的关系Sum of square12只大鼠的进食量与体重增生量3 相关系数示意图1 24.r说明具有直线关系的两个变量间关系的密切程度和方向。回归:由一个变量值推算另一个变量的数值,说明依存变化的数量关系。图1 2-1 女 中学生体重与肺活量散点图图1 2-1 女 中学生体重与肺活量散点图1.21.21.41.41.61.61.81.82 22.22.22.42.42.62.62.82.8333
15、3353537373939414143434545体重体重x(Kg)(Kg)肺肺活活量量y(L)(L)/由数据及散点图初步分析,有直线趋势时转入下步由数据及散点图初步分析,有直线趋势时转入下步(否则不能作此分析)。(否则不能作此分析)。8.2求合计数求合计数,405 X,165012 X,15.23 Y,2875.552 Y 55.946XY0911.010405165011015.2340555.946/)(/)(222nXXnYXXYb3746.1104050911.01015.23 XbYa列出回归方程列出回归方程XY0911.03746.1 直线回归方程的图示直线回归方程的图示 图1
16、2-2 女 中学生体重与肺活量散点图及回归直线图1 2-2 女 中学生体重与肺活量散点图及回归直线1.21.21.41.41.61.61.81.82 22.22.22.42.42.62.62.82.83333353537373939414143434545体重体重x(Kg)(Kg)肺肺活活量量y(L)(L)/XY注意:注意:(1)(1)回归直线应在回归直线应在X X的实测范围内或实际可应用范围内绘制,不要任意延长。的实测范围内或实际可应用范围内绘制,不要任意延长。点点)y y,x x直直线线经经过过(2 2)(3)(3)直线与纵轴交点的纵坐标为截距直线与纵轴交点的纵坐标为截距 a a8.2回归
17、系数的假设检验回归系数的假设检验样本回归系数样本回归系数b0原因原因 由于抽样误差引起,由于抽样误差引起,=0 存在回归关系,存在回归关系,0问题:总体回归方程是否成立问题:总体回归方程是否成立(即总体回归系数即总体回归系数是否为是否为0)?若若=0,则,则Y不依赖于不依赖于X,回归无意义;,回归无意义;0,回归有意义。,回归有意义。-假设检验:方差分析或假设检验:方差分析或 t 检验检验 1方差分析方差分析 F检验检验1)变异来源总体变异来源总体Y的变异由的变异由2个原因个原因a)x 的变动引起的变动引起 y 的变异(回归,的变异(回归,regression)b)其他因素)其他因素除回归因素
18、以外的因素,除回归因素以外的因素,是随机误差。也称为剩余(残差,是随机误差。也称为剩余(残差,residuals)因素或离回归因素。)因素或离回归因素。2)平方和的分解)(:;:)()()()()(22_2_2_离回归平方和剩余平方和回归平方和总平方和SSESSRSSESSRyyyyyyyyyySSY22222222)()()()()()()()(xxbyyxxbyybxxbyybxaybxayyySSExbya22222222)()()()()()(yyxxbyyxxbyyyySSE移项得即SSXYbSSYSSRSSYSSESSXYbSSXSSXYSSXSSXSSXYSSXbxxbSSR )
19、(22222即SSYSSRSSE211:1121:1:QnndfdfdfdfndfRTRT剩余自由度变量个数回归自由度总自由度2)自由度的分解:自由度的分解3)原假设H0B=04)统计量.,能性就很大变动的可的变动引至反之因变动的可能性就很小变动引至的则因如两方差为同源源性方的同检验回归均方与剩余均yxyx.,:;,:;,:)2,1(,)2,1()2(SSE1005.001.005.0001.0相关不显著接受若相关显著若的线性关系极显著与则拒绝若值表得临介值查对于给定的剩余自由度剩余平方和剩余自由度回归自由度回归平方和回归均方HFFFFFxyHFFnFFnFMSMSFnMSSSRSSRMSER
20、ER)2,1()2/(nFnSSESSRMSMSFERSourceDegree of freedomSum of squareMean squareFRegression1SSR MSRMSR/MSEResidualsn-2SSEMSETotaln-1SSY2 t检验检验 公式公式 t(dfn-2)bbSbSbt0Sb为回归系数的标准误为回归系数的标准误SSXMSSEb2SSXMSbSbtnSSXYbSSYnSSEMSEbE/2)(2即:理论上,同一份资料,理论上,同一份资料,F检验和检验和t检验有关系式检验有关系式t2=F。相关极显著现已知:检验,326.11)8,1(69.768/62.1
展开阅读全文