商务智能课件：第5章数值预测.ppt

上传人（卖家）：罗嗣辉

文档编号：2041040

上传时间：2022-01-19

格式：PPT

页数：40

大小：1.23MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《商务智能课件：第5章数值预测.ppt》由用户（罗嗣辉）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 商务智能课件：第5章数值预测商务智能课件数值预测

资源描述：: 1、Principles and Applications of Business IntelligenceChap 5 ：数值预测 1Introduction to商务智能方法与应用第5章数值预测Chapter5: Numeric predictionPrinciples and Applications of Business IntelligenceChap 5 ：数值预测 2主要内容 5.1 数值预测的概念 5.2 回归方法 5.3 回归树与模型树 5.4 K近邻数值预测 5.5 预测误差的度量Principles and Applications of Business Intelli
2、genceChap 5 ：数值预测 35.1 数值预测的概念Principles and Applications of Business IntelligenceChap 5 ：数值预测 4分类 vs. 数值预测有监督的预测问题数值预测预测的是数值，通常是连续类型的数值连续数值Continuous value描述属性（自变量）目标属性(因变量）Principles and Applications of Business IntelligenceChap 5 ：数值预测 5数值预测方法回归分析回归树，模型树 K近邻MYCTMMINMMAXCACHCHMINCHMAXPRP125256
3、600025616128198298000320003283226929800032000328322202980003200032832172268000320006483231823160003200064163236723160003200064163248923160006400064163263623320006400012832641144400512350041640表5.1 数据集CPU的子集机器周期时间、最小内存、最大内存、缓存、最小信道、最大信道及相对性能Principles and Applications of Business IntelligenceChap 5
4、：数值预测 65.2 回归方法Principles and Applications of Business IntelligenceChap 5 ：数值预测 75.2 回归分析 5.2.1 一元线性回归 5.2.2 多元线性回归 5.2.3 非线性回归Principles and Applications of Business IntelligenceChap 5 ：数值预测 8 Linear regression: Y = 0 + 1X+ - Parameters: 0 , 1- Random variable: N(0, 2)一元线性回归$0$10$20MonthlyProfitAge
5、206040minimizePrinciples and Applications of Business IntelligenceChap 5 ：数值预测 9线性回归分析的基本步骤（1）构建包含因变量和自变量的训练集；（2）通过散点图，确认因变量和自变量之间的近似线性关系；（3）估计系数，构建模型；（4）检验模型；（5）利用模型进行预测Principles and Applications of Business IntelligenceChap 5 ：数值预测 10 基于观测样本估计参数：- 用最小二乘法拟合(x1, y1) (x2,y2) 一元线性回归分析$0$10$20MonthlyP
6、rofitAge206040minimizeiiyabxPrinciples and Applications of Business IntelligenceChap 5 ：数值预测 11least squares (最小二乘法)- 残差平方和，- 最小化SSE- : mean values of X and Y- sxx 称为x的校正平方和, sxy 称为校正交叉乘积和- syy称为y的校正平方和。2211()nnEiiiiiSSyy-12111()()()11niixyinxxiinniiiixxyysbsxxaybxybxnn- xy和Principles and Applicatio
7、ns of Business IntelligenceChap 5 ：数值预测 12一元线性回归baPrinciples and Applications of Business IntelligenceChap 5 ：数值预测 13模型检验回归平方和SSR 总离差平方和SST: 将y的均值作为总体估计值时的误差 SST=SSE+SSR- 总离差平方和中被回归模型解释的部分为回归平方和拟合优度检验- R2 , adjusted R square- n为样本个数，k为自变量的个数21()nRiiSSyy-21(y)nTiiSSy-2221/(1)111(1)/(1)1RETTETSSSSRS
8、SSSSSnknRRSSnnk - - -2R2211()nnEiiiiiSSyy-Principles and Applications of Business IntelligenceChap 5 ：数值预测 14回归模型的显著性检验假设： H0：b=0; H1: b0 可以证明在H0成立的情况下由下式定义的F符合F(1,n-2)分布给定显著性水平，查自由度为（1，n-2）的F分布临界值表得临界值F (1,n-2)，若由上式计算的F0 F (1,n-2)则因变量和自变量之间的线性关系显著，假设H0被拒绝/(2)RESSFSSn-iiyabxPrinciples and Applicat
9、ions of Business IntelligenceChap 5 ：数值预测 15回归系数的显著性检验为了检验回归模型中每个回归系数的显著性，可以推导出系数a和b的样本方差可以证明tb=b/Sb和ta=a/Sa均符合自由度为(n-2)的t分布其中重要的是检验系数b是否为0。因此需要检验假设H0: b=0; H1: b0 给定显著性水平，查自由度为(n-2)的t分布表，得到t (n-2)若tb t (n-2)，则拒绝假设H0，即回归系数b显著同时可以计算出P 值（p value），一般以P 0.05 为显著， P F (k, n-k-1)=- 若F0F (n-k-1) 则因变量和自
10、变量之间的线性关系显著，假设H0被拒绝REMSFMSPrinciples and Applications of Business IntelligenceChap 5 ：数值预测 21方差分析表方差类型方差类型自由度自由度平方和平方和均方差均方差F 回归回归kSSRMSRF= MSR/ MSE残差残差n-k-1SSEMSE总离差总离差n-1SST 表5.3 回归分析结果中通常返回的方差分析表的构成Principles and Applications of Business IntelligenceChap 5 ：数值预测 22回归系数的显著性检验回归系数的显著性检验可以采用t检验。对于
11、每个回归系数bi (i=1, 2, , k)，显著性检验的两个假设分别为 H0：bi=0; H1: bi0。为每个回归系数bi构造变量 cii是矩阵C=(XTX)-1的对角线上的第i个值。给定显著性水平，查自由度为（n-k-1）的t分布表，得到t (n-k-1)，若 t (n-k-1)，则拒绝假设H0，即回归系数bi显著ibtiiiibbiiEbbtScMSibtPrinciples and Applications of Business IntelligenceChap 5 ：数值预测 23非线性回归分析y=a+bx2 假设x1=x2，则原来的非线性关系变为y=a+bx1Princip
12、les and Applications of Business IntelligenceChap 5 ：数值预测 24 转换为线性回归: - : lgy=lga+blgx- y=aebx，可以通过两边取对数变换为lny=lna+bx- y=a+blgx，设 X=lgx，则有y= a+b X. Weka: weka.classify.functions.LinearRegressionData: cpu非线性回归分析y=axbPrinciples and Applications of Business IntelligenceChap 5 ：数值预测 255.3 回归树与模型树Princip
13、les and Applications of Business IntelligenceChap 5 ：数值预测 265.3 回归树与模型树 5.3.1 模型树的构建 5.3.2 模型树的剪枝Principles and Applications of Business IntelligenceChap 5 ：数值预测 27模型树的构建回归树的叶子结点对应一个数值，模型树的叶子结点对应一个线性回归方程- If CHMIN 7.5 and MMAX 7.5 and MMAX 28000, then PRP =-0.4882 * MYCT+ 0.0218 * MMIN+ 0.003 * MMA
14、X+ 0.3865 * CACH+ 3.2333 * CHMAX- 67.9242图5.3 cpu数据集的模型树Principles and Applications of Business IntelligenceChap 5 ：数值预测 28构建模型树的主要步骤训练数据集D；类别C=c1, c2, , ck 创建一个结点t，与结点t关联的数据集记为Dt。初始情况下训练数据集中的所有样本与根结点关联，即Dt=D。将t设为当前结点。如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值（例如初始数据集D的标准差的5%）, 则将该结点标记为叶子
15、节点，停止对该结点所关联的数据集的进一步分裂，对数据集Dt运用多元线性回归建模方法构建回归模型。否则，进入下一步。为数据集Dt选择分裂属性和分裂条件。根据分裂条件将数据集Dt分裂为2个子数据集，为结点t创建2个子女结点，将这2个子数据集分别与之关联。依次将每个结点设为当前结点，转至步骤2进行处理，直至所有结点都标记为叶子结点。Principles and Applications of Business IntelligenceChap 5 ：数值预测 29分裂属性的选择分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据，将标准差作为一种误差度量，将分裂前后标准差的减少量作为
16、误差的期望减少，称为SDR（standard deviation reduction）假设数据集D按照属性A的取值分裂为两个子数据集D1和D2，此次分裂的SDR值的计算公式如下： sd(D)代表数据集D中目标属性取值的标准差，|D|代表数据集D中包含的样本个数21|SDR(D, A)sdsd()|iiiDDDD-Principles and Applications of Business IntelligenceChap 5 ：数值预测 30分裂条件连续取值的属性A：将A的所有取值升序排列，每两个相邻的取值的中点可以作为一个候选的分裂点，中点假设用vm表示，分裂条件则为 Avm 和 Av
17、m 计算每个候选分裂点的SDR值，选取具有最大值的分裂点作为该属性的分裂条件CHMINPRP140826982208172831816367164891663616198321144Principles and Applications of Business IntelligenceChap 5 ：数值预测 31分裂条件Principles and Applications of Business IntelligenceChap 5 ：数值预测 32分裂条件 (单身)=(20+40+90)/2=50，(已婚)=120，(离异)=80 排序: 单身、离异、已婚 A1：婚姻状况单身和婚姻状
18、况离异，已婚 A2：婚姻状况单身，离异和婚姻状况已婚婚姻状况婚姻状况账户余额（万）账户余额（万）单身单身20单身单身40单身单身90已婚已婚30已婚已婚200已婚已婚130离异离异60离异离异100Principles and Applications of Business IntelligenceChap 5 ：数值预测 33模型树的剪枝为了避免过度拟合，需要对模型书进行剪枝。剪枝通过对树深度优先遍历从叶子结点向根结点进行给定结点t及所关联的数据集Dt，设样本个数为n，数据集Dt对应的多元线性回归模型Mt，Mt中涉及的自变量的个数为v，设利用该模型，Dt中每个样本的目标属性的预测值为p
19、i、真值为ai，其节点t的期望误差error(t)如下计算：Principles and Applications of Business IntelligenceChap 5 ：数值预测 34模型树的剪枝子树误差：两个叶子结点的期望误差通过加权求和结合在一起作为子树误差，权值是叶子结点包含样本占其父结点样本个数的比例若当前结点的期望误差小于子树误差，则将该结点设为叶子结点，即此子树被一个叶子结点代替Principles and Applications of Business IntelligenceChap 5 ：数值预测 355.4 K近邻数值预测Principles and App
20、lications of Business IntelligenceChap 5 ：数值预测 36K近邻假设训练集D由n个观测样本构成：oi=(xi1, xi2, xik，yi)，i=1,2, n ， yi是目标属性Y的取值对于测试集T中的一个测试样本tj=(xj1, xj2, xjk，yj), jn，选取与测试样本最相似的K个观测样本，构成集合N(tj) 测试样本tj的目标属性的预测值pj可以如下计算：Principles and Applications of Business IntelligenceChap 5 ：数值预测 375.5 预测误差的度量Principles and A
21、pplications of Business IntelligenceChap 5 ：数值预测 38性能评估数据集的构造- 训练集，测试集- 交叉验证 cross-validation 度量- 平均绝对误差(mean absolute error) MAE- 均方误差(mean-squared error) MSE- 均方根误差(root mean-squared error) RMSE- 相对平方误差(relative squared error) RSE- 相对绝对误差(relative absolute error) RAE 假设测试集T包含m个样本，对于测试集T中的每个测试样本tj=(xj1, xj2, xjk，yj), njn+m，利用预测模型得出的目标属性的预测值为pj，则11|n mjjj nMAEpym -211()n mjjj nMSEpym -21211()1 y=()n mjjn mj njn mj njj npyRSEymyy -其中111|1 y=|n mjjn mj njn mj njj npyRAEymyy -其中Principles and Applications of Business IntelligenceChap 5 ：数值预测 40

展开阅读全文