第六讲:数据分析技术(四)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第六讲:数据分析技术(四)课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 数据 分析 技术 课件
- 资源描述:
-
1、第六讲:数据分析技术(四)数据挖掘工作意图数学挖掘工作意图是揭示海量数据中的隐蔽规律,以预测目标顾客、风险控制、欺诈模式识别等工作为主要目的。做好数据挖掘工作需要准备好三件事:()定义好问题谁是目标消费者?()高质量的历史数据几年的客户购买记录()一个强大的建模工具数据挖掘软件数据挖掘工作流程抽样定义问题数据探测数据清冼定义数据属性建模模型评估预测或计算得分分析报告问题背景假如你为一个邮购公司工作。公司为了配合销售活动,希望每月发送家具和家用器品产品目录给潜在消费者,内容包括厨房用具、碗碟和餐具产品的目录。假如向全部消费者寄送费用太贵,必须选择购买该类产品概率较大消费者邮寄。现在如何确定一份待
2、邮寄名册?我们将通过建立消费倾向模型,使用数据挖掘工具来确定邮寄名单和分析活动效益情况。假如你有一个珍贵的顾客购买记录数据。这个数据包括能显示顾客过去两年是否购买过厨房用具、碗碟和餐具等信息。数据文件名为CUSTDET1,它包括了如下49个变量和标签:PurchaseDollars SpentYearly IncomeHome ValueOrder FrequencyRecencyMarriedName PrefixAgeSexTelemarket Ind.Rents ApartmentOccupied 0,则DINBEIN1;当Dining0,则DINBEIN0;Transform Vari
3、ables ToolboxTransform Variables 使用软件提供的变换公式创建一个使用软件提供的变换公式创建一个新变量新变量 Create Variable 使用使用Create Variables window 创建自创建自定义变换定义变换Delete Variables 删除变换后的新变量,但不能删除原变删除变换后的新变量,但不能删除原变量。量。原数据变量窗口数值键板运算符面板自定义变换公式函数窗uTraining 用来拟合模型的数据集.uValidation 用来评估模型和模型调整的数据集。uTest 用来获得最终模型误差的无偏估计。uScore 得分数据集,可以包括目标变
4、量,也可以不包括。分割 p分位数(Quantile)用来划分频数相同的组。p分割(Bucket)为等间隔区间,每组间的样本数不一定等。pOptimal Binning for Relationship to Target:把变量分成n组,使分组后变量与目标变量相关系数最大。适合在二值变量与输入变量之间存在非线性关系的情况。Maximize normalityPower Transformation:变换后变量最接近正态分布。Maximize Correlation with Target Power Transformation:变换后变量与目标变量线性相关系数最大,适合区间目标变量。Equa
5、lize Spread with Target Levels Power Transformation:变换后变量与目标变量具有方差稳定性。选择x、log(x)、x1/4、sqrt(x)、x2、x4、ex中之一作为变换式在建模前,我们除了要定义变量模型角色、数据类型外,还必需定义决策成本、收益信息,即决策函数。在商业智能中,分析模式都是商业决策模型。例如,消费响应预测、信用等级评估和商品关联描述等模型。在本问题中,我们要定义DINBEIN为目标变量,是二值变量;放弃与它共线性的四个变量。依据邮送成本收益和原总体响应比例情况,定义决策矩阵和先验概率。数据集属性节点能完成上述任务。设置数据集属性它
6、能修改数据属性。例如,数据集名、描述、角色。也能修改样本信息,例如,变量角色、测度水平。在变量表中可以定义目标变量框架。预测模型需要定义唯一的目标变量和多个输入变量,模型评价需要定义目标变量的决策矩阵和样本权重,预测需要定义DI变量。变量表决定变量是输出还是不输出修改变量角色修改变量测度本次数据挖掘工作:本次数据挖掘工作:()把()把Dining、Kitch、dish、flat四个变量角色改为四个变量角色改为Rejected,DINBEIN变量角色改为变量角色改为Target。()把()把DINBEIN变量测度改为变量测度改为binary。定义目标变量框架成本收益假设:()制作、印刷和邮寄一份
7、产品目录成本10元;()若正确预测,即邮寄一份,顾客将来购物,每顾客平均花费90元,即赢得利润80元;若预测不正确,即邮寄一份,但顾客未来购物,此时亏本10元。编辑目标框架评估信息,即定义决策目标函数先验概率定义注:由于目标变量值较少,仅在总体中占12,但为了有足够训练目标值,在数据库中对样本进行了重抽样,产生了足够多的目标值,占样本中的54左右,为此建模需要加权处理。数据分割Data Partition节点将输入数据分割为下列互斥数据:Training 用来拟合模型的数据集.Validation 用来评估模型和模型调整的数据集。Test 用来获得最终模型误差的无偏估计。为了拟合模型需要定义一
8、个训练数据集;为了保证模型的稳健性,需要定义效验数据集评估模型,决策稳建模型;为得到模型参数的一致最小无偏估计,需要定义测试数据集。它们均来自样本的随机抽样的互斥数据集。前面过程输入的数据只有观察数据的角色、测度等信息,不能改变。简单随机抽样分层抽样自定义数集将总体分成若干个层,指定每层样本数,在每层中进行简单随机抽样,得到的总样本,这种抽样方式称为分层抽样。自定义数集就是指定具有标志的分割数据集变量作为分割变量,依据此变量将输入数据分为训练集、效验集、或测试集。miiGmI121观察结果miiiEmI1log mnlmlmVnyymIm12缺失值处理Replacement节点用来处理缺失值。
9、缺失值是不能用来回归建模和神精网络建模。若用放弃所有的缺失值的样本来估计,可能会得有偏估计模型。使用适当的缺失值处理方法有利得到更准确的预测。本例中DINBEIN没有缺失数据,可以省掉此过程。现实调查、观察和记录难免产生缺失数据,可是缺失数据经常会影响模型的精度。例如,不回答者可能就是不赞成者,若你把他们全排除,你的模型结论可能出现严重偏差。因此,在建前应该仔细研究缺失数据的情况和原因,采取全适的方法处理,尽量减少缺失数据可能对模型影响的程度。Replacement节点专门处理缺失数据的功能模块,但处理缺失数据的方法很多,要选择合适的方法,不仅需要专业统计知识,更需要熟习数据采集情况,要了解产
10、生缺失数据的原因。在本例中没有缺失数据,因此,可以不要此过程。回归模型建模之前需要处理缺失数据,决策树模型不需要,自动把缺失数据归于一类。选择具备一定角色的数据集随机抽样补缺使用Defaults栏指定方法:在处理缺失值之前指定缺失值代替方法。用得分集代替不清楚类变量的值。对每一个变量创建带有标志的处理变量来处理观察值。类变量统计处理方法:最大频率法基于分布法树支处理法树支首规则处理法常数法无处理对区间变量处理缺失值统计方法:Mean均值法Median中位数法Midrange极值的中间值法Distribution based基于分布法Tree imputation树支处理法Tree imputa
11、tion with surrogates树支首规则处理法Mid-minimum spacing中间平均值估计法Tukeys biweightTukey加权法HubersHuber加权法Andrews WaveAndrew波动法Default constant常数法None不处理树模型一个完整的树是指通过一系列简单规则分割数据。每一个规则就是根据某变量值将样本分给一个数据块,在数据块内一个规则接一个规则应用,将数据块分为更细的数据块。层次称为树,每块数据称为节。原始数据称为根,具有多个后续节的节称为支,最终节称为叶。每一个叶为对全部样本的一个决策结果,它依赖上下文,这种预测模型称为决策树模型。检
12、验,使叶间方差与叶内方差比足够大。减小节点平均值的均方误减少熵值,提高节的纯度减小Gini值,提高节的纯度。分支标准设置显著性水平,不宜太高节中保证的最少观察数在每节中替补值个数树节点支持下列模型评价标准:树节点支持下列模型评价标准:区间目标变量:区间目标变量:Profit or loss 平均利润最大,或平均损失最小。平均利润最大,或平均损失最小。ASE 最小平均误差。最小平均误差。Average,profit,or loss in the top 10,25,or 50%-对对n顶部样本顶部样本最大平均利润,或最小平均损失。最大平均利润,或最小平均损失。顺序目标变量:顺序目标变量:Prop
13、ortion misclassified 最小错判率。最小错判率。Ordinal-proportion correct,profit,or loss 最好的秩序正判率。最好的秩序正判率。Proportion of event,profit,or loss in top 10,25,or 50%-在数据在数据n的顶部最大利润或最小损失。的顶部最大利润或最小损失。Total Leaf Impurity(Gini Index)最大叶内纯度(最小最大叶内纯度(最小Gini指数)。指数)。二值或名义目标变量:二值或名义目标变量:Proportion misclassified 误判比例最小。误判比例最小
展开阅读全文