数据挖掘与应用十三培训课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘与应用十三培训课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 应用 十三 培训 课件
- 资源描述:
-
1、数据挖掘与应用十三数据挖掘与应用十三3因变量为二分变量的情形因变量为二分变量的情形若因变量只有两种取值,可不失一般性地假设它们为若因变量只有两种取值,可不失一般性地假设它们为0和和t。设模型预测观测设模型预测观测i属于类别属于类别0和类别和类别1的概率分别为的概率分别为 和和 。0ip1ip可使用以下方法得到可使用以下方法得到Yi的预测值的预测值:如果如果 0.5,令,令 =1,否则令,否则令 =0。1ipiYiY4获取获取Yi的预测值的预测值也可定义分类利润,令也可定义分类利润,令P(l2l1)表示将实际属于类别表示将实际属于类别l1的观的观测归入类别测归入类别l2所产生的利润。所产生的利润
2、。缺省地缺省地P(00)=P(11)=1,P(10)=P(01)=0。在实际应用在实际应用中,需要根据实际情况设置分类利润的值。中,需要根据实际情况设置分类利润的值。例如,在直邮营销中,假设类别例如,在直邮营销中,假设类别1代表潜在顾客响应代表潜在顾客响应(即进即进行了购买行了购买),类别,类别0代表潜在顾客不响应。代表潜在顾客不响应。P(00)和和P(01)对应于不邮寄产品目录,带来的利润为对应于不邮寄产品目录,带来的利润为0。P(10)对应于将实际不响应的顾客错误判断为响应而邮寄对应于将实际不响应的顾客错误判断为响应而邮寄产品目录,带来的利润为负,等于联系顾客成本产品目录,带来的利润为负,
3、等于联系顾客成本(包括产品目录包括产品目录制作、邮寄等成本制作、邮寄等成本)的负值。的负值。P(11)对应于将实际响应的顾客正确判断为响应而邮寄产对应于将实际响应的顾客正确判断为响应而邮寄产品目录,带来的利润为顾客的购买金额减去联系成本的差品目录,带来的利润为顾客的购买金额减去联系成本的差;因为因为P(11)只能取一个值,这里采用的购买金额是顾客的平均购买只能取一个值,这里采用的购买金额是顾客的平均购买金额。金额。5获取获取Yi的预测值的预测值给给 赋值时需要比较期望利润赋值时需要比较期望利润:iY将观测将观测i归入类别归入类别0所带来的期望利润为所带来的期望利润为 P(00)+P(01),而
4、将观测而将观测i归入类别归入类别1所带来的期望利润为所带来的期望利润为 P(10)+P(11);如果前者小于后者,即如果前者小于后者,即0ip1ip0ip1ip则令则令 =1,否则令,否则令 =0。iYiY6获取获取Yi的预测值的预测值也可定义分类损失,令也可定义分类损失,令C(l2l1)表示将实际属于类别表示将实际属于类别l1的的观测归入类别观测归入类别l2所产生的损失。缺省地所产生的损失。缺省地C(00)=C(11)=0,C(10)=C(01)=0。给给 赋值时需要比较期望损失赋值时需要比较期望损失:iY将观测将观测i归入类别归入类别0所带来的期望损失为所带来的期望损失为 C(00)+C(
5、01),而将观测而将观测i归入类别归入类别1所带来的期望损失为所带来的期望损失为 C(10)+C(11);如果前者大于后者,即如果前者大于后者,即0ip1ip0ip1ip则令则令 =1,否则令,否则令 =0。iYiY7混淆矩阵混淆矩阵最简单的模型评估方法是使用下表所示的混淆矩阵,表最简单的模型评估方法是使用下表所示的混淆矩阵,表中中Nl1l2为实际属于类别为实际属于类别l1而被预测属于类别而被预测属于类别l2的观测数;显然,的观测数;显然,N00+N01+N10+N11=ND。8混淆矩阵混淆矩阵实际属于类别实际属于类别0的观测中被误分入类别的观测中被误分入类别1的比例为的比例为N01/(N00
6、+N01),实际属于类别,实际属于类别1的观测中被误分入类别的观测中被误分入类别0的比例的比例为为N10/(N10+N11),总的误分类率为,总的误分类率为(N01+N10)/ND。9平均利润或平均损失平均利润或平均损失当分类利润和分类损失取缺省值时,评估模型的平均利当分类利润和分类损失取缺省值时,评估模型的平均利润或平均损失等价于评估总误分类率。润或平均损失等价于评估总误分类率。如果定义了分类利润或分类损失,还可评估模型的平均利如果定义了分类利润或分类损失,还可评估模型的平均利润润 或平均损失或平均损失 。10更加细致的评估更加细致的评估我们可以直接使用模型预测概率以对模型进行更加细致的我们
7、可以直接使用模型预测概率以对模型进行更加细致的评估。评估。设某个关于直邮营销的历史数据集设某个关于直邮营销的历史数据集D中有中有100,000位顾客,位顾客,总体响应率为总体响应率为20%,也就是说,如果把产品目录邮寄给这,也就是说,如果把产品目录邮寄给这100,000位顾客,实际会收到位顾客,实际会收到20,000份响应。份响应。将这将这100,000位顾客按照预测概率位顾客按照预测概率 从大到小进行排列,我从大到小进行排列,我们将考虑联系其中的某些顾客。们将考虑联系其中的某些顾客。1ip为了方便讨论起见,按十分位数将排列好的顾客等分为十为了方便讨论起见,按十分位数将排列好的顾客等分为十组,
8、考虑联系第一组的顾客、第二组的顾客,等等;但实际中组,考虑联系第一组的顾客、第二组的顾客,等等;但实际中可以精确到联系多少位顾客。可以精确到联系多少位顾客。11更加细致的评估更加细致的评估响应率响应率:被联系的人中响应的比例,即被联系的人中响应的比例,即基准响应率基准响应率:不使用任何模型而随机联系顾客时所得的响应不使用任何模型而随机联系顾客时所得的响应率,出于随机性,它等于总体响应率。率,出于随机性,它等于总体响应率。捕获响应率捕获响应率:联系顾客所得的响应人数占响应者总人数的比联系顾客所得的响应人数占响应者总人数的比例,即例,即基准捕获响应率基准捕获响应率:不使用任何模型而随机联系顾客时所
9、得的不使用任何模型而随机联系顾客时所得的捕获响应率,出于随机性,它等于被联系人数占顾客总人数的捕获响应率,出于随机性,它等于被联系人数占顾客总人数的比例。比例。提升值提升值:使用模型所得的响应率与基准响应率之比。如果提使用模型所得的响应率与基准响应率之比。如果提升值大于升值大于1,说明使用模型挑选联系人比随机挑选效果更好。,说明使用模型挑选联系人比随机挑选效果更好。12非累积响应情况非累积响应情况13累积响应情况累积响应情况1423.6 如果卖方未能履行本合同规定的任何义务,则买方有权从履约保证金中得到补偿。8.4密封后的竞争性磋商响应文件均应:(2)提供本企业制造的货物、承担的工程或者服务,
10、或者提供其他中小企业制造的货物。本项所称货物不包括使用大型企业注册商标的货物。对建立、实施和改进质量管理体系,以增强顾客满意为目标,定期进行管理评审以确保质量管理体系的持续适宜性、充分性和有效性。郑重承诺如下:4注目欢喜的眼神7.8完成领导交办的其它工作。【案例】(二)、树状窗口及其操作、单据、报表打印格式设置,打印机设置等。(1)买方可在任何时候出于自身的便利向卖方发出书面通知全部或部分终止合同,终止通知应明确该终止合同是出于买方的便利,合同终止的程度,以及终止的生效日期。(10)投标人发生影响招标公证的违法、违规行为的;响应率图响应率图15响应率图响应率图ideal表示理想情况表示理想情况
11、:之后,当非累积被联系人都属于非响应者时,非累积响应率变之后,当非累积被联系人都属于非响应者时,非累积响应率变成成0,而累积响应率等于响应者总人数与累积被联系人数之比,最后,而累积响应率等于响应者总人数与累积被联系人数之比,最后达到总体响应率。达到总体响应率。任意响应者的预测响应概率都大于所有非响应者的预测响应概任意响应者的预测响应概率都大于所有非响应者的预测响应概率,因此,若按照预测响应概率从大到小排序,响应者都排在非响应率,因此,若按照预测响应概率从大到小排序,响应者都排在非响应者的前面。者的前面。当累积被联系人数不超过响应者总人数时,不管是非累积还是当累积被联系人数不超过响应者总人数时,
12、不管是非累积还是累积情形,被联系的所有人都是响应者,所以非累积响应率和累积响累积情形,被联系的所有人都是响应者,所以非累积响应率和累积响应率都是应率都是100%;“model”表示使用模型挑选联系人的情况表示使用模型挑选联系人的情况;“baseline”表示表示不使用任何模型而随机联系顾客的基准情况。不使用任何模型而随机联系顾客的基准情况。实际的模型当然无法达到理想效果,但模型的效果越接近实际的模型当然无法达到理想效果,但模型的效果越接近理想效果越好。理想效果越好。16响应率图响应率图非累积捕获响应率图非累积捕获响应率图模型效果越接近理想效果越好。模型效果越接近理想效果越好。在理想情况下,当累
13、积被联系人数不超过响应者总人数时,在理想情况下,当累积被联系人数不超过响应者总人数时,不管是非累积还是累积情形,被联系的所有人都是响应者,所不管是非累积还是累积情形,被联系的所有人都是响应者,所以非累积捕获相应率和累积捕获响应率都等于相应的被联系人以非累积捕获相应率和累积捕获响应率都等于相应的被联系人数与响应者点人数之比。之后非累积捕获响应率变为数与响应者点人数之比。之后非累积捕获响应率变为0,而累积,而累积捕获响应率变成捕获响应率变成100%。累积捕获响应率图累积捕获响应率图17准确度比率准确度比率从累积捕获响应率图还可以计算一个数值指标从累积捕获响应率图还可以计算一个数值指标:准确度比准确
14、度比率率(Accuracy Ratio)。首先计算模型的累积捕获响应率曲线与基准累积捕获响首先计算模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积,它度量了使用模型相比于基准情况而应率曲线之间的面积,它度量了使用模型相比于基准情况而言增加的预测性能言增加的预测性能;然后计算理想累积捕获响应率曲线与基准累积捕获响应然后计算理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积,它度量了理想情况相比于基准情况而言率曲线之间的面积,它度量了理想情况相比于基准情况而言增加的性能;准确度比率是这两个面积的比值。增加的性能;准确度比率是这两个面积的比值。准确度比率的取值在准确度比率的取值在0至
15、至1之间,取值之间,取值0表示使用模型的预表示使用模型的预测效果和基准情况一样,取值测效果和基准情况一样,取值1表示模型的预测效果和理想情表示模型的预测效果和理想情况一样况一样;准确度比率的值越接近于准确度比率的值越接近于1,模型效果越好。,模型效果越好。18准确度比率准确度比率数学上,准确度比率被定义为数学上,准确度比率被定义为(1)r模型模型(q)表示联系模型预测概率的排序处于前面比例表示联系模型预测概率的排序处于前面比例q(oq1)的顾客时所得的累积捕获响应率,的顾客时所得的累积捕获响应率,01 r模型模型(q)dq表示模型的累表示模型的累积捕获响应率曲线之下的面积。积捕获响应率曲线之下
16、的面积。19准确度比率准确度比率基准累积捕获响应率基准累积捕获响应率r基准基准(q)=q,因此基准累积捕获响应率,因此基准累积捕获响应率曲线之下的面积为曲线之下的面积为 。公式中的分子计算了模型的累积捕获响应率曲线与基准累公式中的分子计算了模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积,类似可推出分母计算了理想累积捕获响应率曲线之间的面积,类似可推出分母计算了理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积。积捕获响应率曲线与基准累积捕获响应率曲线之间的面积。积分的近似积分的近似:示例中使用十分位数,积分可用示例中使用十分位数,积分可用来近似来近似;在实际应用时可精确到每一
17、位顾客,积分可用在实际应用时可精确到每一位顾客,积分可用 来来近似。近似。101q2rdq 基准()20受试者操作特性曲线受试者操作特性曲线受试者操作特性曲线受试者操作特性曲线(Receiver Operating Characteristic Curve以下简称以下简称ROC曲线曲线)也是衡量模型预测能力的一种常用工也是衡量模型预测能力的一种常用工具,它来源于并经常应用于医学领域。具,它来源于并经常应用于医学领域。假设习齐模型预测响应概率大于某个临界值假设习齐模型预测响应概率大于某个临界值C的顾客都预测的顾客都预测为响应者,而将其他顾客都预测为非响应者。为响应者,而将其他顾客都预测为非响应者
18、。21受试者操作特性曲线受试者操作特性曲线特异度特异度(specificity)定义为真阴性定义为真阴性(true negative)观测数与阴观测数与阴性总观测数之比。性总观测数之比。敏感度敏感度(sensitivity)定义为真阳性定义为真阳性(true positive)观测数与阳观测数与阳性总观测数之比。性总观测数之比。真阳性观测数指的是实际响应而模型也预测响应的顾客数,真阳性观测数指的是实际响应而模型也预测响应的顾客数,阳性总观测数指的是实际响应的顾客数阳性总观测数指的是实际响应的顾客数(很容易推出,此处敏感很容易推出,此处敏感度等于累积捕获响应率度等于累积捕获响应率)。真阴性观测数
展开阅读全文