数据挖掘与应用(十三)课件.ppt

上传人（卖家）：晟晟文业

文档编号：4869590

上传时间：2023-01-20

格式：PPT

页数：43

大小：1.10MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数据挖掘与应用(十三)课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘应用十三课件

资源描述：: 1、1第十三讲第十三讲模型评估模型评估模型评估模型评估为了得到能有效预测因变量的模型，可以建立多个模型，为了得到能有效预测因变量的模型，可以建立多个模型，对它们进行评估和比较，并从中选择最优的模型。通常根据对对它们进行评估和比较，并从中选择最优的模型。通常根据对修正数据集的预测效果来选择模型。一般地：修正数据集的预测效果来选择模型。一般地：令令D为评估数据集；为评估数据集；ND为其中的观测数；为其中的观测数；令令Yi和和分别表示分别表示D中观测中观测i的因变量的真实值和模型预测的因变量的真实值和模型预测值。值。iY3因变量为二分变量的情形因变量为二分变量的情形若因变量只有两种取值，可不失一般性
2、地假设它们为若因变量只有两种取值，可不失一般性地假设它们为0和和t。设模型预测观测设模型预测观测i属于类别属于类别0和类别和类别1的概率分别为的概率分别为和和。0ip1ip可使用以下方法得到可使用以下方法得到Yi的预测值的预测值:如果如果 0.5，令，令 =1，否则令，否则令 =0。1ipiYiY4获取获取Yi的预测值的预测值也可定义分类利润，令也可定义分类利润，令P(l2l1)表示将实际属于类别表示将实际属于类别l1的观的观测归入类别测归入类别l2所产生的利润。所产生的利润。缺省地缺省地P(00)=P(11)=1，P(10)=P(01)=0。在实际应用在实际应用中，需要根据实际情况设置分
3、类利润的值。中，需要根据实际情况设置分类利润的值。例如，在直邮营销中，假设类别例如，在直邮营销中，假设类别1代表潜在顾客响应代表潜在顾客响应(即进即进行了购买行了购买)，类别，类别0代表潜在顾客不响应。代表潜在顾客不响应。P(00)和和P(01)对应于不邮寄产品目录，带来的利润为对应于不邮寄产品目录，带来的利润为0。P(10)对应于将实际不响应的顾客错误判断为响应而邮寄对应于将实际不响应的顾客错误判断为响应而邮寄产品目录，带来的利润为负，等于联系顾客成本产品目录，带来的利润为负，等于联系顾客成本(包括产品目录包括产品目录制作、邮寄等成本制作、邮寄等成本)的负值。的负值。P(11)对应于将实际响
4、应的顾客正确判断为响应而邮寄产对应于将实际响应的顾客正确判断为响应而邮寄产品目录，带来的利润为顾客的购买金额减去联系成本的差品目录，带来的利润为顾客的购买金额减去联系成本的差;因为因为P(11)只能取一个值，这里采用的购买金额是顾客的平均购买只能取一个值，这里采用的购买金额是顾客的平均购买金额。金额。5获取获取Yi的预测值的预测值给给赋值时需要比较期望利润赋值时需要比较期望利润:iY将观测将观测i归入类别归入类别0所带来的期望利润为所带来的期望利润为 P(00)+P(01)，而将观测而将观测i归入类别归入类别1所带来的期望利润为所带来的期望利润为 P(10)+P(11)；如果前者小于后者，即
5、如果前者小于后者，即0ip1ip0ip1ip则令则令 =1，否则令，否则令 =0。iYiY6获取获取Yi的预测值的预测值也可定义分类损失，令也可定义分类损失，令C(l2l1)表示将实际属于类别表示将实际属于类别l1的的观测归入类别观测归入类别l2所产生的损失。缺省地所产生的损失。缺省地C(00)=C(11)=0，C(10)=C(01)=0。给给赋值时需要比较期望损失赋值时需要比较期望损失:iY将观测将观测i归入类别归入类别0所带来的期望损失为所带来的期望损失为 C(00)+C(01)，而将观测而将观测i归入类别归入类别1所带来的期望损失为所带来的期望损失为 C(10)+C(11)；如果前者大
6、于后者，即如果前者大于后者，即0ip1ip0ip1ip则令则令 =1，否则令，否则令 =0。iYiY7混淆矩阵混淆矩阵最简单的模型评估方法是使用下表所示的混淆矩阵，表最简单的模型评估方法是使用下表所示的混淆矩阵，表中中Nl1l2为实际属于类别为实际属于类别l1而被预测属于类别而被预测属于类别l2的观测数；显然，的观测数；显然，N00+N01+N10+N11=ND。8混淆矩阵混淆矩阵实际属于类别实际属于类别0的观测中被误分入类别的观测中被误分入类别1的比例为的比例为N01/(N00+N01)，实际属于类别，实际属于类别1的观测中被误分入类别的观测中被误分入类别0的比例的比例为为N10/(N10+
7、N11)，总的误分类率为，总的误分类率为(N01+N10)/ND。9平均利润或平均损失平均利润或平均损失当分类利润和分类损失取缺省值时，评估模型的平均利当分类利润和分类损失取缺省值时，评估模型的平均利润或平均损失等价于评估总误分类率。润或平均损失等价于评估总误分类率。如果定义了分类利润或分类损失，还可评估模型的平均利如果定义了分类利润或分类损失，还可评估模型的平均利润润或平均损失或平均损失。10更加细致的评估更加细致的评估我们可以直接使用模型预测概率以对模型进行更加细致的我们可以直接使用模型预测概率以对模型进行更加细致的评估。评估。设某个关于直邮营销的历史数据集设某个关于直邮营销的历史数据
8、集D中有中有100,000位顾客，位顾客，总体响应率为总体响应率为20%，也就是说，如果把产品目录邮寄给这，也就是说，如果把产品目录邮寄给这100,000位顾客，实际会收到位顾客，实际会收到20,000份响应。份响应。将这将这100,000位顾客按照预测概率位顾客按照预测概率从大到小进行排列，我从大到小进行排列，我们将考虑联系其中的某些顾客。们将考虑联系其中的某些顾客。1ip为了方便讨论起见，按十分位数将排列好的顾客等分为十为了方便讨论起见，按十分位数将排列好的顾客等分为十组，考虑联系第一组的顾客、第二组的顾客，等等；但实际中组，考虑联系第一组的顾客、第二组的顾客，等等；但实际中可以精确到联
9、系多少位顾客。可以精确到联系多少位顾客。11更加细致的评估更加细致的评估响应率响应率:被联系的人中响应的比例，即被联系的人中响应的比例，即基准响应率基准响应率:不使用任何模型而随机联系顾客时所得的响应不使用任何模型而随机联系顾客时所得的响应率，出于随机性，它等于总体响应率。率，出于随机性，它等于总体响应率。捕获响应率捕获响应率:联系顾客所得的响应人数占响应者总人数的比联系顾客所得的响应人数占响应者总人数的比例，即例，即基准捕获响应率基准捕获响应率:不使用任何模型而随机联系顾客时所得的不使用任何模型而随机联系顾客时所得的捕获响应率，出于随机性，它等于被联系人数占顾客总人数的捕获响应率，出于随机性
10、，它等于被联系人数占顾客总人数的比例。比例。提升值提升值:使用模型所得的响应率与基准响应率之比。如果提使用模型所得的响应率与基准响应率之比。如果提升值大于升值大于1，说明使用模型挑选联系人比随机挑选效果更好。，说明使用模型挑选联系人比随机挑选效果更好。12非累积响应情况非累积响应情况13累积响应情况累积响应情况14响应率图响应率图15响应率图响应率图ideal表示理想情况表示理想情况:之后，当非累积被联系人都属于非响应者时，非累积响应率变之后，当非累积被联系人都属于非响应者时，非累积响应率变成成0，而累积响应率等于响应者总人数与累积被联系人数之比，最后，而累积响应率等于响应者总人数与累积被联系
11、人数之比，最后达到总体响应率。达到总体响应率。任意响应者的预测响应概率都大于所有非响应者的预测响应概任意响应者的预测响应概率都大于所有非响应者的预测响应概率，因此，若按照预测响应概率从大到小排序，响应者都排在非响应率，因此，若按照预测响应概率从大到小排序，响应者都排在非响应者的前面。者的前面。当累积被联系人数不超过响应者总人数时，不管是非累积还是当累积被联系人数不超过响应者总人数时，不管是非累积还是累积情形，被联系的所有人都是响应者，所以非累积响应率和累积响累积情形，被联系的所有人都是响应者，所以非累积响应率和累积响应率都是应率都是100%;“model”表示使用模型挑选联系人的情况表示使用模
12、型挑选联系人的情况;“baseline”表示表示不使用任何模型而随机联系顾客的基准情况。不使用任何模型而随机联系顾客的基准情况。实际的模型当然无法达到理想效果，但模型的效果越接近实际的模型当然无法达到理想效果，但模型的效果越接近理想效果越好。理想效果越好。16响应率图响应率图非累积捕获响应率图非累积捕获响应率图模型效果越接近理想效果越好。模型效果越接近理想效果越好。在理想情况下，当累积被联系人数不超过响应者总人数时，在理想情况下，当累积被联系人数不超过响应者总人数时，不管是非累积还是累积情形，被联系的所有人都是响应者，所不管是非累积还是累积情形，被联系的所有人都是响应者，所以非累积捕获相应率和
13、累积捕获响应率都等于相应的被联系人以非累积捕获相应率和累积捕获响应率都等于相应的被联系人数与响应者点人数之比。之后非累积捕获响应率变为数与响应者点人数之比。之后非累积捕获响应率变为0，而累积，而累积捕获响应率变成捕获响应率变成100%。累积捕获响应率图累积捕获响应率图17准确度比率准确度比率从累积捕获响应率图还可以计算一个数值指标从累积捕获响应率图还可以计算一个数值指标:准确度比准确度比率率(Accuracy Ratio)。首先计算模型的累积捕获响应率曲线与基准累积捕获响首先计算模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积，它度量了使用模型相比于基准情况而应率曲线之间的面积，它度
14、量了使用模型相比于基准情况而言增加的预测性能言增加的预测性能;然后计算理想累积捕获响应率曲线与基准累积捕获响应然后计算理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积，它度量了理想情况相比于基准情况而言率曲线之间的面积，它度量了理想情况相比于基准情况而言增加的性能；准确度比率是这两个面积的比值。增加的性能；准确度比率是这两个面积的比值。准确度比率的取值在准确度比率的取值在0至至1之间，取值之间，取值0表示使用模型的预表示使用模型的预测效果和基准情况一样，取值测效果和基准情况一样，取值1表示模型的预测效果和理想情表示模型的预测效果和理想情况一样况一样;准确度比率的值越接近于准确度比率的值
15、越接近于1，模型效果越好。，模型效果越好。18准确度比率准确度比率数学上，准确度比率被定义为数学上，准确度比率被定义为（1）r模型模型(q)表示联系模型预测概率的排序处于前面比例表示联系模型预测概率的排序处于前面比例q(oq1)的顾客时所得的累积捕获响应率，的顾客时所得的累积捕获响应率，01 r模型模型(q)dq表示模型的累表示模型的累积捕获响应率曲线之下的面积。积捕获响应率曲线之下的面积。19准确度比率准确度比率基准累积捕获响应率基准累积捕获响应率r基准基准(q)=q，因此基准累积捕获响应率，因此基准累积捕获响应率曲线之下的面积为曲线之下的面积为。公式中的分子计算了模型的累积捕获响应率曲线
16、与基准累公式中的分子计算了模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积，类似可推出分母计算了理想累积捕获响应率曲线之间的面积，类似可推出分母计算了理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积。积捕获响应率曲线与基准累积捕获响应率曲线之间的面积。积分的近似积分的近似:示例中使用十分位数，积分可用示例中使用十分位数，积分可用来近似来近似;在实际应用时可精确到每一位顾客，积分可用在实际应用时可精确到每一位顾客，积分可用来来近似。近似。101q2rdq 基准（）20受试者操作特性曲线受试者操作特性曲线受试者操作特性曲线受试者操作特性曲线(Receiver Operating
17、 Characteristic Curve以下简称以下简称ROC曲线曲线)也是衡量模型预测能力的一种常用工也是衡量模型预测能力的一种常用工具，它来源于并经常应用于医学领域。具，它来源于并经常应用于医学领域。假设习齐模型预测响应概率大于某个临界值假设习齐模型预测响应概率大于某个临界值C的顾客都预测的顾客都预测为响应者，而将其他顾客都预测为非响应者。为响应者，而将其他顾客都预测为非响应者。21受试者操作特性曲线受试者操作特性曲线特异度特异度(specificity)定义为真阴性定义为真阴性(true negative)观测数与阴观测数与阴性总观测数之比。性总观测数之比。敏感度敏感度(sensiti
18、vity)定义为真阳性定义为真阳性(true positive)观测数与阳观测数与阳性总观测数之比。性总观测数之比。真阳性观测数指的是实际响应而模型也预测响应的顾客数，真阳性观测数指的是实际响应而模型也预测响应的顾客数，阳性总观测数指的是实际响应的顾客数阳性总观测数指的是实际响应的顾客数(很容易推出，此处敏感很容易推出，此处敏感度等于累积捕获响应率度等于累积捕获响应率)。真阴性观测数指的是实际不响应而模型也预测不响应的顾真阴性观测数指的是实际不响应而模型也预测不响应的顾客数；阴性总观测数指的是实际不响应的顾客数。客数；阴性总观测数指的是实际不响应的顾客数。22受试者操作特性曲线受试者操作特性曲
19、线C的值从的值从1变化到变化到0时，特异度和敏感度的值都会变化，将时，特异度和敏感度的值都会变化，将“1-特异度特异度”作为横轴、敏感度作为纵轴作图，这种变化在图作为横轴、敏感度作为纵轴作图，这种变化在图中形成的曲线就被称为中形成的曲线就被称为ROC曲线。曲线。当当C=1时，所有顾客都被预测为不会响应，因此特异度时，所有顾客都被预测为不会响应，因此特异度=1(1-特异度特异度=0)，敏感度，敏感度=0;当当C=0时，所有顾客都被预测为会响应，因此特异度时，所有顾客都被预测为会响应，因此特异度=0(1-特异度特异度=1)，敏感度，敏感度=1。ROC曲线是连接曲线是连接(0,0)点和点和(1,1)
20、点的一条曲线。点的一条曲线。23受试者操作特性曲线受试者操作特性曲线理想情况下，任意响应者的预测响应概率都大于所有非理想情况下，任意响应者的预测响应概率都大于所有非响应者的预测响应概率。因此，存在响应者的预测响应概率。因此，存在C*使得预测响应概率大使得预测响应概率大于于C*的所有顾客都是响应者，而其他顾客都是非响应者。的所有顾客都是响应者，而其他顾客都是非响应者。24受试者操作特性曲线受试者操作特性曲线当当CC*时，所有实际非响应者都被正确地预测为不响时，所有实际非响应者都被正确地预测为不响应应;因为特异度是实际非响应者中被模型预测为非响应者的比因为特异度是实际非响应者中被模型预测为非响应者
21、的比例，所以特异度例，所以特异度=1(1-特异度特异度=0)，而敏感度是实际响应者中，而敏感度是实际响应者中被模型预测为响应者的比例被模型预测为响应者的比例;当当CC*时，所有实际响应者都被正确地预测为响应，时，所有实际响应者都被正确地预测为响应，因此敏感度因此敏感度=1，当，当C的值从的值从C*变化到变化到0时，特异度从时，特异度从1变化到变化到0(1-特异度特异度”从从0变化到变化到1)。所以理想的所以理想的ROC曲线由连接曲线由连接(0,0)点和点和(1,0)点的线段与连点的线段与连接接(1,0)点和点和(1,1)点的线段组成。点的线段组成。25受试者操作特性曲线受试者操作特性曲线所以基
22、准的所以基准的ROC曲线就是连接曲线就是连接(o,o点和点和(1,1)点的一条对点的一条对角直线。角直线。在基准情况下，任意选取一部分顾客，其中响应者所占在基准情况下，任意选取一部分顾客，其中响应者所占的比例都等于总体响应率，非响应者所占的比例都等于总体的比例都等于总体响应率，非响应者所占的比例都等于总体非响应率。对任意非响应率。对任意C值：值：特异度都等于预测非响应者人数占顾客总人数的比例；特异度都等于预测非响应者人数占顾客总人数的比例；而敏感度都等于预测响应者人数占顾客总人数的比例；而敏感度都等于预测响应者人数占顾客总人数的比例；它们的和总是等于它们的和总是等于1。26受试者操作特性曲线受
23、试者操作特性曲线一般而言，模型的一般而言，模型的ROC曲线落在理想曲线落在理想ROC曲线与基准曲线与基准ROC曲线之间。曲线之间。基准基准ROC曲线下的面积为曲线下的面积为0.5，理想，理想ROC曲线下的面积为曲线下的面积为1，一般模型，一般模型ROC曲线下的面积在曲线下的面积在0.5至至1之间，这个值越接近之间，这个值越接近1，模型效果越好。，模型效果越好。ROC曲线下的面积也可作为衡量模型效果的一个数值指曲线下的面积也可作为衡量模型效果的一个数值指标。标。27受试者操作特性曲线受试者操作特性曲线对模型的预测效果而言，特异度和敏感度都是越大越好，对模型的预测效果而言，特异度和敏感度都是越大越
24、好，但是这两者之间需要平衡。但是这两者之间需要平衡。有时在实际应用中，我们希望选择截断值有时在实际应用中，我们希望选择截断值C以使特异度以使特异度与敏感度的和达到最大与敏感度的和达到最大;这时可以取这时可以取45度角直线簇度角直线簇敏感度敏感度=+(1-特异度特异度)特异度特异度+敏感度敏感度=+1与与ROC曲线的切点，选取切点对应的曲线的切点，选取切点对应的C值。值。28盈利评估盈利评估除了考察顾客的响应情况，还可以考察直邮营销的盈利除了考察顾客的响应情况，还可以考察直邮营销的盈利情况。情况。前面讨论过分类利润，涉及顾客的平均购买金额，但在前面讨论过分类利润，涉及顾客的平均购买金额，但在实际
25、中顾客购买的金额通常大小不一。实际中顾客购买的金额通常大小不一。评估模型效果时使用顾客的实际购买金额评估将更加细评估模型效果时使用顾客的实际购买金额评估将更加细致。致。29盈利评估盈利评估假设联系顾客的成本为每人假设联系顾客的成本为每人1元。元。30盈利评估盈利评估31盈利评估盈利评估出于随机性，它等于联系所有顾客所得利润出于随机性，它等于联系所有顾客所得利润(累计利润表累计利润表最后一行的利润最后一行的利润-13,060)与被联系人数占顾客总人数的比例的与被联系人数占顾客总人数的比例的乘积。乘积。基准利润基准利润:不使用任何模型而随机联系顾客所得的利润。不使用任何模型而随机联系顾客所得的利润
26、。非累积利润图非累积利润图累积利润图累积利润图非累积情形下，基准利润等于总利润的非累积情形下，基准利润等于总利润的1/10，即，即-1,306；累积情形下，基准利润等于总利润的累积情形下，基准利润等于总利润的i/10，即，即-1.3061i(i=1,10)。32因变量为二分变量的情形因变量为二分变量的情形在实际应用中，有时在实际应用中，有时D中类别中类别1和类别和类别0的比例的比例1及及0不同不同于模型将来要应用的数据中的比例于模型将来要应用的数据中的比例1及及0，而又希望根据，而又希望根据D评估模型对将来要应用的数据的预测性能。评估模型对将来要应用的数据的预测性能。这时，需要给这时，需要给D
27、中的观测赋予不同的权重中的观测赋予不同的权重wi:属于类别属于类别1的观测被赋予权重的观测被赋予权重wi=1/1 属于类别属于类别0的观测被赋予权重的观测被赋予权重wi=0/0在计算各项评估指标时，都需要考虑权重，例如，响应在计算各项评估指标时，都需要考虑权重，例如，响应率不再简单地是响应人数与被联系人数的比例，而是响应者率不再简单地是响应人数与被联系人数的比例，而是响应者的权重之和与被联系者的权重之和的比例。的权重之和与被联系者的权重之和的比例。33因变量为多分变量的情形因变量为多分变量的情形若因变量有离散的多种取值，可不失一般性地假设它们若因变量有离散的多种取值，可不失一般性地假设它们为为
28、1,K。我们在统计决策的一般框架下来讨论。假设对每一位顾我们在统计决策的一般框架下来讨论。假设对每一位顾客客i，可采用的决策，可采用的决策di都有都有M种可能取值种可能取值:Al,AM。设模型预测顾客设模型预测顾客i属于各类别的概率为属于各类别的概率为:,。1ipiKp分类问题是统计决策的一种特例，在这种情形下，分类问题是统计决策的一种特例，在这种情形下，di有有K种可能取值：对种可能取值：对l=1,K，决策，决策Al表示将顾客归入类别表示将顾客归入类别l,即即令令 =l。iY34因变量为多分变量的情形因变量为多分变量的情形可以使用决策利润来进行决策。可以使用决策利润来进行决策。如果对顾客如果
29、对顾客i采用决策采用决策di=Am，那么带来的期望利润为，那么带来的期望利润为令令P(dy)表示对实际属于类别表示对实际属于类别y的顾客采用决策的顾客采用决策d而产生的而产生的利润。利润。应选取使期望利润最大的决策。应选取使期望利润最大的决策。35因变量为多分变量的情形因变量为多分变量的情形在分类问题中：在分类问题中：若因变量为名义变量，缺若因变量为名义变量，缺省地省地选取的决策为将顾客选取的决策为将顾客i归入归入使使最最大的大的类别类别l；ilp 若因变量为定序变量，缺省地若因变量为定序变量，缺省地，选取的决策为将顾客选取的决策为将顾客i归入使归入使最大的类别最大的类别l，即使，即使最
30、小的类别最小的类别l。36因变量为多分变量的情形因变量为多分变量的情形也可以使用决策损失来进行决策。也可以使用决策损失来进行决策。令令C(dy)为为对实际属于类对实际属于类别别y的顾的顾客采用决策客采用决策d而产生的损而产生的损失。失。如果对顾客如果对顾客i采用决策采用决策di=Am，那么带来的期望损失为，那么带来的期望损失为应选取使期望损失最小的决策。应选取使期望损失最小的决策。37因变量为多分变量的情形因变量为多分变量的情形在分类问题中：在分类问题中：若因变量为名义变量，缺若因变量为名义变量，缺省地省地选取的决策为将顾客选取的决策为将顾客i归入归入使使1-最小即最小即最大的类别最大的类
31、别l；ilp 若因变量为定序变量，缺省地若因变量为定序变量，缺省地，选取的决策为将顾客选取的决策为将顾客i归入使归入使最小的类别最小的类别l。可以看出，使用决策利润或决策损失进行。可以看出，使用决策利润或决策损失进行决策是等价的。决策是等价的。ilp38因变量为多分变量的情形因变量为多分变量的情形可以评估模型的平均利润可以评估模型的平均利润或平均损失或平均损失。在分类问题中：。在分类问题中：若因变量为名义变量，还可评估对若因变量为名义变量，还可评估对D的总误分类率为的总误分类率为很容易看出，如果决策利润或决策损失取缺省值，那么很容易看出，如果决策利润或决策损失取缺省值，那么评估平均利润或平
32、均损失等价于评估误分类率评估平均利润或平均损失等价于评估误分类率若因变量为定序变量，还可评估按序数距离加权的误分类若因变量为定序变量，还可评估按序数距离加权的误分类率率与因变量是二分变量的情形类似，我们还可以使用混淆矩与因变量是二分变量的情形类似，我们还可以使用混淆矩阵来评估模型。阵来评估模型。39因变量为多分变量的情形因变量为多分变量的情形要对模型进行更加细致的评估，需要更加细致地考察决要对模型进行更加细致的评估，需要更加细致地考察决策利润或决策损失，这里仅讨论使用决策利润的情形。策利润或决策损失，这里仅讨论使用决策利润的情形。为了绘出响应率图、捕获响应率图、为了绘出响应率图、捕获响应率
33、图、ROC图、利润图等，图、利润图等，我们需要能够按照模型预测结果对观测进行排序，并定义谁我们需要能够按照模型预测结果对观测进行排序，并定义谁是是(实际实际)响应者，谁是响应者，谁是(实际实际)非响应者。解决方法如下非响应者。解决方法如下:模型预测的决策模型预测的决策di带来的实际利润为带来的实际利润为P(diyi)，可把实际，可把实际利润大于某个临界值的顾客定义为响应者，而把其他顾客利润大于某个临界值的顾客定义为响应者，而把其他顾客定义为非响应者。定义为非响应者。按照它从大到小的顺序可以将顾客进行排列。按照它从大到小的顺序可以将顾客进行排列。模型预测的决策模型预测的决策di带来的期望利润为带
34、来的期望利润为40因变量为多分变量的情形因变量为多分变量的情形在实际应用中，如果在实际应用中，如果D中各类别的比例中各类别的比例1(l=1,K)不同不同于模型将来要应用的数据中的比例于模型将来要应用的数据中的比例l，而又希望根据，而又希望根据D评估模评估模型对将来要应用的数据的预测性能，就需要给型对将来要应用的数据的预测性能，就需要给D中的观测赋中的观测赋予不同的权重予不同的权重wi：属于类别：属于类别l的顾客被赋予权重的顾客被赋予权重wi=l/l。41因变量为连续变量的情形因变量为连续变量的情形若因变量为连续变量，可计算下列一些评估指标若因变量为连续变量，可计算下列一些评估指标:均方误差均方
35、误差:均方误差均方误差:均方误差均方误差:均方误差均方误差:还可绘出还可绘出Yi与与的散点图，或者的散点图，或者Yi-与与的散点图。的散点图。iYiYiY42因变量为连续变量的情形因变量为连续变量的情形实际应用中也可能需要为每位顾客选择某种决策。实际应用中也可能需要为每位顾客选择某种决策。假设联系每位顾客的成本为假设联系每位顾客的成本为r，那么决策利，那么决策利P(A1y)=y-r，而而P(A2y)=0。令令P(dy)表示对实际购买金额为表示对实际购买金额为y的顾客采用决策的顾客采用决策d而产生而产生的利润。的利润。仍举直邮营销为例，如果因变量仍举直邮营销为例，如果因变量Yi为顾客为顾客i
36、的购买金额，的购买金额，可选择的两种决策为联系可选择的两种决策为联系(记为记为A1)或不联系或不联系(记为记为A2)。如果对顾客如果对顾客i采用决策采用决策di=A1，预测利润为，预测利润为如果对顾客如果对顾客i采用决策采用决策di=A2，预测利润为，预测利润为因此，如果因此，如果，则选取决策，则选取决策di=Ai，否则选取决，否则选取决策策di=A2。43因变量为连续变量的情形因变量为连续变量的情形为了绘出模型的响应率图、捕获响应率图、为了绘出模型的响应率图、捕获响应率图、ROC图、利图、利润图等，我们同样需要能够按照模型预测结果对观测进行排润图等，我们同样需要能够按照模型预测结果对观测进行排序，并定义谁是序，并定义谁是(实际实际)响应者，谁是响应者，谁是(实际实际)非响应者。解决方非响应者。解决方法如下法如下:模型预测的决策模型预测的决策di带来的预测利润为带来的预测利润为，按照它从，按照它从大到小的顺序将顾客进行排列。大到小的顺序将顾客进行排列。模型预测的决策模型预测的决策di带来的实际利润为带来的实际利润为P(diYi)，可把实际，可把实际利润大于某个临界值利润大于某个临界值(例如，例如，0)的顾客定义为响应者，而把的顾客定义为响应者，而把其他顾客定义为非响应者。其他顾客定义为非响应者。

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘与应用(十三)课件.ppt
链接地址：https://www.163wenku.com/p-4869590.html

晟晟文业

内容提供者

实名认证

联系作者