大数据通信运营商客户流失分析与预测课件.pptx

上传人（卖家）：三亚风情

文档编号：3335664

上传时间：2022-08-20

格式：PPTX

页数：46

大小：383.69KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《大数据通信运营商客户流失分析与预测课件.pptx》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据通信运营商客户流失分析预测课件

资源描述：: 1、大数据，成就未来大数据，成就未来通信运营商客户流失分析与预测 2大数据挖掘专家1数据准备目录通信运营商客户流失分析需求2特征工程3使用多层感知器算法实现通信运营商客户流失预测4小结5 3大数据挖掘专家随着业务的快速发展、移动业务市场的竞争愈演愈烈。如何最大程度地挽留在网用户、吸取新客户，是电信企业最关注的问题之一。竞争对手的促销、公司资费软着陆措施的出台和政策法规的不断变化，影响了客户消费心理和消费行为，导致客户的流失特征不断变化。对于电信运营商而言，流失会给电信企业带来市场占有率下降、营销成本增加、利润下降等一系列问题。在发展用户每月增加的同时，如何挽留和争取更多的用户，是一项非常重要的工
2、作。随着机器学习技术的不断发展和应用，移动运营商希望能借助机器学习算法识别哪些用户可能流失，什么时候会发生流失。而通过建立流失预测模型，分析用户的历史数据和当前数据，提取辅助决策的关键性数据，并从中发现隐藏关系和模式，进而预测未来可能发生的行为，就可以帮助移动运营商实现这些要求。通信通信运营商现状与需求运营商现状与需求 4大数据挖掘专家某运营商提供了不同用户的三个月使用记录共900000条数据，共34个特征，其中存在着重复值，缺失值与异常值，其字段说明如下表所示。通信运营商数通信运营商数据基本状况据基本状况名称字段描述MONTH_ID月份USER_ID用户IDINNET_MONTH在网时长I
3、S_AGREE是否合约有效用户AGREE_EXP_DATE合约计划到期时间CREDIT_LEVEL信用等级VIP_LVLVIP等级ACCT_FEE本月费用（元）5大数据挖掘专家通信运营商数据基本状况通信运营商数据基本状况名称字段描述CALL_DURA通话时长（秒）NO_ROAM_LOCAL_CALL_DURA本地通话时长（秒）NO_ROAM_GN_LONG_CALL_DURA国内长途通话时长（秒）GN_ROAM_CALL_DURA国内漫游通话时长（秒）CDR_NUM通话次数（次）NO_ROAM_CDR_NUM非漫游通话次数（次）NO_ROAM_LOCAL_CDR_NUM本地通话次数（次）NO_
4、ROAM_GN_LONG_CDR_NUM国内长途通话次数（次）GN_ROAM_CDR_NUM国内漫游通话次数（次）P2P_SMS_CNT_UP短信发送数（条）TOTAL_FLUX上网流量（MB）LOCAL_FLUX本地非漫游上网流量（MB）GN_ROAM_FLUX国内漫游上网流量（MB）CALL_DAYS有通话天数 6大数据挖掘专家通信运营商数据基本状况通信运营商数据基本状况名称字段描述CALLING_DAYS有主叫天数CALLED_DAYS有被叫天数CALL_RING语音呼叫圈CALLING_RING主叫呼叫圈CALLED_RING被叫呼叫圈CUST_SEX性别CERT_AGE年龄CONST
5、ELLATION_DESC星座MANU_NAME手机品牌名称MODEL_NAME手机型号名称OS_DESC操作系统描述TERM_TYPE终端硬件类型（0=无法区分，4=4g、3=3g、2=2g）IS_LOST用户在3月是否流失标记（1=是，0=否），1月和2月值为空 7大数据挖掘专家通信运营商客户流失分析与预测的总体流程如下图所示，具体步骤如下。通信运营商客户流失分析与预测的通信运营商客户流失分析与预测的步骤与流程步骤与流程 8大数据挖掘专家导入原始数据，查找并删除完全重复的数据。剔除与预测相关性不强的特征，降低维数。对整理后的数据集进行清洗，查找缺失值和异常值，对存在缺失的数据按照一定的
6、规则赋值，删除异常数据。合并用户的基本信息特征，将3个月的记录合并为一条。简化手机品牌和操作系统特征，并进行独热编码便于构建模型。将合并后的数据集划分为训练集和测试集，并对数据进行标准化处理。基于训练集构建客户流失预测模型。在测试集上应用客户流失预测模型，并对预测结果进行评价餐饮企业数据分析的步骤与流程餐饮企业数据分析的步骤与流程 9大数据挖掘专家1数据准备目录通信运营商客户流失分析需求2特征工程3使用多层感知器算法实现通信运营商客户流失预测4小结5 10大数据挖掘专家原始数据中存在一部分重复记录，删除这部分重复记录，并查找原始数据中是否存在重复的特征，如下代码所示。数据数据去重与降维去重与
7、降维In1:import osimport pandas as pd#读取数据文件data=pd.read_csv(./data/USER_INFO_M.csv,index_col=0,encoding=gbk)print(原始数据形状为：,data.shape)Out1:原始数据形状为：(900000,34)In2:#去除重复记录data_drop=pd.DataFrame.drop_duplicates(data,subset=None,keep=first,inplace=False)print(删除重复记录后的数据形状为：,data_drop.shape)Out2:删除重复记录后的数据
8、形状为：(899904,34)11大数据挖掘专家数据去重与降维数据去重与降维In3:#查找是否有重复特征查找是否有重复特征#定义求取特征是否完全相同的矩阵的函数定义求取特征是否完全相同的矩阵的函数def FeatureEquals(df):dfEquals=pd.DataFrame(,columns=df.columns,index=df.columns)for i in df.columns:for j in df.columns:dfEquals.loci,j=df.loc:,i.equals(df.loc:,j)return dfEqualsdetEquals=FeatureEquals
9、(data_drop)#应用应用FeatureEquals函数函数#遍历所有数据遍历所有数据lenDet=detEquals.shape0dupCol=for k in range(lenDet):for l in range(k+1,lenDet):if detEquals.ilock,l&(detEquals.columnsl not in dupCol):dupCol.append(detEquals.columnsl)#删除重复列删除重复列data_drop.drop(dupCol,axis=1,inplace=True)print(删除重复列后的数据形状：删除重复列后的数据形状：,d
10、ata_drop.shape)Out3:删除重复列后的数据形状：(899904,34)12大数据挖掘专家原始数据中的用户性别、年龄和星座等信息与用户流失预测相关性很小。因此，可以对原数据集进行降维处理，如下代码所示。数据数据去重与降维去重与降维In4:#数据降维del data_dropMODEL_NAME#手机型号del data_dropAGREE_EXP_DATE#删除合约是否到期del data_dropCUST_SEX#性别del data_dropCONSTELLATION_DESC#星座del data_dropCERT_AGE#年龄print(降维后的数据形状为:,data_
11、drop.shape)Out4:降维后的数据形状为:(899904,29)13大数据挖掘专家检测数据中是否存在的缺失值，如下代码所示。数据清洗1.缺失值处理In5:#统计各个特征的缺失率naRate=(data_drop.isnull().sum()/data_drop.shape0*100).astype(str)+%print(data每个特征缺失的率为：n,naRate)Out5:data每个特征缺失的率为：USER_ID 0.0%INNET_MONTH 0.0%IS_AGREE 0.0%CREDIT_LEVEL 0.0%OS_DESC 4.243230389019273%TERM_T
12、YPE 0.0%IS_LOST 66.63633009743262%dtype:object)14大数据挖掘专家由上代码可知，其中IS_LOST为客户是否流失的标签字段不需要进行插补，而VIP等级（VIP_LVL）和操作系统（OS_DESC）的缺失值较多，需要进行插补，如下代码所示。数据清洗1.缺失值处理In6:#VIP等级为nan的补0data_dropVIP_LVL=data_dropVIP_LVL.fillna(0)#操作系统缺失的填补ANDROIDdata_dropOS_DESC=data_dropOS_DESC.fillna(ANDROID)print(处理缺失值后数据集的形状为
13、：,data_drop.shape)Out6:处理缺失值后数据集的形状为：(899904,29)15大数据挖掘专家对数据集中的每一列进行统计分析，查看是否存在异常值，如下代码所示。数据清洗2.异常值处理In6:#对列统计分析data_drop.describe()Out6:INNET_MONTH IS_AGREE CREDIT_LEVEL VIP_LVL ACCT_FEE count899904.000000899904.000000899904.000000899904.000000899904.000000mean34.5079150.510393 66.01682652.3889831
14、18.595064 std34.2320390.499892 0.958607 48.936066167.792836 min-251.0000000.000000 0.000000 0.000000 0.010000 25%10.0000000.000000 65.0000000.000000 54.850000 50%24.0000001.000000 66.00000099.00000086.000000 75%49.0000001.000000 67.00000099.000000143.580000 max249.0000001.000000 67.00000099.00000065
15、007.210000 16大数据挖掘专家由上代码可知，在网时长（INNET_MONTH）出现小于0的异常值，本月费用（ACCT_FEE）出现大于40000的异常值，需要对这部分异常数据进行删除处理，如下代码所示。数据清洗2.异常值处理In8:#删除异常数据data_drop=data_dropdata_dropINNET_MONTH=0data_drop=data_dropdata_dropACCT_FEE 400000print(处理异常值后数据集的形状为：,data_drop.shape)data_drop.to_csv(./tmp/data_drop.csv,encoding=utf8
16、)Out8:处理异常值后数据集的形状为：(899901,29)17大数据挖掘专家将数据按照用户ID分组，求出每个用户的费用、通话时长等基本特征三个月内的中位数和方差，如下代码所示。数据合并1.分组计算用户基本特征的中位数和方差In1:import osimport pandas as pdimport numpy as npdata_drop=pd.read_csv(./tmp/data_drop.csv,encoding=utf8)data_group=data_drop.groupby(USER_ID).agg(ACCT_FEE:np.median,np.var,CALL_DURA:np
17、.median,np.var,CDR_NUM:np.median,np.var,NO_ROAM_LOCAL_CALL_DURA:np.median,np.var,NO_ROAM_LOCAL_CDR_NUM:np.median,np.var,NO_ROAM_GN_LONG_CALL_DURA:np.median,np.var,NO_ROAM_GN_LONG_CDR_NUM:np.median,np.var,GN_ROAM_CALL_DURA:np.median,np.var,GN_ROAM_CDR_NUM:np.median,np.var,NO_ROAM_CDR_NUM:np.median,np
18、.var,18大数据挖掘专家数据合并1.分组计算用户基本特征的中位数和方差In1:P2P_SMS_CNT_UP:np.median,np.var,TOTAL_FLUX:np.median,np.var,LOCAL_FLUX:np.median,np.var,GN_ROAM_FLUX:np.median,np.var,CALL_DAYS:np.median,np.var,CALLING_DAYS:np.median,np.var,CALLED_DAYS:np.median,np.var,CALL_RING:np.median,np.var,CALLING_RING:np.median,np.va
19、r,CALLED_RING:np.median,np.var,INNET_MONTH:np.median,np.var,)print(data_group的形状为:,data_group.shape)data_group.to_csv(./tmp/data_group.csv,encoding=utf8)Out1:data_group的形状为:(299967,42)19大数据挖掘专家数据合并2.合并合约有效情况In2:#将每个用户三个月的合约是否有效，合并为一条记录#定义合并合约有效记录函数def fun1(data):if data.shape0!=3:return 0 elif sum(d
20、ata.iloc:,1=1)=3:return 1.5 else:return data.iloc-1,1-data.iloc:2,1.mean()data_agree=data_dropUSER_ID,IS_AGREE.groupby(USER_ID).apply(lambda x:fun1(x)print(data_agree的形状为:,data_agree.shape)print(data_agree.head()data_agree.to_csv(./tmp/data_agree.csv,encoding=utf8)将三个月的合约有效情况合并为一条记录。当三个月的合约有效情况取值不全为
21、1时，用第三个月的值减去前两个月的均值；当三个月的取值都是1时，取1.5。最后得到的所有合约有效情况的取值将为-1、-0.5、0、0.5、1、1.5，如下代码所示。20大数据挖掘专家数据合并2.合并合约有效情况Out2:data_agree的形状为:(299967,)USER_IDU3114031824148707 0.0U3114031824148874 1.5U3114031824148975 1.5U3114031824149138 0.0U3114031824149150 0.0dtype:float64 21大数据挖掘专家数据合并3.合并VIP等级In3:#将每个用户三个月的VIP等
22、级合并为一条记录def fun2(data):if data.shape0!=3:return 0 elif(data.iloc0,1=data.iloc1,1)&(data.iloc0,1=data.iloc2,1):return data.iloc2,1 else:return data.iloc2,1-data.iloc:2,1.mean()data_vip=data_dropUSER_ID,VIP_LVL.groupby(USER_ID).apply(lambda x:fun2(x)print(data_vip的形状为:,data_vip.shape)print(data_vip.he
23、ad()data_vip.to_csv(./tmp/data_vip.csv,encoding=utf8)按用户ID分组，对于同一个用户ID，三个月VIP等级的值相等，则取第三个月的值；三个月VIP等级的值都不相等，则使用第三个月的值减去前两个月的均值。这样处理就可以突出用户在三个月内的VIP等级的变化情况，如下代码所示。22大数据挖掘专家数据合并3.合并VIP等级Out3:data_vip的形状为:(299967,)USER_IDU3114031824148707 99.0U3114031824148874 99.0U3114031824148975 99.0U311403182414913
24、8 99.0U3114031824149150 99.0dtype:float64 23大数据挖掘专家数据合并4.合并信用等级In4:#取每个用户三个月信用等级的平均数作为一行记录data_credit=data_drop.groupby(USER_ID).agg(CREDIT_LEVEL:np.mean,)data_credit.iloc:10print(data_credit的形状为:,data_credit.shape)print(data_credit.head()data_credit.to_csv(./tmp/data_credit.csv,encoding=utf8)Out4:d
25、ata_credit的形状为:(299967,1)USER_ID CREDIT_LEVELU311403182414870767.0U311403182414887465.0U311403182414897565.0U311403182414913865.0U311403182414915065.0 按用户ID分组，将每个用户3个月的信用等级求平均值，合并为一条记录，如下代码所示。24大数据挖掘专家数据合并4.合并信用等级In5:#简化手机品牌string=苹果,小米,华为,三星,诺基亚,联想,LGdef Replace(x=None,string=string):if x not in st
26、ring:x=其他 return x#每个ID的手机品牌只取第一个月的data_str=data_drop.groupby(USER_ID).apply(lambda x:x.iloc0)data_manu=data_strMANU_NAME.apply(Replace)print(data_manu的形状为:,data_manu.shape)print(data_manu.head()将手机品牌简化为“苹果”“小米”“华为”“三星”“诺基亚”“联想”“LG”和“其他”8种，将操作系统简化为“ANDROID”“IOS”“WINDOWS”“LINUX”“BLACKBERRY”“BADA”和“BB
27、”7种，如下代码所示。25大数据挖掘专家数据合并4.合并信用等级Out5:data_manu的形状为:(299967,)USER_IDU3114031824148707 苹果U3114031824148874 苹果U3114031824148975 苹果U3114031824149138 苹果U3114031824149150 三星Name:MANU_NAME,dtype:objectIn5:#简化操作系统#每个ID的手机操作系统也只取第一个月的data_id=data_drop.groupby(USER_ID).apply(lambda x:x.iloc0)data_os=data_idOS
28、_DESC.str.extract(A-Z+)#保留所有的字母print(data_os的形状为:,data_os.shape)print(data_os.head()26大数据挖掘专家数据合并4.合并信用等级Out5:data_os的形状为:(299967,1)0USER_IDU3114031824148707IOSU3114031824148874IOSU3114031824148975IOSU3114031824149138IOSU3114031824149150ANDROID 27大数据挖掘专家1数据准备目录通信运营商客户流失分析需求2特征工程3使用多层感知器算法实现通信运营商客户流失
29、预测4小结5 28大数据挖掘专家因为手机品牌和手机操作系统都是非数值型的数据，而算法模型都要求输入的特征为数值型。因此，需要对非数值型的数据进行独热编码，如下代码所示。独独热编码热编码In6:#手机品牌独热编码data_manu=pd.get_dummies(data_manu)print(独热编码后的手机品牌的形状：,data_manu.shape)print(data_manu.head()data_manu.to_csv(./tmp/data_manu.csv,encoding=utf8)29大数据挖掘专家独独热编码热编码Out6:独热编码后的手机品牌的形状：(299967,8)USE
30、R_IDLG三星其他华为小米联想苹果诺基亚U311403182414870700000010U311403182414887400000010U311403182414897500000010U311403182414913800000010U311403182414915001000000In7:#操作系统独热编码data_os=pd.get_dummies(data_os)print(独热编码后的操作系统的形状：,data_os.shape)print(data_os.head()data_os.to_csv(./tmp/data_os.csv,encoding=utf8)30大数据挖掘专
31、家独独热编码热编码Out7:独热编码后的操作系统的形状：(299967,7)USER_ID0_ANDROID0_BADA0_BB0_BLACKBERRY 0_IOS0_LINUX0_WINDOWSU31140318241487070000100U31140318241488740000100U31140318241489750000100U31140318241491380000100U31140318241491501000000 31大数据挖掘专家将预处理完毕的数据集进行合并，保证待合并的数据框行数一致的情况下，从左往右逐一合并，并为合并后的新数据框重新赋列名，如下代码所示。合并合并预处
32、理后的数据集预处理后的数据集In8:print(data_drop的形状：,data_drop.shape)print(data_group的形状：,data_group.shape)print(data_agree的形状：,data_agree.shape)print(data_vip的形状：,data_vip.shape)print(data_credit的形状：,data_credit.shape)print(data_manu的形状：,data_manu.shape)print(data_os的形状：,data_os.shape)Out8:data_drop的形状：(899901,30
33、)data_group的形状：(299967,42)data_agree的形状：(299967,)data_vip的形状：(299967,)data_credit的形状：(299967,1)data_manu的形状：(299967,8)data_os的形状：(299967,7)32大数据挖掘专家合并合并预处理后的数据集预处理后的数据集In8:data_preprocessed=pd.concat(pd.DataFrame(data_group),pd.DataFrame(data_agree),pd.DataFrame(data_vip),pd.DataFrame(data_credit),p
34、d.DataFrame(data_manu),pd.DataFrame(data_os),axis=1)print(合并后数据集的形状为:,data_preprocessed.shape)data_preprocessed.columns=ACCT_FEE_median,ACCT_FEE_var,CALL_DURA_median,CALL_DURA_var,CDR_NUM_median,CDR_NUM_var,NO_ROAM_LOCAL_CALL_DURA_median,NO_ROAM_LOCAL_CALL_DURA_var,NO_ROAM_LOCAL_CDR_NUM_median,NO_RO
35、AM_LOCAL_CDR_NUM_var,NO_ROAM_GN_LONG_CALL_DURA_median,NO_ROAM_GN_LONG_CALL_DURA_var,NO_ROAM_GN_LONG_CDR_NUM_median,NO_ROAM_GN_LONG_CDR_NUM_var,33大数据挖掘专家合并合并预处理后的数据集预处理后的数据集In8:GN_ROAM_CALL_DURA_median,GN_ROAM_CALL_DURA_var,GN_ROAM_CDR_NUM_median,GN_ROAM_CDR_NUM_var,NO_ROAM_CDR_NUM_median,NO_ROAM_CDR
36、_NUM_var,P2P_SMS_CNT_UP_median,P2P_SMS_CNT_UP_var,TOTAL_FLUX_median,TOTAL_FLUX_var,LOCAL_FLUX_median,LOCAL_FLUX_var,GN_ROAM_FLUX_median,GN_ROAM_FLUX_var,CALL_DAYS_median,CALL_DAYS_var,34大数据挖掘专家合并合并预处理后的数据集预处理后的数据集In8:CALLING_DAYS_median,CALLING_DAYS_var,CALLED_DAYS_median,CALLED_DAYS_var,CALL_RING_m
37、edian,CALL_RING_var,CALLING_RING_median,CALLING_RING_var,CALLED_RING_median,CALLED_RING_var,INNET_MONTH_median,INNET_MONTH_var,IS_AGREE,VIP_LVL,CREDIT_LEVEL,LG,三星,其他,华为,小米,联想,苹果,诺基亚,0_ANDROID,0_BADA,0_BB,0_BLACKBERRY,0_IOS,0_LINUX,0_WINDOWSprint(data_preprocessed.head()data_preprocessed.to_csv(./tmp
38、/data_preprocessed.csv,encoding=utf8)35大数据挖掘专家合并合并预处理后的数据集预处理后的数据集Out9:合并后数据集的形状为:(299967,60)USER_IDACCT_FEE_medianACCT_FEE_varCALL_DURA_median U311403182414870776.027.90750011901 U3114031824148874260.32889.99863322991 U3114031824148975166.00.00333318972 U3114031824149138146.22150.29750042921 U31140
39、3182414915077.348.8233331206 5 rows 60 columns 36大数据挖掘专家1数据准备目录通信运营商客户流失分析需求2特征工程3使用多层感知器算法实现通信运营商客户流失预测4小结5 37大数据挖掘专家在预处理完后的数据集中，随机抽取80%的数据作为训练集，20%的建模数据集作为测试集。为了消除各特征之间量纲和取值范围的差异，还需要对数据进行标准化处理，如下代码所示。数据数据集划分与数据标准化集划分与数据标准化In1:#导入库import osimport pandas as pdfrom sklearn.model_selection import tra
40、in_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.neural_network import MLPClassifierfrom sklearn.metrics import classification_report#导入数据data_drop=pd.read_csv(./tmp/data_drop.csv,encoding=utf-8,index_col=0)data_preprocessed=pd.read_csv(./tmp/data_preprocessed.csv,encoding=u
41、tf-8,index_col=0)38大数据挖掘专家数据数据集划分与数据标准化集划分与数据标准化In1:#取data_preprocessed作为输入，取data_drop中三月份的数据的目标变量作为输出data_target=data_drop.loc:,USER_ID,IS_LOSTdata_target=data_target.locdata_targetUSER_ID.isin(data_preprocessed.index)data_target=data_target.loc201603.drop_duplicates()print(目标变量数据集的形状为:,data_target
42、.shape)Out1:目标变量数据集的形状为:(299967,2)In2:#划分数据集x=data_preprocessedy=data_targetx_train,x_test,y_train,y_test=train_test_split(x,yIS_LOST,test_size=0.2,random_state=42)print(训练集数据的形状为：,x_train.shape)print(训练集标签的形状为：,y_train.shape)print(测试集数据的形状为：,x_test.shape)print(测试集标签的形状为：,y_test.shape)39大数据挖掘专家数据数据集
43、划分与数据标准化集划分与数据标准化Out2:训练集数据的形状为：(239973,60)训练集标签的形状为：(239973,)测试集数据的形状为：(59994,60)测试集标签的形状为：(59994,)In3:#数据标准化stdScaler=StandardScaler().fit(x_train)x_stdtrain=stdScaler.transform(x_train)x_stdtest=stdScaler.transform(x_test)print(标准化后的x_stdtrain:n,x_stdtrain)print(标准化后的x_stdtest:n,x_stdtest)40大数据挖掘
44、专家数据数据集划分与数据标准化集划分与数据标准化Out3:标准化后的x_stdtrain:3.60085096e+00 1.62976772e-01 1.80357715e+00.1.03237316e+00 -2.04136054e-03-6.40026339e-02.-3.13896190e-01-4.02014279e-03 4.95623880e-01.1.03237316e+00 -2.04136054e-03-6.40026339e-02标准化后的x_stdtest:-1.89615756e-01-3.98502466e-03 4.28483334e+00.1.03237316e+
45、00 -2.04136054e-03-6.40026339e-02.1.23824687e-01-3.49158199e-03 6.59684018e-01.-9.68641996e-01 -2.04136054e-03-6.40026339e-02 41大数据挖掘专家使用多层感知器算法构建用户流失模型。输入层为用户基本信息和呼叫信息的指标变量，输出层为用户在3个月内是否流失的指标，如下代码所示。构建构建客户流失预测模型客户流失预测模型In4:#建立模型bpnn=MLPClassifier(hidden_layer_sizes=(17,10),max_iter=200,solver=lbfg
46、s,random_state=50)bpnn.fit(x_stdtrain,y_train)print(构建的模型为:n,bpnn)Out4:构建的模型为:MLPClassifier(activation=relu,alpha=0.0001,batch_size=auto,beta_1=0.9,beta_2=0.999,early_stopping=False,epsilon=1e-08,hidden_layer_sizes=(17,10),learning_rate=constant,learning_rate_init=0.001,max_iter=200,momentum=0.9,nes
47、terovs_momentum=True,power_t=0.5,random_state=50,shuffle=True,solver=lbfgs,tol=0.0001,validation_fraction=0.1,verbose=False,warm_start=False)42大数据挖掘专家使用构建好的模型对测试集进行预测。使用精确率、召回率和F1值对模型预测结果进行评价，并绘制ROC曲线，如下代码所示。模型评价模型评价In5:from sklearn.metrics import classification_report#模型预测y_pre=bpnn.predict(x_stdt
48、est)print(多层感知器预测结果评价报告：n,classification_report(y_test,y_pre)Out5:多层感知器预测结果评价报告：precision recall f1-score support 0.0 0.97 1.00 0.98 58070 1.0 0.25 0.00 0.00 1924avg/total 0.94 0.97 0.95 59994 43大数据挖掘专家模型评价模型评价In6:%matplotlib inlinefrom sklearn.metrics import roc_curveimport matplotlib.pyplot as plt
49、#绘制ROC曲线图plt.rcParamsfont.sans-serif=SimHei#显示中文plt.rcParamsaxes.unicode_minus=False#显示负号fpr,tpr,thresholds=roc_curve(y_pre,y_test)#求出TPR和FPRplt.figure(figsize=(6,4)#创建画布plt.plot(fpr,tpr)#绘制曲线plt.title(用户流失模型的ROC曲线)#标题plt.xlabel(FPR)#x轴标签plt.ylabel(TPR)#y轴标签plt.show()#显示图形plt.close 44大数据挖掘专家模型评价模型评价
50、Out6:45大数据挖掘专家1数据准备目录通信运营商客户流失分析需求2特征工程3使用多层感知器算法实现通信运营商客户流失预测4小结5 46大数据挖掘专家本章介绍了通信运营商客户流失分析与预测案例，其主要内容如下。分析需求部分介绍了通信运营商的现状、分析需求、数据的基本状况和分析的步骤与流程；数据准备部分对原始数据进行了去重和降维，并对数据中的缺失值和异常值进行了处理。数据清洗后的数据按照用户ID分组将3个月的记录合并为1条，并将手机品牌和操作系统特征简化；特征工程部分对简化后的手机品牌和操作系统特征进行了独热编码用于后续的建模步骤；客户流失预测部分通过多层感知器算法对客户是否会流失构建了分类预

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：大数据通信运营商客户流失分析与预测课件.pptx
链接地址：https://www.163wenku.com/p-3335664.html

三亚风情

内容提供者

实名认证

联系作者