证-券交易所数据挖掘培训-II课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《证-券交易所数据挖掘培训-II课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 交易所 数据 挖掘 培训 II 课件
- 资源描述:
-
1、上海证券交易所数据挖掘培训上海证券交易所数据挖掘培训 II概览概览 议议程程 业务系统和数据仓库之间的关系业务系统和数据仓库之间的关系 数据挖掘的方法和应用数据挖掘的方法和应用 数据挖掘数据挖掘的具体的具体过程过程 数据挖掘项目成功的要素数据挖掘项目成功的要素 数据挖掘举例数据挖掘举例业务系统和数据仓库之间的关系业务系统和数据仓库业务系统和数据仓库 业务系统的主要功能是日常运作业务系统的主要功能是日常运作 数据仓库的目的是决策支持数据仓库的目的是决策支持 业务系统是数据仓库的数据源业务系统是数据仓库的数据源 数据仓库系统不是也不可能替代业务系统数据仓库系统不是也不可能替代业务系统业务人员和技术
2、人员的角色与职责业务人员和技术人员的角色与职责 数据数据仓库是为了最终用户的使用仓库是为了最终用户的使用而由最终用户和技术人员共同创建而由最终用户和技术人员共同创建的的 数据仓库不是一个技术项目数据仓库不是一个技术项目 数据仓库必须由技术人员和最终用户共同缔造数据仓库必须由技术人员和最终用户共同缔造 技术人员和最终用户必须技术人员和最终用户必须共同共同合作才能保证项目的成功合作才能保证项目的成功最终用户的职责最终用户的职责 业务目的确定业务目的确定 (主导主导) 用户需求用户需求 (主导主导) 设计设计 4逻辑模型4星形模型 实施实施 4测试4培训技术人员职责技术人员职责业务目的确定业务目的确
3、定 (主导主导)用户需求用户需求 (主导主导)设计设计 4逻辑模型4物理模型 4星形模型实施实施 4设计4编程 4测试 4培训 数据挖掘的方法和应用数据挖掘的方法及典型应用数据挖掘的方法及典型应用时间序列时间序列预测预测交叉销售交叉销售相关分析相关分析购物篮分析购物篮分析市场分割市场分割个性化服务个性化服务欺诈行为检测欺诈行为检测股价预测股价预测收入预测收入预测风险值预测风险值预测风险评级风险评级信用评级信用评级客户流失预测客户流失预测关联分析关联分析相似时间相似时间序列分析序列分析聚类分析聚类分析值预测值预测分类分析分类分析相关分析相关分析因子分析因子分析数据挖掘功能、算法及典型应用数据挖掘
4、功能、算法及典型应用类别功能算法典型应用预测模型分类决策树,神经网络,差异分析 ,Logistic回归, Probit 回归目标化市场营销,质量控制,风险分析,客户维持度分析,医疗诊断数值预测线性回归,非线性回归,径向基函数盈利能力分析分割聚类分析K均值,Demographic,神经网络市场分割 客户分割链接分析关联发现统计,集合论购物篮分析、交叉销售序列关联发现统计,集合论时序购物篮分析相似时间序列发现统计,集合论销售流,股价波动预测时间序列预测诸如ARIMA, Box-Jenkins, 神经网络等的统计时间序列模型销售预测,利率预测,库存控制,信用降低导致的公司损失预测数据挖掘的具体过程数
5、据挖掘流程数据挖掘流程1.业务目的确定业务目的确定7.数据挖掘数据挖掘8.结果解释结果解释3.数据数据收集收集Data SourceData Source2.数据源数据源识别识别4.数据选择数据选择9.应用建议应用建议10.结果结果应用应用实施实施5.数据质量审核数据质量审核6.数据转换数据转换业务目标确定业务目标确定 对于所有的数据挖掘项目,这并不是自动获得的。对于所有的数据挖掘项目,这并不是自动获得的。 许多数据挖掘项目的目标通常是模糊和不清晰的。对于许多数据挖掘项目的目标通常是模糊和不清晰的。对于分析人员和决策制定者来说,在任何数据挖掘项目的开分析人员和决策制定者来说,在任何数据挖掘项目
6、的开始阶段,对业务问题、业务目标以及数据挖掘目的有一始阶段,对业务问题、业务目标以及数据挖掘目的有一个清晰而描述是至关重要的。个清晰而描述是至关重要的。 涉及人员:高级管理人员,业务分析员和项目经理涉及人员:高级管理人员,业务分析员和项目经理 活动:与业务用户的会议和访谈活动:与业务用户的会议和访谈数据源识别数据源识别 给定一个业务目标,下一步就是找到可以回答和解决这给定一个业务目标,下一步就是找到可以回答和解决这一业务问题的数据。所需要的数据可以来自操作型数据一业务问题的数据。所需要的数据可以来自操作型数据或者是公司内的数据库或者是公司内的数据库/数据仓库。数据仓库。 涉及人员:业务分析员,
7、数据挖掘分析员和涉及人员:业务分析员,数据挖掘分析员和IT人员人员 活动:与活动:与IT部门的会议和访谈部门的会议和访谈 数据收集数据收集 收集需要的数据有几种方式,这取决于数据需求和经济收集需要的数据有几种方式,这取决于数据需求和经济因素的综合考量。因素的综合考量。4在公司内部数据中提取4向数据公司购买4进行市场调研4从公告或媒体中获取 涉及人员:数据挖掘分析员和涉及人员:数据挖掘分析员和IT人员人员 活动:确定及收集可能用于挖掘的数据活动:确定及收集可能用于挖掘的数据 数据选择数据选择从数据源选择将使用的数据类型从数据源选择将使用的数据类型4数据量大,采集时间长 = 数据抽样技术 平衡减少
8、数据量和采样必须具有较全面的代表性 根据统计方法来计算样本的大小4了解数据的定义4数据的质量和可靠性 数据的准确性 数据的一致性 数据的完整性 数据的有效性 数据的代表性 数据的非冗余性 涉及人员:数据挖掘分析员、涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员人员,有时还有业务分析员活动:确定及选择可能用于挖掘的数据活动:确定及选择可能用于挖掘的数据 业务目标确定数据质量审核业务目标确定数据质量审核 对选择的数据进行审核对选择的数据进行审核4审核方法 离散数据频率分析 定量数据的分位数分析 图形分析包括柱状图、饼图、散点图, boxplots, 和时间曲线。 涉及人员:数据挖掘分析员、
9、涉及人员:数据挖掘分析员、IT人员,有时还有业务分人员,有时还有业务分析员析员 活动:检测抽取数据的质量活动:检测抽取数据的质量数据转换数据转换 在选择并检验了需要的数据(表、变量)之后,多数情在选择并检验了需要的数据(表、变量)之后,多数情况下需要进行数据转换。特定的转换取决于数据挖掘类况下需要进行数据转换。特定的转换取决于数据挖掘类型和数据挖掘工具,比如计算机软件和数据挖掘所使用型和数据挖掘工具,比如计算机软件和数据挖掘所使用的技术。的技术。 典型的转换典型的转换4转换类别变量成数字变量4数学转换,如对数转换、次方转换4数字定义新变量 涉及人员:数据挖掘分析员涉及人员:数据挖掘分析员 活动
10、:抽取信息的转换活动:抽取信息的转换 数据挖掘数据挖掘数据挖掘项目的核心部分数据挖掘项目的核心部分 尝试多种不同的数据挖掘技术以发现最优尝试多种不同的数据挖掘技术以发现最优数据挖掘方法数据挖掘方法4预测模型 分类 值预测4分割4链接分析4时间序列预测涉及人员:数据挖掘分析员涉及人员:数据挖掘分析员活动:挖掘数据活动:挖掘数据应用建议应用建议 把分析结果转化为业务利润。把分析结果转化为业务利润。4基于数据挖掘的知识发现,对在业务中运用数据挖掘结果,提出合理化建议 涉及人员:数据挖掘分析员和业务分析员涉及人员:数据挖掘分析员和业务分析员 活动:分析挖掘结果并考虑如何在业务环境中应用活动:分析挖掘结
11、果并考虑如何在业务环境中应用结果应用结果应用 数据挖掘结果应用途径数据挖掘结果应用途径4将挖掘获得的知识直接发送给用户4将结果加入ODS,DDS甚至源系统以便利用 。 涉及人员:涉及人员:IT人员人员 活动:基于运行系统的建议,活动:基于运行系统的建议,IT人员实施应用数据挖掘人员实施应用数据挖掘的结果的结果数据挖掘项目成功的要素好的好的数据源数据源 数据要准确数据要准确 数据要丰富数据要丰富 数据要经常更新数据要经常更新好的方案好的方案 方案必须紧密根据业务目的和数据挖掘目的来设计方案必须紧密根据业务目的和数据挖掘目的来设计 对数据挖掘技术要有全面而深刻的了解,从而保证方案对数据挖掘技术要有
12、全面而深刻的了解,从而保证方案制订有较强的灵活性和先进性制订有较强的灵活性和先进性 对其它非数据挖掘方案来解决相同的课题也要有较强的对其它非数据挖掘方案来解决相同的课题也要有较强的认识,以备在制订数据挖掘方案时做参考。克服缺陷,认识,以备在制订数据挖掘方案时做参考。克服缺陷,发扬优点。发扬优点。好的好的算法算法 好的算法能提高模型的准确性好的算法能提高模型的准确性 好的算法能为模型的调整提供更好的灵活性好的算法能为模型的调整提供更好的灵活性好的好的系统支持系统支持 好的系统能够为支持某些算法的运行提供可能好的系统能够为支持某些算法的运行提供可能4内存和硬盘空间不足会导致决策树模型不能运行 好的
13、系统能提高数据挖掘的效率好的系统能提高数据挖掘的效率4好的系统增快数据挖掘的速度,从而减少等待时间好的好的团队合作团队合作 数据挖掘是跨多部门数据挖掘是跨多部门(数据挖掘,数据挖掘,IT,业务部门业务部门) 共同合共同合作的项目,因此需要各个部门的精诚合作作的项目,因此需要各个部门的精诚合作4业务部门提供详细的业务需求,实时的业务知识指导,和专业化的数据挖掘结果审核4IT部门提供数据源说明,数据提取和转换的支持,数据挖掘结果应用的实施4数据挖掘部门提供数据整理的建议,制定优秀的数据挖掘方案,灵活应用数据挖掘的算法,解释数据挖掘的结果,对结果的应用提出合理化的建议数据挖掘举例收集信用机构的数据资
14、产是开发新产品的催化剂收集信用机构的数据资产是开发新产品的催化剂获取和管理获取和管理18个月的数据个月的数据提供数据集市类的环境以用于支持构想测试的查询提供数据集市类的环境以用于支持构想测试的查询对时间分析和数据挖掘的分析可以导向用于开发新产品的见识对时间分析和数据挖掘的分析可以导向用于开发新产品的见识识别有倾向使用新产品的客户识别有倾向使用新产品的客户/消费者消费者数据流概述: 从兆兆字节(Terabytes) - 结果消费信贷数据 4 TB属性选择映射到普通表的消费者ID样本消费者数据库 375 GBUDB / Teraplex聚类模型输入表1.07 M households482 列 4
15、 GB破产预测模型输入表1.07 M households280 列 1 GB普通表 75 GB智能挖掘训练 数据KMAP ClusterVisualization Tool0.5% 取样创建数据库 (18 个快照)测试数据属性选择丰富破产模型IM 可视化树状分类IBM 研究13K 记录 110K 记录神经元聚类 神经元 / 树状分类36个输入字段41个输入字段+ 21 个supp 字段(从消费者来)SQL 查询SQL 查询lift curves分类分析(例如:小生意)这个项目的重点在信用卡客户消费模式分析这个项目的重点在信用卡客户消费模式分析.LOWMedium OLDStodgyMortg
16、ageStodgyMortgageStodgyMortgageStodgyMortgageStodgyMortgageStodgyMortgageGOVMTShoppersMedium1-2 yearStodgyMortgageStodgyMortgageAUTOBIG CHURNStodgyMortgageStodgyMortgageGOVMTJUMBOStodgyMortgageLittleChurnBIG CHURNSmall BusinessSmallBusinessSTUDENTOILLittleChurnLittleChurnLittleChurnMEDIUM CHURNSTUDE
17、NTPopularDeptOILOILLittle ChurnMEDIUMCHURNMEDIUM CHURNMEDIUM CHURNSTUDENTAUTOMEDIUM CHURNMEDIUM CHURNMEDIUM CHURNAUTOAUTOAUTOHigh End Dept Store MediumOLDMediumOLDMedium 6-12 monthsMedium 6-12 monthsMedium 6-12 monthsAUTOAUTOPopularDeptHigh End Dept StoreSerious ShoppersSer Shop /Medium OLDMediumOLD
展开阅读全文