数据挖掘中的特征选择分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘中的特征选择分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 中的 特征 选择 分析 课件
- 资源描述:
-
1、数据挖掘中的数据归约问题数据挖掘中的数据归约问题为什么需要数据挖掘为什么需要数据挖掘n数据爆炸问题数据爆炸问题 q自动数据收集工具和成熟的数据库技术使得大量自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。信息库中以待分析。n我们拥有丰富的数据,但却缺乏有用的信息我们拥有丰富的数据,但却缺乏有用的信息n数据爆炸但知识贫乏 http:/ http:/ http:/ (CRM),市场占有量分析,交叉销售,目标市,市场占有量分析,交叉销售,目标市场场q风险分析和管理风险分析和管理n风险预测,客户保持,保险业
2、的改良,质量控制,竞争分析风险预测,客户保持,保险业的改良,质量控制,竞争分析q欺骗检测和异常模式的监测欺骗检测和异常模式的监测 (孤立点孤立点)n其他的应用其他的应用q文本挖掘文本挖掘 (新闻组,电子邮件,文档新闻组,电子邮件,文档) 和和Web挖掘挖掘q流数据挖掘流数据挖掘qDNA 和生物数据分析和生物数据分析2022-6-8数据挖掘中的特征选择5数据挖掘数据挖掘: : 数据库中的知识挖掘数据库中的知识挖掘(KDD)(KDD)n数据挖掘数据挖掘知识挖掘的核心知识挖掘的核心数据清理数据清理数据集成数据集成数据库数据库数据仓库数据仓库任务相关数据任务相关数据选择选择数据挖掘数据挖掘模式评估模式
3、评估2022-6-8数据挖掘中的特征选择6数据挖掘的步骤数据挖掘的步骤u了解应用领域了解应用领域u了解相关的知识和应用的目标了解相关的知识和应用的目标u创建目标数据集创建目标数据集: : 选择数据选择数据u数据清理和预处理数据清理和预处理: (: (这个可能要占全过程这个可能要占全过程6060的工作的工作量量) )u数据缩减和变换数据缩减和变换u找到有用的特征,维数缩减找到有用的特征,维数缩减/ /变量缩减,不变量的表示变量缩减,不变量的表示u选择数据挖掘的功能选择数据挖掘的功能 u数据总结数据总结, , 分类模型数据挖掘分类模型数据挖掘, , 回归分析回归分析, , 关联规则挖关联规则挖掘掘
4、, , 聚类分析等聚类分析等2022-6-8数据挖掘中的特征选择7u选择挖掘算法选择挖掘算法u数据挖掘数据挖掘: : 寻找感兴趣的模式寻找感兴趣的模式u模式评估和知识表示模式评估和知识表示u可视化,转换,消除冗余模式等等可视化,转换,消除冗余模式等等u运用发现的知识运用发现的知识2022-6-8数据挖掘中的特征选择8数据挖掘和商业智能数据挖掘和商业智能支持商业决策的支持商业决策的潜能不断增长潜能不断增长最终用户最终用户商业分析家商业分析家 数据分析家数据分析家DBA 决策支持决策支持数据表示数据表示可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探索数据探索在线分析处理(在线分析处理(
5、OLAP)OLAP),多维分析,多维分析(MDA(MDA)统计分析,查询和报告统计分析,查询和报告数据仓库数据仓库/ /数据市场数据市场数据源数据源论文论文, , 文件文件, , 信息提供商信息提供商, , 数据库系统数据库系统, , 联机事务处理系统联机事务处理系统(OLTP(OLTP)2022-6-8数据挖掘中的特征选择9典型数据挖掘系统典型数据挖掘系统数据仓库数据仓库数据清洗数据清洗过滤过滤数据库数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据集成2022-6-8数据挖掘中的特征选择10数据挖掘数据挖掘: :多个学科的融合多个学科的融合数据挖掘数据挖掘数据库
6、系统统计学其他学科算法机器学习可视化2022-6-8数据挖掘中的特征选择11u预言预言(Predication):):用历史预测用历史预测未来未来u描述(描述(Description):):了解数据中了解数据中潜在的规律潜在的规律2022-6-8数据挖掘中的特征选择12u分类(分类(Classification)u聚类聚类(Clustering)u相关规则相关规则(Association Rule)u回归回归(Regression)u其他其他2022-6-8数据挖掘中的特征选择13u因为在文本分类、信息检索和生物信息学等数据挖掘的因为在文本分类、信息检索和生物信息学等数据挖掘的应用领域中,数据
7、的维数往往是很高的。应用领域中,数据的维数往往是很高的。u高维的数据集中包含了大量的特征高维的数据集中包含了大量的特征(属性属性)。比如一个文。比如一个文本数据集中,每一个文本都可以用一个向量来表示,向本数据集中,每一个文本都可以用一个向量来表示,向量中的每一个元素就是每一个词在该文本中出现的频率。量中的每一个元素就是每一个词在该文本中出现的频率。在这种情况下,这个数据集中就存在着成千上万的特征。在这种情况下,这个数据集中就存在着成千上万的特征。这种高维的数据给数据挖掘带来了这种高维的数据给数据挖掘带来了“维灾难维灾难”(The Curse of Dimensionality)问题。问题。 2
8、022-6-8数据挖掘中的特征选择14u特征选择和特征降维是两类特征归约方法。特征选择和特征降维是两类特征归约方法。2022-6-8数据挖掘中的特征选择15u特征选择的一般过程包括:首先从特征全集中产生出一特征选择的一般过程包括:首先从特征全集中产生出一个特征子集,然后用评价函数对该特征子集进行评价,个特征子集,然后用评价函数对该特征子集进行评价,评价的结果与停止准则进行比较,若评价结果比停止准评价的结果与停止准则进行比较,若评价结果比停止准则好就停止,否则就继续产生下一组特征子集,继续进则好就停止,否则就继续产生下一组特征子集,继续进行特征选择。选出来的特征子集一般还要验证其有效性。行特征选
9、择。选出来的特征子集一般还要验证其有效性。2022-6-8数据挖掘中的特征选择16n n特征选择的过程特征选择的过程 ( M. Dash and H. Liu 1997 )2022-6-8数据挖掘中的特征选择17u特征选择大体上可以看作是一个搜索过程,搜索空间中特征选择大体上可以看作是一个搜索过程,搜索空间中的每一个状态都可以看成是一个可能特征子集。的每一个状态都可以看成是一个可能特征子集。u搜索的算法分为完全搜索搜索的算法分为完全搜索(Complete),启发式搜索,启发式搜索(Heuristic),随机搜索,随机搜索(Random) 3大类。大类。 2022-6-8数据挖掘中的特征选择18
10、n完全搜索分为穷举搜索与非穷举搜索两类。完全搜索分为穷举搜索与非穷举搜索两类。n(1) 广度优先搜索广度优先搜索(BFS )n(2) 分支限界搜索分支限界搜索(BAB) n(3) 定向搜索定向搜索 (BS)n(4) 最优优先搜索最优优先搜索(Best First Search) 2022-6-8数据挖掘中的特征选择19n启发式搜索启发式搜索n(1) 序列前向选择序列前向选择(SFS)n(2) 序列后向选择序列后向选择(SBS)n(3) 双向搜索双向搜索(BDS)n(4) 增增L去去R选择算法选择算法 (LRS)n(5) 序列浮动选择序列浮动选择(Sequential Floating Sele
展开阅读全文