1、目录4123基于贝叶斯网络的神经网络法基于贝叶斯网络的神经网络法0信息融合技术信息融合技术粗糙集信息处理粗糙集信息处理5信息的跨系统交互信息的跨系统交互信息处理的定义与目标信息处理的定义与目标14.4粗糙集信息处理粗糙集信息处理 4.4.1粗糙集的概述从一系列已有数据中,寻找其规律或规则,预测问题的方向。知识发现、数据挖掘、模式识别、故障检测、医疗诊断等。80sPawlak提出提出了粗糙集理了粗糙集理论的思想论的思想 1982Pawlak发表发表Rough sets标志标志着该理论正着该理论正式诞生式诞生1991第一本关第一本关于粗糙集于粗糙集理论的专理论的专著著1992第一届国际粗第一届国际
2、粗糙集理论研讨糙集理论研讨会会Pawlak等发表等发表“Rough sets”扩扩大了该理论的国大了该理论的国际际影响影响 19951.粗集理论的提出2p 主要优点主要优点 除数据集之外,无需任何先验知识(或信息)对不确定性的描述与处理相对客观 与处理其他不确定性问题的理论有很强的互补性p 粗集理论所处理的问题粗集理论所处理的问题 4.4.1粗糙集的概述2.特点及用途不确定或不精不确定或不精确知识的表达、确知识的表达、推理推理经验学习并获经验学习并获从中取知识从中取知识不一致信息的不一致信息的分析分析在保留信息的在保留信息的前提下进行数前提下进行数据化简据化简近似模式分类近似模式分类识别并评估
3、数识别并评估数据之间的依赖据之间的依赖关系关系3知识知识知识库知识库 使用等价关系集R对离散表示的空间U进行划分,知识就是R对U划分的结果。等价关系集R中所有可能的关系对U的划分 表示为:K=(U,R)等价关系:等价关系:设PR,xi,xj U,定义二元关系INDP称为等价关系等价关系:称xi,xj在S中关于属性集P是等价的,当且仅p(xi)=p(xj)对所有的pP 成立,即xi,xj不能用P 中的属性加以区别。)()(,|),()(jijixpxpPpUUxxPIND 4.4.2粗糙集信息处理1.知识与等价类4“信息系统信息系统”的形式化定义的形式化定义 S=U,A,V,f U:对象的有限集
4、 A:属性的有限集,A=CD,C是条件属性子集,D是决策属性子集 V:,Vp是属性P的域 f:U A V是总函数,使得 对每个xi U,q A,有f(xi,q)Vq一个关系数据库可看作一个信息系统,其一个关系数据库可看作一个信息系统,其“列列”为为“属性属性”,“行行”为为“对象对象”。4.4.2粗糙集信息处理1.知识与等价类PApVV 5U=1,2,3,4,5,6 R=weather,road,time,accident 若P=weather,road,则x IND(P)=x INDweather x INProad =1,3,6,2,5,4 1,2,4,3,5,6 =1,2,4,3,6,5
5、 factweatherroadtimeaccident1misty(雾)Icy(有冰)dayyes2foggyicynightyes3mistynot icynightyes4sunnyicydayno5foggynot icyDusk(黄昏)yes6mistynot icynightno 4.4.2粗糙集信息处理1.知识与等价类Eg.6在信息系统S=U,A,V,f中,设XU是个体全域上的子集,PA,U基于P的划分是Y。则X的下和上近似集及边界区域分别为::/XYPUYXP:/XYPUYXPXPXPXBndP)(XP X XP U 4.4.2粗糙集信息处理2.上近似与下近似7 X1=u|Fl
6、u(u)=yes =u2,u3,u6,u7 RX1=u2,u3 =u2,u3,u6,u7,u5,u8X2=u|Flu(u)=no =u1,u4,u5,u8RX2=u1,u4 =u1,u4,u5,u8,u6,u7U Headache Temp.Flu U1 Yes Normal No U2 Yes High Yes U3 Yes Very-high Yes U4 No Normal No U5 N N No o o H H Hi i ig g gh h h N N No o o U6 No Very-high Yes U7 N N No o o H H Hi i ig g gh h h Y Y
7、Ye e es s s U8 No Very-high No 由R=Headache,Temp.划分出来的等价类有:u1,u2,u3,u4,u5,u7,u6,u8.RX1RX2 4.4.2粗糙集信息处理2.上近似与下近似Eg.8设S=U,A,V,f为一信息系统,且XU,PA,则S上X的近似精度近似精度为:)()()()()(XPcardXPcardXXXPPP 注:card(X)表示集合X中元素个数设S为一信息系统,PA,且令=X1,X2,Xn是U的一个分类(子集族),其中XiU,则的P-下近似和 P-上近似分别表示为:,21nXPXPXPP,21nXPXPXPP 4.4.2粗糙集信息处理3.
8、近似精度9由属性子集PA确定的分类的分类质量分类质量为:)()()(1UcardXPcardiniP 分类质量分类质量表示通过属性子集P正确分类的对象数与 信息系统中所有对象数的比值。这是评价属性子 集P的重要性的关键指标之一。4.4.2粗糙集信息处理4.分类质量10属性属性约简约简(Attribute Reduction):在一个信息系统S中,设是S上的一个分类,经约简后的最小属性子集具有同原始属性集相同的分类质量,即存在RPQ,使得R()=P(),称之为属性集属性集P P的的-约约简简,记作REDU(P)。所有-约简的交集称为-核核,即CORE(P)=REDU(P),核是信息系统中一系列最
9、重要的属性之一。4.4.2粗糙集信息处理5.属性约简 与“核”4.4.3粗糙集在知识发现中的作用11数据预处理数据预处理 对特征更准对特征更准确的提取确的提取数据准备数据准备 利用数据约利用数据约简特性,进简特性,进行降维操作行降维操作数据挖掘数据挖掘 分类规则的分类规则的发现发现解释与评估解释与评估 对所得到的对所得到的结果进行统结果进行统计评估计评估 4.4.3粗糙集在知识发现中的作用12粗集粗集神经神经网络网络粗集理论:容错能力推广能力软弱,只能处理量化信息神经网络:强的自组织、容错、推广能力,无法优选条件属性组合训练样本输入量化条件属性粗集理论优选条件属性集合BP神经网络训练待识样本输
10、入条件属性选择BP神经网络模式分类分类结果输出粗集神经网络系统框图1.粗糙神经网络 4.4.3粗糙集在知识发现中的作用132.文字识别粗集算法依据任务知识系统的表达属性的简化方法求出每个模式的最小描述和决策算法开始知识表达属性值表去掉重复信息条件属性简化结束消去冗余属性值表最小决策算法14 4.4.3粗糙集在知识发现中的作用3.粗糙集在GIS数据处理中的应用 地理信息系统(Geographic Information System或 GeoInformation system,GIS),在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、
11、运算、分析、显示和描述的技术系统。空间数空间数据挖掘据挖掘遥感遥感影影像处理像处理GIS不不确定性确定性数据数据分析分析模糊地理模糊地理对象建模对象建模 4.4.3粗糙集在知识发现中的作用154.系统评估粗集方法学习学习阶段阶段应用应用阶段阶段应用粗集理论进行系统综合评估分两个阶段:根据样本数据(历史数据)进行学习,提炼知识,形成评估规则应用所形成的评估规则进行系统综合评估决策表(样本数据)数据预处理(离散化)决策表的属性约简形成评估规则应用评估规则进行评估在应用过程中,把决策表看成评估系统,评估结果对于这决策属性粗集系统综合评估模型结果示意图16 4.4.4 粗糙集小结特点能处理数据的不确定性能应对不完整和众多变量的数据揭示概念简单、易操作的模式知识的最小表达和不同颗粒层次适合规则的自动生成缺点由于过拟合而使其对新对象的预测能力大为降低不能处理偏好多属性决策分类问题对于粗糙集边界区域的刻画比较简单不能识别仅由少数事例支持的随机规则对原始数据本身的模糊性缺乏相应的处理方法