粗糙集理论-研究现状与发展前景课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《粗糙集理论-研究现状与发展前景课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 粗糙 理论 研究 现状 发展前景 课件
- 资源描述:
-
1、 粗 糙 集 理 论 -研究现状与发展前景主要内容 粗糙集(Rough Sets)是波兰数学家Z. Pawlak于1982年提出的1(为开发自动规则生成系统及研究软计算问题而引入)。由于最初关于粗糙集理论的研究大部分是用波兰语发表的,因此当时没有引起国际计算机学界和数学界的重视。研究地域也局限在东欧一些国家,直到80年代末才引起各国学者的注意。九十年代初,人们才逐渐认识到它的意义。 1992年在波兰Kiekrz召开了第一届国际RS研讨会。这次会议着重讨论了集合近似定义的基本思想及应用,其中RS环境下的机器学习基础研究是这次会议的四个专题之一。 1993年在加拿大Banff召开第二届国际RS理论
2、与知识发现研讨会。这次会议积极推动了国际上对RS理论与应用的研究。由于当时正值KDD(数据库知识发现)成为研究的热门话题,一些著名KDD学习者参加这次会议,并且介绍了许多应用扩展RS理论的知识发现方法与系统。 1996年在日本东京召开了第5届国际RS研讨会,推动了亚洲地区对RS理论与应用的研究。 1995年,ACM Communication将其列为新浮现的计算机科学的研究课题。 1998年,国际信息科学杂志(Information Sciences)为粗糙集理论的研究出了一期专辑2,3。第一届中国RS理论与软计算学术研讨会,于2001年5月在重庆举行。第二届中国RS理论与软计算学术研讨会,于
3、2002年10月在苏州大学举行。第三届中国RS理论与软计算学术研讨会,于2003年8月在重庆举行。第四届中国RS理论与软计算学术研讨会,将于2004年在舟山举行。 粗糙集的理论及应用的文章 主要发表在以下杂志国内: 1模式识别与人工智能 2软件学报 3科学通报 4计算机科学 5计算机学报 6模糊系统与数学 7计算机应用与软件 8计算机研究与发展 9计算技术与自动化 粗糙集的理论及应用的文章 主要发表在以下杂志(续)国际: 1Information Sciences 2Fuzzy sets and systems 3International Journal of Computer and In
4、formation Sciences 4Communication of the ACM 5Computational Intelligence 6Journal of computer and system sciences 7 AI Magazine8 AI Communications9 European Journal of Operational Research10International Journal of Approximate Reasoning11Theoretical computer sciences12Decision support Systems13Inter
5、national Journal of Man-Machine studies 14Fundamenta Informaticae15Intelligent Automation Sciences 粗糙集理论是一种处理不精确、不确定与不完全数据的新的数学方法。由于它在机器学习与知识发现、数据挖掘、决策支持与分析、专家系统、归纳推理、模式识别等方面的广泛应用,现已成为一个热门的研究领域2。 RS理论主要兴趣在于它恰好反映了人们用Rough集方法处理不分明问题的常规性,即以不完全信息或知识去处理一些不分明现象的能力。或依据观察,度量到的某些不确定的结果而进行分类数据的能力4。 RS理论认为知识即是
6、将对象进行分类的能力,假定我们起初对全域里的元素(对象)具有必要的信息、或知识,通过这些知识能够将其划分到不同的类别。若我们对两个元素具有相同的信息,则它们就是不可区分的(即根据已有的信息不能够将其划分开)。显然这是一种等价关系。不可区分关系是RS理论最基本概念。在此基础上引入了成员关系,上近似和下近似等概念来刻划不精确性与模糊性1,2,4,5。样本 粗糙集方法处理 具有优化指标的样本 评审样本学习样本 数据预处理(粗糙集方法、模糊集方法)模糊、粗糙推理神经网络遗传算法智能信息系统 设U是非空有限论域(全域、集合),R是U上的二元等价关系(具有相反、对称、传递性的关系),R称为不可分辨关系。
7、序对A=(U,R)称为近似空间。 ,若 ,则称对象x与y在近似空间A中是不可分辨的。 U/R是U上由R生成的等价类全体,它构成U的一个划分,U上的划分可以与U上的二元等价关系之间建立一一对应。 基本概念UUyx ,Ryx, U/R中的元素(集合)称为U的基本集或原子集,任意有限个基本集的并称为可定义集,空集也称为可定义集( 可定义集也称为精确集)。否则称为不可定义集。 若将U中的集合称为概念或表示知识,则A=(U,R)称为知识库,原子集(基本集)表示基本概念或知识模块。那么精确集可以在知识库中被精确地定义或描述,可表示已知的知识。 基本概念(续) 上近似,下近似 对于一个近似空间A=(U,R)
8、,X是U的任意一个子集。X不一定能用知识库中的知识来精确地描述;即X可能为不可定义集,这时就用X关于A的一对下近似、上近似来“近似”地描述。下面 表示x所在的R-等价类。 称为集合X关于R的下近似。 =称为集合X关于R的上近似。 XxxXRXaprRR XxUxxR, XxxXRXaprRR XxUxxR,Rx 例1 给定一玩具积木的集合 ,并假设这些积木有不同的颜色(红、黄、蓝),形状(方、圆、三角)和体积(大、小)。积木的集合U可按颜色、形状、体积分类。:颜色关系, :形状关系, :体积。则 1R2R3R821,xxxU865427311,/xxxxxxxxRU874362512,/xxx
9、xxxxxRU654318723,/xxxxxxxxRU 例1(续) 取 ,那么 742,xxxX 42,1xxXaprR 73142,1xxxxxXaprR73142,xxxxxXaprR2874362,2xxxxxxXaprRXaprR3UXaprR3XaprXaprXaprU XaprXaprXaprXaprXaprXaprapraprU,2XaprXapr称二元对 为Rough集(粗糙集)XaprXapr, 可认为Rough集的另一种 表示形式,这种定义方式可直接算出U上关于其 子集X的含糊元素数目。这种边界区意味着由于掌握的知识不完全而存在不能辨别的区域,即bnd(X)上的元素不可分
10、辨,所以U上子集X关于U上不分明关系R是Rough的,主要是 ,否则它是可分辨的。一个集合X的边界区域越大,则这个集合X的含糊元素也越多,这种思想可以用数值化的系数表示。 XaprXaprXBND Xbnd , card X表X的基数。称 为X的近似精度, (粗糙程度。于是也可用 来定义Rough集。当 ,称U上子集X关于U上不分明关系R是 Rough的;当 ,称X关于R是精确的; 可被用作Rough逻辑中的算子。 XaprcardXaprcardXR)(XR 10XR)(XR 1XR 1XR在Rough集上也有元素隶属于集合的问题(与Fuzzy 集一样)。设 , ,则 。称 为Rough隶属
11、函数,解释为一种条件概率,能从全域上的个体加以计算。Fuzzy集上的隶属函数则不然。用 来定义Rough集,则得到Rough集的第四种表示形式。UX RRRXxcardxXcardx 10 xXRX xRX若存在 ,有 ,称X关于R是Rough的,若对每个 ,有 ,则X关于R是精确的。相反地,Rough隶属函数可用来定义一个集合 的上、下近似集及边界集 UXx 1xRXUXx 1xRX 1,xUxXaprRX 0,xUxXaprRX 10 ,xUxXbnRXUX 无论哪一种Rough集的表示形式都离不开全域U上的不分明关系R以及由R定义的下和上近似集。因此对Rough集理论中的不分明关系以及下
12、和上近似集的研究尤其重要。定义观点的不同往往带来研究的侧重面的不同。 X关于A的近似质量: 近似质量 反映了知识X中肯定在知识库中的部分在现有知识中的百分比。X关于A的粗糙性测度:则 ,且X是可定义的 X是粗糙的 。粗糙性测度反映了知识的不完全程度。 UXaprUcardXaprcardXrA)(XrA 1XaprXaprXA 10XA 0XA 0XA X关于A的近似精度: 它反映了根据现有知识对X的了解程度2,5。 XaprXaprXA设 是由U的子集所构成的集类。则F关于近似空间A的下近似 F和上近似 F:F关于A的近似精度 nXXXF,21,21nXaprXaprXaprFaprapra
13、prnXaprXaprXaprFapr,21 niniAXiaprXiaprF11近似质量为当F也是U的划分时,F关于A的近似在判别一个决策表是否是协调的和规则提取中有重要作用。 UXiaprFrniA1v信息系统v属性的约简及核 v规则的协调与提取 信息系统粗糙集理论中的知识表达方式一般采用信息表或称为信息系统的形式。信息表表示输入数据,这些数据是从任意领域中收集的。信息系统可用四元有序组 表示,其中U是对象的全体,即论域;A是属性全体; , 是属性a的值域; 是一个信息函数, 反映了对象x在K中的完全信息 5,10。 如下信息表: ,VAUK aAaVV aVVAU:UxVAx,: axa
14、x,对象 属性头痛 肌肉痛 体温 决策 流感是 是 正常 否是 是 高 是是 是 很高 是否 是 正常 否否 否 高 否否 是 很高 是1e1e1e2e3e4e5e6e表1 信息表 信息系统(续)标记 被称为实例(个体,实体,对象), 记 。识别两种变量:属性(有时称之为条件属性), 决策(有时称之为决策属性)。例如:如果信息表描述一家医院,每个实例可能就是病人,属性是症状和检测,而决策是病症。如果信息表表示一个工业生产过程,则这些实例可代表在某些特定时刻及时采集的过程中的样品,属性是过程中的参数,而决策是由操作员(专家)采取的决定。654321,eeeeee,654321eeeeeeU 信息
15、系统(续) RS理论的一个重要概念是不分明关系,它通常与一属性集合联系在一起。如上表1中头痛、肌肉痛、体温均为属性。)头痛且肌肉痛决定不分明关系 ,则)集合 根据属性头痛和肌肉痛是可定 义的。)头痛和体温决定不分明关系 ,则 1R 5643211,/eeeeeeRU5321,eeee2R 信息系统(续) iv)头痛、体温、肌肉痛决定不分明关系 ,则 于是说明肌肉痛是多余的属性。对于信息系统,每个属性子集都定义了论域上的一个等价关系。即 ,对 6543212,/eeeeeeRU3R 6543213,/eeeeeeRUaRAa决定等价关系aBaBRRAB决定等价关系属性的约简及核 粗糙集理论给出了
16、对知识(或数据)的约简和求核的方法,从而提供了从信息系统中分析多余属性的能力2,5,9,10。 信息系统类似于关系数据库模型的表达方式。有时属性集A还可分为条件属性C和决策(结论)属性D,这时的信息系统也称为决策表,常记为 。 无决策的数据分析和有决策的数据分析是粗糙集理论在数据分析中的两个主要应用。 ,VDCU定义:设 是一个信息系统,由属性集 所导出的等价关系为 。)设 ,则称属性a是多余的 (如表1中的肌肉痛)。)若在系统中没有多余属性,则称A是独立的iii)子集 称为是A的约简。若 , 且B中没有多余属性。常记 为A的全体约简,)A的所有约简的交集称为A的核,记为core (A)。一般
17、来说:属性集的约简不唯一而核是唯一的。,VAUK AB BR aAARRAa , 若AB ABRR Ared例2(无决策情形的属性的约简、核 ) 设 ,其中 , , 信息函数 见下表2 ,VAUS 821,xxxU, , , V , , 43214321vvvvccccA属性集 2 , 1 , 3 , 2 , 14321vvvv其中例2(续) 表2 信息系统U 1 1 1 1 1 2 2 1 1 1 1 1 1 2 2 1 2 2 1 1 2 2 1 1 3 3 3 2 3 3 3 21x2x3x4x5x6x7x8x1c2c3c4c例2(续) 因此 876543211,/xxxxxxxxcU8
18、76542312,/xxxxxxxxcU874265313,/xxxxxxxxcU876543214,/xxxxxxxxcU87654231,/xxxxxxxxAU将对象及其信息压缩后得下面表3 例2(续) 表3 信息系统U/A , 1 1 1 1 , 1 2 2 1 , 2 2 1 1 , 3 3 3 21x2x3x4x5x6x7x8x1c2c3c4c且可验证属性 是多余,且令 。则有 中没有多余属性。 4c321321,/BBBAUBUBUBU且313322211, , , , ,ccBccBccB例2(续) 1c2c3c于是信息表2有三个属性的约简,即 ,从而可得信息系统的三个约简表如下
19、。321,BBB1c2c3c 1 1 2 2 2 1 2 3 1 1 1 2 2 2 3 3 1 1 1 2 2 1 3 3而且 。 表1的核:Core A=头痛,体温。CoreA规则的协调与提取 粗糙集理论除给出了对知识(或数据)的约简和求核的方法外,还提供了从决策表中抽取规则的能力,机器学习和从数据库中的机器发现就是基于这个能力。 在一个决策表 中,若 ,X关于由 导出的近似空间的下近似和上近似相等,即 ,称条件属性子集 关于决策属性 是协调的。也称决策表 是协调的,否则为不协调10。 ,VDCU1/DUX 1CXaprXaprCC11CC 1DD 1,11VDCU规则的协调与提取(续)
20、如果用包含度理论来解释,则决策表 是协调的,当且仅当 2,其中 ,11VDCU1/11CDD1111/11DUaprDUaprCDDCC规则的协调与提取(续) 从协调的决策表中可以抽出确定性规则,而从不协调的决策表中只能抽出不确定性的规则或可能性规则,有时也称为广义决策规则,这是因为在不协调的系统中存在着矛盾的事例。决策表中的决策规则一般可以表示为形式5:其中 称为规则的条件表示, 称为规则的决策部分。 决策规则即使是最优的也不一定唯一。wdc,;,cVwVCcd wd,规则的协调与提取(续) 在决策表中抽取规则的一般方法为3:(1)在决策表中将信息相同(即具有相同描述)的对 象及其信息删除只
21、留其中一个得到压缩后的信息 表,这一步称为删除多余事例;(2)删除多余的属性;(3)对每一个对象及其信息中将多余的属性值删除;(4)求出最小约简;(5)根据最小约简,求出逻辑规则。例3(决策情形) 设 ,其中 , 具体的决策表见下面表4 821,xxxU,VDCU,dD, , 214321dccccC决策属性集条件属性集例3(续) 表4 决策表U 1 1 1 1 1 2 2 1 1 1 1 1 1 2 2 1 2 2 1 1 2 2 1 1 3 3 3 2 3 3 3 21x2x3x4x5x6x7x8x1c2c3c4c 1 1 2 2 1 3 2 4 3 5 3 5 4 5 4 51d2d例3
22、(续) 因此 876543211,/xxxxxxxxcU876542312,/xxxxxxxxcU874265313,/xxxxxxxxcU876543214,/xxxxxxxxcU ,876542311xxxxxxxxdU,876543212xxxxxxxxdU例3(续) 从而 对于它的决策子表(, ,V, ), (, ,V, ),我们可得到它们的一个约简表如下(一般不唯一) 1dC 2dC CUdccUdccUdccUccUccUccU132131121323121例3(续) 1c2c3c1c 1 1 1 1 2 2 2 1 3 2 3 4 1 1 1 1 2 2 1 1 3 1 2 4
23、2 2 5 3 3 5表5表6 1d2d例3(续) 且 , ,故(, ,V, )是协调的。 1dC 2dC 1dUX XXaprXaprcc但 , , , 故(, ,V, )不协调的。 21dUxXXaprc,31xxXaprc例3(续) 由表5可得决策表(, ,V , )的四条最优决策规则。且这四条规则都是确定的。 1dC )2 ,()2 ,() 1 ,( :1311dccr)2 ,()2 ,() 1 ,( :1312dccr)3 ,()2 ,( :113dcr)4 ,()3 ,( :114dcr例3(续) 由表6(它是不协调的)也可得到决策表(, ,V, )的四条最优决策规则:2dC )3
24、 ,() 1 ,() 1 ,() 1 ,( :22211ddccr)4 ,()2 ,()2 ,() 1 ,( :22212ddccr)5 ,()2 ,( :213dcr)5 ,()3 ,( :214dcr21,rr43,rr其中 是不确定的,而只有 是确定的。与其他不确定性数学方法的关系 RS理论与其他处理不确定和不精确问题理论的最显著的区别是无需提供问题所需处理的数据集合之外的任何先验信息即它不需要任何预备的或额外的有关数据信息。 如统计学中的概率分布,Fuzzy理论中的隶属度函数等。 所以RS理论对问题的不确定性的描述或处理可以说是比较客观的。与其他不确定性数学方法的关系 由于这个理论未能
25、包含处理不精确或不确定原始数据的机制,因此,单纯地使用这个理论不一定能有效地描述数据不精确或不确定的实际问题,而证据理论与模糊集理论等具有处理不精确或不确定数据的方法,所以这个理论与概率统计,模糊数学,证据理论等其他处理不精确或不确定问题的理论有很强的互补性。与其他不确定性数学方法的关系 在粗糙集理论与其它处理模糊性或不确定性方法的理论研究中,主要集中在它与概率统计,模糊数学,DS证据理论和信息论的相应渗透与补充。下面从三方面进行比较。(1)与概率统计结合 (2)与模糊数学 (3)与DS证据理论 (DempsterShafer证据理论) 。与概率统计结合 在信息系统中,知识库的知识的类型一般有
展开阅读全文