06文本分类与聚类课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《06文本分类与聚类课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 06 文本 分类 课件
- 资源描述:
-
1、文本分类与聚类哈工大信息检索研究室2007这一部分将讲述n文本分类及聚类的概念n文本特征的提取方法n贝叶斯分类,KNN分类及决策树分类nK均值及层次聚类的方法文本分类概述概述n文本分类包括普通文本分类和网页文本分类n中文网页分类技术已经成为中文信息处理领域的一项基础性工作n网页分类可以为搜索引擎用户提供目录导航服务,进而提高系统查准率n网页分类可以为个性化搜索引擎奠定基础分类的概念n给定:n一个实例的描述,xX,X是实例空间n一个固定的文本分类体系:C=c1,c2,cnn由于类别是事先定义好的,因此分类是有指导的(或者说是有监督的)n确定:n实例x的类别 c(x)C,c(x)是一个分类函数,定
2、义域是 X,值域是C说明n分类模式n2类问题,属于或不属于(binary)n多类问题,多个类别(multi-class),可拆分成2类问题n一个文本可以属于多类(multi-label)n分类体系一般人工构造n政治、体育、军事n中美关系、恐怖事件n很多分类体系:Reuters分类体系、中图分类A类 马列主义、毛泽东思想 B类 哲学 C类 社会科学总论 D类 政治、法律 E类 军事 F类 经济 G类 文化、科学、教育、体育 H类 语言、文字 I类 文学 J类 艺术 K类 历史、地理 N类 自然科学总论 O类 数理科学和化学 P类 天文学、地球科学 Q类 生物科学 R类 医药、卫生 S类 农业科学
3、 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学)TB类 一般工业技术 TD类 矿业工程 TE类 石油、天然气工业 TF类 冶金工业 TG类 金属学、金属工艺 TH类 机械、仪表工艺 TJ类 武器工业 TK类 动力工业 TL类 原子能技术 TM类 电工技术 TN类 无线电电子学、电信技术 TP类 自动化技术、计算技术 TQ类 化学工业 TS类 轻工业、手工业 TU类 建筑科学 TV类 水利工程 中图分类法中图分类法 系统结构标注工具模型数据标注的样本类别预处理预处理训练数据文本新数据文本MultimediaGUIGarb.Coll.SemanticsMLPlannin
4、gplanningtemporalreasoningplanlanguage.programmingsemanticslanguageproof.learningintelligencealgorithmreinforcementnetwork.garbagecollectionmemoryoptimizationregion.“planning language proof intelligence”训练数据训练数据测试数据测试数据类别类别(AI)文本分类示例(Programming)(HCI).分类的一般过程n收集训练集和测试集,对文本进行预处理n对文本进行特征提取n分类器训练(学习)n测
5、试与评价n精确率、召回率、F1n宏平均,微平均分类的评测n偶然事件表(Contingency Table)n对一个分类器的度量n准确率(precision)=a/(a+b)n召回率(recall)=a/(a+c)nfallout=b/(b+d)属于此类不属于此类判定属于此类AB判定不属于此类CDBEP和F测度nBEP(break-even point)n当准确率和召回率相等时的值即为BEPnF测度,取=1 nBEP和F测度的值越大,则表示分类器的性能越好。nBEP只是F1所有可能取值中的一个特定值(当p=r时),因此BEP小于或等于F1的最大值。rpprrpF221,rpprF21多类分类问题
6、的评价n宏平均(macro-averaging)n先对每个分类器计算上述量度,再对所有分类器求平均n是关于类别的均值n微平均(micro-averaging)n先合并所有分类器的偶然事件表中的各元素,得到一个总的偶然事件表,再由此表计算各种量度。n是关于文本的均值收集训练数据nTREC提供统一的训练集和测试集进行系统评测n国外:CMU,BERKLEY,CORNELLn国内:中科院计算所,清华大学,复旦大学n后续增加了网页语料和中文文本n但是中文文本是新华社的新闻稿,与网页的分类体系还有差别目前已有的评测语料n有指导的机器学习方法是实现中文网页自动分类的基础,因此训练集是实现分类的前提条件n已有
7、训练语料n863评测语料(中图分类)n搜狗语料n复旦语料训练语料分类体系n中图分类体系n处理对象是图书,不适合网页分类n学科分类与代码n1992年制定,时间过久,包括一些过时类别n上述两个分类标准都不能直接用做中文网页的分类n中文网页的分类体系一种中文网页的分类体系训练集的大小n通过不断增加实例的个数,考察每个类训练样本对分类器质量的影响 宏观F1 微观F1网页预处理n去掉网页中的导航信息n去掉HTML网页中的tag标记n(中文)分词、词性标注、短语识别、n去除停用词和词根还原(stemming)n数据清洗:去掉不合适的噪声文档或文档内垃圾数据n特征提取特征提取(Feature Selecti
8、on)n在文本分类问题中遇到的一个主要困难就是高维的特征空间n通常一份普通的文本在经过文本表示后,如果以词为特征,它的特征空间维数将达到几千,甚至几万n大多数学习算法都无法处理如此大的维数n为了能够在保证分类性能的前提下,自动降低特征空间的维数,在许多文本分类系统的实现中都引入了特征提取方法举例n对每类构造k 个最有区别能力的termn例如:n计算机领域计算机领域:n主机、芯片、内存、编译主机、芯片、内存、编译 n汽车领域汽车领域:n轮胎,方向盘,底盘,气缸,轮胎,方向盘,底盘,气缸,用文档频率选特征n文档频率nDF(Document Frequency)nDFi:所有文档集合中出现特征i的文
9、档数目n基本假设:稀少的词或者对于目录预测没有帮助,或者不会影响整体性能。n实现方法:先计算所有词的DF,然后删除所有DF小于某个阈值的词,从而降低特征空间的维数。n优缺点:n最简单的降低特征空间维数的方法n稀少的词具有更多的信息,因此不宜用DF大幅度地删除词词的熵nterm的熵n该值越大,说明分布越均匀,越有可能出现在较多的类别中;n该值越小,说明分布越倾斜,词可能出现在较少的类别中iiitcPtcPtEntropy)|(log)|()(信息增益(Information Gain,IG)iiririrriiririrrcPtcPtcPtPcPtcPtcPtPtG)()|(log)|()()(
10、)|(log)|()()(t 出现的概率 t 不出现假定t 出现时取第i 个类别的概率 取第 i 个类别时的概率n该term为整个分类所能提供的信息量n不考虑任何特征的熵和考虑该特征后的熵的差值n信息增益计算的是已知一个词t是否出现在一份文本中对于类别预测有多少信息。n这里的定义是一个更一般的、针对多个类别的定义。互信息(Mutual Information)n互信息(Mutual Information):MI越大t和c共现程度越大n互信息的定义与交叉熵近似,只是互信息不考虑t不出现的概率,它的定义为:1()max(,)mMAXiiItI t cmiiiAVGctIcPtI1),()()(i
11、ririrtPctPcPtI)()|(log)()(2统计量(CHI):n2统计量的定义可以从一个词t与一个类别c的偶然事件表引出(假设文本的总数为N)n度量两者(term和类别)独立性程度n2 越大,独立性越小,相关性越大n若ADBC,则类和词独立,N=A+B+C+DABCDttcc)()()()(),(22DCBADBCACBADNct特征提取方法的性能比较(Macro-F1)特征提取方法的性能比较(Micro-F1)结论n可以看出CHI,IG,DF性能好于MInMI最差nCHI,IG,DF性能相当nDF具有算法简单,质量高的优点,可以替代CHI,IG分类器学习n训练样本实例:n一个文本实
12、例 xXn带有正确的类别标记 c(x)n学习的过程是在给定训练样本集合D 的前提下,寻找一个分类函数h(x),使得:)()(:)(,xcxhDxcx贝叶斯分类贝叶斯分类n基于概率理论的学习和分类方法n贝叶斯理论在概率学习及分类中充当重要角色n仅使用每类的先验概率不能对待分的文本提供信息n分类是根据给定样本描述的可能的类别基础上产生的后验概率分布贝叶斯理论)()()|()|(EPHPHEPEHP)()()|(EPEHPEHP)()()|(HPEHPHEP)()|()(HPHEPEHP得到:由条件概率的定义:贝叶斯分类n设各个类别的集合为 c1,c2,cnn设E为实例的描述n确定E的类别nP(E)
13、可以根据下式确定)()|()()|(EPcEPcPEcPiiiniiiniiEPcEPcPEcP111)()|()()|(niiicEPcPEP1)|()()(贝叶斯分类(cont.)n需要知道:n先验概率:P(ci)n条件概率:P(E|ci)nP(ci)容易从数据中获得n如果文档集合D中,属于ci的样例数为 nin则有P(ci)=ni/|D|n假设样例的特征是关联的:n指数级的估计所有的 P(E|ci)meeeE21朴素的贝叶斯分类n如果假定样例的特征是独立的,可以写为:n因此,只需要知道每个特征和类别的P(ej|ci)n如果只计算单个特征的分布,大大地减少了计算量)|()|()|(121m
14、jijimicePceeePcEP文本分类 Nave Bayes算法(训练)设V为文档集合D所有词词表对每个类别 ci C Di 是文档D中类别Ci的文档集合 P(ci)=|Di|/|D|设 ni 为Di中词的总数 对每个词 wj V 令 nij 为Di中wij的数量 P(wi|ci)=(nij+1)/(ni+|V|)文本分类 Nave Bayes算法(测试)n给定测试文档 Xn设 n 为X中词的个数n返回的类别:nwi是X中第i个位置的词)|()(argmax1niiiiCiccwPcPNave Bayes分类举例nC=allergy,cold,wellne1=sneeze;e2=cough
15、;e3=fevern当前实例是:E=sneeze,cough,feverProbWellColdAllergyP(ci)0.9 0.05 0.05P(sneeze|ci)0.1 0.9 0.9P(cough|ci)0.1 0.8 0.7P(fever|ci)0.01 0.7 0.4过敏打喷嚏Nave Bayes 举例(cont.)n参数计算:nP(well|E)=(0.9)(0.1)(0.1)(0.99)/P(E)=0.0089/P(E)nP(cold|E)=(0.05)(0.9)(0.8)(0.3)/P(E)=0.01/P(E)nP(allergy|E)=(0.05)(0.9)(0.7)(0
16、.6)/P(E)=0.019/P(E)n最大概率类:allergynP(E)=0.089+0.01+0.019=0.0379nP(well|E)=0.23nP(cold|E)=0.26nP(allergy|E)=0.50Play-tennis 例子:估算 P(xi|C)Outlook Temperature Humidity Windy ClasssunnyhothighfalseNsunnyhothightrueNovercast hothighfalsePrainmildhighfalsePraincoolnormalfalsePraincoolnormaltrueNovercast co
17、olnormaltruePsunnymildhighfalseNsunnycoolnormalfalsePrainmildnormalfalsePsunnymildnormaltruePovercast mildhightruePovercast hotnormalfalsePrainmildhightrueNP(p)=9/14P(n)=5/14outlookP(sunny|p)=2/9P(sunny|n)=3/5P(overcast|p)=4/9P(overcast|n)=0P(rain|p)=3/9P(rain|n)=2/5temperatureP(hot|p)=2/9P(hot|n)=2
18、/5P(mild|p)=4/9P(mild|n)=2/5P(cool|p)=3/9P(cool|n)=1/5humidityP(high|p)=3/9P(high|n)=4/5P(normal|p)=6/9P(normal|n)=2/5windyP(true|p)=3/9P(true|n)=3/5P(false|p)=6/9P(false|n)=2/5正例反例Play-tennis例子:分类 Xn例子 X=nP(X|p)P(p)=P(rain|p)P(hot|p)P(high|p)P(false|p)P(p)=3/92/93/96/99/14=0.010582nP(X|n)P(n)=P(rai
展开阅读全文