《模式识别原理与应用》课件第11章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第11章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件 11
- 资源描述:
-
1、第11章文本分类第第11章文章文 本本 分分 类类11.1文本分类技术文本分类技术11.2垃圾邮件识别技术垃圾邮件识别技术11.3网页分类技术网页分类技术习题习题第11章文本分类11.1文本分类技术文本分类技术11.1.1文本分类流程文本分类流程文本分类的流程图如图11-1所示,它包含中文分词、特征提取、向量表示、分类器等四大部分。首先,收集大量的包含各种信息的文本语料,形成训练数据集,并对其进行人工分类;其次,对训练数据进行中文分词(对英文文本不需要分词)、特征提取、向量表示,形成特征向量;再次,选择合适的分类器模型,对训练数据的特征向量进行训练,得到有效的分类器;最后,利用训练好的分类器对
2、待分类的文本进行分类。第11章文本分类图 11-1文本分类流程第11章文本分类11.1.2文本预处理文本预处理1.中文分词中文分词中文文本是由字连接在一起组成的。在文本处理中,中文文本需要先分割成一个个有意义的词,这就是中文分词。对于英文,就是识别出空格(多个空格可以看成是一个空格),并把它作为词的分隔符。现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。第11章文本分类(1)基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常
3、用的几种机械分词方法有正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的词数最小)等。第11章文本分类(2)基于理解的分词方法是利用汉语的语法知识和语义知识及心理学知识进行分词,需要建立分词数据库、知识库和推理机。由于此方法需要使用大量的语言知识和信息,目前这种系统还处在试验阶段。第11章文本分类(3)基于统计的分词方法是根据字与字相邻共现的频率能够较好地反映成词的可信度这一点,对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。这种方法增加了空间复杂度。第11章文本分类衡量自动分词
4、技术的主要指标是切分精度和切分速度。针对信息检索与分类/聚类系统来说,分词技术的主要问题是确定词的颗粒度大小、对专用术语的识别、判别词与词之间的语义关联、对未登录词的处理等。可以先采用最大匹配、最短路径、概率统计等方法,得到一个词语粗分结果,然后再对粗分结果进行歧义词排除、未登录词识别等处理。第11章文本分类2.文本表示模型文本表示模型文本表示模型主要研究选择计算机能够识别的模型,用其来完整的表示文本内容。目前,具有代表性的文本表示模型有布尔模型(Boolean Model)、向量空间模型(Vector Space Model,VSM)、概率模型(Probabilistic Model)等。向
5、量空间模型目前已被成功地应用于著名的文本检索系统SMART中。一些研究表明向量空间模型在处理大规模文本方面有很强的优势,它逐渐成为最简便、最高效的文本表示模型之一。向量空间模型的基本概念如下:第11章文本分类(1)文本。本书泛指一般的文本或者文本中的段落、句群或者句子,通常指的是一篇文章。尽管文本可以是多媒体对象,但是在本书的讨论中,只认为是文本对象。(2)特征项。文本的内容由一些特征项来表达,一般由文本所含有的基本语言单位(字、词、词组或短语等)来表示,即文本可以表示为D(t1,t2,tn),其中,tk表示各个特征项,每个特征项表示文本的一个维度。第11章文本分类(3)特征项权重。在一个文本
6、中,每个特征项都被赋予一个权重wk,以表示这个特征项在该文本中的重要程度。这样文本就表示为 1122(,;,;,)nnDD t w t wtw(11-1)其中,特征项tk的权重为wk,1kn。第11章文本分类(4)向量空间模型。给定一个文本D=D(t1,w1;t2,w2;tn,wn),由于tk在文本中既可以重复出现又应该有先后次序的关系,分析起来有一定的难度,为了简化分析,可以暂不考虑tk在文本中的先后次序,但要求tk互异(即没有重复)。这时可以把t1,t2,tn 看成一个n维的坐标系,而w1,w2,,wn为相应的坐标值,因此,一个文本就表示为n维空间的一个向量,称D=D(w1,w2,wn)为
7、文本D的向量表示或向量空间模型。第11章文本分类(5)相似度度量。两个文本D1和D2之间的相关程度常常用它们的相似度Sim(D1,D2)来度量。在向量空间模型下,可以借助向量之间的某种距离来表示文本间的相似度。常用的是采用向量之间的内积来计算相似度,定义式如下:12121(,)nkkkSim D Dw w(11-2)第11章文本分类或者采用夹角余弦计算,定义式如下:12112221211(,)cos()()nkkknnkkkkw wSim D Dww(11-3)夹角余弦公式忽略了各个向量的绝对长度,着重从形状考虑它们之间的关系,当两个向量方向相近时,夹角余弦值较大,反之则较小。本节所涉及的文本
8、之间的相似度均采用向量之间的夹角余弦来计算。向量空间模型如图11-2所示。第11章文本分类图 11-2向量空间模型第11章文本分类向量空间模型的最大优点在于把文本内容简化为特征与其权重的向量表示,把对文本内容的处理简化成向量空间的向量运算,使得问题的难度大大降低了。向量空间模型表达效果的优劣,直接依赖于特征项的选择和特征加权方式。选取特征项主要有以下两条原则:第11章文本分类(1)应当选择包含文本信息多的,对文本的表现能力较强的语言单位作为特征项。特征项可以是文本中基本的语言单位,例如单字、词、词组或者短语等多个层次,也可以是更高层次的单元,例如概念等。层次越高,包含的文本信息也越多,能更好地
9、描述文本内容,同时存在的问题就是它可能需要复杂的附加处理,比如,对汉语特征,如果选择词作为特征项,则首先需要先进行中文分词处理,而中文分词是一个比较复杂的处理过程。第11章文本分类(2)特征项的提取过程应当比较容易,时间和空间开销都不应当大。对特征项的选择问题,许多学者做了研究。在文本分类领域,通过对使用单词、词组、聚类单词和聚类词组作为特征项所做的实验比较分析,结果表明单词特征项作为文本特征项,不仅方法简单,而且具有较高的分类精确度。第11章文本分类如何用选择的特征项来更好地描述文本内容?向量空间模型中用特征的权重来表示一个文本的内涵,或者称为内容,即D=D(w1,w2,wn),w1,w2,
10、wn为相应特征t1,t2,tn在n维向量空间的坐标值。文本描述的权重计算的准则是要最大限度地区分不同的文档。目前大多数特征权重的计算方法是基于下面两个准则或者假设:第11章文本分类(1)一个特征在文本中出现的范围越广,说明该特征区分文本之间区别的能力越低。(2)一个特征在一个特定文本中出现的频率越高,说明该特征区分这个文本之间区别的能力越强。特征项权重的计算一般分为两种:一种是由专家或者用户根据自己的经验与所掌握的领域知识,人为地赋权值,这种办法随意性较大,很难适用于大规模真实文本的处理;另一种是运用统计的方法,也就是用文本的统计信息(如词频等)来计算项的权重。第11章文本分类运用统计的方法有
11、布尔频率法和TFIDF算法。布尔频率法的规则是:如果特征项tk在文本Di中出现,就记权值wik为1,否则,wik为0。这种方法无法体现特征在文本中的作用程度。TFIDF(Terms Frequency Inverse Document Frequency)算法利用词条在文档中出现的频率TF和每个特征项在整个数据集文档的反向文档频率IDF来计算权值。用tfik(Term Frequency)表示特征项tk在文本Di中的出现次数,idfk(Inverse Document Frequency)表示特征项tk的反向文档频数,TFIDF公式定义为 第11章文本分类ikikkwtfidf(11-4)式中
12、:tfik是一个局部统计量,它在不同文本中有不同的值;反向文档频率idfk是一个全局统计量,反映了一个给定的词条在整个文档集中的分布情况。IDF的原始定义为 logkkNidfn(11-5)第11章文本分类其中:N表示整个集合中包括的文档数;nk是集合中出现特征项tk的文档数。可以看出,包含给定词条的文档数越少,IDF的值就越大;如果文档集中的每篇文档都包含给定的词条,则idf的值等于0。在实际的应用中,为了避免0值的出现,将式(11-5)进行改进,即 logkkNidfcn(11-6)第11章文本分类其中,c(0,1)为常数,目前较为常用的公式为 log0.01kkNidfn(11-7)如果
13、考虑到文本长度对权值的影响,还应该对特征项权值公式做归一化处理,将各权值规范到区间0,1,即 21log0.01log0.01ikkiknikkkNtfnWNtfn(11-8)第11章文本分类TFIDF算法是一种经验公式,并没有坚实的理论基础。但是,多年的实践表明,式(11-8)是文本处理中的一个有效工具,在信息检索等诸多领域都得到了广泛应用。3.特征空间降维特征空间降维采用向量空间模型进行文本描述时,每一个不同的特征都作为特征空间中的一维,每一个文本都是空间中的一个向量,这种描述方法简单而且直接,但同时也使得特征空间变得高维,致使文本分类的性能急剧下降。为了解决这个问题,必须降维,目前采用的
14、技术主要有特征选择和特征提取。第11章文本分类特征提取方法主要是采用代数的方法进行特征空间降维,主要方法有主成分分析(Principal Component Analysis)、奇异值分解(Singular Value Decomposition)等。特征选择是构造一个特征评估函数,根据特征评估函数对各个特征进行独立的评估,然后按照评估值的大小排序,最后选择评估值大于某个设定阈值的特征作为最优特征。第11章文本分类文本分类中,通常使用的特征评估函数有信息增益(Information Gain)、期望交叉熵(Expected Cross Entropy)、文档频率(Document Freque
15、ncy)、文本证据权(the Weight of Evidence for Text)、开方拟合检验(2statistic)、优势率(Odd Ratio)、互信息(Mutual Information)等。每一种特征选择方法对应一种特征评估函数。第11章文本分类用c1,c2,ck表示文本的k个类;t表示某个特征;P(t)表示特征t出现的概率;表示特征t不出现的概率;P(cj)表示第j类的出现概率;P(cj,t)表示特征t与类别cj共同出现的联合概率;表示特征t不与类别cj共同出现的联合概率。一般采用两种概率估算方式,分别是布尔概率估算方式和词频概率估算方式。()P t(,)jP ct第11章文
16、本分类采用布尔概率估算方式,可得:(1)P(t)是训练文本集合中出现特征t的文本个数与总的文本个数的比值;(2)是训练文本集合中不出现特征t的文本个数与总的文本个数的比值;(3)P(cj)是第cj类的文本总数与训练文本总数的比值;(4)P(cj,t)是属于cj类且含有特征t的文本总数与训练文本总数的比值;(5)是属于cj类且不含特征t的文本个数与训练文本总数的比值。()P t(,)jP ct第11章文本分类采用词频概率估算方式,可得:(1)P(t)是训练文本集合中出现特征t的个数与总的特征个数的比值;(2)是训练文本集合出现的不包含特征t的个数与总的特征个数的比值;(3)P(cj)是第cj类文
17、本的特征总数与所有特征总数的比值;(4)P(cj,t)是在cj类文本中出现特征t的个数与总的特征个数的比值;(5)是在cj类文本出现的不包含特征t的特征个数与总的特征个数的比值。()P t(,)jP ct第11章文本分类下面定义各种特征评估函数。1)文档频率阈值法文档频率阈值法是利用特征的文档频率进行特征选择。特征t的文档频率是指包含这个特征的训练文本的总数,定义式如下:1()()kjjt cDF t(11-9)其中,t(cj)为cj类中包含特征t的训练文本的个数。第11章文本分类运用文档频率阈值法进行特征选择时,首先计算各个特征的文档频率,然后将文档频率大于某个设定阈值的特征选为最优特征。文
18、档频率阈值法基于这样一种假设:对于一个类而言,出现频率小的特征是没有任何意义的,删除它们对分类结果不会造成不利的影响。这种假设显然有其局限性,在一些信息检索的研究中,频率小的词可能具有很大的类别区分度。文档频率阈值法是最简单的一种文本特征选择方法,它的最大优势就是速度快,时间复杂度和文本数目成线性关系,所以非常适合应用到大规模文本特征集合的特征选择,同时它也是最有效的文本特征选择方法之一。第11章文本分类2)期望交叉熵法期望交叉熵法是利用期望交叉熵进行特征选择。期望交叉熵考虑了特征t出现的概率,同时也考虑了特征t与类别之间的关系,定义式如下:1()(,)(,)log()()kjjjjECE t
19、P c tP c tP c P t(11-10)第11章文本分类3)信息增益法信息增益法是利用信息增益进行特征选择。信息增益法经常被应用于机器学习领域。信息增益法是通过一个特征t是否出现在文本中来推算该特征对整个分类所提供的信息量,定义为特征t在文本出现前后的信息熵之差,定义式如下:11(,)(,)(,)log(,)log()()()()()kkjjjjjjjjP c tP c tP c tP c tP cP cP tIG tP t(11-11)第11章文本分类它与期望交叉熵的区别是考虑了特征不出现在同一类别文本中对类别的影响,因为有时特征不出现也可能对判断文本类别有贡献。4)文本证据权法文本
20、证据权法是利用文本证据权进行特征选择。文本证据权比较了类cj出现的概率与在给定特征t下类cj出现的条件概率之间的差别,定义式如下:第11章文本分类1()log(,)(1()()()(,)()()kjjjjjjP cP c tP cP cP tP c tWE tP t(11-12)如果特征和类别之间为强相关(P(cj|t)值大),且类别出现的概率小,则说明此特征类别区分度大,计算出来的文本证据权值大,可选择该特征作为最优特征。如果特征和类别之间为弱相关(P(cj|t)值小),且类别出现的概率大,则说明此特征类别区分度小,计算出来的文本证据权值小,不会被选为最优特征。第11章文本分类5)开方拟合检
21、验法开方拟合检验法是利用开方拟合检验进行特征选择。开方拟合检验是衡量类cj和特征t之间的独立性的缺乏程度,或者称为统计相关性。开方拟合检验值越大,说明类cj和特征t之间的独立性越小,相关性越大,特征t携带的类cj的信息也就越多。特殊的情况,当特征t与类cj之间独立时,开方拟合检验值为0,此时特征t不包含任何与类别cj有关的信息,定义式如下:第11章文本分类22()(,)()()()()jNADCBc tACBDABCD(11-13)其中,A、B、C、D表示文本的个数,如表11-1所示。式(11-13)计算的是类cj和特征t的开方拟合检验值,特征t对于整个训练文本的开方拟合检验值是其相对于所有类
22、的开方拟合检验值的综合,定义式如下:221()()(,)kjjjtP cc t(11-14)第11章文本分类表表11-1开方拟合检验法中开方拟合检验法中A、B、C、D的含义的含义 类cj的文本个数非cj的文本个数特征t出现 A B特征t不出现 C D第11章文本分类6)互信息法互信息法是利用互信息进行特征选择。特征t对类别cj的互信息为二者的互信息量,定义式如下:(,)(,)log()()jjjP c tMI c tP t P c(11-15)互信息衡量特征t和类cj之间独立的统计关系,MI的值越大,说明特征t和类cj共同出现的程度越大。第11章文本分类1(,)()()log()()kjjjj
23、P c tMI tP cP t P c(11-16)7)优势率法 优势率法是利用优势率进行特征选择,它只能用于二分类问题,定义式如下:100110(,)()(,)()log()(,)(,)P c t P cP c tOR tP cP c t P c t(11-17)第11章文本分类11.1.3分类器分类器文本分类器的任务是在给定的分类体系前提下,根据文本的内容自动确定文本关联的类别。文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。该映射可以是一对一映射,也可以是一对多的映射。文本分类的映射规则是系统根据已经掌握的若干分类技术,总结出分类的规律性而建立的类别公式和判别规则。这样
24、,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。利用文本分类技术可以对大量文档进行快速、有效的自动分类。第11章文本分类1.K-近邻分类器近邻分类器KNN算法的思想很简单:给定一篇待分类的文档,系统在训练集中找到与之距离最近的文档,这K个文档中的大多数文档所在的类别就是待分类文档的类别。假设有一个任意的输入文档,系统在训练文档中对它最近邻居排序,并采用排列在最前面的K个文档来预测输入文档的类。邻居文档与待分类的新文档间的相似值被当作类的权重,K个最近邻居的类权重之和被用于类的排序。第11章文本分类2.SVM分类器分类器文本学习以文档或文本字段为学习对象,通过大量文
25、档集的训练,系统掌握文档的类别特征,获得识别新文档的规则和模型,从而为分类器提供分类的知识。文本学习是学习分类器内含的一种机制。分类器被输入一组文档,学习机制根据文档信息内容来进行监督,学习形成的分类器就可用于识别新文档。最典型的方法就是SVM分类器。第11章文本分类3.贝叶斯分类器贝叶斯分类器超文本的结构是半自动化的,且多数页面文本内容短小,如果用平常的文本分类器去分类,则效果明显不好。目前对超文本的分类,主要涉及页面的纯文本分类、超文本结构信息分类和协调分类等。纯文本分类方法没有用超文本页面中的任何结构信息,只是将此页面当作一个普通文本看待,用一般的文本分类方法进行分类。超文本页面中含有大
展开阅读全文