文本挖掘与Web-数据挖掘课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《文本挖掘与Web-数据挖掘课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 挖掘 Web 数据 课件
- 资源描述:
-
1、2022-6-10第第8 8章章 文本挖掘与文本挖掘与Web Web 数据挖掘数据挖掘 文本挖掘 Web数据挖掘案例五:跨语言智能学术搜索系统案例六:基于内容的垃圾邮件识别8.1 文本挖掘n8.1.1 分词n8.1.2 文本表示与词权重计算n8.1.3 文本特征选择n8.1.4 文本分类n8.1.5 文本聚类n8.1.6 文档自动摘要2022-6-108.1.1 分词n分词(词切分)是指将连续的字序列按照一定的规范重新组合成词序列的过程q英文:单词之间以空格作为自然分界符,容易q中文:词没有一个形式上的分界符,难n中文分词极具挑战性的问题q歧义切分问题:研究/生物;学生会|学生会玩魔方q未登录
2、词问题:新词(木有、凡客体),人名等n分词法主要分为以下三大类:基于词典的方法、基于统计的方法、基于语法分析的方法2022-6-10基于词典的分词法n正向最大匹配q从左开始算起,最大是指从一个设定的长度开始匹配,直到第一个匹配成功就切分成为一个词n逆向最大匹配q与正向最大匹配相似,区别在于从右至左匹配n例子:研究生命起源q正向匹配结果:研究生/命/起源q逆向匹配结果:研究/生命/起源n特点:简单,易实现;正确率受词典大小限制2022-6-10基于统计的分词法n假设:词是稳定的单字组合,直观地,在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词n只需对语料中的字组频度进行统计,不需要切
3、分词典,因而又叫做无词典(统计)分词法n基于统计模型的分词方法是研究热点,如基于隐马尔可夫的方法、基于最大熵的方法n特点:精度高、词性标注、命名实体识别;需要语料作支撑2022-6-10基于中文语法的分词方法n通过让计算机模拟人对句子的理解,达到识别词的效果n其基本思想就是在分词的同时进行句法、语义分析,利用句法和语义信息来处理歧义现象n包括三个部分:分词子系统、句法语义子系统、总控部分n特点:由于汉语语言知识的笼统、复杂性,基于理解的分词系统还处在试验阶段2022-6-10常见分词工具nICTCLASq中国科学院计算技术研究所开发q采用层叠隐马尔可夫模型q中文分词,词性标注,命名实体识别,新
4、词识别q支持C/C+/C#/Delphi/Java等主流开发语言nimdict-Chinese-analyzerqICTCLAS中文分词程序基于Java的重新实现q采用基于隐马尔科夫模型的方法q直接为Lucene搜索引擎提供简体中文分词支持2022-6-10常见分词工具(续)nIKAnalyzerq采用特有的“正向迭代最细粒度切分算法”q基于Java语言开发的轻量级开源分词工具包q60万字/秒的高速处理能力n简易中文分词系统SCWSqhightman 个人开发q采用标准C开发q提供 C接口、PHP扩展(源码、WIN32的DLL文件)2022-6-10常见分词工具(续)n盘古分词q基于.net
5、Framework的中英文分词组件q中文未登录词识别、人名识别、多元分词等功能q支持英文专用词识别、英文原词输出、英文大小写同时输出等q单线程分词速度为390 KB/s,双线程分词速度为690 KB/s( Core Duo 1.8 GHz )n其它q Paoding(庖丁解牛分词)、HTTPCWS、MMSEG4J以及CC-CEDICT等2022-6-108.1.2 文本表示与词权重计算n目前文本表示主要是采用向量空间模型(Vector Space Model,VSM)n每个文本被表示为在一个高维词条空间中的一个向量n词条权重wi,j一般采用TFIDF方法来计算得到2022-6-10m, im,
6、 i, i, i, i, i, i, iiw:t,.,w:t ,w:t ,w:td332211ittNntfj ,ij ,ij , ij , ittmNlogidfmjtittitttj , ij , ij , ij , ij , ij , ij , imNlogNnmNlogNnidftfw128.1.3 文本特征选择n文本特征选择是根据某种准则从原始特征中选择部分最有区分类别能力的特征n主要分为无监督和有监督的方法n常用的方法有以下几种q文档频率(Document Frequency,DF)q单词权(Term Strength,TS)q信息增益(Information Gain,IG)q互
7、信息(Mutual Information,MI)q期望交叉熵(Expected Cross Entropy,ECE)2022-6-10基于文档频率的方法n文档频率是指所有训练文本中出现某个特征词的频率n是一种无监督的方法n通常会分别设置一个小的阈值和大的阈值来过滤一些低频词和频数特别高的词n特点q优点:简单、易行q缺点:低频词有时能很好反映类别信息;忽略了特征词在文档中出现的次数2022-6-10基于信息增益的方法n根据某个特征词t在一篇文档中出现或者不出现的次数来计算为分类所能提供的信息量,并根据该信息量大小来衡量特征词的重要程度,进而决定特征词的取舍n信息增益是最常用的文本特征选择方法之
8、一n特点:该方法只考察特征词对整个分类的区分能力,不能具体到某个类别上2022-6-10 njijijinjijijinjjjiitCPlogtCPtPtCPlogtCPtPCPlogCPt |CHCHtIG1212128.1.4 文本分类n文本自动分类(简称“文本分类”)是在预定义的分类体系下,根据文本的特征(词条或短语),将给定文本分配到特定一个或多个类别的过程n基本步骤可以分为三步:q将预先分过类的文本作为训练集输入q构建分类模型q对新输入的文本进行分类n常见的算法包括:线性分类器、k最近邻分类器、朴素贝叶斯、决策树、支持向量机分类器2022-6-10朴素贝叶斯分类器n贝叶斯分类算法有两
9、种模型:多变量伯努利事件模型和多项式事件模型n多变量伯努利事件模型q特征词在文本中出现则权重为1,否则权重为0。不考虑特征词的出现顺序,忽略词出现的次数n多项式事件模型q一篇文档被看作是一系列有序排列的词的集合2022-6-10类的文本数量类中出现的文本数量在特征iiCCtC|tPjijmjijxtijxtiC|tPBC|tPBC|dP111| v |ijjniji!nC|tP|!d|d|PC|dPjiiCmVnmnCmmjijdtcountdtcountCtP111,|常用基准语料nReuters-21578是最常用的公开英文语料库q21578篇新闻报道q135个类别n20 Newsgrou
10、ps是重要的公开英文语料库q大致20000篇新闻组文档q6个不同的主题以及20个不同类别的新闻组nTanCorp是公开的中文基准语料库q收集文本14150篇q分为两个层次。第一层12个类别,第二层60个类别2022-6-10常用基准语料(续)n复旦大学中文文本分类语料库q测试语料共9833篇文档,训练语料共9804篇文档q包含20个类别n其它语料库还包括OHSUMED、WebKB、TREC系列和TDT系列等2022-6-10模型评估n文本自动分类通常是不平衡的分类任务,常用的分类准确率(Accuracy)指标并不合适n一般使用每个类的F-measure值以及全部类F-measure值的平均来评
11、估算法的性能n其中,r表示每个类的召回率(Recall),p表示每个类的精度(Precision),通常取值为1,也就是经常被使用到的F1值2022-6-10221prpr)(measureF模型评估(续)n语料上的整体性能,通常采用微平均和宏平均方法q微平均是根据所有类准确划分文本个数和错误划分文本个数来计算精度和召回率q宏平均则是计算每个类别得到的精度和召回率的平均值n在不平衡数据分类上,宏平均方法更能反映出分类器的性能。2022-6-108.1.5 文本聚类n自动化程度较高的无监督机器学习方法,不需要预先对文档手工标注类别n主要任务是把一个文本集分成若干个称为簇的子集,然后在给定的某种相
12、似性度量下把各个文档分配到与最其相似的簇中n相似性度量方法在此过程起着至关重要的作用2022-6-10文本相似度计算n方法主要分为两大类:基于语料库统计的方法和基于语义理解的方法n基于语料库统计的方法:基于汉明距离和基于空间向量模型的方法q汉明距离用来描述两个等长码字对应位置的不同字符的个数,从而计算出两个码字的相似度q基于空间向量模型方法是一种简单有效的方法2022-6-10mkk , jk , ijijiwwd ,ddd ,dsim1211mkk , jmkk , imkk , jk , ijiwwww,inecosd ,dsim12121jijijidddddd文本相似度计算(续)n基于
13、语义理解的方法:考虑语义信息的文本相似度计算方法q该方法主要分为三大类:词语相似度、句子相似度、段落相似度n计算词语相似度往往需要一部语义词典作为支持,目前使用频率最高的语义词典是知网n句子相似度计算要通过利用语法结构来分析n汉语句子机构相当复杂,段落相似度计算更复杂2022-6-10文本聚类过程n以K-means算法详细介绍文本聚类的过程任意选择k个文本作为初始聚类中心Repeat 计算输入文本与簇之间的相似度,将文本分配到最相似的簇中 更新簇质心向量Until 簇质心不再发生变化2022-6-10评估指标n外部质量准则的聚类熵、聚类精度n文本分类方法的召回率、精度、F-measure值n文
14、本聚类算法整体性能的评估q宏平均或微平均F-measure值q聚类熵2022-6-108.1.6 文档自动摘要n文档自动摘要,简称自动文摘,是指利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文n处理过程大致可分为三个步骤:q文本分析过程q信息转换过程q重组源表示内容,生成文摘并确保文摘的连贯性2022-6-10文档自动摘要的类型n按不同标准,文档自动摘要可分为不同类型:q根据文摘的功能划分,指示型文摘、报道型文摘和评论型文摘q根据输入文本的数量划分,单文档文摘和多文档文摘q根据原文语言种类划分,单语言文摘和跨语言文摘q根据文摘和原文的关系划分,摘录型文摘和理解型文摘
15、q根据文摘的应用划分,普通型文摘和面向用户查询文摘2022-6-10相关技术n文档自动摘要技术主要有以下几种类型q自动摘录法q最大边缘相关自动文摘法q基于理解的自动文摘q基于信息抽取的自动文摘q基于结构的自动文摘q基于LSI语句聚类的自动文摘2022-6-10相关技术(续)n自动摘录法将文本看成是句子的线性排列,将句子看成词的线性排列,然后从文本中摘录最重要的句子作为文摘句n最大边缘相关法从文本中挑选出与该文本最相关的,同时与已挑选出的所有代表句最不相关的句子作为下一个代表句n基于理解的方法利用语言学知识获取语言结构,更重要的是利用领域知识进行判断、推理,得到文摘的语义表示,从语义表示中生成摘
16、要2022-6-10相关技术(续)n基于信息抽取的方法首先根据领域知识建立该领域的文摘框架,然后使用信息抽取方法先对文本进行主题识别,再对文本中有用片段进行有限深度的分析,最后利用文摘模板将文摘框架中内容转换为文摘输出n基于结构的方法将文章视为句子的关联网络,与很多句子都有联系的中心句被确认为文摘句,句子间的关系可通过词间关系、连接词等确定2022-6-10相关技术(续)n基于LSI语句聚类的方法利用潜在语义索引LSI(Latent Semantic Indexing),获得特征项和文本的语义结构表示。在语义空间考虑特征项权重不是依赖于单纯的词频信息,而是考虑到特征项对于文本主题的表现能力以及
17、在整个文本集中使用的模式。2022-6-10相关技术(续)n以上方法普遍会面临以下三个关键问题的挑战q文档冗余信息的识别和处理q重要信息的辨认q生成文摘的连贯性2022-6-10性能评估n自动文摘包含标准文摘的信息比率是内部测评中对文摘内容完整性的一种重要测评n几个主流的评价方法:q单文档文摘评价系统(Summary Evaluation Environment)qROUGEqPyramidqBE(Basic Elements)方法2022-6-108.2 Web数据挖掘n8.2.1 Web内容挖掘n8.2.2 Web使用挖掘n8.2.3 Web结构挖掘2022-6-108.2.1 Web内容
18、挖掘nWeb内容挖掘是从Web页面的文本、图像、视频和组成页面的其它内容中提取信息的过程nWeb内容挖掘在Web搜索、垃圾邮件过滤、敏感信息过滤、情报分析、数字图书馆建设、网络舆情监控等方面有着重要的应用价值n文本挖掘技术可应用于Web页面的文本挖掘中n图像和视频等内容的挖掘是多媒体数据挖掘中的重要部分q主要方法也是数据预处理、分类、聚类、关联规则2022-6-108.2.2 Web使用挖掘nWeb使用挖掘通过挖掘Web日志记录,发现用户访问Web页面的模式q可以识别电子商务的潜在客户q增强对最终用户的因特网信息服务的质量和交互q改进Web服务器系统性能2022-6-10数据收集nWeb使用记
展开阅读全文