中文分词-课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中文分词-课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文 分词 课件
- 资源描述:
-
1、预处理 网页的分类 页面分析 中文处理网页分类 Hub网页(Hub pages)提供向导的网页,如新浪主页,特征是链接集合 主题网页(authority page)通过文字具体说明一件或多件实物,如具体的新闻报道 图片、视频网页 是含图片或视频的主题网页,但文字特别少。页面处理 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要对网页进行预处理。近年微软亚洲研究院提出block based IR.一般主题网页的结构 标题(关键词和概括)正文 相关链接 导航信息 广告 装饰,Flash 版权,制作
2、者信息等网页分块方法(1)基于位置关系的分块法 利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类;实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页;这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。网页分块方法(2)基于文档对象模型(DOM)的分块法 找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构;特定标签包括heading、table、paragraph和list等;在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确
3、地对网页中各分块的语义信息进行辨别。HTML语言编写的网页 Welcome Shandong Univ.HTML标记(和结构有关)总的标记个数100 通过src属性的控制,显示特定的图像;创建表格 用来排版大块的html段落 用来创建一个表单,定义用户一个输入区 创建一个下拉式表框 bc=redbc=whiteIMGTABLEBODYrootwidth=800 height=200TABLEwidth=800bc=redbc=whiteIMGTABLEBODYrootwidth=800 height=200TABLEwidth=800,网页分块方法(3)基于视觉特征网页分块法(VIPS)利用字
4、体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树;利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块;每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起;利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。网页去重 由于互联网上存在大量的转载,如何判断是否A,B两个网页在内容上是一样的,并只存储无重复的网页内容的工作,称为网页去重基本方法 Fingerprinting(指纹方法)取出网页内容部分的文本,看成是字符串,利用hash函数产
5、生一个向量。若两个网页的hash函数产生的向量足够接近,认为是内容重复 最长公共子串 取出网页内容部分的文本,看成是字符串,若两个网页的公共子串足够长,认为是内容重复。把网页内容用bag of words表示,利用常用的相似度计算,相似度大的认为是重复。网页的主题提取和分词 发现主题文本 中文的分词处理 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。是相似度计算的基础。目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。速度:
展开阅读全文