文本挖掘方法概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《文本挖掘方法概述课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文本 挖掘 方法 概述 课件
- 资源描述:
-
1、文本挖掘过程与方法简介PPT模板下载: 行业PPT模板: 节日PPT模板: PPT素材下载: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel教程: 资料下载: PPT课件下载: 范文下载: 试卷下载: 教案下载: 大数据分析技术文档物征提取/文本表示特征选择挖掘方法获取知识模式知识用户评价 文本挖掘的一般方法数据准备01分词及词性标注0203文本相似度计算和主题模型04情感计算数据准备01分词及词性标注0203文本相似度计算和主题模型04情感计算数据获取 网络文本数据包括各大门户网站的新闻、论坛的帖子、微博、博客等等。 爬取数据可以使用“火车头”、“网络神采”等工
2、具。也可以使用java、python等的开源的爬虫框架。自己编写爬虫的话,对于网页解析可以用“正则表达式”或 Beautiful soup。数据获取常用两个类库Selenium一个用于Web应用程序测试的工具。直接运行在浏览器中的一款测试工具,和真正的用户打开浏览网页一样。用selenium打开网页后,使用beautiful soup解析加载页面的内容,其主要的功能特点能让我们非常精确地获取网页数据。Beautiful Soup 提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出
3、一个完整的应用程序。使用selenium模拟用户点击网页,打开页面后使用beautiful soup将其网页内容解析,获取我们想要的数据,将两者结合,就能够将各个机构提供的数据从其网页上抓取下来。数据存取 对于数据量不是很大的话可以用json和csv格式来存储,比较好处理,对于数据量很大的话就直接存入数据库(如sqlserver)中。对于有些数据结构,存入非关系型数据库比较好,常见的非关系型数据有MongoDB等,具体可以参考http:/nosql-database.org/。示例爬取中国房地产信息网的数据 使用python的scrapy框架爬取了中国房地产信息网的政策动向中的土地政策、金融政
4、策、财税政策、保障政策和中介政策。并以csv格式存取。数据准备01分词及词性标注0203文本相似度计算和主题提取04情感计算中文分词及词性标注 如果以每条评论为单位来进行产品特征评论语句来分类容易产生混淆分词之前需要对文本进行分句,可以用Python程序按照标点(或空格)分句。 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。 所谓词性标注就是根据句子的上下文信息给句中的
展开阅读全文