书签 分享 收藏 举报 版权申诉 / 30
上传文档赚钱

类型4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx

  • 上传人(卖家):Q123
  • 文档编号:5426147
  • 上传时间:2023-04-11
  • 格式:PPTX
  • 页数:30
  • 大小:5.30MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx》由用户(Q123)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    高中信息技术 4.2.3文本数据处理 ppt课件 30张PPT_2023新浙教版2019高中信息技术必修第一册 4.2 文本 数据处理 ppt 课件 30 _2023 新浙教版 2019 高中 下载 _必修1 数据与计算_浙教版(2019)_信息_高中
    资源描述:

    1、文本数据处理文本数据处理非结构化数据结构化:缺一不可采集信息One day your teacher,day day your father有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客天留人不留下雨天留客,天留人不留下雨天,留客天,留人不?留!一般采用词典法和一般采用词典法和统计法两者结合统计法两者结合基于词典

    2、的分词方法file=”英文文本分析英文文本分析.txt”text=open(file).read()#读取文件读取文件words=text.split()#把每一行把每一行按照空格分词按照空格分词,变成列表变成列表print(words)输出输出:“red”,”apple”file=”英文文本分析英文文本分析.txt”text=open(file).read()for line in text:#获取每一行获取每一行print(words)输出输出:“red”,”apple”“The”,”apple”,”is”,”red”words=line.split()输出输出1:“我我”,”爱爱”,”信

    3、息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()words=jieba.lcut(text)#对对text分词分词print(words)import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()for line in text:print(words)输出输出2:“我我”,”爱爱”,”信息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”“不不”,“,”,“那是那是”,“你你”,“

    4、觉得觉得”words=jieba.lcut(line)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:-1:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=0for cy in sent:if len(cy)=2:count =count+1pr

    5、int(count)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=for cy in sent:if len(cy)=2:if cy in count:countcy=countcy+1else:countcy=1print(count)计算分词后的词语数(至少2字)统计分词后的词语(至少2字)及其数量特征提取特征提取表达文章的信息,表达文章的信息,区分文章的不同区分文章的不同特征提取的方式特征提取的方式文本数据分析与应用文本数据分析与应用数据分析:标签云数据分析:标签云词云词云文本可视化文本可视化数据分析:文本情

    6、感分析数据分析:文本情感分析情感分析:这城市那么空,这回忆那么凶,这街道车水马龙,我能和谁相拥数据分析:文本情感分析数据分析:文本情感分析小结小结文本数据处理的主要应用有()搜索引擎自动摘要论文查重列车查询微博评论典型意见A.B.C.D.B练习Python中文分词模块jieba采用的分词方法属于A.基于词典 B.基于统计C.基于规则 D.以上都有可能A练习构造评估函数的特征提取法大多是基于()设计的A.语义分析B.情感分析C.概率统计D.专家知识C练习下列关于文本数据处理的说法,正确的是()A.处理的文本信息通常是结构化数据B.特征提取是中文文本信息处理的基础C.目前的分词算法能实现完全准确的

    7、进行分词D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的信息D练习练习C下列选项中不属于文本情感分析主要应用场景的是()A.网络舆情监控 B.用户评论C.分析与决策 D.统计字词的频度D练习在网上搜索朱自清的绿文章,如图所示。(1)搜索的信息并保存为txt文件,该过程称为_。(2)“绿.txt”文件是文本的类型是_。(填字母:A.结构化数据/B.半结构化数据/C.非结构化数据)Bimport collectionsimport jiebaimport wordcloud as wcimport numpy as npfrom PIL import Imagewcgwc.WordCloud(background_colorwhite,font_pathassets/msyh.ttf)textopen(data/绿.txt,encodingutf8).read()seg_list_fcollections.Counter(seg_list)wcg.fit_words(f)wcg.to_file(output/b.png)划线处语句是调用jieba对象的cut函数对变量为text文件进行分词,则该处语句为_。B(4)得到的云标签如图所示。该图片的文件名是_,表示该文本特征是_(至少写出3个)。B

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx
    链接地址:https://www.163wenku.com/p-5426147.html
    Q123
         内容提供者     

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库