第五章 数据处理和可视化表达(7课时)ppt课件(含教案+素材)-新粤教版(2019)《高中信息技术》必修第一册.rar
粤教版普通高中教科书信息技术 必修1数据与计算数据与计算数据处理和可视化表达5.1 认识大数据5.2 数据的采集5.3 数据的分析5.4 数据的可视化表达第五章“主题规划探究实施成果评价”开展项目学习活动的全过程。项目范例项目范例 网络购物平台客户行为数据分析和可视化表达第五章 数据处理和可视化表达主题 网络购物中,消费者购物的任何行为细节都会被服务器所记录。通过大数据分析,商家可以了解消费者的偏好甚至预测其购买行为,如图5-1所示。大数据分析使得商家可以追踪客户的行为并确定最有效的方式以提升客户对购物平台的忠诚度,根据客户的个性化需求提供相应的产品或服务以获得更大的市场占有率。图5-1 客户网购行为分析网络购物平台客户行为数据分析和可视化表达第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达根据项目主题,在小组中组织讨论,利用思维导图工具,制订项目范例的学习规划,如图5-2所示。网络购物平台客户行为数据分析和可视化表达网购行为数据采集网购行为数据分析网购行为数据可视化表达规划进度安排工具与方法预期成果组建团队,明确任务查阅资料,探究实施形成作品,开展评价思维导图,“头脑风暴”Python数据分析方法可视化分析报告图5-2“网络购物平台客户行为数据分析和可视化表达”项目学习规划规划第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达根据项目学习规划的安排,通过调查,案例分析、文献阅读和网上资料搜索,开展“网络购物平台客户行为数据分析和可视化表达”项目探究活动,如课本表5-1所示。探究活动学习内容知识技能网购行为数据采集 大数据及其特征。认识大数据及其特征。了解数据采集的基本方法。理解数据对日常生活的影响。理解对数据进行保护的意义。数据来源。数据对日常生活的影响。数据保护的意义。网购行为数据分析 数据分析方法。了解数据分析的基本方法。学会选用恰当工具处理数据。选择数据分析处理工具。网购行为数据可视化表达 可视化的方法和方式。了解数据可视化表达的基本方法。学会选用恰当工具可视化表达数据。选择数据可视化表达处理工具。表5-1“网络购物平台客户行为数据分析和可视化表达”项目学习探究活动探究第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达在小组开展项目范例学习过程中,利用思维导图工具梳理小组成员在“头脑风暴”活动中的观点,建立观点结构图,运用多媒体创作工具(如演示文稿,在线编辑工具等),综合加工与表达,形成项目范例可视化学习成果,并通过各种分享平台发布,共享创造、分享快乐。可视化报告可在资源包查看,其目录截图如图5-3所示.图5-3“网络购物平台客户行为数据分析和可视化表达”可视化报告实施项目学习各项探究活动,进一步认识消费者网络购物行为特点。第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达根据“项目活动评价表”,对项目范例的学习过程和学习成果在小组或班级上进行交流,开展项目学习活动评价。同学从真实世界选择自己感兴趣的主题开展项目学习活动做中学、学中创、创中乐第五章 数据处理和可视化表达项目选题、规划设计、方案交流网络购物平台客户行为数据分析和可视化表达进度安排工具与方法学习过程学习成果项目评价组建团队,明确任务查阅资料,探究实施形成作品,开展评价思维导图,“头脑风暴”Python数据分析法可视化分析报告项目选题项目规划方案交流项目探索与实施图:学习框架分组:以4-6人为一组,选择下面一个参考主题,或者自拟一个感兴趣的主题。u网络购物平台商品销售数据分析和可视化表达u网约车平台客户行为的数据分析和可视化表达u社交平台用户行为的数据分析和可视化表达u网络学习平台学生行为的数据分析和可视化表达u题目自拟第五章 数据处理和可视化表达项目选题、规划设计、方案交流各小组根据项目选题,参照项目范例的样式,利用思维导图工具,制订相应的项目方案,如下图所示。网络购物平台客户行为数据分析和可视化表达商品销售数据采集商品销售数据分析商品销售数据可视化表达规划进度安排工具与方法预期成果组建团队,明确任务查阅资料,探究实施形成作品,开展评价思维导图,“头脑风暴”Python数据分析方法可视化分析报告图5-5“网络购物平台客户行为数据分析和可视化表达”项目学习规划第五章 数据处理和可视化表达项目选题、规划设计、方案交流各小组将完成的方案在全班进行展示交流,师生共同探讨、完善相应的项目方案。第五章 数据处理和可视化表达项目选题、规划设计、方案交流第五章 数据处理和可视化表达项目选题、规划设计、方案交流学习活动流程探究活动n大数据的概念n大数据的特征n传统数据与大数据的区别n大数据对日常生活的影响在日常工作、生活和学习等活动中,人们的一举一动基本上都可以数字化。例如,从家中出门到达工作地点选择的交通工具、路线和所有时间;每刷一次微博、拨打一次电、发送一条短信、网上银行转账或者浏览相关网站,甚至所在的地理位置信息等都产生了大量的数据。那么,什么是大数据?它有什么特征?它对我们的日常生活有什么影响?以小组为单位,通过查找资料、学习和交流,得出结论。第五章 数据处理和可视化表达5.1认识大数据讨论大数据的概念?以小组为单位,通过查找资料、学习和交流,填写下表。大数据的概念大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的信息集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。交流第五章 数据处理和可视化表达5.1认识大数据判 断 角 度从互联网产生的大数据角度从互联网思维的角度从大数据存储与计算的角度具体特征1.体量大2.数据类型繁多3.价值密度低4.变化数据快1.样本渐趋于总体2.精确让位于模糊3.相关性重于因果1.分布式存储2.分布式并行计算我们正处于一个大数据的时代,大数据使人们的生活、工作和思维方式等都产生了巨大的变革。那么,大数据究竟具有哪些特征呢?以小组为单位,通过查找资料、学习和交流,填写下表。问题第五章 数据处理和可视化表达5.1认识大数据讨论传统数据与大数据的区别?以小组为单位,通过查找资料、学习和交流,填写下表。传统数据大数据数据量小数据类型少价值密度高更新速度慢追求数据精确性本地存储数据体量巨大数据类型繁多价值密度低更新速度快追求数据模糊性性分布式存储第五章 数据处理和可视化表达5.1认识大数据交流讨论大数据对日常生活的影响?以小组为单位,通过查找资料、学习和交流,填写下表。正面影响负面影响1.方便支付2.方便出行3.方便看病与诊病1.个人信息泄露2.信息伤害与诈骗第五章 数据处理和可视化表达5.1认识大数据交流讨论如何避免大数据带来的负面影响?以小组为单位,通过查找资料、学习和交流,填写下表。信息泄露方面信息伤害与诈骗方面1.避免使用不熟悉的网络上网2.不使用信用卡刷卡消费3.保管好手机等电子设备1.要判断手机收到陌生信息的真伪2.接到关于钱财方面的电话,要多方查证第五章 数据处理和可视化表达5.1认识大数据交流探究活动n数据的采集n数据的分析n数据的可视化表达淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。那么,你要完成前期调研工作,需要获取到哪些数据呢?怎样获取到这些数据呢?从获取数据中怎样提炼出有价值的信息呢?以小组为单位,通过学习、交流,探索和实践,得出可视化结论。第五章 数据处理和可视化表达5.2数据的采集探究活动根据网络购物平台客户行为数据分析和可视化表达项目主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。编号项目数据内容大纲数据来源采集方法和工具数据保存方式123商品销售数据:包括商品名称、店铺名称、商品价格、商品销量淘宝网-实惠热卖-零食类别方法:网络数据采集法工具:爬虫程序data_sample.csv商品销售数据:包括商品价格、商品销量、商品评论店铺销售订单数据:包括每个订单购买的商品名称淘宝网-实惠热卖-零食类别方法:网络数据采集法工具:爬虫程序淘宝网店铺后台方法:网络数据采集法工具:系统导出、手工记录等taobao.xlssale_orders.xls第五章 数据处理和可视化表达5.2数据的采集交流1.观看微课视频“第三方库模块安装与使用”;2.体验安装Numpy,Scipy,Pandas,Matplotib四个Python第三方库。运行“程序5-3-1 绘制正弦函数(教材范例).py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。语句语句作用Import numpy as npimport matplotlib.pyplot as pltfrom pylab import*引入numpy库模块,用np替代引入matplotlib库模块中的pyplot方法,用plt替代引入pylab库模块中的所有方法第五章 数据处理和可视化表达5.2数据的采集体验交流1.观看微课视频“xampp搭建本地服务器”、”爬虫程序采集网络数据”;2.体验安装、运行xampp并搭建、启动本地网页服务;3.运行“程序5-3-2 爬取本地网页数据(教材范例).py”,数据文件内容如下图所示,体验使用爬虫程序采集本地网页数据。第五章 数据处理和可视化表达5.2数据的采集体验程序5-3-2 爬取本地网页数据结果运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。关键信息具体内容获取方法网页数据网址商品每项数据的标签和属性类名http:/127.0.0.1/wholesale.html商品名称标签:a 该标签属性类名:item-title商品价格标签:span 该标签属性类名:price-current订单量标签:a 该标签属性类名:sale-value-link店铺名称标签:a 该标签属性类名:store-namechrome浏览器的检查工具第五章 数据处理和可视化表达5.2数据的采集交流实践用chrome浏览器打开淘宝网-实惠热卖-零食类别,需要爬取的数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量。第五章 数据处理和可视化表达5.2数据的采集实践通过修改“程序5-3-2 爬取本地网页数据(教材范例).py”代码,爬取淘宝网-实惠热卖-零食类别中前5页商品的销售数据,数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量,以小组为单位,通过学习、交流,探究和实践,填写下表。采集商品销售数据程序关键代码数据文件和内容(截图)#商品网址url=https:/ l in all_price:soup_price=bs4.BeautifulSoup(str(l),html.parser)price.append(soup_price.strong.string)#生成每一行数据for n in range(len(title):data_sheet.write(n,0,n+1)data_sheet.write(n,1,titlen)#n 表示行,1 表示列 data_sheet.write(n,2,storen)data_sheet.write(n,3,pricen)data_sheet.write(n,4,paynumn:-3)#删除销量的最后三个字符#保存文件wookbook.save(taobao.xls)第五章 数据处理和可视化表达5.2数据的采集观看微课视频“采集上网行为管理系统数据”,以小组为单位,通过查找资料、学习和交流,填写下表。采集方法数据来源采集工具应用范围(举例)系统日志采集法1.信息系统日志数据2.信息系统系统数据系统导出1.导出上网行为管理系统日志2.导出上网行为管理系统客户数据网络数据采集法1.网站存储的数据2.网站公开API(应用程序接口)传输的数据1.爬虫程序2.系统导出3.接口程序1.爬取淘宝网站数据2.从淘宝网店铺后台导出数据3.获取微信企业号公开接口数据其它数据采集法传感器系统接口传感器采集数据传输到数据库管理系统第五章 数据处理和可视化表达5.2数据的采集交流我们采集到的数据,你会保存在哪里?你会怎样保护这些数据?以小组为单位,通过查找资料、学习和交流,填写下表。知识类别知识内容具体做法数据的存储本地内部存储本地电脑数据的保护数据安全保护技术数据加密、数据备份、数据镜像、增加防火墙数据保护的意义第三方存储数据的隐私保护第三方存储服务器、云存储技术手段、提高自身保护意识、对数据使用者进行道德和法律上的约束有利于维护生命财产安全、维护网络环境稳定、减少网络犯罪事件的发生;采集数据时,要尊重知识产权,遵守法律和伦理道德第五章 数据处理和可视化表达5.2数据的采集交流探究活动我们已经从淘宝网采集到了商品销售数据,通过分析这些数据,可以去发现数据的价值与意义。以小组为单位,通过查找资料、学习和交流,填写下表。知识类别知识内容数据分析的作用1.探索数据内在的结构和规律,构建教学模型,并进行可视化表达2.通过验证将模型转化为知识,为预测诊断过去、预测未来发挥作用数据分析的常用方法1.特征探索2.关联分析3.聚类分析4.数据分类第五章 数据处理和可视化表达5.3数据的分析交流1.观看微课视频“创建MySQL数据库”、“数据特征探索程序介绍”;2.体验运行xampp,启动本地web服务和数据库服务;3.体验创建数据库csdn和数据表taob,并导入文件taob.sql中的数据;4.体验创建数据库taobao和数据表taobao,并导入文件taobao.xls中的数据;5.运行“程序5-5-1 数据预处理(教材范例).py”,结果如下图所示,体验数据预处理过程。程序5-5-1 数据预处理过程第五章 数据处理和可视化表达5.3数据的分析体验实践通过修改“程序5-5-1 数据预处理(教材范例).py”代码,对采集到的商品销售数据进行预处理,包括发现和处理缺失值、处理异常数据、求最大值、最小值、极差、组距、绘制直方图,观察数据的分布特征,以小组为单位,通过学习、交流,探究和实践,填写下表。数据预处理程序关键代码可视化图形(截图)#导入数据conn=pymysql.connect(host=“127.0.0.1”,user=“root”,passwd=“”,db=“taobao”)sql=“select*from taobao”data=pda.read_sql(sql,conn)#数据清洗,发现和处理缺失值,如果销量为0的,修改为200 x=0datapaynum(datapaynum=0)=Nonefor i in data.columns:for j in range(len(data):if(datai.isnull()j:#如果为空即插值 dataij=200#空值插入200 x+=1print(x)第五章 数据处理和可视化表达5.3数据的分析#异常值处理、画散点图(横轴:价格,纵轴:评论数)找到异常值data2=data.Tprice=data2.values2comt=data2.values3plt.xlabel(price)#显示X坐标标签plt.ylabel(paynum)#显示Y坐标标签pyl.plot(price,comt,o)pyl.show()#求最值pricemax=da22.max()pricemin=da22.min()paynummax=da23.max()paynummin=da23.min()#极差pricerg=pricemax-priceminpaynumrg=paynummax-paynummin#组距pricedst=pricerg/13paynumdst=paynumrg/13第五章 数据处理和可视化表达5.3数据的分析分析结果#绘制价格直方图#npy.arrange(最小,最大,组距)pricesty=npy.arange(pricemin,pricemax+1,pricedst)plt.xlabel(price)#显示X坐标标签plt.ylabel(number)#显示Y坐标标签pyl.hist(da22,pricesty)pyl.show()#绘制销量数直方图paynumsty=npy.arange(paynummin,paynummax+1,paynumdst)plt.xlabel(paynum)#显示X坐标标签plt.ylabel(number)#显示Y坐标标签pyl.hist(da23,paynumsty)pyl.show()价格在10-30块之间的商品种类最多,此价位的商品竞争最激烈;销量在10以下的商品种类最多,大部分商品销量一般。第五章 数据处理和可视化表达5.3数据的分析1.观看微课视频“聚类分析程序介绍”;2.运行“程序5-6-1 聚类分析(教材范例).py”,结果如下图所示,体验聚类分析。程序5-6-1 聚类分析结果第五章 数据处理和可视化表达5.3数据的分析体验实践1.运行“程序5-6-2 爬取购物平台商品销售数据(价格、销量、评价).py”,爬取淘宝网-实惠热卖-零食类别中第一页商品的数据,数据内容包括每种商品的价格、销量和评论,数据保存在程序同一目录,文件名为data_sample.csv;了解爬虫程序将爬取数据结果保存为*.csv格式文件的代码结构。第五章 数据处理和可视化表达5.3数据的分析文件data_sample.csv中的数据截图实践2.通过修改“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售数据“data_sample.csv”进行聚类分析,观察数据分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。聚类分析程序关键代码可视化图形(截图)分析结果from sklearn.cluster import KMeans#导入商品样本数据fname=data_sample.csvdataf=pda.read_csv(fname,encoding=gbk)x=dataf.as_matrix()#聚类分析kms=KMeans(n_clusters=3)y=kms.fit_predict(x)print(y)程序按照提供的数据样本,自动将商品分成了三类。第五章 数据处理和可视化表达5.3数据的分析探究活动如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是是重要客户还是普通客户?问题客户特征A特征B特征C重要客户182.881.630重要客户180.486.129重要客户170.077.130重要客户180.474.828普通客户152.445.324普通客户167.668.026普通客户165.258.925普通客户175.268.027第五章 数据处理和可视化表达5.3数据的分析1.观看微课视频“数据分类程序介绍”;2.运行“程序5-7-1 数据分类(教材范例).py”,结果如下图所示,体验数据分类。程序运行结果为0,表示这人是普通客户程序5-7-1 数据分析结果第五章 数据处理和可视化表达5.3数据的分析体验实践从聚类分析中采集的商品销售数据(data_sample.csv)中抽取部分数据作为样本,构建重要商品和一般商品的分类模型(model.csv);通过修改或优化“程序5-7-1 数据分类(教材范例).py”代码,对特征值A为128.8,特征值B为158,特征值C为4.7的商品进行分类,观察该商品分类结果,以小组为单位,通过学习、交流,探究和实践,填写下表。数据分类程序关键代码(修改范例程序、优化范例程序)商品分类结果(截图)分析结果特征值分别为128.8,158,4.9的商品为重要商品,受客户欢迎,评价高,需要重点关注。from sklearn.naive_bayes import GaussianNB#构建分类模型fname=“model.csv”dataf=pda.read_csv(fname,encoding=“gbk”)data=dataf.as_matrix()X=Y=for values in data:X.append(values1:4)#获取第2-4列的特征值 Y.append(values0)#获取第1列的分类值clf=GaussianNB().fit(X,Y)#对未分类数据分类print(clf.predict(128.8,158,4.7)import numpy as npfrom sklearn.naive_bayes import GaussianNBX=np.array(105.9,230,4.9,65.1,710,4.8,15,276,4.8,238,79,4.8,29.9,735,4.7,12.8,222,4.3,18,62,4.6,89,247,4.5,162,585,4.5,29,278,4.2)Y=np.array(重要商品,重要商品,重要商品,重要商品,重要商品,一般商品,一般商品,一般商品,一般商品,一般商品)clf=GaussianNB().fit(X,Y)print(clf.predict(128.8,158,4.7)第五章 数据处理和可视化表达5.3数据的分析探究活动假设购买商品A的有100人,购买商品B的有80人,购买商品C的有50人,同时购买商品A和商品B的有70人,同时购买商品A和商品C的有5人,那么购买商品A的人往往就会购买商品B,由此可以找出这些数据相互之间的关系。下表所示是某网络商城销售订单统计资料,那么这些商品之间有什么关联性?问题订单商品1商品2商品3商品4订单1ace订单2bd订单3bc订单4abcd订单5ab订单6bc订单7ab订单8abce订单9abc订单10ace第五章 数据处理和可视化表达5.3数据的分析1.观看微课视频“关联分析程序介绍”;2.运行“程序5-8-1 关联分析(教材范例).py”,结果如下图所示,体验关联分析。程序5-8-1 关联分析结果第五章 数据处理和可视化表达5.3数据的分析体验实践1.采用系统导出数据、手工记录数据等方法从淘宝店铺后台采集一份店铺销售订单数据(sale_orders.xls,每个订单需包括卖出商品的名称)。第五章 数据处理和可视化表达5.3数据的分析文件sale_orders.xls中的数据截图实践2.通过修改“程序5-8-1 关联分析(教材范例).py”代码,对采集到的店铺销售订单数据(sale_orders.xls)进行关联分析,寻找商品之间的关联性,观察关联分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。关联分析程序关键代码关联分析结果(截图)分析结果商品b和a,商品d和a,商品c和a的支持度和置信度非常高,客户经常一起购买,可以对它们进行捆绑销售。data=pd.read_excel(sale_orders.xls,header=None)print(un转换原始数据至0-1矩阵.)ct=lambda x:pd.Series(1,index=xpd.notnull(x)#转换0-1矩阵的过渡函数b=map(ct,data.as_matrix()#用map方式执行data=pd.DataFrame(list(b).fillna(0)#实现矩阵转换,空值用0填充print(un转换完毕。)del b#删除中间变量b,节省内存support=0.4#最小支持度confidence=0.5#最小置信度ms=-#连接符,默认-,用来区分不同元素,如A-B。需要保证原始表格中不含有该字符find_rule(data,support,confidence,ms).to_excel(关联分析结果.xls)#保存结果第五章 数据处理和可视化表达5.3数据的分析体验1.观看微课视频“词云图程序介绍”;2.运行“程序5-9-1 词云图(教材范例).py”,体验词云图可视化呈现分析结果。程序5-9-1 词云图第五章 数据处理和可视化表达5.4数据的可视化表达实践通过修改“程序5-9-1 词云图(教材范例).py”代码,从淘宝网-实惠热卖-零食类别中爬取前十页的商品名称数据,以词云图的方式可视化呈现分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。商品名称词云图程序关键代码词云图可视化呈现结果(截图)分析结果商品名称中出现爱幼、水果、宝宝、婴幼儿、零食、频次较高。#网址url=https:/ all_title=soup.find_all(span,class_=“title”)for j in all_title:soup_title=bs4.BeautifulSoup(str(j),“html.parser”,)title.append(soup_title.span.string)#循环取出商品标题,分词后放入到new_text列表中for i in title:words=jieba.lcut(i)new_text=.join(words)第五章 数据处理和可视化表达5.4数据的可视化表达1.运行“程序5-10-1 直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图;2.运行“程序5-10-2 Bokeh示例(教材范例).py”,体验可视化工具Bokeh呈现正弦图。程序5-10-1 直方图程序5-10-2 Bokeh示例第五章 数据处理和可视化表达5.4数据的可视化表达体验实践在python中,可视化数据分析类型及对应的可视化呈现方式有哪些?数据可视化表达的工具有哪些?总结项目活动中采用过的数据可视化表达的方式和工具,以小组为单位,通过学习、交流,探究和实践,填写下表。数据分析类型可视化呈现类型可视化工具示例关键代码呈现效果逻辑关系正弦图pyplotimport numpy as np#引入numpy库模块,用np替代import matplotlib.pyplot as plt#引入matplotlib库模块中的pyplot方法,用plt替代from pylab import*#引入pylab库模块中的所有方法x=np.arange(-5.0,5.0,0.5)#定义x轴数值为-5到5,步长为0.02y=np.sin(x)#利用正弦函数计算出x轴数值对应的y轴数值plt.plot(x,y)#利用x,y轴对应的数值绘制出图形plt.show()#显示出绘制的图形逻辑关系散点图pyplot#异常值处理、找到异常值、画散点图(横轴:价格,纵轴:评论数)data2=data.Tprice=data2.values2comt=data2.values3plt.xlabel(price)#显示X坐标标签plt.ylabel(comt)#显示Y坐标标签pyl.plot(price,comt,o)pyl.show()第五章 数据处理和可视化表达5.4数据的可视化表达数据分析类型可视化呈现类型可视化工具示例关键代码呈现效果逻辑关系直方图Pyplot逻辑关系聚类图Pyplot#绘制价格直方图#npy.arrange(最小,最大,组距)pricesty=npy.arange(pricemin,pricemax,pricedst)plt.xlabel(price)#显示X坐标标签plt.ylabel(number)#显示Y坐标标签pyl.hist(da22,pricesty)pyl.show()#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图for i in range(0,len(y):if(yi=0):print(str(i)+0)pyl.subplot(2,3,1)#年龄-消费金额图 pyl.plot(dataf.iloci:i+1,0:1.as_matrix(),dataf.iloci:i+1,1:2.as_matrix(),*r)pyl.subplot(2,3,2)#消费时间-消费金额图 pyl.plot(dataf.iloci:i+1,2:3.as_matrix(),dataf.iloci:i+1,1:2.as_matrix(),*r)pyl.subplot(2,3,3)#年龄-消费时间图 pyl.plot(dataf.iloci:i+1,0:1.as_matrix(),dataf.iloci:i+1,2:3.as_matrix(),*r)第五章 数据处理和可视化表达5.4数据的可视化表达数据分析类型可视化呈现类型可视化工具示例关键代码呈现效果逻辑关系直方图Seaborn逻辑关系正弦图Bokehimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltsns.set(palette=muted,color_codes=True)rs=np.random.RandomState(10)d=rs.normal(size=100)f,axes=plt.subplots(2,2,figsize=(7,7),sharex=True)sns.distplot(d,kde=False,color=b,ax=axes0,0)sns.distplot(d,hist=False,rug=True,color=r,ax=axes0,1)sns.distplot(d,hist=False,color=g,kde_kws=shade:True,ax=axes1,0)sns.distplot(d,color=m,ax=axes1,1)plt.show()import numpy as npfrom bokeh.layouts import gridplotfrom bokeh.plotting import figure,output_file,showN=100 x=np.linspace(0,4*np.pi,N)y0=np.sin(x)output_file(sinewave.html)sine=figure(width=500,plot_height=500,title=Sine)sine.circle(x,y0,size=10,color=navy,alpha=0.5)p=gridplot(sine,toolbar_location=None)show(p)第五章 数据处理和可视化表达5.4数据的可视化表达项目实施在探究活动的基础上,运用数字化学习工具,根据本章项目学习活动记录表,形成可视化学习报告(可以使用演示文稿、在线文档等工具)。第五章 数据处理和可视化表达项目实施查看项目学习活动记录表,小组代表分享成果。n1.数据采集的方法与工具n2.数据分析的方法n3.数据可视化表达的方式与工具n4.形成的可视化报告第五章 数据处理和可视化表达成果交流成果交流“综合得分”:“学生互评”占30+“学生自评”占30 +“教师评价”占40第五章 数据处理和可视化表达活动评价活动评价项目及分值项目及分值评分标准与分值评分标准与分值得分得分自评自评互评互评作品选题20准确把握项目学习的意义和目的。5 选题切合实际、符合科学。5 选题有应用价值、创新价值。5 选题适宜解决、可行性高。5 规划与分析15准确分析设计的目的。5 准确分析方案的需求。5 准确描述方案的功能。5 工具与方法10合理使用数字化工具及资源。5 围绕项目进行自主、协作学习。5 步骤与过程40明确问题,了解利用Python程序语言和第三方库解决问题。10 利用爬虫程序爬取网络数据10 利用Python程序进行数据分析(包括特征探索、关联分析、聚类分析、数据分类)10 利用Python程序进行数据可视化表达10 成果与报告15根据目的,设计出切实可行的方案。5 正确评估数据分析和可视化表达的科学性、有效性及其所带来的价值,能综合运用Python程序解决问题。5 报告内容完整,结构清晰,排版美观。5 合计得分100 第五章 数据处理和可视化表达第五章 数据处理和可视化表达教学设计教学设计一、项目简介一、项目简介项目主题项目主题网络购物平台商品销售数据分析和可视化表达项目背景项目背景目前我国网购商品规模不断扩大,由此产生大量的网购商品数据,这些数据中,存在一些规律。通过对这些数据的采集、分析,就可以找到数据之间的内在联系。在商业活动中,这些数据可以为商业决策提供数据支持,由此产生更大的经济效益,所以网络购物平台的商品销售数据是一个巨大的商业宝藏。对应教材对应教材广东教育出版社普通高中教科书信息技术必修 1数据与计算第五章课时安排课时安排7 课时二、课程标准及目标分析二、课程标准及目标分析(一)课程标准及教材分析(一)课程标准及教材分析1.本章对应课标的内容要求本章对应课标的内容要求通过典型的应用实例,了解数据采集、分析和可视化表达的基本方法。根据任务需求,选用恰当的软件工具或平台处理数据,完成分析报告,理解对数据进行保护的意义。2.本章对应的学业要求本章对应的学业要求A-1:能够描述数据与信息的特征。(信息意识)A-3:能够根据需要选用合适的数字化工具开展学习。(数字化学习与创新)A-4:了解数据采集、分析和可视化表达的基本方法。(计算思维)A-5:能够利用软件工具或平台对数据进行整理、组织、计算与呈现,并能通过技术方法对数据进行保护。(计算思维、信息社会责任)A-6:在数据分析的基础上,完成分析报告。(计算思维)3.本章的地位和作用本章的地位和作用本章是本教科书的第五章,将带领学生学习“数据处理和可视化表达”的教学内容,也是学习选择性必修模块数据管理与分析和人工智能初步的基础知识与技能准备。本章以培养信息素养为目标,以知识技能为载体,以项目学习活动为途径,开展自主、协作、探究学习,让学生了解数据采集、分析和可视化表达的基本方法。本章以“网络购物平台客户行为数据分析和可视化表达”为项目范例,通过“网络购物平台商品销售数据分析和可视化表达”项目,让学生理解随着社会数据量和个人数据量的增大,选用恰当的软件工具或平台处理数据、发现信息,已逐步成为人们解决问题的一种重要方式;并通过对数据和大数据进行采集、存储、处理,以及从中发掘有价值的信息等过程,让学生全面了解数据与计算的重要意义,从而提升学生的信息素养。(二)本章对应达成的学科核心素养(二)本章对应达成的学科核心素养(1)针对特定的信息问题,自觉、主动比较不同的信息源,能描述数据与信息的关系,确定合适的信息获取策略。(信息意识 1)(2)依据特定任务需求,甄别不同信息获取方法的优劣,并能利用适当途径甄别信息。(信息意识 1)(3)在日常生活中,根据实际解决问题的需要,恰当选择数字化工具,具备信息安全意识。(信息意识 1)(4)主动关注信息技术工具发展中的新动向和新趋势,有意识地使用新技术处理信息。(信息意识 1)(5)针对给定的任务进行需求分析,明确需要解决的关键问题。(计算思维 1)(6)按照问题解决方案,选用适当的数字化工具或方法获取组织分析数据,并能迁移到其他相关问题的解决过程中。(计算思维 1)(7)在学习过程中能够评估常用的数字化工具资源,根据需要合理选择。(数字化学习与创新 1)(8)在信息活动中,具有信息安全意识,尊重和保护个人及他人的隐私(信息社会责任 1)(9)采用简单的技术手段,保护数据、信息以及信息设备的安全。(信息社会责任 1)(三)目标分析(三)目标分析1.项目目标项目目标本章以“网络购物平台客户行为数据分析和可视化表达”为项目范例,通过“网络购物平台商品销售数据分析和可视化表达”项目,组织学生进行自主、协作、探究学习,让学生认识大数据及其特征、理解数据对日常生活的影响,了解数据采集的基本方法及其对数据保护的意义,能够在一大批杂乱无章的数据中,运用数字化的工具
收藏
- 资源描述:
-
粤教版普通高中教科书信息技术 必修1数据与计算数据与计算数据处理和可视化表达5.1 认识大数据5.2 数据的采集5.3 数据的分析5.4 数据的可视化表达第五章“主题规划探究实施成果评价”开展项目学习活动的全过程。项目范例项目范例 网络购物平台客户行为数据分析和可视化表达第五章 数据处理和可视化表达主题 网络购物中,消费者购物的任何行为细节都会被服务器所记录。通过大数据分析,商家可以了解消费者的偏好甚至预测其购买行为,如图5-1所示。大数据分析使得商家可以追踪客户的行为并确定最有效的方式以提升客户对购物平台的忠诚度,根据客户的个性化需求提供相应的产品或服务以获得更大的市场占有率。图5-1 客户网购行为分析网络购物平台客户行为数据分析和可视化表达第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达根据项目主题,在小组中组织讨论,利用思维导图工具,制订项目范例的学习规划,如图5-2所示。网络购物平台客户行为数据分析和可视化表达网购行为数据采集网购行为数据分析网购行为数据可视化表达规划进度安排工具与方法预期成果组建团队,明确任务查阅资料,探究实施形成作品,开展评价思维导图,“头脑风暴”Python数据分析方法可视化分析报告图5-2“网络购物平台客户行为数据分析和可视化表达”项目学习规划规划第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达根据项目学习规划的安排,通过调查,案例分析、文献阅读和网上资料搜索,开展“网络购物平台客户行为数据分析和可视化表达”项目探究活动,如课本表5-1所示。探究活动学习内容知识技能网购行为数据采集 大数据及其特征。认识大数据及其特征。了解数据采集的基本方法。理解数据对日常生活的影响。理解对数据进行保护的意义。数据来源。数据对日常生活的影响。数据保护的意义。网购行为数据分析 数据分析方法。了解数据分析的基本方法。学会选用恰当工具处理数据。选择数据分析处理工具。网购行为数据可视化表达 可视化的方法和方式。了解数据可视化表达的基本方法。学会选用恰当工具可视化表达数据。选择数据可视化表达处理工具。表5-1“网络购物平台客户行为数据分析和可视化表达”项目学习探究活动探究第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达在小组开展项目范例学习过程中,利用思维导图工具梳理小组成员在“头脑风暴”活动中的观点,建立观点结构图,运用多媒体创作工具(如演示文稿,在线编辑工具等),综合加工与表达,形成项目范例可视化学习成果,并通过各种分享平台发布,共享创造、分享快乐。可视化报告可在资源包查看,其目录截图如图5-3所示.图5-3“网络购物平台客户行为数据分析和可视化表达”可视化报告实施项目学习各项探究活动,进一步认识消费者网络购物行为特点。第五章 数据处理和可视化表达项目范例-网络购物平台客户行为数据分析和可视化表达根据“项目活动评价表”,对项目范例的学习过程和学习成果在小组或班级上进行交流,开展项目学习活动评价。同学从真实世界选择自己感兴趣的主题开展项目学习活动做中学、学中创、创中乐第五章 数据处理和可视化表达项目选题、规划设计、方案交流网络购物平台客户行为数据分析和可视化表达进度安排工具与方法学习过程学习成果项目评价组建团队,明确任务查阅资料,探究实施形成作品,开展评价思维导图,“头脑风暴”Python数据分析法可视化分析报告项目选题项目规划方案交流项目探索与实施图:学习框架分组:以4-6人为一组,选择下面一个参考主题,或者自拟一个感兴趣的主题。u网络购物平台商品销售数据分析和可视化表达u网约车平台客户行为的数据分析和可视化表达u社交平台用户行为的数据分析和可视化表达u网络学习平台学生行为的数据分析和可视化表达u题目自拟第五章 数据处理和可视化表达项目选题、规划设计、方案交流各小组根据项目选题,参照项目范例的样式,利用思维导图工具,制订相应的项目方案,如下图所示。网络购物平台客户行为数据分析和可视化表达商品销售数据采集商品销售数据分析商品销售数据可视化表达规划进度安排工具与方法预期成果组建团队,明确任务查阅资料,探究实施形成作品,开展评价思维导图,“头脑风暴”Python数据分析方法可视化分析报告图5-5“网络购物平台客户行为数据分析和可视化表达”项目学习规划第五章 数据处理和可视化表达项目选题、规划设计、方案交流各小组将完成的方案在全班进行展示交流,师生共同探讨、完善相应的项目方案。第五章 数据处理和可视化表达项目选题、规划设计、方案交流第五章 数据处理和可视化表达项目选题、规划设计、方案交流学习活动流程探究活动n大数据的概念n大数据的特征n传统数据与大数据的区别n大数据对日常生活的影响在日常工作、生活和学习等活动中,人们的一举一动基本上都可以数字化。例如,从家中出门到达工作地点选择的交通工具、路线和所有时间;每刷一次微博、拨打一次电、发送一条短信、网上银行转账或者浏览相关网站,甚至所在的地理位置信息等都产生了大量的数据。那么,什么是大数据?它有什么特征?它对我们的日常生活有什么影响?以小组为单位,通过查找资料、学习和交流,得出结论。第五章 数据处理和可视化表达5.1认识大数据讨论大数据的概念?以小组为单位,通过查找资料、学习和交流,填写下表。大数据的概念大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的信息集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。交流第五章 数据处理和可视化表达5.1认识大数据判 断 角 度从互联网产生的大数据角度从互联网思维的角度从大数据存储与计算的角度具体特征1.体量大2.数据类型繁多3.价值密度低4.变化数据快1.样本渐趋于总体2.精确让位于模糊3.相关性重于因果1.分布式存储2.分布式并行计算我们正处于一个大数据的时代,大数据使人们的生活、工作和思维方式等都产生了巨大的变革。那么,大数据究竟具有哪些特征呢?以小组为单位,通过查找资料、学习和交流,填写下表。问题第五章 数据处理和可视化表达5.1认识大数据讨论传统数据与大数据的区别?以小组为单位,通过查找资料、学习和交流,填写下表。传统数据大数据数据量小数据类型少价值密度高更新速度慢追求数据精确性本地存储数据体量巨大数据类型繁多价值密度低更新速度快追求数据模糊性性分布式存储第五章 数据处理和可视化表达5.1认识大数据交流讨论大数据对日常生活的影响?以小组为单位,通过查找资料、学习和交流,填写下表。正面影响负面影响1.方便支付2.方便出行3.方便看病与诊病1.个人信息泄露2.信息伤害与诈骗第五章 数据处理和可视化表达5.1认识大数据交流讨论如何避免大数据带来的负面影响?以小组为单位,通过查找资料、学习和交流,填写下表。信息泄露方面信息伤害与诈骗方面1.避免使用不熟悉的网络上网2.不使用信用卡刷卡消费3.保管好手机等电子设备1.要判断手机收到陌生信息的真伪2.接到关于钱财方面的电话,要多方查证第五章 数据处理和可视化表达5.1认识大数据交流探究活动n数据的采集n数据的分析n数据的可视化表达淘宝购物平台上各种商品应有尽有,假如你在该平台开了一个零食网店,最近你要调整经营策略,以提高网店的盈利水平。在调整经营策略之前你必须进行前期调研分析,比如通过分析淘宝网上各类零食的销量数据,去重新定位销售商品的种类和价格;通过分析网店销售数据订单,去了解客户的购物喜好,去判断哪些商品可以捆绑销售。从而下架一些销量不好商品和上架一些新的商品。那么,你要完成前期调研工作,需要获取到哪些数据呢?怎样获取到这些数据呢?从获取数据中怎样提炼出有价值的信息呢?以小组为单位,通过学习、交流,探索和实践,得出可视化结论。第五章 数据处理和可视化表达5.2数据的采集探究活动根据网络购物平台客户行为数据分析和可视化表达项目主题,确定项目的数据需求,列出数据采集清单和内容大纲,采集数据使用的方法和工具,以小组为单位,通过学习和交流,填写下表。编号项目数据内容大纲数据来源采集方法和工具数据保存方式123商品销售数据:包括商品名称、店铺名称、商品价格、商品销量淘宝网-实惠热卖-零食类别方法:网络数据采集法工具:爬虫程序data_sample.csv商品销售数据:包括商品价格、商品销量、商品评论店铺销售订单数据:包括每个订单购买的商品名称淘宝网-实惠热卖-零食类别方法:网络数据采集法工具:爬虫程序淘宝网店铺后台方法:网络数据采集法工具:系统导出、手工记录等taobao.xlssale_orders.xls第五章 数据处理和可视化表达5.2数据的采集交流1.观看微课视频“第三方库模块安装与使用”;2.体验安装Numpy,Scipy,Pandas,Matplotib四个Python第三方库。运行“程序5-3-1 绘制正弦函数(教材范例).py”,观察程序运行结果,以小组为单位,通过学习和交流,填写下表。语句语句作用Import numpy as npimport matplotlib.pyplot as pltfrom pylab import*引入numpy库模块,用np替代引入matplotlib库模块中的pyplot方法,用plt替代引入pylab库模块中的所有方法第五章 数据处理和可视化表达5.2数据的采集体验交流1.观看微课视频“xampp搭建本地服务器”、”爬虫程序采集网络数据”;2.体验安装、运行xampp并搭建、启动本地网页服务;3.运行“程序5-3-2 爬取本地网页数据(教材范例).py”,数据文件内容如下图所示,体验使用爬虫程序采集本地网页数据。第五章 数据处理和可视化表达5.2数据的采集体验程序5-3-2 爬取本地网页数据结果运行爬虫程序采集本地网页数据需要获取的关键信息有哪些?具体内容是什么?怎么获取到这些信息?以小组为单位,通过学习和交流,填写下表。关键信息具体内容获取方法网页数据网址商品每项数据的标签和属性类名http:/127.0.0.1/wholesale.html商品名称标签:a 该标签属性类名:item-title商品价格标签:span 该标签属性类名:price-current订单量标签:a 该标签属性类名:sale-value-link店铺名称标签:a 该标签属性类名:store-namechrome浏览器的检查工具第五章 数据处理和可视化表达5.2数据的采集交流实践用chrome浏览器打开淘宝网-实惠热卖-零食类别,需要爬取的数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量。第五章 数据处理和可视化表达5.2数据的采集实践通过修改“程序5-3-2 爬取本地网页数据(教材范例).py”代码,爬取淘宝网-实惠热卖-零食类别中前5页商品的销售数据,数据内容包括每种商品的商品名称、店铺名称、商品价格和商品销量,以小组为单位,通过学习、交流,探究和实践,填写下表。采集商品销售数据程序关键代码数据文件和内容(截图)#商品网址url=https:/ l in all_price:soup_price=bs4.BeautifulSoup(str(l),html.parser)price.append(soup_price.strong.string)#生成每一行数据for n in range(len(title):data_sheet.write(n,0,n+1)data_sheet.write(n,1,titlen)#n 表示行,1 表示列 data_sheet.write(n,2,storen)data_sheet.write(n,3,pricen)data_sheet.write(n,4,paynumn:-3)#删除销量的最后三个字符#保存文件wookbook.save(taobao.xls)第五章 数据处理和可视化表达5.2数据的采集观看微课视频“采集上网行为管理系统数据”,以小组为单位,通过查找资料、学习和交流,填写下表。采集方法数据来源采集工具应用范围(举例)系统日志采集法1.信息系统日志数据2.信息系统系统数据系统导出1.导出上网行为管理系统日志2.导出上网行为管理系统客户数据网络数据采集法1.网站存储的数据2.网站公开API(应用程序接口)传输的数据1.爬虫程序2.系统导出3.接口程序1.爬取淘宝网站数据2.从淘宝网店铺后台导出数据3.获取微信企业号公开接口数据其它数据采集法传感器系统接口传感器采集数据传输到数据库管理系统第五章 数据处理和可视化表达5.2数据的采集交流我们采集到的数据,你会保存在哪里?你会怎样保护这些数据?以小组为单位,通过查找资料、学习和交流,填写下表。知识类别知识内容具体做法数据的存储本地内部存储本地电脑数据的保护数据安全保护技术数据加密、数据备份、数据镜像、增加防火墙数据保护的意义第三方存储数据的隐私保护第三方存储服务器、云存储技术手段、提高自身保护意识、对数据使用者进行道德和法律上的约束有利于维护生命财产安全、维护网络环境稳定、减少网络犯罪事件的发生;采集数据时,要尊重知识产权,遵守法律和伦理道德第五章 数据处理和可视化表达5.2数据的采集交流探究活动我们已经从淘宝网采集到了商品销售数据,通过分析这些数据,可以去发现数据的价值与意义。以小组为单位,通过查找资料、学习和交流,填写下表。知识类别知识内容数据分析的作用1.探索数据内在的结构和规律,构建教学模型,并进行可视化表达2.通过验证将模型转化为知识,为预测诊断过去、预测未来发挥作用数据分析的常用方法1.特征探索2.关联分析3.聚类分析4.数据分类第五章 数据处理和可视化表达5.3数据的分析交流1.观看微课视频“创建MySQL数据库”、“数据特征探索程序介绍”;2.体验运行xampp,启动本地web服务和数据库服务;3.体验创建数据库csdn和数据表taob,并导入文件taob.sql中的数据;4.体验创建数据库taobao和数据表taobao,并导入文件taobao.xls中的数据;5.运行“程序5-5-1 数据预处理(教材范例).py”,结果如下图所示,体验数据预处理过程。程序5-5-1 数据预处理过程第五章 数据处理和可视化表达5.3数据的分析体验实践通过修改“程序5-5-1 数据预处理(教材范例).py”代码,对采集到的商品销售数据进行预处理,包括发现和处理缺失值、处理异常数据、求最大值、最小值、极差、组距、绘制直方图,观察数据的分布特征,以小组为单位,通过学习、交流,探究和实践,填写下表。数据预处理程序关键代码可视化图形(截图)#导入数据conn=pymysql.connect(host=“127.0.0.1”,user=“root”,passwd=“”,db=“taobao”)sql=“select*from taobao”data=pda.read_sql(sql,conn)#数据清洗,发现和处理缺失值,如果销量为0的,修改为200 x=0datapaynum(datapaynum=0)=Nonefor i in data.columns:for j in range(len(data):if(datai.isnull()j:#如果为空即插值 dataij=200#空值插入200 x+=1print(x)第五章 数据处理和可视化表达5.3数据的分析#异常值处理、画散点图(横轴:价格,纵轴:评论数)找到异常值data2=data.Tprice=data2.values2comt=data2.values3plt.xlabel(price)#显示X坐标标签plt.ylabel(paynum)#显示Y坐标标签pyl.plot(price,comt,o)pyl.show()#求最值pricemax=da22.max()pricemin=da22.min()paynummax=da23.max()paynummin=da23.min()#极差pricerg=pricemax-priceminpaynumrg=paynummax-paynummin#组距pricedst=pricerg/13paynumdst=paynumrg/13第五章 数据处理和可视化表达5.3数据的分析分析结果#绘制价格直方图#npy.arrange(最小,最大,组距)pricesty=npy.arange(pricemin,pricemax+1,pricedst)plt.xlabel(price)#显示X坐标标签plt.ylabel(number)#显示Y坐标标签pyl.hist(da22,pricesty)pyl.show()#绘制销量数直方图paynumsty=npy.arange(paynummin,paynummax+1,paynumdst)plt.xlabel(paynum)#显示X坐标标签plt.ylabel(number)#显示Y坐标标签pyl.hist(da23,paynumsty)pyl.show()价格在10-30块之间的商品种类最多,此价位的商品竞争最激烈;销量在10以下的商品种类最多,大部分商品销量一般。第五章 数据处理和可视化表达5.3数据的分析1.观看微课视频“聚类分析程序介绍”;2.运行“程序5-6-1 聚类分析(教材范例).py”,结果如下图所示,体验聚类分析。程序5-6-1 聚类分析结果第五章 数据处理和可视化表达5.3数据的分析体验实践1.运行“程序5-6-2 爬取购物平台商品销售数据(价格、销量、评价).py”,爬取淘宝网-实惠热卖-零食类别中第一页商品的数据,数据内容包括每种商品的价格、销量和评论,数据保存在程序同一目录,文件名为data_sample.csv;了解爬虫程序将爬取数据结果保存为*.csv格式文件的代码结构。第五章 数据处理和可视化表达5.3数据的分析文件data_sample.csv中的数据截图实践2.通过修改“程序5-6-1 聚类分析(教材范例).py”代码,对采集到的商品销售数据“data_sample.csv”进行聚类分析,观察数据分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。聚类分析程序关键代码可视化图形(截图)分析结果from sklearn.cluster import KMeans#导入商品样本数据fname=data_sample.csvdataf=pda.read_csv(fname,encoding=gbk)x=dataf.as_matrix()#聚类分析kms=KMeans(n_clusters=3)y=kms.fit_predict(x)print(y)程序按照提供的数据样本,自动将商品分成了三类。第五章 数据处理和可视化表达5.3数据的分析探究活动如下表所示是某网络商城客户购物行为特征的一组统计资料。已知某客户购物行为特征A的数值为182.8,特征B为数值58.9,特征C为数值26,请问这是是重要客户还是普通客户?问题客户特征A特征B特征C重要客户182.881.630重要客户180.486.129重要客户170.077.130重要客户180.474.828普通客户152.445.324普通客户167.668.026普通客户165.258.925普通客户175.268.027第五章 数据处理和可视化表达5.3数据的分析1.观看微课视频“数据分类程序介绍”;2.运行“程序5-7-1 数据分类(教材范例).py”,结果如下图所示,体验数据分类。程序运行结果为0,表示这人是普通客户程序5-7-1 数据分析结果第五章 数据处理和可视化表达5.3数据的分析体验实践从聚类分析中采集的商品销售数据(data_sample.csv)中抽取部分数据作为样本,构建重要商品和一般商品的分类模型(model.csv);通过修改或优化“程序5-7-1 数据分类(教材范例).py”代码,对特征值A为128.8,特征值B为158,特征值C为4.7的商品进行分类,观察该商品分类结果,以小组为单位,通过学习、交流,探究和实践,填写下表。数据分类程序关键代码(修改范例程序、优化范例程序)商品分类结果(截图)分析结果特征值分别为128.8,158,4.9的商品为重要商品,受客户欢迎,评价高,需要重点关注。from sklearn.naive_bayes import GaussianNB#构建分类模型fname=“model.csv”dataf=pda.read_csv(fname,encoding=“gbk”)data=dataf.as_matrix()X=Y=for values in data:X.append(values1:4)#获取第2-4列的特征值 Y.append(values0)#获取第1列的分类值clf=GaussianNB().fit(X,Y)#对未分类数据分类print(clf.predict(128.8,158,4.7)import numpy as npfrom sklearn.naive_bayes import GaussianNBX=np.array(105.9,230,4.9,65.1,710,4.8,15,276,4.8,238,79,4.8,29.9,735,4.7,12.8,222,4.3,18,62,4.6,89,247,4.5,162,585,4.5,29,278,4.2)Y=np.array(重要商品,重要商品,重要商品,重要商品,重要商品,一般商品,一般商品,一般商品,一般商品,一般商品)clf=GaussianNB().fit(X,Y)print(clf.predict(128.8,158,4.7)第五章 数据处理和可视化表达5.3数据的分析探究活动假设购买商品A的有100人,购买商品B的有80人,购买商品C的有50人,同时购买商品A和商品B的有70人,同时购买商品A和商品C的有5人,那么购买商品A的人往往就会购买商品B,由此可以找出这些数据相互之间的关系。下表所示是某网络商城销售订单统计资料,那么这些商品之间有什么关联性?问题订单商品1商品2商品3商品4订单1ace订单2bd订单3bc订单4abcd订单5ab订单6bc订单7ab订单8abce订单9abc订单10ace第五章 数据处理和可视化表达5.3数据的分析1.观看微课视频“关联分析程序介绍”;2.运行“程序5-8-1 关联分析(教材范例).py”,结果如下图所示,体验关联分析。程序5-8-1 关联分析结果第五章 数据处理和可视化表达5.3数据的分析体验实践1.采用系统导出数据、手工记录数据等方法从淘宝店铺后台采集一份店铺销售订单数据(sale_orders.xls,每个订单需包括卖出商品的名称)。第五章 数据处理和可视化表达5.3数据的分析文件sale_orders.xls中的数据截图实践2.通过修改“程序5-8-1 关联分析(教材范例).py”代码,对采集到的店铺销售订单数据(sale_orders.xls)进行关联分析,寻找商品之间的关联性,观察关联分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。关联分析程序关键代码关联分析结果(截图)分析结果商品b和a,商品d和a,商品c和a的支持度和置信度非常高,客户经常一起购买,可以对它们进行捆绑销售。data=pd.read_excel(sale_orders.xls,header=None)print(un转换原始数据至0-1矩阵.)ct=lambda x:pd.Series(1,index=xpd.notnull(x)#转换0-1矩阵的过渡函数b=map(ct,data.as_matrix()#用map方式执行data=pd.DataFrame(list(b).fillna(0)#实现矩阵转换,空值用0填充print(un转换完毕。)del b#删除中间变量b,节省内存support=0.4#最小支持度confidence=0.5#最小置信度ms=-#连接符,默认-,用来区分不同元素,如A-B。需要保证原始表格中不含有该字符find_rule(data,support,confidence,ms).to_excel(关联分析结果.xls)#保存结果第五章 数据处理和可视化表达5.3数据的分析体验1.观看微课视频“词云图程序介绍”;2.运行“程序5-9-1 词云图(教材范例).py”,体验词云图可视化呈现分析结果。程序5-9-1 词云图第五章 数据处理和可视化表达5.4数据的可视化表达实践通过修改“程序5-9-1 词云图(教材范例).py”代码,从淘宝网-实惠热卖-零食类别中爬取前十页的商品名称数据,以词云图的方式可视化呈现分析结果,以小组为单位,通过学习、交流,探究和实践,填写下表。商品名称词云图程序关键代码词云图可视化呈现结果(截图)分析结果商品名称中出现爱幼、水果、宝宝、婴幼儿、零食、频次较高。#网址url=https:/ all_title=soup.find_all(span,class_=“title”)for j in all_title:soup_title=bs4.BeautifulSoup(str(j),“html.parser”,)title.append(soup_title.span.string)#循环取出商品标题,分词后放入到new_text列表中for i in title:words=jieba.lcut(i)new_text=.join(words)第五章 数据处理和可视化表达5.4数据的可视化表达1.运行“程序5-10-1 直方图(教材范例).py”,体验可视化工具Seaborn呈现直方图;2.运行“程序5-10-2 Bokeh示例(教材范例).py”,体验可视化工具Bokeh呈现正弦图。程序5-10-1 直方图程序5-10-2 Bokeh示例第五章 数据处理和可视化表达5.4数据的可视化表达体验实践在python中,可视化数据分析类型及对应的可视化呈现方式有哪些?数据可视化表达的工具有哪些?总结项目活动中采用过的数据可视化表达的方式和工具,以小组为单位,通过学习、交流,探究和实践,填写下表。数据分析类型可视化呈现类型可视化工具示例关键代码呈现效果逻辑关系正弦图pyplotimport numpy as np#引入numpy库模块,用np替代import matplotlib.pyplot as plt#引入matplotlib库模块中的pyplot方法,用plt替代from pylab import*#引入pylab库模块中的所有方法x=np.arange(-5.0,5.0,0.5)#定义x轴数值为-5到5,步长为0.02y=np.sin(x)#利用正弦函数计算出x轴数值对应的y轴数值plt.plot(x,y)#利用x,y轴对应的数值绘制出图形plt.show()#显示出绘制的图形逻辑关系散点图pyplot#异常值处理、找到异常值、画散点图(横轴:价格,纵轴:评论数)data2=data.Tprice=data2.values2comt=data2.values3plt.xlabel(price)#显示X坐标标签plt.ylabel(comt)#显示Y坐标标签pyl.plot(price,comt,o)pyl.show()第五章 数据处理和可视化表达5.4数据的可视化表达数据分析类型可视化呈现类型可视化工具示例关键代码呈现效果逻辑关系直方图Pyplot逻辑关系聚类图Pyplot#绘制价格直方图#npy.arrange(最小,最大,组距)pricesty=npy.arange(pricemin,pricemax,pricedst)plt.xlabel(price)#显示X坐标标签plt.ylabel(number)#显示Y坐标标签pyl.hist(da22,pricesty)pyl.show()#年龄-消费金额图,消费时间-消费金额图,年龄-消费时间图for i in range(0,len(y):if(yi=0):print(str(i)+0)pyl.subplot(2,3,1)#年龄-消费金额图 pyl.plot(dataf.iloci:i+1,0:1.as_matrix(),dataf.iloci:i+1,1:2.as_matrix(),*r)pyl.subplot(2,3,2)#消费时间-消费金额图 pyl.plot(dataf.iloci:i+1,2:3.as_matrix(),dataf.iloci:i+1,1:2.as_matrix(),*r)pyl.subplot(2,3,3)#年龄-消费时间图 pyl.plot(dataf.iloci:i+1,0:1.as_matrix(),dataf.iloci:i+1,2:3.as_matrix(),*r)第五章 数据处理和可视化表达5.4数据的可视化表达数据分析类型可视化呈现类型可视化工具示例关键代码呈现效果逻辑关系直方图Seaborn逻辑关系正弦图Bokehimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltsns.set(palette=muted,color_codes=True)rs=np.random.RandomState(10)d=rs.normal(size=100)f,axes=plt.subplots(2,2,figsize=(7,7),sharex=True)sns.distplot(d,kde=False,color=b,ax=axes0,0)sns.distplot(d,hist=False,rug=True,color=r,ax=axes0,1)sns.distplot(d,hist=False,color=g,kde_kws=shade:True,ax=axes1,0)sns.distplot(d,color=m,ax=axes1,1)plt.show()import numpy as npfrom bokeh.layouts import gridplotfrom bokeh.plotting import figure,output_file,showN=100 x=np.linspace(0,4*np.pi,N)y0=np.sin(x)output_file(sinewave.html)sine=figure(width=500,plot_height=500,title=Sine)sine.circle(x,y0,size=10,color=navy,alpha=0.5)p=gridplot(sine,toolbar_location=None)show(p)第五章 数据处理和可视化表达5.4数据的可视化表达项目实施在探究活动的基础上,运用数字化学习工具,根据本章项目学习活动记录表,形成可视化学习报告(可以使用演示文稿、在线文档等工具)。第五章 数据处理和可视化表达项目实施查看项目学习活动记录表,小组代表分享成果。n1.数据采集的方法与工具n2.数据分析的方法n3.数据可视化表达的方式与工具n4.形成的可视化报告第五章 数据处理和可视化表达成果交流成果交流“综合得分”:“学生互评”占30+“学生自评”占30 +“教师评价”占40第五章 数据处理和可视化表达活动评价活动评价项目及分值项目及分值评分标准与分值评分标准与分值得分得分自评自评互评互评作品选题20准确把握项目学习的意义和目的。5 选题切合实际、符合科学。5 选题有应用价值、创新价值。5 选题适宜解决、可行性高。5 规划与分析15准确分析设计的目的。5 准确分析方案的需求。5 准确描述方案的功能。5 工具与方法10合理使用数字化工具及资源。5 围绕项目进行自主、协作学习。5 步骤与过程40明确问题,了解利用Python程序语言和第三方库解决问题。10 利用爬虫程序爬取网络数据10 利用Python程序进行数据分析(包括特征探索、关联分析、聚类分析、数据分类)10 利用Python程序进行数据可视化表达10 成果与报告15根据目的,设计出切实可行的方案。5 正确评估数据分析和可视化表达的科学性、有效性及其所带来的价值,能综合运用Python程序解决问题。5 报告内容完整,结构清晰,排版美观。5 合计得分100 第五章 数据处理和可视化表达第五章 数据处理和可视化表达教学设计教学设计一、项目简介一、项目简介项目主题项目主题网络购物平台商品销售数据分析和可视化表达项目背景项目背景目前我国网购商品规模不断扩大,由此产生大量的网购商品数据,这些数据中,存在一些规律。通过对这些数据的采集、分析,就可以找到数据之间的内在联系。在商业活动中,这些数据可以为商业决策提供数据支持,由此产生更大的经济效益,所以网络购物平台的商品销售数据是一个巨大的商业宝藏。对应教材对应教材广东教育出版社普通高中教科书信息技术必修 1数据与计算第五章课时安排课时安排7 课时二、课程标准及目标分析二、课程标准及目标分析(一)课程标准及教材分析(一)课程标准及教材分析1.本章对应课标的内容要求本章对应课标的内容要求通过典型的应用实例,了解数据采集、分析和可视化表达的基本方法。根据任务需求,选用恰当的软件工具或平台处理数据,完成分析报告,理解对数据进行保护的意义。2.本章对应的学业要求本章对应的学业要求A-1:能够描述数据与信息的特征。(信息意识)A-3:能够根据需要选用合适的数字化工具开展学习。(数字化学习与创新)A-4:了解数据采集、分析和可视化表达的基本方法。(计算思维)A-5:能够利用软件工具或平台对数据进行整理、组织、计算与呈现,并能通过技术方法对数据进行保护。(计算思维、信息社会责任)A-6:在数据分析的基础上,完成分析报告。(计算思维)3.本章的地位和作用本章的地位和作用本章是本教科书的第五章,将带领学生学习“数据处理和可视化表达”的教学内容,也是学习选择性必修模块数据管理与分析和人工智能初步的基础知识与技能准备。本章以培养信息素养为目标,以知识技能为载体,以项目学习活动为途径,开展自主、协作、探究学习,让学生了解数据采集、分析和可视化表达的基本方法。本章以“网络购物平台客户行为数据分析和可视化表达”为项目范例,通过“网络购物平台商品销售数据分析和可视化表达”项目,让学生理解随着社会数据量和个人数据量的增大,选用恰当的软件工具或平台处理数据、发现信息,已逐步成为人们解决问题的一种重要方式;并通过对数据和大数据进行采集、存储、处理,以及从中发掘有价值的信息等过程,让学生全面了解数据与计算的重要意义,从而提升学生的信息素养。(二)本章对应达成的学科核心素养(二)本章对应达成的学科核心素养(1)针对特定的信息问题,自觉、主动比较不同的信息源,能描述数据与信息的关系,确定合适的信息获取策略。(信息意识 1)(2)依据特定任务需求,甄别不同信息获取方法的优劣,并能利用适当途径甄别信息。(信息意识 1)(3)在日常生活中,根据实际解决问题的需要,恰当选择数字化工具,具备信息安全意识。(信息意识 1)(4)主动关注信息技术工具发展中的新动向和新趋势,有意识地使用新技术处理信息。(信息意识 1)(5)针对给定的任务进行需求分析,明确需要解决的关键问题。(计算思维 1)(6)按照问题解决方案,选用适当的数字化工具或方法获取组织分析数据,并能迁移到其他相关问题的解决过程中。(计算思维 1)(7)在学习过程中能够评估常用的数字化工具资源,根据需要合理选择。(数字化学习与创新 1)(8)在信息活动中,具有信息安全意识,尊重和保护个人及他人的隐私(信息社会责任 1)(9)采用简单的技术手段,保护数据、信息以及信息设备的安全。(信息社会责任 1)(三)目标分析(三)目标分析1.项目目标项目目标本章以“网络购物平台客户行为数据分析和可视化表达”为项目范例,通过“网络购物平台商品销售数据分析和可视化表达”项目,组织学生进行自主、协作、探究学习,让学生认识大数据及其特征、理解数据对日常生活的影响,了解数据采集的基本方法及其对数据保护的意义,能够在一大批杂乱无章的数据中,运用数字化的工具
展开阅读全文