机器学习与大数据技术第七章机器学习、大数据技术和图像处理技术在农业中的应用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习与大数据技术第七章机器学习、大数据技术和图像处理技术在农业中的应用课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 数据 技术 第七 图像 处理 农业 中的 应用 课件
- 资源描述:
-
1、机器学习与大数据技术第七章p随机森林在棉蚜等级预测中的应用p基于邻域核函数的局部支持向量机在树木图像分类中的应用p局部支持向量回归在小麦蚜虫预测中的应用机器学习、大数据技术和图像处理技术在农业中的应用p基于Spark的支持向量机在小麦病害图像识别中的应用pHadoop平台下基于粒子群的局部支持向量机p 深度学习在小麦蚜虫短期预测中的应用创新与贡献研究意义选题背景第七章7.1简介 机器学习、大数据以及图像处理技术的迅速发展,为其在农业中的应用提供了强有力的支撑。如:为了提高农业生产效率,2017年9月美国的卡耐基梅隆大学机器人科学家提出了FarmView计划,就是设计和实现集人工智能、物联网技术
2、、计算机视觉和大数据技术于一体的农业智能机器人。传统的病虫害预测预报方法有统计法、实验法和观察法。本章主要结合我们的科研工作,介绍机器学习、大数据技术和图像处理技术在农业病虫害预测预报等方面的应用。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用棉花是我国的重要经济作物,在山东省滨州地区种植比较广泛。棉蚜是造成棉花减产的主要害虫之一,由于棉蚜虫害的特点是发生时间长、繁殖速度快、危害严重、难防治,因此制约了滨州地区棉花的高产和优产。影响棉蚜发生的条件中气象条件和天敌数量均会对棉蚜的发生产生直接影响。本节主要介绍随机森林在棉蚜等级预测中的应用。随机森林算法(Random For
3、est,RF)由加利福尼亚大学的Leo Breiman提出的一种由多棵决策树构成的集成分类算法。7.2.1 随机森林原理 创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用 Bagging算法是1996年由Breiman首次提出。Bagging算法在训练过程中抽取部分数据样本进行训练,从而提高了随机森林的训练速度,在规模大的数据集里体现明显。抽样时采取有放回的抽样方法,这样使得一些出现概率低的样本被选取的概率也会降低,减少了样本中噪点的影响。Bagging算法的分类过程:分类的过程类似于简单多数投票法,是从基分类器集合中各分类器的分类结果中选取分类器投票数最多的分类结果的过程
4、。具体的过称为:首先各分类器对数据集的测试样本进行分类,并把每个分类器的分类结果记录下来,然后对分类器的选取结果进行统计,得票数最多的分类结果就是最终模型的分类结果。Bagging算法的原理如图7-1所示。图7-1 Bagging算法原理图创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机子空间算法随机抽取特征集的部分进行训练,提高了高维数据集的训练过程。该算法的工作原理如下:(1)采用无放回的抽样方法在特征集中随机抽取一部分特征形成特征子集。(2)对特征子集的数据进行训练,形成基分类器。(3)重复上述步骤1和步骤2,直到生成n个分类器。(4)把生成的每个分类器对需要分类
5、的测试样本进行分类,并且对分类器分类的结果进行统计,最终分类器投票数最多的分类结果就是最终的分类结果。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机森林算法以决策树为基分类树,引入了上述两个随机化的过程,结合了Bagging算法和随机子空间算法的优点,从而使得每棵分类树具有不同的分类能力。采用Bagging算法的有放回抽样对训练集进行抽样,并结合随机子空间的算法,使得训练集中只抽取部分特征进行训练。当输入待分类样本时,随机森林输出的结果由每棵决策树的分类结果投票决定。随机森林是一个树型分类器 的集合。作为算法中的元分类器是由CART算法组成但没有剪枝的分类回归树。作为
6、独立分布的随机向量,决定了每棵决策树的生长;参数X作为分类器的输入向量。,_ ,1,2,.,h xkkn7.2.2 随机森林构建 创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机森林的算法构建的步骤如下。(1)首先假设数据集的样本总数为N,N为每棵决策树采样的样本数。在N个样本中有放回的随机性选择n(nN)个样本,用选取的n个样本训练一棵决策树。(2)假定每个样本有M个属性,在每棵决策树的节点需要分裂时,从M个属性中随机选择m(mM)个属性,然后从已选择的m个属性中依据Gini指标选择最佳属性作为当前节点的分裂属性。(3)每棵决策树的节点分裂过程是遵循步骤(2)进行的,
7、从而使得决策树中的每个节点不纯度达到最小值,直到不能分裂,此过程不对树进行剪枝。(4)根据生成的多个树分类器对新的测试数据 进行测试,分类结果按每个树分类器的投票而决定,即分类公式为 (7-1)创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用公式(7-1)中用majority vote表示多数投票,Ntree表示随机森林树的个数。随机森林的随机性体现在样本的随机选择和属性的随机选择,有了这两个因素,即使每棵树没有进行剪枝也不会出现过拟合。随机森林模型构建中需要设置n和m两个参数。Breiman指出,在模型训练过程中,随机从特征集中抽取特征的个数m对于随机森林的分类性能有较大
8、影响,因此m的选择是模型训练过程当中比较重要的环节。在随机森林的实际应用中,随机森林树的数量n一般取值比较大,m取值为 或 。2int logmM7.2.3 袋外数据OOB和OOB估计创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用在随机森林模型训练过程中每次进行抽样生成自助样本集,全样本集中有一部分的样本数据不会出现在自助样本集中,没有选取的样本个数比例是初始训练样本集的 (其中N是初始训练样本集中的样本个数)。当N足够大时,收敛于1/e0.368。公式结果表明约有37%的样本不会选中,我们称这37%的样本数据为袋外数据(Out Of Bag,OOB)。袋外数据可以用来预
9、测Bagging算法生成的基分类器的分类能力,用袋外数据准确率作为分类器的预测指标。袋外数据准确率对基分类器提供的分类结果准确率的预判有重要的参考作用。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用使用袋外数据对随机森林泛化误差进行估计,也称为OOB估计。进行OOB估计时每棵生成的决策树计算出了OOB误差率,并且需要耗费很少的资源就可以得到随机森林的泛化误差估计。交叉验证也能用来进行估计泛化误差,在进行交叉验证法估计时,由于数据的划分和合并处理导致算法运行过程中进行大量的计算,这样就使得算法的时间复杂度和空间复杂度过高,导致随机森林算法的运行效率变低。和交叉验证相比,OO
10、B估计的效率是很高的。Wolpert等人建议,OOB估计一般作为随机森林泛化误差估计。7.2.4 实验结果与分析创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用本实验将随机森林用于数据分类预测中,几乎不需要输入准备,模型训练速度快,样本选择具有随机性,而且随机森林不易产生过拟合,从而有着更好的效率和准确率。1数据预处理数据的预处理是数据进行分类的前提,有时数据影响因子的冗杂和数据本身的不平衡性会影响最终结果预测的准确性,所以进行实验之前对数据进行预处理,可以提高数据集分类的速度和精确度。不平衡性是指数据中的被解释变量分布不均衡,如果数据集的被解释变量在类别的分布上差别较大,
11、可以认为该数据集是不平衡的。对不平衡数据的进行分类时,机器学习算法可能产生不稳定,导致预测结果可能是有偏差的,而且预测的精度可能变得具有误导性。机器学习算法在不平衡数据集上精度下降的主要原因有以下两点:算法模型的目标是最小化总体的误差,小类对于总体误差的贡献是很低的。算法模型本身假设数据集是分布平衡的,假定不同类别的误差带来相同的损失。从表7-1到表7-3可以看出,总数据集、训练集合测试集是不平衡的。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用类别类别记录数记录数数据所占比数据所占比11980.7982500.202类别类别记录数记录数数据所占比数据所占比11550.7
12、992390.201类别类别记录数记录数数据所占比数据所占比1430.8002110.200表7-1总体数据集的不平衡性结果表7-2训练集不平衡性结果表7-3测试集不平衡性结果创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用由表7-1看出全部实验数据的类别比例约为4:1,由表7-2和表7-3看出测试集和训练集的数据类别比例也是4:1,数据中类别是2的数据量偏少,这会导致模型训练时没法从样本量少的类别中获取足够的信息来进行精确预测。因此本实验进行前选择了对数据进行平衡性修补。本实验选择的是过采样和欠采样相结合的方式对数据进行不平衡性修正。通过表7-1、表7-2和表7-3看出训
13、练集和测试集类别的比例和总体数据集的比例是一样的,所以我们只对总体实验数据集中的类别是2的数据进行了补充,补充之后的数据平衡性结果如表7-4所示。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用类别类别记录数记录数数据所占比数据所占比11000.49321030.507表7-4 修正之后的数据平衡性结果补充之后的数据类别比例约为1:1,属于平衡数据集,这样模型建立时不会因为没有获取到足够的信息导致预测精度的下降,因此补充后的数据集可以用来构建模型。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用2 棉蚜发生的影响因子及筛选(1)棉蚜发生的影响因子棉蚜虫害
14、的发生受多种因素的影响,主要包括以下几种影响因素:1)温度对棉蚜发生的影响温度的适宜是导致棉蚜数量急剧增长的主导因素,棉蚜生长发育的适宜温度是2428,平均气温高于29对棉蚜有抑制作用。2)湿度和降水对棉蚜的影响降水是抑制棉蚜种群数量增长的重要因素。降水不仅对棉蚜有冲刷作用,另一方面能增加田间湿度,导致蚜茧蜂寄生蚜量会增多,抑制蚜的增长。3)天敌对棉蚜发生的影响天敌也是造成棉蚜种群数量减少的主要因素,棉蚜的天敌包括:瓢虫、蜘蛛、食蚜蝇、草蛉、蚜茧蜂等,棉蚜的主要天敌是瓢虫,对棉蚜的数量增长起抑制作用,与棉蚜的增长相关性比较大。4)施氮量对于棉蚜的影响Cisneros 等研究表明,棉蚜的发生与施
15、氮量呈正相关,即氮肥水平高的农田,蚜虫发生趋于严重。但也有研究表明,蚜虫的发生与施氮肥水平二者呈不相关或负相关。5)二氧化碳浓度对于棉蚜发生的影响大气CO2 浓度对于棉蚜的生长发育和繁殖都有影响,CO2 浓度升高显著影响棉蚜的相对生长率。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用(2)影响因子的筛选由于各种因素的限制,前期采集到的数据中只包括了气象数据和棉蚜天敌数据。在滨州市采集的气象数据中包括了15个影响因子数据:20-20时降水量(X1),极大风速(X2),平均本站气压(X3),平均风速(X4),平均气温(X5),平均水汽压(X6),平均相对湿度(X7),日照时数
16、(X8),日最低本站气压(X9),日最低气温(X10),日最高本站气压(X11),日最高气温(X12),最大风速(X13),最小相对湿度(X14),天敌数据(X15)。为了减少因子中变量的冗余性,提高变量的独立性,所以需要对这15个影响因子数据进行皮尔逊相关性分析,计算影响因子和棉蚜等级之间的相关系数。用R软件计算得到的相关系数如表7-5所示。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用XX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15相关系相关系数数0.050.12-0.22-0.0190.300.340.13-0.09-0.190.30-0.
17、220.23-0.00190.190.19表7-5相关系数XX1X2X3X5X6X7X9X10X11X12X14 X15相关系数相关系数0.050.12-0.220.300.340.13-0.190.30-0.220.230.190.19表7-6筛选后相关系数创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用 从表7-5的相关系数得出,影响因子中的20-20时的降水量、日照时数、平均风速、最大风速这4个气象因子的相关系数偏小,说明这四个气象因子对于等级的分类预测影响较小。另外因为棉蚜的增长受相对湿度影响较大,降雨量的多少会影响相对湿度的大小,所以对20-20时降水量因子进行了
18、保留。目前在棉蚜发生程度预测的论文中只考虑了气象因子的影响,从表7-5中看到X15的相关系数是比较大的,说明天敌和棉蚜的发生相关性比较大,所以影响因子数据中最终保留了前期加的棉蚜天敌数据。筛选后的相关系数表如表7-6,表中的一条记录表示5到9月份采集到的一天的数据。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用 3 评价指标虫害发生统计方法我国对于虫害发生预测预报的方法可以分为以下几种类型。虫害发生量预测:可以提前预测虫害的发生量或者虫害的密度,通过预测得到的发生量大小给农作物提供防治的方法。虫害发生期预测:在虫害常见的发生期中主要分为始见期、始省期、高峰期、省末期和终见
19、期。我们可以通过预测虫害的发生时期确定虫害的防治方法,以便确定防治时期适当。虫害发生程度预测:虫害发生的分级标准主要分为轻发生、偏轻发生、中等发生、偏重发生、大发生、特大发生6个等级。通过预测虫害的发生等级及时明确农作物受虫害危害情况,以便制定防止策略。虫害分布预测:预测虫害发生的面积和区域范围,主要是针对一些迁飞性害虫的扩散方向和范围进行预测预报。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用主要是从虫害的发生程度进行的预测分析,具体应用在棉蚜虫害发生程度预测当中。按照2010中国农业出版社出版的主要农作物病虫害测报技术规范应用手册对棉蚜的发生程度分级标准进行划分等级。
20、棉蚜发生程度分级标准如表7-7所示。级别级别12345轻发生偏轻发生中等发生偏重发生大发生百株蚜量百株蚜量(头)(头)50000表7-7棉蚜发生程度分级标准创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用(2)预测评判标准为了对模型的泛化能力和预测能力进行评判,采用OOB估计和模型的预测准确率作为模型的预测评判标准。使用袋外数据对随机森林泛化误差进行估计,进行OOB估计时每棵生成的决策树计算出了OOB误差率,OOB误差率在利用训练集进行模型训练时自动计算数值,OOB误差率的大小体现模型泛化能力的好坏。模型预测准确率体现模型预测性能的优劣。创新与贡献研究意义选题背景第七章7.
21、2随机森林在棉蚜等级预测中的应用4实验结果与分析(1)基于随机森林的棉蚜等级预测本实验的编程语言是R语言,在RStudio环境下运行,加载RandonForest包,将数据导入进行实验。随机森林算法的优点是在运算量没有显著提高的前提下提高了分类预测精度,并且对于多元共线性不敏感,对缺失数据的分类预测表现比较稳健,而且模型训练速度快,样本选择具有随机性不易产生过拟合。本实验将随机森林算法用于棉蚜虫害等级的短期预测中,提高了棉蚜预测的效率和准确率,及时的为农业生产者提供准确的预警信息,提前采取防治措施,从而降低棉蚜对棉花的危害。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用基
22、于随机森林的棉蚜短期预测模型如下:有放回的进行随机抽样。随机森林对训练集中的样本有放回的随机选择,选择的样本数小于训练集总的样本数。设置模型参数。随机森林预测模型中树的个数n取100,n的数量选取依据如图2所示,通过计算得出节点m为4。模型训练。通过训练集中选取的样本对模型进行训练,得到模型的OOB和模型内分类的误差率。预测。使用构建的随机森林预测模型对测试集进行分类预测,结合表7-7得到棉蚜的发生程度。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机森林预测模型的构建流程图如下图7-2所示。图7-2随机森林预测模型创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等
23、级预测中的应用 (2)实验结果分析 实验采用的数据是滨州市植保站。表7-8训练集分类结果类别类别12分类误差率分类误差率1143159.5%231551.9%从表7-8可以看出,实验分类结果中等级1的分类错误率为9.5%,等级2的分类错误率为1.9%,表明模型分类结果中每一类的分类错误率都比较小,棉蚜虫害等级判别的准确率比较高。测试样本的分类准确率为82.2%,测试集实验分类结果如表7-9所示。随机森林模型内含有判别函数,输入采集到的样本数据可以判别棉蚜的等级,部分样本数据的棉蚜等级预测结果如表7-10所示,Y1代表的是随机森林模型预测的等级结果,Y2代表的是棉蚜实际等级。结合表7-10可以得
24、到棉蚜的发生程度,从而提前对棉区采取相应的防治措施,减少棉蚜给棉花带来的危害。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用类别类别121364241表7-9测试集分类结果序号序号X1X2X3X5X6X7X9X10X11X12X14X15Y1Y21032766100772271625810058171100912734601123270071100832262288410074192100922705810223096100253073457910010262100383445512224710010053191133631002015810074251285115327
25、0063100232902346110011243100343393237226032766100153023578499922421004035261721703276610079227249911006519710086275701211表7-10棉蚜预测等级实验将随机森林算法用于棉蚜等级的短期预测中,实验结果表明模型泛化性好,误分类率低。随机森林为棉蚜虫害等级预测提供了一种新的方法。创新与贡献研究意义选题背景第七章7.3 基于邻域核函数的局部支持向量机在树木图像分类中的应用 支持向量机在解决小样本、高维模式分类等问题时,具有全局优化、泛化能力强的特点。但其不能够有效地利用样本局部信息且在
展开阅读全文