机器学习与大数据技术第七章机器学习、大数据技术和图像处理技术在农业中的应用课件.pptx

上传人（卖家）：三亚风情

文档编号：3318143

上传时间：2022-08-19

格式：PPTX

页数：112

大小：1.30MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

29 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《机器学习与大数据技术第七章机器学习、大数据技术和图像处理技术在农业中的应用课件.pptx》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 机器学习数据技术第七图像处理农业中的应用课件

资源描述：: 1、机器学习与大数据技术第七章p随机森林在棉蚜等级预测中的应用p基于邻域核函数的局部支持向量机在树木图像分类中的应用p局部支持向量回归在小麦蚜虫预测中的应用机器学习、大数据技术和图像处理技术在农业中的应用p基于Spark的支持向量机在小麦病害图像识别中的应用pHadoop平台下基于粒子群的局部支持向量机p 深度学习在小麦蚜虫短期预测中的应用创新与贡献研究意义选题背景第七章7.1简介机器学习、大数据以及图像处理技术的迅速发展，为其在农业中的应用提供了强有力的支撑。如：为了提高农业生产效率，2017年9月美国的卡耐基梅隆大学机器人科学家提出了FarmView计划，就是设计和实现集人工智能、物联网技术
2、、计算机视觉和大数据技术于一体的农业智能机器人。传统的病虫害预测预报方法有统计法、实验法和观察法。本章主要结合我们的科研工作，介绍机器学习、大数据技术和图像处理技术在农业病虫害预测预报等方面的应用。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用棉花是我国的重要经济作物，在山东省滨州地区种植比较广泛。棉蚜是造成棉花减产的主要害虫之一，由于棉蚜虫害的特点是发生时间长、繁殖速度快、危害严重、难防治，因此制约了滨州地区棉花的高产和优产。影响棉蚜发生的条件中气象条件和天敌数量均会对棉蚜的发生产生直接影响。本节主要介绍随机森林在棉蚜等级预测中的应用。随机森林算法（Random For
3、est，RF）由加利福尼亚大学的Leo Breiman提出的一种由多棵决策树构成的集成分类算法。7.2.1 随机森林原理创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用 Bagging算法是1996年由Breiman首次提出。Bagging算法在训练过程中抽取部分数据样本进行训练，从而提高了随机森林的训练速度，在规模大的数据集里体现明显。抽样时采取有放回的抽样方法，这样使得一些出现概率低的样本被选取的概率也会降低，减少了样本中噪点的影响。Bagging算法的分类过程：分类的过程类似于简单多数投票法，是从基分类器集合中各分类器的分类结果中选取分类器投票数最多的分类结果的过程
4、。具体的过称为：首先各分类器对数据集的测试样本进行分类，并把每个分类器的分类结果记录下来，然后对分类器的选取结果进行统计，得票数最多的分类结果就是最终模型的分类结果。Bagging算法的原理如图7-1所示。图7-1 Bagging算法原理图创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机子空间算法随机抽取特征集的部分进行训练，提高了高维数据集的训练过程。该算法的工作原理如下：（1）采用无放回的抽样方法在特征集中随机抽取一部分特征形成特征子集。（2）对特征子集的数据进行训练，形成基分类器。（3）重复上述步骤1和步骤2，直到生成n个分类器。（4）把生成的每个分类器对需要分类
5、的测试样本进行分类，并且对分类器分类的结果进行统计，最终分类器投票数最多的分类结果就是最终的分类结果。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机森林算法以决策树为基分类树，引入了上述两个随机化的过程，结合了Bagging算法和随机子空间算法的优点，从而使得每棵分类树具有不同的分类能力。采用Bagging算法的有放回抽样对训练集进行抽样，并结合随机子空间的算法，使得训练集中只抽取部分特征进行训练。当输入待分类样本时，随机森林输出的结果由每棵决策树的分类结果投票决定。随机森林是一个树型分类器的集合。作为算法中的元分类器是由CART算法组成但没有剪枝的分类回归树。作为
6、独立分布的随机向量，决定了每棵决策树的生长；参数X作为分类器的输入向量。,_ ,1,2,.,h xkkn7.2.2 随机森林构建创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机森林的算法构建的步骤如下。（1）首先假设数据集的样本总数为N，N为每棵决策树采样的样本数。在N个样本中有放回的随机性选择n（nN）个样本，用选取的n个样本训练一棵决策树。（2）假定每个样本有M个属性，在每棵决策树的节点需要分裂时，从M个属性中随机选择m（mM）个属性，然后从已选择的m个属性中依据Gini指标选择最佳属性作为当前节点的分裂属性。（3）每棵决策树的节点分裂过程是遵循步骤（2）进行的，
7、从而使得决策树中的每个节点不纯度达到最小值，直到不能分裂，此过程不对树进行剪枝。（4）根据生成的多个树分类器对新的测试数据进行测试，分类结果按每个树分类器的投票而决定，即分类公式为（7-1）创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用公式（7-1）中用majority vote表示多数投票，Ntree表示随机森林树的个数。随机森林的随机性体现在样本的随机选择和属性的随机选择，有了这两个因素，即使每棵树没有进行剪枝也不会出现过拟合。随机森林模型构建中需要设置n和m两个参数。Breiman指出，在模型训练过程中，随机从特征集中抽取特征的个数m对于随机森林的分类性能有较大
8、影响，因此m的选择是模型训练过程当中比较重要的环节。在随机森林的实际应用中，随机森林树的数量n一般取值比较大，m取值为或。2int logmM7.2.3 袋外数据OOB和OOB估计创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用在随机森林模型训练过程中每次进行抽样生成自助样本集，全样本集中有一部分的样本数据不会出现在自助样本集中，没有选取的样本个数比例是初始训练样本集的（其中N是初始训练样本集中的样本个数）。当N足够大时，收敛于1/e0.368。公式结果表明约有37%的样本不会选中，我们称这37%的样本数据为袋外数据（Out Of Bag，OOB）。袋外数据可以用来预
9、测Bagging算法生成的基分类器的分类能力，用袋外数据准确率作为分类器的预测指标。袋外数据准确率对基分类器提供的分类结果准确率的预判有重要的参考作用。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用使用袋外数据对随机森林泛化误差进行估计，也称为OOB估计。进行OOB估计时每棵生成的决策树计算出了OOB误差率，并且需要耗费很少的资源就可以得到随机森林的泛化误差估计。交叉验证也能用来进行估计泛化误差，在进行交叉验证法估计时，由于数据的划分和合并处理导致算法运行过程中进行大量的计算，这样就使得算法的时间复杂度和空间复杂度过高，导致随机森林算法的运行效率变低。和交叉验证相比，OO
10、B估计的效率是很高的。Wolpert等人建议，OOB估计一般作为随机森林泛化误差估计。7.2.4 实验结果与分析创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用本实验将随机森林用于数据分类预测中，几乎不需要输入准备，模型训练速度快，样本选择具有随机性，而且随机森林不易产生过拟合，从而有着更好的效率和准确率。1数据预处理数据的预处理是数据进行分类的前提，有时数据影响因子的冗杂和数据本身的不平衡性会影响最终结果预测的准确性，所以进行实验之前对数据进行预处理，可以提高数据集分类的速度和精确度。不平衡性是指数据中的被解释变量分布不均衡，如果数据集的被解释变量在类别的分布上差别较大，
11、可以认为该数据集是不平衡的。对不平衡数据的进行分类时，机器学习算法可能产生不稳定，导致预测结果可能是有偏差的，而且预测的精度可能变得具有误导性。机器学习算法在不平衡数据集上精度下降的主要原因有以下两点：算法模型的目标是最小化总体的误差，小类对于总体误差的贡献是很低的。算法模型本身假设数据集是分布平衡的，假定不同类别的误差带来相同的损失。从表7-1到表7-3可以看出，总数据集、训练集合测试集是不平衡的。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用类别类别记录数记录数数据所占比数据所占比11980.7982500.202类别类别记录数记录数数据所占比数据所占比11550.7
12、992390.201类别类别记录数记录数数据所占比数据所占比1430.8002110.200表7-1总体数据集的不平衡性结果表7-2训练集不平衡性结果表7-3测试集不平衡性结果创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用由表7-1看出全部实验数据的类别比例约为4:1，由表7-2和表7-3看出测试集和训练集的数据类别比例也是4:1，数据中类别是2的数据量偏少，这会导致模型训练时没法从样本量少的类别中获取足够的信息来进行精确预测。因此本实验进行前选择了对数据进行平衡性修补。本实验选择的是过采样和欠采样相结合的方式对数据进行不平衡性修正。通过表7-1、表7-2和表7-3看出训
13、练集和测试集类别的比例和总体数据集的比例是一样的，所以我们只对总体实验数据集中的类别是2的数据进行了补充，补充之后的数据平衡性结果如表7-4所示。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用类别类别记录数记录数数据所占比数据所占比11000.49321030.507表7-4 修正之后的数据平衡性结果补充之后的数据类别比例约为1:1，属于平衡数据集，这样模型建立时不会因为没有获取到足够的信息导致预测精度的下降，因此补充后的数据集可以用来构建模型。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用2 棉蚜发生的影响因子及筛选(1)棉蚜发生的影响因子棉蚜虫害
14、的发生受多种因素的影响，主要包括以下几种影响因素：1）温度对棉蚜发生的影响温度的适宜是导致棉蚜数量急剧增长的主导因素，棉蚜生长发育的适宜温度是2428，平均气温高于29对棉蚜有抑制作用。2）湿度和降水对棉蚜的影响降水是抑制棉蚜种群数量增长的重要因素。降水不仅对棉蚜有冲刷作用，另一方面能增加田间湿度，导致蚜茧蜂寄生蚜量会增多，抑制蚜的增长。3）天敌对棉蚜发生的影响天敌也是造成棉蚜种群数量减少的主要因素，棉蚜的天敌包括：瓢虫、蜘蛛、食蚜蝇、草蛉、蚜茧蜂等，棉蚜的主要天敌是瓢虫，对棉蚜的数量增长起抑制作用，与棉蚜的增长相关性比较大。4）施氮量对于棉蚜的影响Cisneros 等研究表明，棉蚜的发生与施
15、氮量呈正相关，即氮肥水平高的农田，蚜虫发生趋于严重。但也有研究表明，蚜虫的发生与施氮肥水平二者呈不相关或负相关。5）二氧化碳浓度对于棉蚜发生的影响大气CO2 浓度对于棉蚜的生长发育和繁殖都有影响，CO2 浓度升高显著影响棉蚜的相对生长率。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用(2)影响因子的筛选由于各种因素的限制，前期采集到的数据中只包括了气象数据和棉蚜天敌数据。在滨州市采集的气象数据中包括了15个影响因子数据：20-20时降水量（X1），极大风速（X2），平均本站气压（X3），平均风速（X4），平均气温（X5），平均水汽压（X6），平均相对湿度（X7），日照时数
16、（X8），日最低本站气压（X9），日最低气温（X10），日最高本站气压（X11），日最高气温（X12），最大风速（X13），最小相对湿度（X14），天敌数据（X15）。为了减少因子中变量的冗余性，提高变量的独立性，所以需要对这15个影响因子数据进行皮尔逊相关性分析，计算影响因子和棉蚜等级之间的相关系数。用R软件计算得到的相关系数如表7-5所示。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用XX1X2X3X4X5X6X7X8X9X10X11X12X13X14X15相关系相关系数数0.050.12-0.22-0.0190.300.340.13-0.09-0.190.30-0.
17、220.23-0.00190.190.19表7-5相关系数XX1X2X3X5X6X7X9X10X11X12X14 X15相关系数相关系数0.050.12-0.220.300.340.13-0.190.30-0.220.230.190.19表7-6筛选后相关系数创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用从表7-5的相关系数得出，影响因子中的20-20时的降水量、日照时数、平均风速、最大风速这4个气象因子的相关系数偏小，说明这四个气象因子对于等级的分类预测影响较小。另外因为棉蚜的增长受相对湿度影响较大，降雨量的多少会影响相对湿度的大小，所以对20-20时降水量因子进行了
18、保留。目前在棉蚜发生程度预测的论文中只考虑了气象因子的影响，从表7-5中看到X15的相关系数是比较大的，说明天敌和棉蚜的发生相关性比较大，所以影响因子数据中最终保留了前期加的棉蚜天敌数据。筛选后的相关系数表如表7-6，表中的一条记录表示5到9月份采集到的一天的数据。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用 3 评价指标虫害发生统计方法我国对于虫害发生预测预报的方法可以分为以下几种类型。虫害发生量预测：可以提前预测虫害的发生量或者虫害的密度，通过预测得到的发生量大小给农作物提供防治的方法。虫害发生期预测：在虫害常见的发生期中主要分为始见期、始省期、高峰期、省末期和终见
19、期。我们可以通过预测虫害的发生时期确定虫害的防治方法，以便确定防治时期适当。虫害发生程度预测：虫害发生的分级标准主要分为轻发生、偏轻发生、中等发生、偏重发生、大发生、特大发生6个等级。通过预测虫害的发生等级及时明确农作物受虫害危害情况，以便制定防止策略。虫害分布预测：预测虫害发生的面积和区域范围，主要是针对一些迁飞性害虫的扩散方向和范围进行预测预报。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用主要是从虫害的发生程度进行的预测分析，具体应用在棉蚜虫害发生程度预测当中。按照2010中国农业出版社出版的主要农作物病虫害测报技术规范应用手册对棉蚜的发生程度分级标准进行划分等级。
20、棉蚜发生程度分级标准如表7-7所示。级别级别12345轻发生偏轻发生中等发生偏重发生大发生百株蚜量百株蚜量（头）（头）50000表7-7棉蚜发生程度分级标准创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用(2)预测评判标准为了对模型的泛化能力和预测能力进行评判，采用OOB估计和模型的预测准确率作为模型的预测评判标准。使用袋外数据对随机森林泛化误差进行估计，进行OOB估计时每棵生成的决策树计算出了OOB误差率，OOB误差率在利用训练集进行模型训练时自动计算数值，OOB误差率的大小体现模型泛化能力的好坏。模型预测准确率体现模型预测性能的优劣。创新与贡献研究意义选题背景第七章7.
21、2随机森林在棉蚜等级预测中的应用4实验结果与分析(1)基于随机森林的棉蚜等级预测本实验的编程语言是R语言，在RStudio环境下运行，加载RandonForest包，将数据导入进行实验。随机森林算法的优点是在运算量没有显著提高的前提下提高了分类预测精度，并且对于多元共线性不敏感，对缺失数据的分类预测表现比较稳健，而且模型训练速度快，样本选择具有随机性不易产生过拟合。本实验将随机森林算法用于棉蚜虫害等级的短期预测中，提高了棉蚜预测的效率和准确率，及时的为农业生产者提供准确的预警信息，提前采取防治措施，从而降低棉蚜对棉花的危害。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用基
22、于随机森林的棉蚜短期预测模型如下：有放回的进行随机抽样。随机森林对训练集中的样本有放回的随机选择，选择的样本数小于训练集总的样本数。设置模型参数。随机森林预测模型中树的个数n取100，n的数量选取依据如图2所示，通过计算得出节点m为4。模型训练。通过训练集中选取的样本对模型进行训练，得到模型的OOB和模型内分类的误差率。预测。使用构建的随机森林预测模型对测试集进行分类预测，结合表7-7得到棉蚜的发生程度。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用随机森林预测模型的构建流程图如下图7-2所示。图7-2随机森林预测模型创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等
23、级预测中的应用 (2)实验结果分析实验采用的数据是滨州市植保站。表7-8训练集分类结果类别类别12分类误差率分类误差率1143159.5%231551.9%从表7-8可以看出，实验分类结果中等级1的分类错误率为9.5%，等级2的分类错误率为1.9%，表明模型分类结果中每一类的分类错误率都比较小，棉蚜虫害等级判别的准确率比较高。测试样本的分类准确率为82.2%，测试集实验分类结果如表7-9所示。随机森林模型内含有判别函数，输入采集到的样本数据可以判别棉蚜的等级，部分样本数据的棉蚜等级预测结果如表7-10所示，Y1代表的是随机森林模型预测的等级结果，Y2代表的是棉蚜实际等级。结合表7-10可以得
24、到棉蚜的发生程度，从而提前对棉区采取相应的防治措施，减少棉蚜给棉花带来的危害。创新与贡献研究意义选题背景第七章7.2随机森林在棉蚜等级预测中的应用类别类别121364241表7-9测试集分类结果序号序号X1X2X3X5X6X7X9X10X11X12X14X15Y1Y21032766100772271625810058171100912734601123270071100832262288410074192100922705810223096100253073457910010262100383445512224710010053191133631002015810074251285115327
25、0063100232902346110011243100343393237226032766100153023578499922421004035261721703276610079227249911006519710086275701211表7-10棉蚜预测等级实验将随机森林算法用于棉蚜等级的短期预测中，实验结果表明模型泛化性好，误分类率低。随机森林为棉蚜虫害等级预测提供了一种新的方法。创新与贡献研究意义选题背景第七章7.3 基于邻域核函数的局部支持向量机在树木图像分类中的应用支持向量机在解决小样本、高维模式分类等问题时，具有全局优化、泛化能力强的特点。但其不能够有效地利用样本局部信息且在
26、处理非凸数据集时存在不足。针对此问题，Brailovsky等人于2006年首次提出了局部支持向量机算法。Zhang等人将KNN(K Nearest Neighbor)算法与支持向量机进行结合，提出一种新的局部支持向量机，称为SVM-KNN。局部支持向量机与支持向量机相比具有较高的分类精度，已被广泛的用于生物信息和网络流量预测等领域。创新与贡献研究意义选题背景第七章7.3 基于邻域核函数的局部支持向量机在树木图像分类中的应用支持向量机与局部支持向量机都是将分类样本通过核函数映射到高维空间H中，使之具有线性可分性。核函数的实质是一种映射关系 ,将样本数据从输入空间映射到高维空间H中。核函数的定
27、义如下。设，为定义在上的函数，若存在从到高维空间H的映射（7-2）使得，则称为一个核函数。创新与贡献研究意义选题背景第七章7.3 基于邻域核函数的局部支持向量机在树木图像分类中的应用名称名称表达式表达式说明说明Gauss径向基核径向基核Gauss径向基核是最为常用的核函数多项式核多项式核其中多层感知核多层感知核为标量，为偏离参数傅里叶核傅里叶核且q是的常数为常数B-样条核样条核是阶B-样条核函数22(,)exp()2xzK x z221(,)2(12 cos()qK x zqxzq(,)()dK x zx zc0c(,)tanh(,)K x zx z,x zR0q3500表7
28、-15小麦蚜虫发生程度分级指标创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用2 特征选择选择正确有效的特征，对回归模型的构建及预测预报具有重要意义。特征选择作为数据预处理的一个重要过程，其主要任务是去除不相关或者冗余的特征。首先，特征选择可以揭示各个特征对预测对象的重要程度；其次，进行选择特征，可以删掉无关的特征，从而降低数据的维数，缩小问题规模，提高模型的构建效率；最后，特征选择可以使得构建的模型具有更好的泛化能力。相关分析是研究随机变量之间是否存在某种依存关系的一种常用方法，通过相关分析找到各影响因子与预测对象的相关关系，可以达到特征选择的目的。相关分析得到
29、的相关关系是一种非确定性的关系，它并不能确切到由其中的一个变量去精确决定另一个变量的程度。Pearson相关系数和Spearman相关系数是相关分析中常用的两种相关系数。其中，Pearson相关系数研究的是连续数据之间的相关关系，适用于两个变量之间的相关关系的计算；Spearman相关系数是一种秩相关系数，通过将两列数变为相应的等级，根据等级之差来计算相关系数。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用小麦蚜虫短期预测模型的构建，其影响因子包含多个气象因子，考虑到各气象因子之间存在一定的相关关系，因此通过相关分析删除无关的或者冗余的影响因子，提高构建预测模型
30、的准确率和泛化能力。另外，特征选择主要研究的是各个影响因子与预测对象的相关关系，属于变量之间的相关关系，因此采用Pearson相关系数计算相关关系。影响因子与预测对象的Pearson相关系数的计算公式如下：（7-8）iiX XSYYSiX YSiXY 其中，为，的样本方差和协方差。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用将百株蚜量与19个影响因子进行相关分析，相关系数以及显著性检验结果如表7-16所示，其中r为相关系数，p为显著性检验的P值。变量变量x1x2x3x4x5x6x7x8x9x10r0.004950.004950.00495-0.030
31、86-0.120440.012010.231460.12303-0.031040.0991p0.96020.96020.96020.75580.22330.90370.01810.21340.75450.3169变量变量x11x12x13x14x15x16x17x18x19 r0.09910.0991-0.110390.28725-0.119840.13983-0.072640.028790.79788 p0.31690.31690.26460.00310.22560.15690.46370.7717.0001 表7-16相关分析结果取显著性水平为0.5，由表7-16相关分析的显著性检验结果可
32、知，变量x1-x4、x6、x9、x18的P值均明显大于0.5，与百株蚜量的相关关系不显著，因此，使用其余12个变量预测百株蚜量的值。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用3归一化处理归一化方法是一种常用的数据预处理方法。归一化方法主要有两种，一种是为了数据处理的方便，将数据映射为0、1之间的小数，另一种是去掉量纲，将有量纲的表达式，化为无量纲的表达式，成为纯量。由于不同影响因子的取值范围差距较大，为了避免“大数吃小数”的情况，选用第二种归一化的方法，对各个影响因子进行无量纲化处理，去掉其量纲，公式如下：minmaxminijiijiixxxxx（7-9）
33、针对小麦蚜虫数据，通过多次对比实验发现，仅对影响因子进行归一化比对影响因子及预测对象均归一化的效果明显好，因此，将小麦蚜虫的各个影响因子归一化到0，1范围内，预测对象未进行归一化处理。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用7.4.3支持向量回归与局部支持向量回归1 支持向量回归支持向量回归解决回归问题的基本思路为：首先通过一个非线性映射将样本由输入空间映射到高维特征空间H中；然后在高维特征空间中对样本进行线性回归，找到拟合最优的回归函数，即最优回归超平面；最后使用最优回归函数对其它样本进行回归预测。标准的支持向量回归的损失函数为不敏感损失函数，其
34、数学表达式为：(7-10)创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用其中，为核宽，即回归函数允许的最大误差，使用不敏感损失函数可以提高回归模型的泛化能力。支持向量回归构建回归模型的原则是结构化风险最小化原则，即不仅要使经验风险最小，同时也要降低模型的复杂度，提高模型的泛化能力。支持向量回归求最优回归超平面的问题可以转化为如下的优化问题：目标函数：2*min|/2()1 niiiwC （7-11）约束条件：*()()1,2,.,0 iiiiiiiiyf xf xyin （7-12）创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用
35、根据对偶原理，用Lagrange乘数法，可求解公式(7-11)-(7-12)对应的优化问题，最优回归超平面为*1()()()K(,)niiiif xxbaax xb （7-13）创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用2 局部支持向量回归支持向量机使用全部训练样本构造回归模型，忽略了样本的局部变化信息。而局部支持向量机则是在支持向量机的基础上引入了局部学习算法，因此局部支持向量机构造的回归模型蕴含局部化的思想，能够有效地捕捉样本的局部变化趋势，从而提高模型的预测精度。2007年，Cheng等人根据训练样本与测试样本的相似度提出了一种新的局部支持向量机（Lo
36、calized Support Vector Machine，LSVM），称为LSVM。LSVM使用相似度函数*(,)ijx x表示训练样本创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用根据相似度函数的取值的不同，可产生两种LSVM的变种，当取0，1之间的实数时，得到的LSVM称为SLSVM(Soft Localized Support Vector Machine，SLSVM)；当为二值函数时，得到的LSVM称为HLSVM(Hard Localized Support Vector Machine，HLSVM)，此时的相似度函数表达式为：*1(,)0ij
37、ijxxx x 的K近邻否则（7-14）其中，计算的K近邻时使用的距离函数为欧式距离。*jx创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用基于HLSVM的局部支持向量回归（Hard Localized Support Vector Regression，HLSVR）构造回归模型的步骤如下：（1）确定K值。（2）选取每个测试样本的K个近邻样本。（3）对于选取的K近邻样本，使用支持向量机进行回归建模。（4）使用建立的支持向量回归模型对该测试样本进行预测。（5）对每个测试样本执行（2）-（4），直到所有测试样本预测完成。与标准的SVR相比，使用HLSVR对测试样本
38、进行预测，可以充分利用样本的局部信息，选取与测试样本相似度较大的样本参与模型的构建，能够有效地提高预测精度；并且HLSVR能够减少参与模型构建的样本数量，从而降低了构建单个模型的时间。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用7.4.4实验结果与分析1 基于HLSVR的小麦蚜虫百株蚜量短期预测模型虫害的发生量是对虫害发生情况预测的主要指标，以小麦蚜虫百株蚜量作为预测对象，使用HLSVR构造小麦蚜虫百株蚜量的短期预测模型。由于气象条件对小麦蚜虫的发生有重要影响，因此该模型使用某一时期的百株蚜量（简称虫源基数）和同时期的气象因子作为影响因子，下一时期的小麦蚜虫百
39、株蚜量作为预测对象，进行回归模型的构建。基于HLSVR的小麦蚜虫百株蚜量短期预测模型建模过程为：首先，通过特征选择剔除对预测对象无显著影响的因子；然后，对数据进行归一化处理，提高建模效率；最后，选择合适的核函数及参数构建回归预测模型，并对未来样本进行预测。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用2实验结果及分析利用局部支持向量回归构造小麦蚜虫短期预测模型，并与支持向量回归进行对比实验。核函数是解决非线性回归问题的关键，它可以将样本从低维空间向高维空间进行映射。核函数的类型、核参数的选取直接影响着模型预测精度的高低。目前，RBF核是应用最广泛的核函数。无论样
40、本维数高低、样本数量多少，RBF核函数均可以通过调节其核参数得到较为理想的预测结果。上述两种模型均使用RBF核函数。支持向量回归模型参数的选取采用网格参数寻优，寻优过程采用十折交叉验证法，十折交叉验证可以有效的避免过拟合，是对预测误差的一种比较好的估计。由于局部支持向量回归目前并无较好的调参算法，其惩罚系数C、核宽、核参数的值与支持向量回归中对应参数的值相等。而对于近邻数K，给定多个值，使用十折交叉验证选择最优的K值。具体选取的参数值如表7-17所示。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用SVRHLSVRC C K 40969.77E-0454096
41、9.77E-04540 表7-17 模型参数使用上述两个模型对2008-2013年小麦蚜虫百株蚜量进行预测，百株蚜量的均方误差(Mean Square Error，MSE)以及发生程度的准确率如表7-19所示。MSE表达式为：21()/niiiMSEyyn其中分别为实际值、预测值，n为测试样本的数目。MSE 越小，预测模型的准确度越高。,iiy y(7-15)创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用为了对小麦蚜虫的发生程度进行评价，使用准确率（Accuracy，AC）作为发生程度的评价指标，计算准确率时按照预测发生程度与实际发生程度等级相同时准确率为10
42、0%，预测与实际的发生程度相差一级时准确率为50%，相差两级及以上时准确率记为0进行计算，表达式如公式（7-16）所示：（7-16）其中，M表示发生程度的实际值与预测值相等的样本个数，D表示发生程度等级的实际值与预测值相差一级的样本个数，N代表训练集或测试集样本总数。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用支持向量回归只需要针对所有训练样本构建一个回归预测模型，对所有测试集样本采用该模型进行预测。而局部支持向量回归则是针对每个测试样本分别建立预测模型，理论上局部支持向量回归比支持向量回归有更好的预测能力以及推广能力。由表7-18的均方误差可以看出，用HLS
43、VR对1990-2007年的小麦蚜虫数据进行回代检验，其均方误差小于SVR，对于未参与模型构建的2008-2013年的小麦蚜虫的数据，HLSVR模型预测百株蚜量的均方误差明显小于SVR。HLSVR模型以及SVR模型的回代检验的均方误差均高于预测的均方误差，主要是因为1990-2007年小麦蚜虫的百株蚜量存在比较大的值，而2008-2013年小麦蚜虫的百株蚜量值相对比较小，导致回代检验时，较大的百株蚜量对应较大的误差。创新与贡献研究意义选题背景第七章7.4 局部支持向量回归在小麦蚜虫预测中的应用模型模型百株蚜量均方误差百株蚜量均方误差发生程度准确率发生程度准确率预测回代预测回代SVR199366
44、21310880.77%91.03%HLSVR19636219878082.69%91.03%表7-18均方误差及发生程度准确率由表7-18的发生程度的准确率可以看出，对1990-2007年的小麦蚜虫发生程度进行回代检验，HLSVR的回代准确率等于SVR的回代准确率。但是，对2008-2013年的小麦蚜虫的26条数据进行预测，HLSVR的预测准确率明显高于SVR。因此，与SVR相比，基于HLSVR的小麦蚜虫百株蚜量短期预测模型的准确度更高，泛化能力更强。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用目前，罗杰斯特回归、神经网络以及支持向量机等模型均已用于小麦蚜虫的预
45、测预报。但是这些浅层学习模型对输入特征具有很强的依赖性，并且它们的特征学习能力有限。深度学习通过多隐藏层的学习结构，实现对底层特征的高度抽象，从而提取到更有利于回归预测的特征。将深度信念网络与局部支持向量回归进行结合，可以充分发挥深度信念网络自动提取特征的优势，提高小麦蚜虫的短期预测的准确率。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用7.5.1数据来源与预处理实验数据主要包括两部分，一是小麦蚜虫的百株蚜量，二是对应的气象数据。小麦蚜虫的百株蚜量数据来自于山东省农作物病虫预测预报观测数据集和山东省烟台植保站，从1978年至2013年共36年的数据。由于小麦蚜虫百株
46、蚜量在采集以及计数的过程中均存在一定的误差，而发生程度是根据百株蚜量的取值范围计算得出，其范围较大，误差相对较小，因此发生程度成为衡量小麦蚜虫危害程度的重要指标。发生程度的分级标准及计算方法见表7-15。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用气象数据主要来源于国家气象信息中心。每条记录均包含区站号、20-20时降水量、平均风速等18个属性。为更好的利用气象数据，对其进行预处理。由于1978-1989年的气象数据中，极大风速、日最低本站气压、日最高本站气压3项缺损严重，并且考虑到这3个因子在虫害预测中使用频率较低，因此去掉这3个因子，最终保留了15个气象因子，
47、与虫源基数共同构成影响因子，预测因子为当前日期对应的百株蚜量。实验数据共222条记录，其中180条用作训练集，剩余的42条构成测试集。为避免计算过程中因量纲不同而产生较大的误差，对实验数据进行归一化处理。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用7.5.2模型评价指标为检验预测模型对小麦蚜虫百株蚜量的预测能力以及模型的泛化能力，使用构建好的预测模型对测试集样本进行预测，并对训练集样本进行回代检验。使用的评价指标包括均方根误差(Root Mean Square Error，RMSE)、平均绝对误差(Mean Absolute Error，MAE)公式（7-17）-
48、（7-18）所示。（7-17）（7-18）其中，表示第个小麦蚜虫样本的实际值，表示使用预测模型得到的第个样本的预测值。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用7.5.3基于DBN_LSVR的小麦蚜虫短期预测模型深度学习在特征的自动提取方面有较强的优势，而局部支持向量回归也是目前浅层学习中预测能力较好的模型，因此将深度信念网络与局部支持向量回归进行结合，提出了DBN_LSVR模型，并用与小麦蚜虫的百株蚜量的短期预测模型，并且根据表7-15中的发生程度的分级标准得到小麦蚜虫的发生程度的等级。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的
49、应用相比于分类问题，深度学习在回归预测领域的研究相对较少，目前在回归预测方面的应用，深度学习的隐藏层层数一般设置为2或者3。主要有两个原因，一个是随着模型的层数增多，模型内部以及模型外部的参数也随之增多，进行参数学习所需要的数据量也就更多；二是对于大多数结构化的回归数据集，其构建数据集时，已经预先进行了特征的选择，因此不需要使用层数很多的模型对特征进行高度的抽象。本节采用的数据的小麦蚜虫的数据量较少，因此综合考虑，选取了有两个隐藏层的深度信念网络进行特征的进一步学习。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用基于DBN _LSVR的小麦蚜虫短期预测过程如下：1)
50、归一化处理。对数据集进行归一化处理，消除不同量纲对建模的影响。2)设置DBN的各层节点数等超参数的值。输入层的节点个数即为影响因子数16，输出层节点个数设置为1，对于两个隐藏层的节点个数以及分块大小等超参数则是根据第四章的算法3进行调优，从中选取更适合本章数据集的超参数的组合。3)逐层预训练。使用训练集数据对DBN中的两个RBM逐个进行无监督学习，使得每个RBM的参数达到局部最优。创新与贡献研究意义选题背景第七章7.5 深度学习在小麦蚜虫短期预测中的应用4)有监督微调。训练好的两个RBM与输出层构成一个4层的BP神经网络，对其进行有监督训练，并将误差逐层反向传播，微调各层参数，直到收敛。5）提

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：机器学习与大数据技术第七章机器学习、大数据技术和图像处理技术在农业中的应用课件.pptx
链接地址：https://www.163wenku.com/p-3318143.html

三亚风情

内容提供者

实名认证

联系作者