基于数据融合和机器学习的激光雷达作物分类
空气中激光扫描在耕地中的好处
最近的一项研究使用LIDAR,Sentinel-2和空中数据以及多种机器学习分类算法创建了作物类型地图,用于区分四种作物类型的耕种区域。庄稼类型地图通常使用由安装在卫星的传感器采集的远程感测的数据来生成,载有纸币或无人驾驶空中车辆(无人机或'无人机),最受安装在卫星上的多光谱传感器最受欢迎的。更常常使用空中多光谱传感器,其中需要具有非常高空间分辨率的图像。但是,使用LIDAR数据进行裁剪型映射仍然罕见。
随着越来越多的航空调查,激光雷达数据变得越来越广泛,无人机-激光雷达传感器变得越来越普遍,地球观测卫星正在安装激光雷达传感器。作物类型制图可以从这些新的激光雷达数据来源中受益,特别是当与Sentinel-2星座提供的高分辨率、多光谱和多时间光学图像相结合时。这种激光雷达数据和光学图像的结合对于农业部门来说是一个好兆头,可以用来进行更精确的作物类型分类。
LIDAR通常用于遥感,以通过使用3D点云或通过内插数字表面模型(DSM)或数字地形模型(DTM)来收集表面高度信息。从DSM和DTM,可以通过从DSM中减去DTM来导出归一化DSM(NDSM)或冠层高度模型(CHM)。摄影测量方法也可用于创建DSM。然而,LIDAR可以渗透植被檐篷,并获得下面的地形的精确高度信息,而且又用于创建DTM并随后是NDSM。除了高度信息外,LIDAR还提供返回的强度信息,可用于区分不同的陆地覆盖。例如,扫描水导致低强度返回,而植被的回报强度高。
南非学习区
最近的研究中,位于南非北部南非北部的Vaalharts灌溉计划用于研究区(图1)。由于LIDAR数据的可用性,选择了研究区域。灌溉方案位于哈特和VAAL河流的汇合,含有各种类型的陆地覆盖,包括土着植被,内置区域,裸地,水和作物,包括棉,玉米,小麦,大麦,卢塞恩,地生,油菜和胡桃螺母,所有这些都以作物旋转成长。

数据集
使用了三个数据集,即激光器数据,空中图像和卫星图像。LIDAR和AIRIAL IMETERY由土地资源国际为农业,土地改革和农村发展部的土地资源国际捕获。LIDAR数据在2016年2月19日至29日之间收集,Leica Als50-II激光雷达传感器在4,500英尺的海拔高度,导致平均点间距为0.7米,平均点密度为2.04米2。在2016年2月22日和2016年3月22日期间收集了空中图像,在海拔7,500英尺处,由四个带,即蓝色,绿色,红色和近红外(NIR)组成。空中图像具有0.1米的地面采样距离(GSD),用于蓝色,绿色和红色带和NIR带的GSD为0.5米。Sentinel-2图像于2016年2月10日收集,因云覆盖率缺乏而被选中,而LIDAR数据和空中图像的时间匹配。研究的四个10m分辨率频带和六个20m分辨率的频带用于研究。
LIDAR数据用于导出四个特征,即NDSM,广义NDSM,强度栅格和多返回值栅格。NDSM由来自2M分辨率DSM的2M分辨率DTM创建。通过计算5x5移动窗口内的值范围来创建广义的NDSM。使用所有返回,强度栅格以2M分辨率插入2M分辨率。通过使用5x5窗口应用基于直方图的纹理测量(HISTEX)和强度图像,通过应用基于直方图的纹理测量(HOSTEX)和纹理分析(TEX)来创建进一步的纹理特征;排除了具有高相关性的纹理特征。
空中图像用于创建两个数据集(A1和A2)。对于A1数据集,执行主成分分析(PCA),然后在PCA栅格上应用了应用于LIDAR数据的相同纹理特征,尽管使用较大的窗口以匹配Sentinel-2图像的分辨率。对于A2数据集,只有RBG频带被缩小到0.5米的分辨率以匹配NIR频段的分辨率。在A1和A2数据上进行分析,以便访问缩减是否具有任何统计学意义的差异。
Sentinel-2图像仅使用ATCOR对大气进行了校正,因为Sentinel-2图像是在1c级得到的,已经进行了校正。
These three datasets were then combined to create eight different dataset combinations, namely aerial (A2 and A1), Lidar (L), Sentinel-2 (S), aerial and Sentinel-2 (A-S), aerial and Lidar (A-L), Lidar and Sentinel-2 (L-S), and lastly Lidar, aerial and Sentinel-2 (A-S-L). Table 1 lists the eight input datasets considered. All eight datasets were standardized using zero-mean and unit variance standardization.

作物类型分类
机器学习在遥感领域得到了广泛的应用,常用的机器学习算法有决策树(DTs)、随机森林(RF)、神经网络(NN)和支持向量机(SVM)。采用随机森林(RF)、决策树(DT)、XGBoost、k-nearest neighbour (k-NN)、naïve bayes (NB)、logistic回归(LR)、神经网络(NN)、深度神经网络(d-NN)、线性核支持向量机(SVM) (SVM L)和径向基函数核支持向量机(SVM RBF) 10种算法进行研究。分层随机抽样创建了1000个数据点,作为算法的输入,每个类别(玉米、棉花、花生、果园和非农业)分配了200个数据点。每个算法都经过100次迭代的交叉验证,并且每次迭代都随机分为训练数据集(70%)和测试数据集(30%)。
表2中总结了分类结果,其显示了八个数据集和十种机器学习算法的总体精度。图2显示了八个数据集中的七个随机森林分类的视觉比较(由于整体精度低,排除了A2)。

讨论与结论
通过使用不同的数据集组合作为输入,机器学习算法能够准确地对这五类进行分类,十种算法中有九种算法的总体准确率至少有一种在90%以上(随机森林的总体准确率最高,为94.6%)。三个主要数据集(航拍图像、Lidar和Sentinel-2)单独使用时能够获得可接受的总体精度,其中Lidar数据集和Sentinel-2数据集获得类似的总体精度。虽然Lidar和Sentinel-2数据集的性能相当,但Sentinel-2数据具有定期更新的优势(每5天更新一次,取决于云层覆盖),而Lidar数据通常更新得不那么频繁。然而,激光雷达数据本身能够区分作物类型,并被证明在区分具有显著高度差异的不同作物(如果园和落花生)时特别有用。
从结果中可以清楚地看出,当数据集被合并时,可以获得更高的总体精度。三个数据集的组合获得了最高的总体精度,尽管Lidar和Sentinel-2的组合表现与使用三个数据集的组合一样好。因此,在有条件的情况下,应将激光雷达数据与光谱数据结合使用,以提高分类精度,特别是区分光谱特征相似但结构差异明显(即高度差异)的作物类型。
