遥感学报杂志投稿须知
(1)内容涉及国界、保密或集体研究成果的稿件,需按国家有关规定办理审核手续。经审核通过后,方可出版。
(2)图件需提供300DPI以上分辨率,色彩分明的高质量.TIF,.GIF或.JPEG文件。
(3)稿件作者须提交的文件及参考模版均可在网站的下载区内直接下载。
(4)投稿前,请务必对所有发送文件进行杀毒处理。投稿时,如果3次尝试都不成功,请致电编辑部询问,不要多次重复投稿。
(5)发表前,需签署作者承诺,挂号寄至编辑部。
(6)署名作者为参与了论文内容的具体研究工作、论文的构思、文献资料的分析;或参与了论文的重大修改(如关键性理论与主要内容的修改);或参与了论文的写作以达到出版要求等的相关人员。作者署名顺序按对论文的贡献排序。论文一经投稿后作者署名及顺序不可再改动。
(7)署名单位为著者完成论文内容研究工作的单位或著者所在的工作单位,以标明知识产权的从属关系。一经投稿后署名单位及顺序不可以再改动。
进入期刊首页作者:徐佳佳,于磊,傅根深,燕李鹏,黄庆丰,唐雪海
作者单位:安徽农业大学
关键词:薄壳山核桃;冠层尺度;高光谱遥感;氮素;分数阶微分;光谱指数;变量组合集群分析;机器学习
摘 要:植物叶片氮素含量是反映植物营养状况及长势的重要指标。高光谱技术能够无损、高效地估算植物生 理生化参数,为监测植物生长发育过程中的养分和健康状况提供可靠依据。为挖掘高光谱技术在薄壳山核桃 养分估测中的应用潜力,本研究以薄壳山核桃 (长林和建德系列) 为研究对象,室外随机采集 53 株薄壳山核 桃 350—2500 nm 的冠层高光谱后,首先运用分数阶微分 FOD (Fractional Order Derivative) 进行冠层高光谱预处 理;然后联合两种两波段光谱指数,探究薄壳山核桃叶片氮素含量LNC (Leaf Nitrogen Content) 与冠层光谱的响 应关系;最后利用变量组合集群分析算法 VCPA (Variable Combination Population Analysis) 筛选建模变量,分别 构建冠层 FOD 单波段及 FOD 联合两波段光谱指数的极端梯度提升算法 XGBoost (eXtreme Gradient Boosting) 估 算,得到基于本试验条件下薄壳山核桃LNC适宜的估算模型。结果表明:与原始光谱相比,FOD预处理后的冠 层光谱与薄壳山核桃LNC的相关性增强,提高了0.152;在提高光谱特征与目标成分的相关性方面,FOD分别结 合归一化光谱指数NDSI (Normalized Difference Spectral Index) 和差值光谱指数DSI (Difference Spectral Index) 的 表现均比单波段效果更佳,分别提高了0.250和0.277;VCPA变量选择方法最终筛选的光谱变量组合子集中同时 包含强弱信息变量,对提升估算模型精度具有重要的作用;最优薄壳山核桃叶片氮素估算模型是1.5阶微分结合 DSI模型,模型预测集R2 P=0.75,RMSEP=1.32 g/kg。综上,冠层高光谱可快速无损估算薄壳山核桃 LNC,分数阶 微分结合两波段光谱指数可以显著提高光谱特征与目标变量的响应关系。
1 引 言
薄壳山核桃 (Carya illinoensis) 原产于北美东 部 地 区 , 是 著 名 的 落 叶 干 果 和 木 本 油 料 树 种 (Zhang等,2022)。坚果种仁色美味香,富含人体 所需的各种脂肪酸、氨基酸等营养物质,其油脂 亚麻酸含量高于橄榄油和茶油,是优良的果材兼 用树种,具有良好的经济和生态效益 (de Araújo 等,2021)。氮素是影响植物光合作用、光合产物 积累和最终产量的重要生理生化指标 (Berger 等, 2020)。除了能够影响植物光合作用潜力和初级生 产力,氮素在反映植物营养缺乏等方面也起到指 示作用 (Simkin 等,2022)。获取并分析薄壳山核 桃叶片氮素含量,有助于获悉植株营养状况及长 势变化,进而精准指导施肥作业,对后续提高果 实品质和产量、监测植物群体或个体生长及养分 状况等都具有极其重要意义 (Yang等,2021;Liu 等,2022)。
传统的氮素含量测定方法是现场进行破坏性取样,再带回实验室化学分析,难以做到大面积 快速监测 (Gao 等,2019)。近年来,基于高光谱 技术无损高效地估算有关植物生理生化指标得到 快速发展,这种方法具有简洁性、敏感性和可信 度等优势,适宜于大范围监测应用,为植物生长 发育过程中的养分和健康状况评估及可持续管理 提供了可靠的数据获取方法 (Shu 等,2022)。植 物高光谱在地面观测层面主要有叶片和冠层两个 尺度 (Mirzaei等,2019)。其中,叶片尺度光谱特 性主要由叶片内部结构和生化组分的散射、吸收 特征所控制,可以用来估算叶片营养及健康状态 指标的含量 (Zhao等,2022)。Jiang等 (2022) 利 用红树林叶片高光谱反射率,综合比较了估算精 度、灵敏度、抗噪声性能、空间可视化质量等因 素,构建出叶片相对叶绿素含量敏感的高光谱指 数,得出叶片高光谱红边区域的波段组合能够有 效地捕捉叶片叶绿素含量变化的结论。冠层尺度 则包含了整株植物的光谱贡献,重点反映植物总 光合有效辐射和初级生产力的能力,在产量量化 方面具有重要作用 (Robles-Zazueta等,2022)。但 是,获取的原始光谱数据往往具有极高的空间复 杂度。光谱曲线携带的信息中不仅能反映各种组 成物质的成分和含量,还客观记录了观测时的温 湿度、表面纹理、组织结构参数等非目标成分, 再加上大量背景噪声的引入,使得谱峰重叠、吸 收强度降低,进而影响模型的估算精度和鲁棒性 (Yang 等,2022)。因此,对光谱数据进行变换并 增强不同波段范围的光谱特征是非常有必要的。 目前,通过微分变换提高光谱数据与目标变量之 间响应关系是一种常用的手段,如使用一阶和二 阶为代表的整数阶微分变换消除光谱曲线中的背 景干扰和基线漂移 (Peng等,2018)。此外,阶数 更高的整数阶也被尝试引入光谱预处理,但是随 着阶数的增加,光谱中的高频噪声会进一步放大, 信噪比降低,导致原始光谱中有用信息丢失或难 以提取 (Fu等,2019)。随着引入分数阶微分FOD (Fractional Order Differentiation) 进 行 信 号 处 理 , 高光谱最优的微分变换结果并不都在整数阶,也 可能在整数阶之间的分数阶 (Hasan等,2023)。
分数阶微分不仅细化了光谱间距,在小范围 内也放大了微弱的光谱特征,一定程度上反映了 光谱信息的变化,能够在整数阶微分之间找到 更精细的插值反射光谱 (Tian等,2018)。Fu等 (2019) 探讨了基于零阶与二阶之间 GrunwaldLetnikov分数阶微分的光谱预处理效果,通过研究 不同分数阶下相关系数的变化趋势,发现分数阶 可以显著提高相关系数,深入挖掘了光谱的潜在 信息。Hu 等 (2021) 基于近红外光谱分数阶微分 研究了橡胶树叶片氮含量的无损估算方法,对比 多个阶数建立橡胶树叶片氮含量估算模型,发现 0.6阶和 1.6阶比整数阶具有更好的模型估算性能。 Cheng等 (2021) 运用分数阶微分和波段组合构建 基于机器学习的地上植被有机碳含量估测模型,结 果发现,相对于一阶和二阶微分,分数阶微分能捕 捉到更细微的光谱特征,挖掘出海岸带湿地植被冠 层光谱在估算地上植被有机碳含量中的应用潜力。
变量选择以特定的波长或波长区间为基础, 一方面对模型进行简化,另一方面可得到稳健性 好、解释性强的估算模型(Kamruzzaman等,2022)。 近年来,变量选择在算法实现方面取得显著进展, 发展出不需要引入数学模型仅从变量自身的预测 性能出发的过滤法,如相关系数法和方差分析法 (Li 等,2022);也有需要引入数学模型并随机挑 选单个变量或变量组合,再采用交叉验证的方法 比较模型评价指标的包装法,如连续投影算法、 竞争自适应加权算法 (Cheng等,2021;Zheng等, 2019);还有嵌入法,其与包装法区别在于不需要 通过迭代的方式反复建模来筛选变量,如随机森林 的变量重要性排序 (Li等,2021b)。由于原始冠层 高光谱数据存在较多重复和无用的冗余变量信息, 为减少模型输入变量和缩短分析计算时间,需从 全波段提取出对建模最有效的波长。
鉴于此,本研究拟以薄壳山核桃为研究对象, 基于果实成熟期的薄壳山核桃冠层高光谱数据, 运用分数阶微分进行光谱预处理,结合光谱指数 定性和定量分析光谱响应关系,再利用变量组合 集群分析算法筛选建模变量,最后通过机器学习 算法构建最优的薄壳山核桃叶片氮素估算模型, 以期为大面积薄壳山核桃林遥感监测和施肥量化 提供理论依据。
2 研究区与数据
2.1 研究区概况及样本选择
本研究样本数据来自中国安徽省合肥市肥东县 白龙镇的薄壳山核桃试验示范基地 (117°22′20″E—117°23′10″E,32°11′10″N—32° 11′30″N)。该区域 隶属北亚热带季风气候,光照充足,气候温和, 降水适中,年平均降水量约为 879.9 mm,生长季 节平均气温 15.5 ℃。该区域符合薄壳山核桃引种 栽培适宜区条件,实际栽培的薄壳山核桃开花结 实已取得成效,并表现出较强的抗逆性。本研究 选择基地内具有诸多优良品质 (早实、丰产、抗 病) 和显著经济效益的建德 (J5、J35) 及长林 (C10、C21) 系列共 4 个典型品种,共调查 53 株。 由于基地每年都会在 3 月和 10 月施肥一次,因此 数据采集时间定为 2022 年 9 月,正值薄壳山核桃 果实成熟期,调查期前 5 个月内除必要的除草外, 无其他管理措施 (如浇水、施肥、打药等)。
2.2 数据获取
2.2.1 光谱数据采集
使 用 全 波 段 地 物 光 谱 仪 (ASD FieldSpec4 Wide-Res) 捕获紫外光、可见光和近红外光谱 (UV-Visible,350—780 nm;Near Infrared,780— 1000 nm;光谱分辨率为 3 nm) 及短波红外光谱 (Short Wavelength Infrared-1,1000—1800 nm;Short Wavelength Infrared-2, 1800—2500 nm;光谱分辨 率为 30 nm),光谱仪采集光谱波段范围为 350— 2500 nm。由于供试薄壳山核桃样木垂直高度普遍 高于5 m,而光谱仪自身的铠装光纤长度仅有1.5 m 且裸光纤探头视场角为25°,因此将光谱仪铠装光 纤通过光纤适配器连接光纤延长线,再使用定制 支架将探头举至距离薄壳山核桃东南西北4个方向 2 m 处进行 45°倾斜测量,此时距离地表形成一个 直径超过 1.8 m的圆锥体形探测空间,这个探测视 野基本覆盖单株薄壳山核桃冠体顶层和中层的大 部分,图1为野外作业现场图。每个方向光谱重复 测 10次,每株共 40条光谱,在软件中去除异常光 谱后用算术平均值作为薄壳山核桃最终的原始冠 层光谱特征。
ASD 光谱仪可观测 350—2500 nm 的光谱,输 出的重采样波长间隔为 1 nm,光谱波段总数达 2151 个。由于各领域划分光谱范围的标准不同, 在具体的波段界线划定上又比较模糊,为避免本 文引述相关波段概念出现混乱,借鉴 Pu (2017) 的划定方案,本研究采用的波段和波长划定详 见表1。
2.2.2 氮素含量测定
单株薄壳山核桃叶片采摘需满足两个原则, 即所选叶片落在探测视域和树体破坏最小化。因 此,本试验采摘单株薄壳山核桃冠层中上部且分 散在倾斜测量探测视域的东南西北4个方位,每个 方位 9 片,总计 36 片叶子。叶片生长良好、无机 械损伤、无病虫害。叶片采摘后立即装入信封袋,带回实验室放入烘箱在 60 ℃下烘干至恒重后,研 磨过 60 目筛,筛出的薄壳山核桃叶片粉末使用自 动定氮仪利用凯氏定氮法测定叶片氮素含量 LNC (Leaf Nitrogen Content),单位统一换算为 g/kg (杨 贵军 等,2019)。
2.3 数据处理及分析
2.3.1 分数阶微分
分数阶微分是整数阶微分学的拓展,其计算 方法与整数阶相似,但阶数被任意扩展为分数。 分数阶导数的定义包括 Grunwald-Letnikov 导数、 Riemann-Liouville导数和Caputo导数。采用在光谱 数据处理和信息提取方面广泛应用的 GrunwaldLetnikov导数进行光谱数据预处理 (Li等,2021a)。 首先观察函数的n阶导数f (t) 公式:
式中,t为微分上界,n 为阶数,h 为微分的步长, j为求和的索引。
二项式 (1) 展开式可以写成:
式中,z 为用于二项式展开的代数变量,n 为二项 式的整数阶次,j为遍历二项式的系数。
这样易将 n阶导数公式直接拓展到非整数阶 α 的情形,和整数阶不同的是,二项式表达式不再 是有限项的和,而变成了无穷级数的形式,即:
式中,z 为用于二项式展开的代数变量,α 为二项 式的非整数阶次,wj为z j 项的系数,决定了每项在 多项式中的权重。
拓展的二项式表达式则变成:
假设 t ≤ t0 时,函数 f (t) 的值为零,则无限项 的 和 可 以 转 换 成 有 限 项 , 如 此 , 便 可 引 入 Grünwald—Letnikov分数阶导数公式:
式中,α为微分的阶数,t0为微分的下界;t为微分 的上界,h 为微分的步长,本文 h=1,τ 为 Gamma 函数。若 α = 0 时, GL t0 Dα t f (t) = f (t)。若 α =1 或 2 时,分别表示原函数的一阶微分和二阶微分。
本部分使用 MATLAB R2022a (MathWorks Inc., USA)软件中Xue等编写的FOTF工具箱。本工具箱 主要对微分的阶数α和微分的上下界t和t0三项参数 进行调优 (https://ww2.mathworks.cn/matlabcentral/file⁃ exchange/60874-fotf-toolbox?s_tid=srchtitle_FOTF_1 [2023-12-03])。
2.3.2 光谱指数
使用少数几个波段反射率值的简单组合,可 以有效增强高光谱特征对地物理化参数的线性度 量,减弱由于背景因素差异造成的误差和不确定 性影响。两波段组合形式的光谱指数将一维波长 索引范围的光谱特征空间拓展到二维索引尺度, 充分联合光谱之间的相互关系(Montero等,2023)。 经测试,差值光谱指数 DSI (Difference Spectral Index) 和 归 一 化 光 谱 指 数 NDSI (Normalized Difference Spectral Index),能够综合分析光谱数据 与目标变量 (LNC) 的响应关系。因此本研究使 用这两种两波段反射率值组合方式,见式 (6) 和 式 (7),重采样间隔设置5 nm最合适。
式中,NDSIα (Ri ,Rj )和 DSIα (Ri ,Rj )代表 α阶下两 波段组合构成的归一化光谱指数和差值光谱指数; Rα (i) 和Rα ( j) 分别代表α阶预处理后第i和第j个波 段对应的光谱反射率,索引范围350—2500 nm。
2.3.3 特征变量筛选——变量组合集群分析
变量组合集群分析 VCPA (Variable Combination Population Analysis) 是一种综合考虑变量间随机组 合时相互影响的特征筛选方法,在解决高维特征 难题时起到连续收缩变量空间的作用。VCPA设计 时将非线性迭代偏最小二乘 NIPALS (Nonlinear Iterative Partial Least Squares) 包裹进算法,融合 了 指 数 递 减 函 数 EDF (Exponentially Decreasing Function)、二进制矩阵采样 BMS (Binary Matrix Sampling) 和模型集群分析 MPA (Model Population Analysis) 3 种方法不断迭代搜索出最优变量子集 组合 (Yun等,2014)。
2.3.4 基于机器学习构建LNC模型
极 端 梯 度 提 升 XGBoost (eXtreme Gradient Boosting) 算法是一种对梯度提升决策树 GBDT (Gradient Boosting Decision Tree) 改进的提升集成 算法,在当前全世界的数据挖掘和机器学习竞赛 中非常流行。XGBoost通过加入正则项控制模型的 复杂度,提高模型的泛化能力,防止过拟合。 XGBoost能够支持并行运算,可以极大快速地完成 模型训练。此外,由于在损失函数中添加了正则 化项,因此训练过程中的目标函数由两部分组成: 第1部分是梯度提升算法的损失项,第2部分是正 则化项 (Gao 等,2022)。本研究主要基于决策树 最大深度 (maxdepth) 进行参数调优。目标函数如 下式所示:
式中,n 为样本的数量;l( yi ,yl )为用来表征目标 值 yi与预测值 yl之间的损失函数;γ为手动设置的 参数;ω 为决策树中所有叶节点的值构成的向量; T 为叶节点的个数,即∑i = 1 t Ω( fk ) 是合计全部 t 棵树 的复杂度。 本文按照 7∶3的比例随机划分容量为 53的薄 壳山核桃叶片氮素含量样本数据集,利用XGBoost 机器学习算法构建薄壳山核桃LNC最优估算模型。 由于样本数量非常有限,本文使用五折交叉验证 方法固定随机种子数划分出验证集,用于模型最 优参数的选择和防止过拟合。
2.3.5 模型验证和评估
本 文 模 型 验 证 评 价 指 标 采 用 决 定 系 数 R2 (Coefficient of Determination) 和均方根误差 RMSE (Root Mean Square Error)。R2 越大,RMSE 越小, 说明模型预测效果越好。
式中,x和y分别为观测值和预测值,xˉ为观测值的 平均值,n为样本数。
3 结果与分析
3.1 薄壳山核桃叶片氮素含量及冠层高光谱特性 分析
3.1.1 薄壳山核桃叶片氮素含量描述性分析
薄壳山核桃LNC的统计结果见表2,可见整体 样本叶片氮素含量为 17.10—46.97 g/kg,平均值为 26.43 g/kg。
LNC的4个等分区间内薄壳山核桃冠层高光谱 平均反射率响应关系表明 (图 2),处在不同氮素 水平的冠层高光谱反射率整体变化趋势呈现一定 规律。具体表现为:可见光谱区 (500—780 nm) LNC 值处在 18.00—20.70 g/kg 和 20.70—25.75 g/kg 的光谱反射率很接近;而 NIR 谱区 780—1000 nm 随着LNC值增加,反射率逐步降低;在SWIR谱区 1400—1800 nm 和 2000—2400 nm,随着 LNC 值增 加,反射率逐步升高。这说明氮素调控薄壳山核 桃长势变化可能存在过渡阶段,在 LNC 减少或增 加到超出过渡阶段临界值时,植株长势改变方向 有清晰的指向。
3.1.2 薄壳山核桃冠层光谱特性分析
薄壳山核桃冠层原始光谱特性结果见图3(a)。
可见冠层原始光谱反射率较低,原因是冠层光谱 特性除了由植物的内部结构和生化组分决定,冠层 结构参数 (叶面积指数、冠层消光系数和平均叶倾 角分布均是影响太阳辐射在植物进行重新分配的重 要参数)也是主要的影响因素(屈永华 等,2012), 同时还受大气、植被下垫面、太阳高度角、观测 角度和方位等多因素影响 (Luo等,2022)。
冠层FOD光谱(0—2阶,以0.25为增量)结果 表明从 0阶到 0.75阶,整体光谱强度减弱了,0阶 光谱中的反射峰转化为若干个反射峰和吸收谷, 在 780 nm 附近出现光谱峰值;在 1450—1800 nm 和 1950—2350 nm 反射率急速增加;在 0.75 阶时 1450 nm 和 1950 nm 处反射率增加的斜率达到最大 值 ; 从 1 阶 到 1.5 阶 , 1450—1800 nm 和 1950— 2350 nm 反射率呈下降趋势;从 1.5 阶到 2 阶,光 谱曲线形态变化较小,反射率为 [-0.01,0.01] (图 3)。总体而言,低阶数光谱能维持与原始 (0 阶) 光谱相似的特征,但是,随着阶数增加, 光谱反射率减小,反射强度逐渐稳定,光谱曲线 形态特征丧失明显,相应地部分光谱曲线出现明 显波动。
3.2 薄壳山核桃冠层FOD光谱与LNC响应关系
3.2.1 冠层FOD单波段光谱与LNC响应关系
LNC 与冠层单波段 FOD 光谱反射率的相关性 分析结果见图4。可见:受冠层结构和背景辐射等 影响,0阶冠层光谱与LNC的相关性较低,二者绝 对相关系数在 1832 nm 处达到最大 (0.384);在 500—1350 nm,0阶冠层光谱与LNC呈负相关,在 1400—2400 nm呈正相关;此外,分数阶微分预处 理后敏感波段有明显变化,从0.25阶增加到1.25阶时,冠层 FOD 光谱与 LNC 在 500—750 nm 呈显著 正相关,频带数量先增加后减少。由表3可见二者 相关系数随着阶数的增加而增加,在 1.25 阶的 1033 nm波长处达到最高 (0.536),之后逐渐下降。 总体来说,随着分数阶递增,冠层 FOD 单波段光 谱与LNC的敏感波段频带数量先增加后减少,二者 相关系数表现出相同特征,且都高于原始 (0 阶) 光谱。同时发现,分数阶微分光谱与 LNC 的相关 性优于一阶微分和二阶微分光谱,这表明,与整 数阶微分相比,分数阶微分更能有效地提高单波 段光谱与目标变量之间的线性相关。
3.2.2 冠层FOD两波段光谱指数与LNC响应关系
LNC 与 FOD 两波段光谱指数相关分析结果见 图5和图6。可见随着阶数增加,FOD结合NDSI与 LNC相关性总体呈现“下降—上升—下降—上升” 趋势。结合 NDSI处理后各微分阶数表现,选取处 理效果显著的进行相关性展示。图 5 (a) 中原始 冠层光谱结合 NDSI相关系数绝对值最大值从单波 段处理的 0.384 提升至 0.607;图 5 (b) 中绿光 (490—570 nm) 和 SWIR1 (1400—1800 nm) 联合 区域相关性有很大下降;图 5 (c) 中 NIR (780— 1000 nm) 和SWIR1 (1500—1700 nm) 联合区域出 现高相关性,且呈现正负相关交替现象;图5 (d) 中对应联合区域的相关性更为破碎,高相关性区域 比1阶处理更狭窄,在可见光区域 (500—680 nm) 表现较为明显。相比而言,Vis-NIR 波段 (550— 1000 nm) 和 SWIR1波段 (1000—1500 nm) 与 LNC 的线性关联较强,其中 550—1500 nm 波长组合在 0—1 阶均有较高的相关性,并且越偏向可见光谱 区线性相关越高。
FOD 结合 DSI的相关性分析结果见图 6。随着 阶数增加,FOD结合DSI与LNC的相关性总体呈现 “下降—上升—下降”趋势,与 FOD 结合 NDSI 相 关性变化趋势略有不同。结合DSI处理后各微分阶 数表现,选取处理效果显著的进行相关性展示。 图6 (a) 中原始冠层光谱结合DSI的相关系数绝对 值最大值从单波段处理的 0.384 提升至 0.593,略 低于 NDSI 处理的 0.607;图 6 (b) 中 NIR (780— 1000 nm) 和 SWIR1 (1500—1700 nm) 联合区域 出现正负相关性交替地带;图 6 (c) 中可见光区 域出现强相关条带,且总体上相关性呈现“十字 交叉”的条纹分布;图 6 (d) 中 1.5 阶处理下条 纹分布比 1.0 阶分布更为密集,然而可见光区域 仍然显现一条强相关条带。Vis-NIR 波段 (550— 1000 nm) 和SWIR1波段 (1000—1500 nm) 与LNC 的线性关联也较强,这与 FOD 结合 NDSI 处理表 现一致。
综上,光谱反射率可以反映植被对光吸收的 能力,吸收越多,光谱反射率越低,植被光能利 用率就越高,而植被对光谱的吸收能力与叶片生 理生化特性等有密切关系。如在可见光与近红外 光波长范围内,叶绿素含量是影响植被光谱反射 率的主导因素,氮素作为植物体内重要的营养元 素,是叶绿素的主要组成成分,因此,氮素含量 直接影响植物光系统活性,进而表现出氮素含量 与可见光范围的光谱反射率呈负相关的特征,与 近红外范围光谱反射率呈现正相关特征,这与油 茶、苹果的叶片光谱采用微分处理的细节信息等 研究结果一致 (杨迈 等,2024)。另一方面,氮素 含量的变化会引起植物冠层和叶片形态结构的变 化,从而引起光谱特征变化,导致光谱反射率与 氮素高度相关。值得注意的是,FOD 结合两波段 光谱指数 (NDSI 和 DSI) 与 LNC 之间的最大绝对 相关系数均高于原始 (0 阶) 冠层两波段光谱指 数。甚至在分数阶微分(1.5阶)处理下的冠层两波 段光谱指数与LNC的相关性优于整数阶微分 (1阶 和2阶) 光谱指数,这进一步说明了分数阶微分有 提高光谱特征与目标变量 (LNC) 之间的线性相关 的特点。
3.3 基于VCPA算法的光谱变量筛选
LNC 的 FOD 冠层光谱及 FOD 与两波段光谱指 数组合,再经过VCPA算法筛选出了最优变量组合 子集,具体信息包括每个处理类型对应保留变量 个数和具体的入选波长位置 (表4和表5)。由表4 可知,经过分数阶微分预处理后保留变量数有所 增加,这表明使用预处理方法可以提升VCPA挖掘 潜在信息的能力;同时,从入选波长位置来看, LNC优选波段主要位于可见光谱区 (Red)、NIR和 SWIR2波段。但是,组成最优变量子集的波长并非 都位于线性相关程度较高的敏感区间,如1033 nm、 1535 nm、2140 nm 等,进一步说明对光谱变量的 选择不能简单地以最大相关系数所在波长为单一 输入变量。由表5可知,FOD结合两波段光谱指数 保留变量数也呈现出与表4相同的趋势,该结果证 实,预处理结合光谱指数可以进一步提升VCPA筛 选变量的潜力。与此同时,通过比较 FOD 结合 NDSI 与 FOD 结合 DSI 变量数发现,前者的变量数 要略少于后者,这一现象可能与两种处理方式下 对应的相关性分布差异有关,进一步表明特征筛 选受不同处理方式的影响较大。LNC 的两波段光 谱指数在入选波长组合位置分布上呈现多数处在 可见光谱区 (Green、Red)、NIR 和 SWIR2 联合区 域,且随着分数阶增加,更多的 NIR 和 SWIR2 联 合区域被选为特征变量。
3.4 基于薄壳山核桃冠层
FOD 光谱的 LNC 模型 估算 LNC 的 FOD 冠层光谱及 FOD 联合两种两波段 光 谱 指 数 形 式 组 合 对 应 的 27 种 机 器 学 习 模 型 (XGBoost) 评价结果见表6。模型指标内容包括训练集和预测集的 R2 、RMSE。LNC 模型在训练集 的表现R2 T为0.48—0.89,RMSET为1.12—2.37 g/kg, 在预测集的表现R2 P为0.21—0.75,RMSEP为1.32— 3.07 g/kg,可以看出,不同组合类型得到模型的估 算性能存在明显差异。
综合分析经过冠层 FOD 光谱与 FOD 联合两波 段光谱指数 (NDSI 和 DSI) 处理后的提升效果, FOD(0—2阶)处理中R2 T为0.40—0.67,R2 P为0.21— 0.59;FOD 结合 NDSI 处理的 R2 T 为 0.64—0.89,R2 P 为 0.41—0.73;FOD 结合 DSI 处理的 R2 T 为 0.57— 0.89,R2 P为 0.50—0.75,表明随着光谱波段维数的 增加,LNC 模型估算精度上限会随之提高。冠层 FOD (1.25 阶) 光谱与 FOD 联合两波段光谱指数 (1.5 阶-NDSI 和 1.5 阶-DSI) 处理后的模型估算精 度相比较一阶和二阶微分更高,整体估算性能也 更好。总体上来看,分数阶与光谱指数 (NDSI 和 DSI) 组合的 R2 平均值分别为 0.67与 0.69,可以得出分数阶结合DSI对LNC整体估算性能的提升更加 优越。
为了进一步评价 LNC 最优模型的估测值与实 测值间的变化情况,根据样本实测值和估测值制 作 FOD 冠 层 光 谱 与 FOD 联 合 两 波 段 光 谱 指 数 (NDSI 和 DSI) 最优模型的散点图 (图 7—图 9)。 由图7可知,1.25阶光谱的LNC估算模型在训练集 中R2 T=0.63,预测集中R2 P=0.59,表明模型能够解释 训练样本中 63% 的变异程度,但模型在预测集中 的表现略低。与此同时,观察 95% 置信区间的倾 斜方向发现,估算 LNC 时会出现低值高估和高值 低估的现象。由图 8可知,1.5阶结合 NDSI的 LNC 估算模型在训练集中R2 T=0.84,预测集中R2 P=0.73,模 型表现优于1.25阶光谱的LNC估算模型,95%置信 区间的倾斜方向也出现了低值高估和高值低估的现 象。由图9可知,1.5阶结合DSI的LNC估算模型在 训练集中的评估指标R2 T=0.89,RMSET为1.12 g/kg, 在预测集中的 R2 P=0.75,RMSEP 为 1.32 g/kg,分别 解释薄壳山核桃 LNC 训练样本中 89% 和预测样本 75% 的变异程度,意味着该模型能够较好地通过 冠层高光谱数据的特征信息准确地反映薄壳山核 桃 LNC 的变化。模型的估测值与实测值散点均匀 地分布在标准1∶1线附近。
4 讨 论
与传统单一的一阶导、二阶导等高光谱预处 理相比,本文综合运用多种分数阶微分联合光谱 指数定量分析光谱特征与目标变量的响应关系, 进一步结合变量组合集群分析算法构建最优薄壳 山核桃叶片氮素估算模型。
发现经过分数阶微分变换后,光谱反射率能 提供比原始光谱精度更高的分辨率和更清晰的光 谱轮廓,并增强了反射率与植物属性间的相关性 (刘浩 等,2023)。对比原始光谱和 FOD 光谱与薄 壳山核桃 LNC 的相关性分析,不同分数阶处理下 薄壳山核桃冠层光谱与目标变量的相关性均显著 提高,说明分数阶微分算法能够更好的表征光谱 的细节信息 。Hong 等 (2019) 的结果也证实 , FOD 处理过的特定波长光谱与石油有机物的相关 性比与原始光谱的相关性显著提升。
由于不同营养物质的叠加作用以及冠层结构 参数的影响,单个波段反射率的作用有限,使用 两个或多个波段的光谱反射率的比值经过线性或 非线性组合构造的光谱指数,将光谱的重要信息 压缩到一个光谱指数通道,能够有效减少背景效 应,增强光谱特征以提高对目标变量的敏感程度 (刘爽 等,2021)。对比分数阶微分与单波段结合, 两波段光谱指数 (NDSI 和 DSI) 的结合与薄壳山 核桃 LNC 的相关性提升效果更优。FOD 与不同代 数运算形式的光谱指数组合有效地增强光谱变换 特征对薄壳山核桃 LNC 的线性度量,很重要的原 因也就是不同方法之间形成优势互补,减少干扰 因子对所构建的光谱指数产生影响,这个结果与 Chen等 (2022) 的研究相吻合。
随着微分阶数的提高,不论是单波段光谱还 是两波段光谱指数 (NDSI 和 DSI) 与薄壳山核桃 LNC 的相关性与模型精度整体均呈现出先升后降 的趋势。究其原因,分数阶微分是整数阶微分变 换的拓展与延伸,可以提取整数阶微分无法表征 的渐变性信息。但是,随着微分阶数的提高,背 景噪声被逐渐削弱,高频噪声会被逐渐放大,也 减少了反射率数据中的潜在敏感信息,致使光谱 信息信噪比降低,进而影响相关性与模型精度 (向友珍 等,2023)。同时发现,分数阶结合单波 段反射率在 1.25 阶微分下与 LNC 相关性及其构建 的预测模型精度均高于 1阶与2阶整数微分。两波 段光谱指数 (NDSI和 DSI) 与分数阶 1.5 阶结合相 关性及其构建的预测模型精度也均高于 1阶与2阶 整数微分,这与 Hu 等 (2021) 的研究结果一致, 为进一步探索高光谱反射率分数阶微分变换提供 参考。
20 世纪 60—70 年代,美国农业部 (USDA) 研究人员在实验室条件下通过捣碎多种植物干叶 片,获得 400—2400 nm 内 42个生物化学成分相应 的光谱吸收特征,这奠定了光谱遥感估测叶片生 化组分的基础。研究结果表明,可见光谱区中 Green 波段对应的生化组分主要是叶绿素,Red 主 要是淀粉和蛋白质,NIR主要是氮素、淀粉、蛋白 质、纤维素和木质素,SWIR2 波段主要是氮素、 淀粉、蛋白质和纤维素 (刘良云,2021)。因此, 氮在 Green、Red 范围的光谱特征实质上是通过氮 素与叶绿素之间存在强相关性进行表达的,在NIR 和SWIR2范围的光谱特征则是通过淀粉、蛋白质、 纤维素和木质素等含氮有机物所表达。另一方面 氮素含量的变化会引起植物冠层和叶片形态结构 变化进而引起光谱特征变化,如 NIR 受叶片叶肉 细胞排列和冠层结构的影响。我们的研究结果也 证实了这一观点,LNC 优选的单波段主要位于可 见光谱区的 Red、NIR 和 SWIR2,LNC 的两波段组 合在入选波长位置多数呈现在可见光谱区的 Green 和 Red、NIR、SWIR2 的联合区域,这一结论与王 仁红等 (2014) 认为小麦生育中后期冠层氮素反 应敏感且受组织结构因素影响较小的观点相呼应。 机器学习往往能很好的解释非线性关系,但是,模型的训练需要大量样本和适合的超参数。本文 采用集成学习算法进行估算,有效地规避了小样 本建模估算的问题,结合更多的理论和数据可能 会带来更令人期待的估算结果,实现模型估测精 确性和普适性的有效统一。
本文仅选择果实成熟期的薄壳山核桃建立了 LNC 估测模型,随着生长地域、品种、物候期的 变化,冠层光谱与氮素含量的响应关系也会发生 变化,该模型是否适用于薄壳山核桃不同品种、 不同生育期的LNC的预测还需进一步验证。此外, 本文利用地面高光谱特征探讨了薄壳山核桃冠层 光谱尺度 LNC 估测中的可行性,随着样本数据和 研究区域的增加,使用多光谱与无人机高光谱等 多源遥感手段监测大面积核桃林地的养分也将成 为可能。
5 结 论
本研究基于果实成熟期的薄壳山核桃冠层高 光谱数据,综合运用分数阶微分进行光谱预处理, 联合光谱指数定性和定量分析光谱响应关系,进 一步结合变量组合集群分析算法筛选建模变量, 最后通过机器学习算法构建最优的薄壳山核桃 LNC估算模型。主要结论如下:
(1) 分数阶微分可以减少基线效应,消除背 景噪音,通过细化光谱间距放大微弱的光谱吸收 特征,继而提高光谱与目标变量的响应关系。与 原始光谱相比,FOD 处理后的光谱与 LNC 的相关 性均大幅度的提高。FOD 结合两波段光谱指数比 单波段在提高光谱特征与目标成分的相关性效果 更佳。
(2) 基于冠层高光谱分数阶微分算法,结合 单波段和两波段组合的光谱指数 (NDSI 和 DSI) 及变量筛选 (VCPA) 构建了27个薄壳山核桃LNC 的XGBoost模型。其中,分数阶结合单波段光谱或 两波段光谱指数相比整数阶模型效果都更好,且 分数阶微分结合两波段光谱指数模型精度优于单 波段光谱。最优的氮素模型是 1.5阶微分变换结合 DSI模型,模型预测集R2 P=0.75,RMSEP=1.32 g/kg。