分析测试学报杂志投稿须知
投稿、审稿与发表
(1)请登录本刊网站(www.fxcsxb.com)在线投稿。本刊接收英文稿件投稿。投稿后作者可上网查看稿件状态。
(2)本刊鼓励网上在线投稿,如非特殊情况,不接受E-mail投稿。
(3)本刊严格执行编辑初审、同行评议、主编终审的审稿制度。
(4)对于经审理后有发表价值的稿件,作者须根据审稿意见认真进行修改,在指定时间内在线提交修改稿及修改说明,修改说明中需逐条回答审稿意见中提出的问题。并将修改稿、审稿意见、修改说明等合成一个WORD文件通过网站上传,经审核后,决定是否录用。
(5)稿件通过“万方数据论文相似性检测系统”(http://fxcsxb.wanfangtech.com)和“科技期刊学术不端文献检测系统(AMLC)”检测时,文章重复率不得超过20%。
(6)对于送作者修改的稿件,请作者将稿件版权转让协议书交由全体作者签字,并将版权协议书扫描电子版发回编辑部。本刊除印刷版外,还具有光盘版和网络版等电子版本。稿件一经录用,所有版本的版权即转让给本刊。
(7)本刊已加入中国知网“网络首发”平台,论文一经录用,①论文题目、作者署名、机构署名不能修改;②文章可以基于编辑规范进行少量文字和符号的修改,但文章主要的学术观点和学术数据不能修改,请作者在退修阶段仔细核对。
(8)稿件录用后,将通过E-mail通知版面费金额。不收取其他费用。
(9)稿件发表后即赠当期《分析测试学报》1册,并向稿件通讯作者支付相应稿酬。
(10)本刊是开放获取期刊,本刊发表的所有论文,一经发表将立即和永久供读者免费阅读及下载。
来稿要求
(1)根据《著作权法》规定,文稿的著作权属于作者,文责由作者自负。本刊依照《著作权法》有关规定,有权对来稿进行文字修改、删节。
(2)来稿应观点明确,数据完整、准确,文字精炼,层次分明, 需附中、英文题目、摘要及关键词。
(3)中、英文摘要的要求:①摘要表达简洁,能独立成文,勿须背景信息,第一句不要重复题目;②摘要应包括论文的研究目的、研究过程及采用的方法、主要结果及结论。其中重点是对结果和结论的表述;③摘要中不要出现图、表、参考文献等;④摘要中首次出现英文缩写应有中、英文全称;⑤中文摘要不少于5~6个完整句子。英文摘要中,研究性论文应不少于400个词,综述性论文应不少于200个词。
(4)按国家标准规范使用名词术语、计量单位。文中第一次出现的翻译名词和外文简写要分别加注原文和中文。
(5)文中插图按规范认真描绘,标值线、标值、标目必须齐全,标值必须准确,横纵坐标标目使用法定的量符号及单位,放在坐标外侧居中。图题、图注、图内文字用中、英文对照表述。图题用中、英文分列表述,中文在前;图注英文在前,中文加注在英文后的括号内。表格须编号并附题,采用三线表列出。表题用中、英文分列表述,中文在前;表头用中、英文表述,英文在前;表注为英文表述在前,中文加注在英文后的括号内。
(6)来稿请署真实姓名、工作单位和通讯地址(包括邮编、电话号码及E-mail地址),并在第一页底脚注明通讯作者的学位、职称、研究方向、电话号码及E-mail;基金资助项目请注明项目名称及基金号。
进入期刊首页作者:李昌盛,高树辉
作者单位:中国人民公安大学
关键词:可见光-近红外高光谱成像(Vis-NIR HSI);文件检验;朱墨时序;机器学习;1D-CNN
摘 要:刑事文书检验领域中,文字墨迹与印章印文形成时序的分析是验证文书物证真伪的关键技术。该文 基于可见光-近红外高光谱成像技术(Vis-NIR HSI)图谱合一优势,结合卷积神经网络(CNN)研究了朱墨时序 的判别问题。在光谱影像形态分析的基础上,采集了42 000个不同朱墨时序样品的高光谱数据,建立朱墨时 序高光谱数据集。分别使用中值滤波、Savitzky-Golay平滑滤波、多元散射校正和归一化方法对样本光谱进行 预处理;采用连续投影算法(SPA)和竞争自适应重加权采样(CARS)对光谱进行特征波长选择,分别建立逻辑 回归(LR)等若干二分类机器学习模型和一维卷积神经网络(1D-CNN)模型,并比较了建模效果。实验结果显 示,基于 CARS 方法提取的光谱特征波长建立的 CARS-1D-CNN 模型在训练集和测试集上的准确率分别达 96. 98%和95. 54%,表明Vis-NIR HSI与1D-CNN结合能够有效识别朱墨时序。该方法与常规检验方法相互辅 助、相互验证,能够提高朱墨时序检验鉴定的准确性和效率。
文书物证在法律诉讼中扮演着至关重要的角色,是查明案件事实和真相的关键证据形式之一,常见的文书物证有收据、借条、合同、证明文件等。文书在制成过程中,通常需要遵循一定的格式和规 范,以确保其正式性和有效性,并且其行文程序也存在一定的时空秩序[1] 。在刑事文书检验领域,对 于文书中文字墨迹与印章印文形成时序的分析,即朱墨时序鉴定,已成为验证文书物证真伪的关键技 术手段。朱墨时序鉴定的传统检验方法主要分为无损检验方法和有损检验方法。其中,无损检验方法 包括光学显微检验法[2] 、三维立体显微检验法[3] 、激发荧光检验法[4] 、显微分光光度检验法[5] 、激光显 微拉曼光谱检验法[6] 、显微红外光谱检验[7] 、光学相干层析检验[8] 等;有损检验方法包括切割法[9] 、剥 离法[10] 、成分分析法[11] 、脱色法[12] 、转印法[13] 、吸附法[14] 等。普通情况下,这些传统的检验方法非常 有效,但在检验智能化、鉴定效率及准确率等方面仍面临诸多挑战,特别是各类有损检验的方法会对 检材造成一定程度的损伤,无损检验方法中显微检验的方法存在对检验人员经验主观依赖度较高等 问题。
可见光-近红外高光谱成像技术(Vis-NIR HSI)通过获取物体表面在可见光-近红外波长下的反射或 辐射光谱数据,反映物体的详细光谱特征。该技术通过为每个像素提供近乎连续的光谱曲线,获得目 标物的详尽数据。最新研究表明,Vis-NIR HSI技术作为一种快速、无损的光学检验方法,能够满足法 庭科学对物证检验的要求。Mariotti等[15] 进行了一项关于HSI技术在法医学领域应用的综述研究,回顾 了 2011~2021年间的文献,提出了利用 HSI技术结合化学计量学工具进行法医学证据分析的方法,解 决了诸如文件检验、血迹检测、爆炸物和射击残留物识别等复杂问题,并指出了在实际案件中应用 HSI技术时存在的挑战,如环境因素影响、样本制备的复杂性以及对高级算法和计算能力的需求。刘 康康等[16] 介绍了HSI技术的基本原理和工作流程,探讨了其在文件检验、血迹检验和指纹检验等法庭 科学领域的前沿应用,分析了技术发展中的困境,并展望了未来发展趋势。张浩等[17] 利用HSI技术采 集 18 种不同车型的 54 个车漆样本的高光谱图像,并建立了一维深度残差收缩网络(1D-DRSN)模型, 有效提高了现场车漆物证的识别准确率,解决了传统方法在车漆识别上的局限性。庄园等[18] 通过使用 HSI技术对30种载体上的180组人血、动物血及其混合血样本进行光谱成像分析,提出了一种基于HSI 技术的血痕种属无损鉴定方法,为血痕鉴定提供了新的技术手段。
近年来,不少研究者已成功将Vis-NIR HSI技术结合模式识别方法运用于法庭科学文件检验领域。 Melit Devassy 等[19] 将 t-分布式随机邻域嵌入(t-SNE)应用于油墨样本高光谱数据的降维与可视化分析 中。通过与经典的主成分分析(PCA)方法进行比较,结果表明 t-SNE技术在提高数据降维质量和增强 聚类效果方面具有显著优势。王书越等[20] 利用HSI获取了20种印章油墨的高光谱数据,以单个印章油 墨图像区域作为 ROI区域并基于 10×10像素融合的方法得到平均后的光谱数据。结果表明,构造的卷 积神经网络(CNN)模型优于反向传播神经网络(BPNN),对测试集的分类准确率达到 97. 94%。Yaseen 等[21] 进行了高光谱成像技术在添改笔迹伪造文书检测中的应用研究,提出了一种基于K-means聚类的 墨水不匹配检测技术,解决了通过独特光谱响应区分视觉相似墨水的问题,但该方法可能由于算法简 单,存在对更复杂伪造情况的检测精度不足的问题。
上述研究中,鲜有涉及伪造文书朱墨时序问题的解决方案。为此,本文探讨了一种结合 Vis-NIR HSI与机器学习的新型模式识别方法,旨在实现对朱墨时序的有效判别。通过分析朱墨时序文件样品 的光谱反射率曲线差异,建立了 3组不同类型的朱墨组合高光谱数据集。在此基础上,结合多种机器 学习算法,构建了朱墨时序的分类识别模型,旨在利用 Vis-NIR HSI技术开发一种智能化、高效、无 损且精准的朱墨时序鉴定新方法,为传统朱墨时序鉴定方法提供辅助与补充。
1 实验部分
1. 1 样品准备
朱墨时序样品制作:选择重量为70 g/m2 的常规A4纸张作为基底,使用常见激光式打印机与3种常 见的红色印章印油(印泥、油基印油和水基印油)制作不同朱墨时序的样品,样品制作选择的材料如表 1所示。
样品由同一人制作,分别使用打印机打印字迹、印章印迹在纸张上制作不同朱墨时序的实验样品。 为更好地模拟实际情况,制作不同朱墨时序样品时,朱墨相交叠的时间间隔设置为24 h。在印章盖印过程中,操作者保持正常力度,以确保印迹浓淡一致。不同朱墨时序样品的图片见图1。
如图所示,打印字迹与印章印迹组成的朱墨时序样品在微观特征上差异极小,导致肉眼观察及普 通显微镜下的辨别变得异常困难。而机器学习技术在处理复杂数据模式和提取细微特征方面具有优势, 有望克服传统方法在分辨朱墨时序微观差异时的局限。鉴于此,本文尝试通过机器学习模型进行区分。
1. 2 实验仪器和数据采集
1. 2. 1 可见光-近红外高光谱成像系统
实验设备为推扫式可见光-近红外高光谱成像系统,该系统 由卤素灯光源、成像光谱仪、铝型材支架、样品台、计算机及控制装置等组成,其中高光谱成像仪型 号为Pika XC2,光谱范围为400~1 015 nm,光谱分辨率为1. 3 nm,光谱通道数为462个。光源为8个卤 素灯,功率为50 W。
1. 2. 2 高光谱图像采集与校正
采集不同朱墨时序样品的可见光-近红外高光谱数据,构建朱墨时序 高光谱图像数据集。启动高光谱成像系统,预热30 min,进行图像校正,以确保图像数据的准确性[22] 。 使用反射率接近99. 99%的标准聚四氟乙烯白色校正板获取全白的标定图像,盖上镜头盖进行采集,得 到反射率几乎为0%的全黑标定图像,拍摄样品原始图像,使用白板与暗电流的平均数字数值(DN值) 计算光谱反射率,获得校正后的图像。校正公式见式(1):
式中,Iraw是原始采集的高光谱图像,Iw是全白的标定图像,Id是全黑的标定图像,I是校正后的高光谱 图像。校正完成后,将不同朱墨时序的样品置于高光谱成像系统的移动样品台上,设置样品台移动速 度0. 719 9 cm/s,成像系统扫描长度3 050 lines、帧率30 fps、融合时间9 ms,增益0 dB,进行样品的高 光谱图像采集工作。
采集的不同组合的朱墨时序样品的数量见表2。朱墨时序样品被分为3组类别,使用激光打印机字 迹分别与3种印章印迹(印泥、油基印油和水基印油)进行组合,分别编号为P1S1、P1S2和P1S3,每种组合中不同朱墨时序的印章样品均为480个,其中不同朱墨时序的印章样品各240个,设定样品中朱墨 相交处为ROI区域,在ENVI软件中通过手动选取像素点的方式,分别采集不同朱墨时序ROI区域中的 高光谱数据样本各7 000个,共采集每种组合高光谱数据样本14 000个。
将样本数据集按照 60%、20% 和 20% 的比例分别划分为训练集(Training set)、验证集(Validation set)和测试集(Test set),如表3所示。采用随机划分的方式,确保数据样本的分布具有代表性,保持训 练、验证和测试集中的数据样本在类别分布上一致。验证集用于在模型训练过程中进行超参数调优和 监控模型的泛化能力,防止过拟合问题。最终模型的性能通过在独立的测试集上进行评估。
1. 3 实验环境及流程
本 实 验 模 型 在 配 备 有 Intel(R) Xeon(R) Gold 6248R 处理器(24 核心,2. 30 GHz)、256 GB 内存和 NVIDIA A800 显卡(显存容量 80 GB)的服务器上训 练。所有实验均在 Ubuntu 18. 04. 6 LTS 操作系统上 进行,使用 Python 3. 8编程语言,使用 sklearn 1. 3. 2 进行数据挖掘和分析,深度学习模型利用 PyTorch 21. 10 框架进行开发和训练,依赖库包括 NumPy 1. 24. 4、Pandas 2. 0. 3和Matplotlib 3. 7. 5等,代码均 在 Jupyter Notebook 环境中开发和测试。选择特征波 长算法的实现均在MATLAB R2023b平台上完成。实 验从采集不同朱墨时序样品的可见光-近红外高光谱 图像开始,经过图像校正去除噪声和误差,接着使 用多种预处理技术以优化数据质量。通过采用连续 投影算法(SPA)和竞争自适应重加权采样(CARS)方 法选择特征波长,在选定波长基础上训练机器学习 和深度学习模型。最终,通过性能评估步骤如准确 率和召回率等指标来验证模型的分类效果,并对模 型性能进行评价。实验流程如图2所示。
1. 4 模型构建与评估
朱墨时序鉴定模型的本质是一个二分类问题。为找到最优的鉴定模型,将若干经典二分类机器学 习模型如逻辑回归(LR)、支持向量机(SVM)、决策树(DT)、朴素贝叶斯(NB)、K最近邻(KNN)等与本 文提出的一维卷积神经网络(1D-CNN)模型进行比较。为确定合适的模型,本文对每个模型的参数进行 调整,模型的选择经多次实验,并分别基于全波长和特征波长的筛选结果,对各个模型进行比较分析。
1. 4. 1 机器学习模型 LR是一种经典的二分类算法,它利用 sigmoid函数将输入映射为 0或 1的概率 值,从而实现分类,适用于线性可分的数据集。本实验设置LR模型最大迭代次数为1 000,以确保模 型有充分的迭代机会达到收敛;模型采用默认的L2正则化,正则化强度由C=1. 0控制。
SVM是一种常用的二分类算法,通过将样本映射到高维空间,寻找一个超平面来实现分类。支持 向量机具有较强的泛化能力和鲁棒性,适用于非线性可分的数据集。本实验中SVM模型选择线性核函 数,以保证分类效率以及良好的性能;模型正则化强度使用默认值C=1. 0。
DT是一种基于树结构的二分类算法,通过学习数据中的模式来建立一个分类模型,该模型可以根 据其他列的特征值来预测目标变量的类别。本实验中DT模型设置随机种子为42,使每次运行模型时, 分割数据和模型训练的随机性保持一致,从而使结果具有可比性;使用基尼不纯度作为分裂标准,用 于选择最佳的分割点;设置一个节点必须至少有 2个样本才能被分割;设置叶节点至少需要包含 1个 样本。
NB是基于贝叶斯定理的统计分类方法,通过预测一个给定的元组属于一个特定类的概率来进行分 类。本实验采用高斯朴素贝叶斯模型进行分类任务;模型默认设置类的先验概率由数据自动决定;设 置方差平滑参数为1e-9,以增强数值计算的稳定性。
KNN是一种基于实例的学习算法,通过查找训练数据集中最接近的K个邻居来决定一个新数据点 的类别。本实验设置KNN模型使用5个最近邻;采用欧氏距离来计算邻居之间的距离。
1. 4. 2 深度学习模型 卷积神经网络在光谱数据处理中的优势在于其强大的特征提取能力、适用于 多维数据的特性,以及能够自动学习和处理复杂数据的能力,这些优势使得CNN成为光谱数据处理领 域的重要工具[23] 。作为对比,在经典的卷积神经网络二维 CNN模型 LeNet-5 [24] 的基础上提出构建深度 学习模型一维卷积神经网络[25 (] 1D-CNN)对高光谱数据进行分类。1D-CNN模型在处理一维序列任务中 具有优势,高光谱数据的每个像素点都含有从多个波段收集的光谱反射率信息,这些信息可以被视为 一维序列。1D-CNN模型可以有效地从这些序列中提取并自动学习数据中的复杂模式和特征。
本文设计的 1D-CNN 模型的架构如图 3 所示。模型由七层组成,包括一个输入层、两个卷积层、 两个池化层、一个全连接层和一个输出层。每次卷积后,使用 ReLU 激活函数将线性变换转换为非线 性变换,从而提高卷积神经网络的表达能力,池化层用于进一步减少数据的空间维度,提高特征的抽 象层次。经过多次试验和调整,在卷积层设置适合处理高光谱数据的最佳卷积核数量和大小,两个卷 积层分别使用16和32个卷积核,大小均为3,步长均为2,边缘填充为1,设置两个最大池化层的池化 窗口大小为2。将池化层获得的115个特征图展平并输入到全连接层,用于计算大小为2的输出层,最 终输出图层中2种类型的标注,分别对应不同类别的朱墨时序样本,同时输出分类精度。模型训练时, 使用交叉熵损失函数[26] 和 Adam 优化器[27] ,初始学习率设置为 0. 001,迭代次数设置为 500 次。同时, 使用L2正则化方法防止模型过拟合,公式(2)为该模型的目标方程。
其中,y是真实标签的表示;z是模型输出的logits,即全连接层的输出,包含了模型预测该样本属于每 个类别的原始分数;N表示批次中的样本数量;C表示类别数量(本实验中,类别数为 2),yi,c表示样 本i的真实类别;zi,c表示模型对样本i预测为类别c的logit;θ表示模型的所有权重参数;λ表示正则化 强度;θk表示模型中的第k个权重参数。
1. 4. 3 模型评价方法 采用准确率(Acc)、精确度(Pre)、召回率(Re)、特异性(Sp)和 F1 分数(F1 Score)等多种评价指标对上述分类模型进行评价,从不同角度理解模型的表现。准确率是正确分类样 本的比例。精确度是预测正类中实际为正的比例,召回率表示正类样本中被正确识别的比例,特异性 是负类样本中被正确预测的比例,F1 分数平衡精确度和召回率,模型评价指标具体计算公式如公式 (3)~(7)所示。
式中,TP表示正确预测为正类的样本数;TN表示正确预测为负类的样本数;FP表示错误预测为正类 的样本数;FN 表示错误预测为负类的样本数。采用混淆矩阵对分类结果进行说明,包括总分类准确 率、各类分类准确率、正确分类样本数、错误分类样本数等。
2结果与讨论
2. 1 光谱曲线分析
光谱反射率曲线是能够描述物体在不同波长下反射光的能力的图形表示,可以揭示物体表面的颜 色特性。对朱墨时序样品而言,不同种类的打印机墨迹与印泥印油构成了交叉部位不同的物质组成, 因此光谱反射率曲线也存在差异。激光打印机与3种印泥印油(P1S1、P1S2和P1S3)组合的不同朱墨时 序样品朱墨交叉部位的光谱反射率曲线如图4所示。
本文选取 P1S3数据集进行展示。随机抽取 200个样品,其中不同朱墨时序的样品各 100个,绘制 不同朱墨时序样品的光谱反射率曲线以及平均光谱反射率曲线,如图 5所示。观察平均反射率曲线发 现,在感兴趣的波长范围内,先朱后墨(Print after sealing)样品朱墨交叉部位的光谱反射率曲线与先墨 后朱(Seal after printing)的样品存在一定差异,在400~450 nm波长范围,两个类别的反射率逐渐下降且 曲线较为接近,难以区分;在450~580 nm波长范围,两个类别的反射率均较低,先朱后墨的平均反射 率稍高于先墨后朱;在 580~1 015 nm 波长范围,两个类别的反射率整体呈现波动上升的趋势,其中 850~900 nm,两个类别的反射率均呈逐渐下降的趋势,其平均光谱的差异增大。整体来看,3组先朱 后墨样品朱墨交叉部位的平均反射率均高于先墨后朱样品,但不同朱墨时序样品的原始反射率曲线趋 势相似且存在部分重叠,具有相似的峰谷位置,区分难度较大。因此本文借助有监督的机器学习及深 度学习方法,对不同朱墨时序样品的高光谱数据进行分类识别。
2. 2 光谱预处理结果
本文采用中值滤波(MF)、Savitzky-Golay平滑滤波(SG)、多元散射校正(MSC)和归一化4种方法[28] 对高光谱数据进行预处理。首先,使用中值滤波去除光谱中的明显噪声;接着使用SG平滑进一步平滑 数据,减少高频噪声的影响;在对数据进行平滑之后,使用MSC纠正光谱数据中的散射效应,使不同 样品的光谱数据具有可比性;最后,对数据进行归一化处理,以确保不同特征之间的数据具有相同的 重要性,并且使不同特征的比较更具可比性。预处理完成后的数据将用于后续的特征波长提取及模型 训练。图6为光谱数据预处理前后的对比图。
2. 3 特征波长提取结果
2. 3. 1 SPA 连续投影算法[29 (] SPA)是一种适用于处理高光谱数据的特征选择技术,通过连续的投影 操作逐步选择相互独立的波长,以减少多重共线性和数据冗余。使用SPA算法选择特征波长,设置选 择最大波长数为30,通过迭代运算共提取18个特征波长变量,如图7所示。图7A展示了变量选择过程 中的均方根误差(RMSE)的变化,随着包含变量数目的增加,模型的RMSE值逐渐降低,最终当变量数 选择18时,RMSE区域平稳,此时RMSE值为1. 796 4。之后RMSE值虽有小幅波动,但考虑到模型的 运算量和复杂度,最终选择 18个变量数作为最终的特征波长数。图 7B给出了选定变量在光谱数据中 的位置,可以看到特征波长的位置集中在400~450 nm以及500~750 nm。
2. 3. 2 CARS CARS [29] 是一种用于光谱数据特征选择的高效技术,特别适用于从大量波长中选择最 有信息量的波长子集。CARS算法提取特征波长的过程如图8所示。
蒙特卡洛采样次数设置为 50,使用 5 折交叉验证法提取特征波段。图 8A 中,随着采样次数的增 加,所选波长的数量逐渐减少,在第 25次采样之后,特征波段变量数目下降变缓。图 8B中,交叉验 证的均方根误差(RMSECV)先减小后增大,并且在采样次数达到25次时达到最小值,说明此时模型的 预测误差最小。在第40次采样时均方根误差急剧上升,说明CARS筛选过度,使有效特征变量数目减 少,导致预测模型精度下降。图8C为回归系数路径图,在采样次数较少时(左侧),大多数波长的回归 系数变化较大,说明这些波长对模型的贡献还不稳定。随着采样次数的增加(中间部分),波长的回归系数逐渐趋于稳定,说明这些波长对模型的贡献较大且稳定。在蒙特卡洛采样次数达到25次时,采样 的特征波段对模型的贡献较大且稳定,包含朱墨时序样品光谱特征的有效波段,此时选取的特征波段 变量数为31。
2. 3. 3 特征波长选择结果 表4和图9为通过不同方法获得的特征波长。高光谱成像系统共有462个 波段,SPA和 CARS方法选择的波长数分别为 18和 31。SPA方法选择的波长分布较为分散,覆盖了整 个波长范围;CARS方法选择的波长集中在几个特定的波段,特别是在 500~600 nm和 900~1 000 nm之 间。两种方法在特征波长选择上的差异,反映了它们在处理光谱数据时的不同策略和侧重点。具体来 说,SPA 方法通过逐步投影来减少冗余信息,而 CARS方法通过竞争性加权采样来选择最具代表性的 波长。
2. 4 模型分类效果分析
2. 4. 1 基于全光谱波段的建模和分析 分别使用 LR 等 5种机器学习模型及 1D-CNN 模型对 3种朱墨 组合(P1S1、P1S2和P1S3)不同朱墨时序样品构成的可见光-近红外光谱数据集进行训练并评估,实验 中的光谱数据包含了全部的462个波段,不同组别的实验结果如表5所示。从表5可以看出,各个模型在不同组别光谱数据集上所表现出来的性能具有相似性,组别因素对模型性能的影响较弱。本文以 P1S3组别为例进行详细介绍。
从表 5中可以看出,在 P1S3组别中,1D-CNN模 型的分类效果最好,训练集和测试集的总体分类准确 率分别达到 95. 34%和 93. 42%,其次是 SVM、KNN和 LR,训练集和测试集的总体分类准确率均大于 90%; NB 模型的分类效果较差,训练集和测试集总体分类 准确率分别为50. 89%和50. 45%;DT模型在特定类别 上的训练表现较好,准确率高达 100%,但该模型在 测试集上的表现较差,准确率仅为87. 79%。
LR 模型适用于线性可分的数据,但对于高光谱 图像中的复杂光谱模式,其表现受到限制;SVM模型 的高准确率验证了其在高维非线性空间中的判别能 力,通过核函数映射显著提升了分类性能;DT 模型 的训练准确率为 100%,测试准确率显著降低,表明 模型严重过拟合,无法泛化到未见数据,高光谱数据 的复杂性和噪声可能导致决策树过拟合;NB模型在高光谱图像数据上的表现显著较差,说明光谱波段 之间的相关性强烈影响了分类效果;KNN表现良好,表明其能够利用高光谱数据的局部相似性来进行分类,但维度高会导致计算成本增加。1D-CNN模型能够自动提取高光谱图像中每个像素点的局部光 谱特征,非常适合处理这种数据形式,卷积操作可以捕捉波段之间的相关性和非线性特征。实验结果 表明,表现最好和最差的模型分别为1D-CNN模型和NB模型。这些模型对不同朱墨时序样品的分类结 果见表6。
从表 6可以看出,1D-CNN模型在各类的识别中表现最佳,不同类别的测试集准确率均超过 93%, 且两个类别几乎没有区分,表现均匀,说明其具有较好的特征提取和泛化能力。LR和DT模型在两个 类别上的表现较为均衡,整体准确率与类别准确率相近,显示出较好的泛化能力。NB模型对先墨后朱 (Seal after printing)在测试集上的分类效果远优于先朱后墨(Print after sealing),对先朱后墨类别的低预 测准确性可能是由于特征间相互依赖导致的模型不适应。SVM和KNN模型整体表现良好,在训练集和 测试集上对先朱后墨的分类略优于先墨后朱,这可能是由于这个类别在特征空间中的样本更为集中或 具有更高的相似性。不同模型的ROC曲线及混淆矩阵如图10所示。
2. 4. 2 基于不同特征波长的建模和分析 通过 SPA和 CARS方法对光谱数据进行处理选择特征波长, 并将输出的特征波长数据作为模型的输入,结合上述模型对不同特征波长情况下朱墨时序的类别进行 分类训练。比较分析在全光谱波段(FSB)下建立的模型与在SPA和CARS方法提取的特征波长条件下建 立的模型的差异,结果见表7。
从表7来看,不同的波长提取方法能够影响模型的性能,基于CARS方法建立的模型比基于SPA方 法所建模型的性能更好,并且除 KNN 和 DT 模型外,其余模型的性能均优于基于全波长建立的模型。 1D-CNN 模型在所有特征波长提取方法下的表现最优,尤其是在 CARS 方法下,测试集的准确率达到 95. 54%,SVM模型次之,表现也较为稳定。因此,基于 CARS方法提取的特征波长建立的 1D-CNN 模 型为最佳模型。该模型在训练集和测试集上的准确率分别达到 96. 98%和 95. 54%,对数据集中不同类 别样品的识别准确率均达到95%以上,模型性能优异,混淆矩阵如图11所示。
3 结 论
本文研究了结合Vis-NIR HSI和1D-CNN模型识别不同种类朱墨时序样品的有效性和鲁棒性。提出 了一种基于朱墨时序样品朱墨交叉部位光谱数据集的 1D-CNN 识别模型,并对 SPA 和 CARS 方法提取 的全波长和特征波长进行建模分析,深度挖掘光谱数据规律。同时,将LR、SVM、DT、NB和KNN等 若干经典二分类机器学习模型与 1D-CNN 模型进行比较,通过 18种不同方法的组合分析模型的性能, 结果发现最好的分类模型是基于 CARS方法提取的特征波长建立的 1D-CNN 模型,最差的分类模型是 基于全波段建模的NB模型。基于CARS方法提取的特征波长建立的1D-CNN模型在训练集和测试集上 的识别准确率分别达到96. 98%和95. 54%,且在所有数据集上均表现良好。结果表明,Vis-NIR HSI与 机器学习相结合,能够对朱墨时序进行无损检验,作为辅助检验手段,提高了朱墨时序鉴定的准确率。 下一步,将增加不同种类朱墨时序样品的采集范围,构建更多种类、更大容量的朱墨时序样品高光谱 数据集进行训练,尝试更多更新的、针对 Vis-NIR HSI数据特点进行优化的波长选择方法、进一步优 化模型超参数等,为朱墨时序智能鉴定提供新的方法和思路。