近红外光谱技术识别沾化和陕西冬枣产地的研究

时间：2022-05-03 12:25:03 浏览次数：次

��zoޛ�)j馔�0 - �H��H05�O��0 ?��t��5�Mx��^��Mw�N?��]��K.��캘f��v�˩۟��iH��V�� 材料与方法

1.1试验材料

沾化冬枣于沾化县6个村现场采集，共690个样本，具体取样信息见表1。陕西冬枣购买自陕西省渭南县，共598个样本。

1.2试验仪器及光谱采集

使用MicroNIRl700近红外光谱仪（美国JD-SU公司），数据分析软件使用Unscrambler9.7（美国CAMO公司）及MATLAB 2010a（美国Math-Works公司）。

在对冬枣样品进行光谱采集时，应尽量确保实验条件一致。光谱采集的波长范围为950～1650 nm，每次光谱采集重复扫描次数为50次，单次积分时间为8000μs。每次光谱扫描后，转动冬枣样品，重新采集一次，采集应包括样本绿色和红色的面，每个样本共采集5次，求平均得到的光谱作为该样品的代表光谱。图1为沾化冬枣和陕西冬枣的原始光谱图，可见，两者在原始光谱上差异不明显。

1.3光谱预处理及建模方法

近红外原始光谱不但包含许多与结构相关的信息，还包含许多干扰因素如基线漂移、光散射等，这些因素将影响模型建立的效果。光谱预处理就是采用数学方法减弱或消除干扰因素对光谱的影响，提取有用信息，以提高模型分析的准确性和可靠性。预处理首先要剔除异常样本，即在采集大量冬枣样品的近红外光谱时，由于仪器本身误差、操作失误或其它环境因素导致的某个样本的图谱与其它样本的图谱趋势明显不一致，就需要将其作为异常样本剔除。

SIMCA （Soft independent modeling of class a-nalogy）是一种以主成分分析为基础的定性分析方法，主要分为两步：①对校正集样本的光谱数据进行PCA分析，为陕西和沾化冬枣两个类别分别建立一个PCA模型；②计算未知样本（验证集）到两个PCA模型的距离，找出最小距离的类。SIMCA判别结果有三种，分别是未知样本只属于沾化冬枣或只属于陕西冬枣单一类别，未知样本同时属于两个类别，以及未知样本不属于陕西和沾化冬枣任何一类。当未知样本同属于多个类时，说明判别分析模型不够精确，需要改进，一般可以通过增加校正集样本数或增加变量数来解决。当未知样本同时属于两个类别时，一种原因可能是该样本到两类模型的距离相近，无法鉴别，此时可以通过预处理方法和特征波长选择重新建模进行预测；另一种原因是两个模型间距离本身就比较小，也容易出现这种现象，这是SIM-CA方法的不足之处。

PLS-DA（Partial least squares-discriminant analysis）是基于PLS方法建立的样本分类变量与NIR光谱特征问的回归模型。PLS—DA判别方法如下：①定义校正集样本的分类变量Y；②建立分类变量与光谱数据问的PLS回归模型；③根据建立的PLS模型计算验证集样本（未知样本）的分类变量值Yp，当Yp与Y的偏差<0.5时，判定未知样本属于该类。

2结果与分析

2.1沾化冬枣和陕西冬枣近红外光谱数据的主成分分析

对冬枣样品近红外光谱数据进行主成分分析，利用第1、2主成分得分作散点图（图2），可以直观地看出，沾化冬枣和陕西冬枣样品的第1、2主成分得分明显分为2个部分，有明显的聚类趋势。初步说明利用近红外光谱技术识别沾化冬枣和陕西冬枣是可行的。

2.2 SIMCA判别模型的建立与验证

建立模型前，需对原始光谱进行预处理。光谱预处理方法很多，多元散射校正（MSC）、标准归一化（SNV）、一阶导数和二阶导数是常见的4种预处理方法。本研究分别采用几种不同预处理方法处理后的光谱建立SIMCA模型，对验证集样本的识别率和拒绝率见表2。通过对比发现，多元散射校正（MSC）+二阶导数预处理方法对验证集样品的识别率最高，对陕西冬枣和沾化冬枣的识别率分别达到了97.0%和96.6%；而对于两地冬枣的拒绝率均为100%。可见，采用MSC+二阶导数预处理方法建立的SIMCA模型预测效果最好。

2.3 PLS-DA判别模型的建立与验证

按照PLS-DA判别方法的流程，首先对沾化和陕西冬枣校正集样本的分类变量进行赋值，陕西冬枣赋值1，沾化冬枣赋值2；比较多种光谱预处理方法，根据最优校正模型的主要性能参数筛选出最佳处理组合。表3为不同光谱预处理方法对陕西冬枣和沾化冬枣验证集的验证结果，可见，SNV+一阶导数的拟合效果最好，MSC+一阶导数的拟合效果与之相近，得到的陕西冬枣和沾化冬枣模型的预测值和实测值的相关系数都在0.98以上，均方根误差也较小。图3为验证集样本中，使用SNV+一阶导数预处理方法建立的PLS-DA模型对陕西冬枣和沾化冬枣的预测结果，可见，验证集中所有陕西冬枣的分类变量的预测值都接近于1.0，偏差较小，在0.1左右；沾化冬枣分类变量的预测值基本在2.0左右，偏差均小于0.5；且对验证集冬枣样本的识别率均为100%。因此，近红外光谱分析技术结合PLS-DA能够准确识别沾化冬枣和陕西冬枣。

3结论

本研究应用便携式近红外光谱仪结合SIM-CA和PLS-DA两种建模方法分别对陕西冬枣和沾化冬枣建立判别模型，并讨论了几种不同光谱预处理方法对两种建模方法识别率的影响，结果表明，两种方法都可以有效地判别两种冬枣的产地，其中PLS-DA方法优于SIMCA方法，对验证集中冬枣样本的识别率达到了100%。

本研究所用的便携式近红外光谱仪采集的光谱只有125个变量，但通过与两种建模方法的结合，能够准确识别出两种冬枣的产地，而且易于现场检测，因此具有很大的推广应用价值。

推荐访问：沾化陕西光谱产地识别

[近红外光谱技术识别沾化和陕西冬枣产地的研究]相关文章

上一篇：近红外光谱技术法快速鉴别茶油掺伪
下一篇：近红外光谱在烟草相似性分析中的应用

[近红外光谱技术识别沾...]头条范本