1、材料与方法
1.1试验材料
试验研究对象为正常胶囊和重金属铬严重超标的胶囊壳。各类样本用密封的容器保存。根据目前的资料,没有发现颜色与重金属之间的相关性分析,因此暂不考虑颜色对光谱之间的影响。
1.2高光谱成像系统
高光谱可采用杭州彩谱科技有限公司产品FS13进行相关研究。光谱范围在400-1000nm,波长分辨率优于2.5nm,可达1200个光谱通道。采集速度全谱段可达128FPS,波段选择后最高3300Hz(支持多区域波段选择)。为了避免周围环境光源的干扰,视觉系统置于表面为黑漆的密闭柜中。
2、高光谱图像主成分分析
由于高光谱数据由多个波段图像组成,可把每一幅图像看作一个特征,若对高光谱数据进行降维,将会使得原始数据变化到一个新的坐标系统,以使图像数据的差异达到最大,所得到的结果将会与原来图像相差很大。这一技术对于增强信息含量,隔离噪声及减少数据维数非常有效。对高光谱图像进行PCA降维后所得到的前4个主成分见图1。
经过PCA变换后的高光谱数据,虽然第1主成分的图像包含的信息最多,第2主成分信息量次之,但2种胶囊之间的对比并不明显,反而第3主成分更能凸显两种不同的胶囊。但这种方法所表现出来的特征有可能是基于胶囊不同颜色所得的结果,因为只有胶囊帽在PC3(principalcomponent 3)中比较明显。因此,通过PCA方法对“毒胶囊”和正常胶囊进行检测可作为参考,要对高光谱数据进行全面分析还需考虑光谱数据,这也是高光谱的优势所在。
3、光谱分析
高光谱图像的优势之处在于不但有图像信息,而且有光谱信息。要得到光谱信息,先对每个样本选择感兴趣区域,每个感兴趣区域有其光谱响应曲线。由于胶囊帽和胶囊体二者之间的颜色不同,为了消除颜色对结果的影响,每个胶囊选择2个感兴趣区域(胶囊帽和胶囊体上各选择一个感兴趣区域),感兴趣区域可在胶囊的高光谱图像上随机选取,每个区域的像素数范围为2~6,最终感兴趣区域的光谱数据计算区域内所有像素的平均值。4种不同区域(分别为正常胶囊和“毒胶囊”的胶囊体和胶囊帽)的光谱曲线见图2。
从图2中可以看出,“毒胶囊”的胶囊帽和正常胶囊的胶囊体在光谱曲线走向上比较杂乱,正常胶囊和“毒胶囊”的胶囊帽光谱曲线差异比较大,在620 nm左右时有交叉;两种胶囊的胶囊体光谱曲线在550 nm和700 nm左右有交叉。但仅通过光谱曲线难以正确区分出“毒胶囊”和正常胶囊,须对光谱区间进行综合分析,找出能区分二者之间最有效的光谱特征数据,最终进行判别分析。
由于每个样本的光谱特征也有大量的数据(该数据个数与高光谱的图像数一致),要得出光谱内的有效特征,也须通过相应特征提取算法进行处理,本文用PLS对该数据进行降维,可得到每个的PLS算子的贡献率,从高到低的排序见表1。每个PLS算子又称决定潜在变量,决定PLS个数的最简单方法是误差均方根表示的方法主要有交叉验证均方根差和矫正均方根差。LV是特征在PLS降维后的组合特征,通常情况下LV对整体特征的贡献率不断下降,当前几个LV作为输入特征得到的准确率达到要求且满足一定的推广性时,选中的LV个数作为最佳特征。
建模时采用60%的样本作为训练集,剩余40%的作为测试集。对于“毒胶囊”和正常胶囊的RMSECV和RMSEC的值¹5与选择LV个数的关系见图3。从图3中可以看出,正常胶囊和“毒胶囊”所得到的RMSECV和RMSEC的值在LV个数为1到6之间时,值的下降趋势明显;当LV的个数大于6时,二者的值变化非常缓慢,从该图的曲线走向可认为选择6个LV作为输入特征较为合适。在得到LV的贡献率、RMSECV和RMSEC的同时,还须考虑测试集中的正确分类准确率、相关系数²等,见表1。
当取4个LV作为输入特征时,交叉验证(CV)和预测(Pr)的相关系数r²都能达到0.9以上,这比选取3个LV有显著的增加,同时分类的错误率为0。与此同时,所有的指标参数并没有显著的增加,因此,在本文中选择4个LV是合适的。
4、结语
在450~900 nm的高光谱数据中,通过选择感兴趣区域得到正常胶囊和“毒胶囊”的光谱数据,先对其进行归一化处理,再通过PLS-DA对数据降维及判别分析,当选择4个PLS算子作为输入特征时,正常胶囊和“毒胶囊”的识别率达到100%,特异度和敏感度也为100%;由此可知,可用PLS-DA判别方法对正常胶囊和“毒胶囊”进行区分。利用高光谱图像技术对“毒胶囊”检测,可以大大降低传统方法的复杂度。
除此之外,若要提高可信度,还须用更宽波段的光谱对样本进行检测,例如在荧光或者紫外波段。在对“毒胶囊”进行定性的同时,还需要对其进行定量研究,定量时可考虑制作不同含铬量的明胶模板,找出模板含铬量与光谱数据的相关模型,并以此模型来预测未知“毒胶囊”的重金属铬含量。鉴于“毒胶囊”事件的后续影响,样本比较难找,但为了提高检测的有效性,还需要用多种铬含量的胶囊样本做试验。