血红蛋白定量分析的数据集划分及预处理方法研究

【www.zhangdahai.com--其他范文】

张朱珊莹,蒙泳吉,曹汇敏,张莉,郑冬云,谢勤岚

(中南民族大学 生物医学工程学院 & 认知科学国家民委重点实验室 & 医学信息分析及肿瘤诊疗湖北省重点实验室,武汉 430074)

红外光谱技术具有无损、快速、无污染等众多突出优点,在农业[1-2]、食品[3-4]、生物医药[5-6]等领域已经取得了一定的成果.由于仪器误差和背景环境的影响,光谱数据存在基线漂移、噪声以及重合度较高等干扰因素,影响定量分析模型的精度[7-8]. 因此,利用合适的数据集划分和预处理方法对数据进行处理是非常必要的.

数据集划分直接影响建模所用训练集,进而直接影响建模效果,如果校正集选取不合理,则模型性能必然不佳[9].

预处理根据效果可以分为4类:尺度缩放、基线校正、散射校正和平滑处理[10-12].尺度缩放消除因光谱数据尺度差异过大而带来的不良影响[11].基线校正消除仪器背景或漂移对信号的影响.散射矫正消除因样品颗粒分布不均或者颗粒大小不同而产生的散射.平滑处理消除光谱中的随机噪声.所以,每种预处理都有其特点,需要探讨如何更科学与合理地选择预处理方法.

文献[13]采用了9 组数据,利用预处理组合的方法对原始光谱进行预处理,根据建模效果来选择最佳预处理方法. 金文玲[14]等采用归一化、二阶导数校正法和正交信号校正相结合优化了种子光谱的预处理算法.QIAO使用6种预处理组合方法通过建立偏最小二乘(Partial Least Squares,PLS)模型评估了土壤有机质的潜力[15].但文献[13]通过10 种预处理方法的120种组合对预处理的必要性及预处理方法的选择进行了探讨,但组合数过多,无法快速得到最佳的预处理方法.而且大部分文献并未考虑数据集划分方式对建模精度的影响;
分析预处理方法及其组合时也没有考虑组合顺序对预测精度的影响.本文拟使用不同的数据集划分方法[随机法、间隔划分法、Kennard Stone(KS)法、Duplex法、SPXY法]建立偏最小二乘(Patial Least Squares,PLS)、主成分回归(Principal Component Regression,PCR)模型,分析不同模型的最优数据集划分方式. 然后利用多种预处理方法及组合(考虑组合顺序)进行预处理,最后通过建模后的RMSECV 值优选每种模型的最优预处理方法,探究每类数据的最优数据集划分方法以及科学的最优预处理选择方法.

1.1 光谱数据采集

采集了120份不同浓度的血红蛋白仿体溶液的数据.样本溶液是由仿体溶液(10%intralipid 溶液)中加入血红蛋白溶液组成的,血红蛋白浓度为31~150 g/L,浓度间隔为1 g/L.

超纯水(Thermo 超纯水系统制备)、牛血清血红蛋白(Biosharp)、20%的intralipid注射液(华瑞制药)来配置溶液,实验采用母液配置法配制溶液.

UV-VIS-NIR 分光光度计(SolidSpec-3700,日本岛津)进行光谱数据采集. 光谱仪光谱范围200~2500 nm,采样间隔为1 nm,光谱分辨率为0.1 nm.本文设置光谱仪扫描范围为600~1900 nm,采样间隔1 nm,重复扫描3 次,测定方式为吸收值,检测器单元为积分球,以空白石英比色皿作为对照去除背景.

1.2 数据集的划分

分别利用随机法、间隔划分法,KS 法,Duplex法,SPXY 法划分样本,然后建立PCR、PLS 血红蛋白定量分析模型,通过模型效果判断数据集划分方法的优劣.

1.3 模型评价指标

通过偏最小二乘法(PLS)和主成分回归(PCR)建立血红蛋白定量分析模型.相关系数R、校正集均方根误差RMSEC 和预测集均方根误差RMSEP 的计算公式如下:

其中:n为样本总数;
nc表示预测集样本数;
np表示预测集样本数. y^i为第i 个样本的预测值;
y^ˉ为预测值均值;
yi为第 i 个样本的真实值;
yˉ为样本均值 .在本文中,R 特指预测集相关系数.相关系数R 越接近于1,RMSEC 值和 RMSEP 值越小,模型效果越好.主要采用RMSEP对模型优劣进行评估.

2.1 不同数据集划分方法结果对比分析

为了探讨不同数据集划分方法对模型的影响,分别采用五种数据集划分方法(随机法、间隔划分法、KS 法、Duplex 法、SPXY 法)划分样本,然后建立PCR和PLS定量模型.不对数据进行预处理,校正集和预测集样本比例为3∶1.

2.1.1 PLS模型结果分析

采用留一交叉验证来确定PLS 模型的主因子数.不同数据集划分方法在PLS 模型中的最佳主因子数均通过留一交叉验证的结果来确定,留一交叉验证测试为主因子1~20循环,取RMSECV 最小值对应的主因子数.

表1 为不同数据集划分方法在PLS 模型中的运行结果.其中,对于随机法的结果,主因子数以波动范围表示,其余参数以mean ± std(均值加减方差)表示,程序运行30 次.从表1 中可以看出,对于PLS模型,SPXY 法预测效果最好,其次是KS 法、间隔划分法,预测效果最差的是Duplex法.

2.1.2 PCR模型结果分析

主成分回归模型也有主因子数,但一般不以主因子的结果表示,而是以累积贡献率的形式表示,本次实验将累积贡献率定为85%. 表2 为不同数据集划分方法在PCR 模型中的结果对比.其中随机法的运行结果表示方法和PLS 相同. 对于PCR 模型,间隔划分法的效果最好,其次是Duplex 法和SPXY法,效果最差的是KS法.

表2 PCR模型结果对比Tab.2 Comparison of PCR model results

2.1.3 实验结果分析

表1 PLS模型结果对比b.1 Comparison of PLS model results因子数4~20 5696 R RMSEC 3.0648±1.3 4.6086 4.5869 2.7610 4.8270 RMSEP 6.7680±0.767 6.6451 6.4289 7.1565 5.4920 0.9814±0.049 0.9827 0.9842 0.9793 0.9886

对比表1 和表2 可知,虽然数据相同,但PLS 模型和PCR 模型的最优数据集划分方法不同,即不同模型的最优数据集划分方法不同.因此,建模时需要对数据集划分方法单独进行优选.

2.2 不同预处理结果对比分析

为了优选预处理方法,按效果对所用预处理方法进行分类,如表3 所示,多个预处理方法的组合,是将它们的顺序进行全排列,然后进行组合后编号,共计得到27 种预处理方法及其组合.其中RAW代表无预处理.

表3 预处理方法分类Tab.3 Classification of pretreatment methods

2.2.1 单个预处理后结果对比

从红外光谱数据中发现,扫描结果在1350~1450 nm 波段的光谱重叠度很高,给后续定量分析带来较大的挑战.先在PLS 模型中对比单个预处理方法效果,数据集划分方法采用KS 法,模型主因子数由留一交叉验证法确定.

表4 为单个预处理方法在PLS 模型中的结果对比 . 可以看出,DOSC、SG、MSC、SNV 这 4 种预处理方法对模型的性能有改善作用,其中效果最显著的是SG,其次是DOSC,SNV 对模型性能改善并不显著.

表4 PLS模型单个预处理方法对比Tab.4 Comparison of single pretreatment methods based on PLS

在PCR 中进行对比,PCR 累积贡献率定为85%.表5 为单个预处理方法在PCR 模型中的结果对比.由表5中可知,对于PCR 模型,最优的预处理方法是DOSC,其次是MSC和SNV,SG处理使模型效果略有下降.但是,单个预处理方法效果对PCR 模型性能改善并不显著.

表5 PCR模型单个预处理方法对比Tab.5 Comparison of single pretreatment methods based on PCR

从表4 和表5 可以看出,单个预处理方法对模型性能有改善作用,但对于不同的模型,单个预处理方法改善程度存在较大差异. 其中SG 平滑滤波对PLS 模型性能改善十分可观,而对PCR 模型性能改善反而有所下降.

2.2.2 预处理方法组合结果对比

预处理方法组合通过PLS和PCR模型结果进行对比.把每类预处理中的某个方法与另一类中的方法相组合,并考虑组合时的顺序,然后建立定量模型.

表6 为双预处理方法组合采用PLS 模型后的效果对比结果 . 从 4 和 5 组、7 和 8 组、9 和 10 组、18 和19 组、20 和 21 组可以看出,DOSC、SG、MSC、SNV 对模型性能改善存在相互影响,SG 和DOSC、MSC、SNV 组合时顺序影响较小 .DOSC 和 MSC、SNV 组合时顺序影响较大. 对于PLS 模型,双预处理效果最好的组合是SG+DOSC.

表6 PLS模型预处理方法组合对比Tab.6 Comparison of combinatorial pretreatment methods based on PLS

表7 为双预处理组合在PCR 模型中的效果对比.从4和5组、7和8组、9和10组、18和19组、20和21 组可以看出,DOSC、SG、MSC、SNV 对模型性能改善存在相互影响,SG 和DOSC、MSC、SNV 组合时顺序影响较小.DOSC 和MSC、SNV 组合时顺序影响较大. 对于PCR 模型,最优的预处理方法组合为SG+DOSC.

结合表6 和表7 来看,各预处理方法对模型的影响存在相互作用,组合时顺序不同影响最显著的是DOSC 和MSC、SNV 之间.此外,两种模型最优双预处理方法组合相同,即DOSC+SG.

表7 PCR模型双预处理方法组合结果对比Tab.7 Comparison of combinatorial pretreatment methods based on PCR

由于3种单预处理方法组合在一起相互影响十分大,任意顺序的组合对PLS 和PCR 模型性能均无改善作用,因此这里给出两种模型预处理方法组合总的结果对比.

图1 为27 种预处理方法在PLS 模型中的效果,其中,红线表示无预处理时模型的效果,星号表示27 种预处理方法组合各自的效果,在红线之上的点,则表示该预处理组合会降低模型性能,在红线之下的点,则表示该预处理方法组合能改善模型性能. 可以看出,大部分预处理方法组合在PLS 模型中的效果并不显著.PLS 模型对应的最佳预处理方式为第4组,即SG+DOSC.

图1 PLS模型27种预处理方法组合对比图Fig.1 Comparison of 27 pretreatment methods based on PLS

图2 为27 种预处理方法在PCR 模型中的效果,其中红线表示无预处理时模型的效果,星号表示27种预处理方法组合各自的效果. 可以看出,PCR 模型对应的最佳预处理方式为第4组,即SG+DOSC.

图2 PCR模型27种预处理方法组合对比图Fig. 2 Comparison of 27 pretreatment methods based on PLS

所以,针对此类数据,无论采用哪种定量模型,最优的预处理方法均是SG+DOSC组合预处理.

采集了120份不同浓度血红蛋白的仿体溶液光谱数据,对其数据集划分和预处理及其组合方法进行了研究.结果表明,PLS模型和PCR模型最优时所采用的数据集划分方法不同,即不同模型的最优数据集划分方法不同.因此,在后续建立其他模型时,需要对数据集划分方法单独进行优化.通过对27种预处理方法的研究分析,两种预处理方法组合时的顺序影响模型精度,但PCR 模型和PLS 模型优选出的最佳预处理方式都是SG+DOSC. 其中,PLS 模型采用 SG+DOSC 预处理时 RMSEP 值为 3.5532,PCR模型采用SG+DOSC 预处理时RMSEP 值为14.9032,均低于所有单预处理方法时的值;
所以最佳预处理方法跟数据集有关,与所用模型无关,研究结果为此类光谱数据的处理提供了一种思路和方法.

猜你喜欢 预处理光谱性能 UIO-66热解ZrO2负载CoMoS对4-甲基酚的加氢脱氧性能分子催化(2022年1期)2022-11-02夏季五招提高种鹅繁殖性能今日农业(2022年14期)2022-09-15基于三维Saab变换的高光谱图像压缩方法北京航空航天大学学报(2022年8期)2022-08-31预处理对医用外科口罩用熔喷布颗粒过滤性能的影响纺织标准与质量(2022年3期)2022-08-10煤炭矿区耕地土壤有机质无人机高光谱遥感估测农业工程学报(2022年8期)2022-08-08手术器械预处理在手术室的应用健康体检与管理(2022年4期)2022-05-13污泥预处理-厌氧消化体系的能源经济性评价化工进展(2022年3期)2022-04-12基于3D-CNN的高光谱遥感图像分类算法黑龙江大学自然科学学报(2022年1期)2022-03-29污泥预处理及其在硅酸盐制品中的运用建材发展导向(2021年23期)2021-03-08桌面端,GTX 1650并不是千元价位的显卡好选择电脑报(2019年17期)2019-09-10

推荐访问:血红蛋白 定量分析 预处理

本文来源:http://www.zhangdahai.com/shiyongfanwen/qitafanwen/2023/0428/590534.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!