煙業(yè)智匯
零售戶在線
微薰
手機(jī)版
摘要:不同類(lèi)型或者同一類(lèi)型不同型號(hào)的近紅外光譜分析儀器,掃描相同樣品得到的近紅外光譜數(shù)據(jù),都存在著差異性。這會(huì)對(duì)測(cè)量的光譜產(chǎn)生影響,進(jìn)而導(dǎo)致所建立的光譜多元校正模型在不同儀器上不能共享。模型轉(zhuǎn)移是解決分析儀器或分析方法通用性的關(guān)鍵技術(shù)。近紅外光譜受測(cè)量?jī)x器或測(cè)量條件的影響較大,模型轉(zhuǎn)移對(duì)近紅外光譜技術(shù)的實(shí)際應(yīng)用尤為重要。在實(shí)際使用過(guò)程中,由于各種因素導(dǎo)致無(wú)法同時(shí)使用同一品牌型號(hào)的設(shè)備,為便于操作和使用,要使在一臺(tái)光譜儀器上建立的光譜多元校正模型可以有效的應(yīng)用到其他新的光譜儀器上或者新的實(shí)驗(yàn)條件下,針對(duì)這種情況,本次研究設(shè)計(jì)了在不同型號(hào)的傅立葉變換近紅外光譜儀上的模型轉(zhuǎn)移。
關(guān)鍵詞:近紅外光譜儀;傅立葉變換;模型轉(zhuǎn)移
?1 實(shí)驗(yàn)材料
1.1. 實(shí)驗(yàn)儀器
主儀器:Thermo Antaris II 傅立葉變換近紅外光譜儀(以下簡(jiǎn)稱(chēng)Thermo)
從儀器:QuasIR 3000 傅立葉變換近紅外光譜儀(以下簡(jiǎn)稱(chēng)Q3000)
?
1.2. 實(shí)驗(yàn)樣品
1.2.1. 樣品
具有代表性的煙葉樣品。其中包含初烤煙:130個(gè)樣品,復(fù)烤煙:63個(gè)樣品。
1.2.2. 光譜采集參數(shù)?
掃描次數(shù):64次,分辨率:8,掃描波段:4000 -10000cm-1,每個(gè)樣品掃描1次
1.2.3. 校正集與驗(yàn)證集
通過(guò)KS算法(Kennard-Stone,一種樣本挑選方法——利用樣品原始光譜或者光譜主成分之間的歐式距離來(lái)選擇標(biāo)準(zhǔn)化樣品,是一種比較常用的方法),將樣品分為校正集和驗(yàn)證集。校正集的樣品用于計(jì)算兩臺(tái)儀器之間的系統(tǒng)偏差(初烤煙的校正集樣品還用于建立定量模型),驗(yàn)證集樣品用于驗(yàn)證模型的預(yù)測(cè)效果。校正集和驗(yàn)證集樣品的數(shù)量如下表所示。
表1-1-1 校正集與驗(yàn)證集樣品分布
校正集 | 驗(yàn)證集 | 樣品總數(shù) | |
初烤 | 110 | 20 | 130 |
復(fù)烤 | 43 | 20 | 63 |
2 實(shí)驗(yàn)方法
2.1. 系統(tǒng)偏差校正法
模型傳遞:將原始的主機(jī)模型,直接用來(lái)預(yù)測(cè)各臺(tái)儀器掃描的樣品光譜,并對(duì)比其預(yù)測(cè)結(jié)果。如果預(yù)測(cè)值與參考值之間出現(xiàn)較為明顯的系統(tǒng)偏差(bias),則以該bias對(duì)其預(yù)測(cè)結(jié)果進(jìn)行校正。
2.2. 模型優(yōu)化方法
添加部分新光譜和參考值至原模型中,重新優(yōu)化原模型??紤]到Thermo所建模型是多家復(fù)烤廠共用的情況,故不優(yōu)化原模型,直接建立Q3000儀器的定量模型。
2.3. 模型評(píng)價(jià)方法
2.3.1. 絕對(duì)偏差
以樣品的實(shí)驗(yàn)室化學(xué)值作為參考,各臺(tái)儀器的預(yù)測(cè)值分別于參考值對(duì)比,兩者之間的差值就稱(chēng)為絕對(duì)偏差。本實(shí)驗(yàn)中以Thermo儀器的預(yù)測(cè)值作為參考值。
2.3.2. 相對(duì)偏差
同上,以樣品的實(shí)驗(yàn)室化學(xué)值作為參考,將絕對(duì)偏差的數(shù)值除以參考值,并乘以百分比,就得到相對(duì)偏差。本實(shí)驗(yàn)中以Thermo儀器的預(yù)測(cè)值作為參考值。
2.3.3. 系統(tǒng)偏差(bias)
(1)定義:偏差—bias,反映的是平均預(yù)測(cè)值與參考值之間的差異情況。
(2)作用:由于各臺(tái)儀器的預(yù)測(cè)值與參考值之間,都存在一定程度的偏差,為了消除系統(tǒng)偏差,會(huì)對(duì)原始數(shù)據(jù)的預(yù)測(cè)值進(jìn)行校正,扣除偏差值,改進(jìn)預(yù)測(cè)效果。
(3)算法:首先計(jì)算預(yù)測(cè)值與參考值之間的偏差,然后計(jì)算所有樣品的偏差值的平均值,這個(gè)平均值就是該模型的系統(tǒng)偏差(bias)。
(4)驗(yàn)證:為了驗(yàn)證每臺(tái)儀器產(chǎn)生的偏差值是否恒定,另外選擇驗(yàn)證集的樣品進(jìn)行驗(yàn)證。檢查該儀器的bias是否適用于驗(yàn)證集樣品的預(yù)測(cè)值。
2.3.4. RMSEP
預(yù)測(cè)均方根誤差(root mean square error of prediction—RMSEP)值:是計(jì)算模型得出的預(yù)測(cè)值與參考值之間的誤差平方和的均方根值,對(duì)于同一批次樣本,模型RMSEP值越小說(shuō)明模型準(zhǔn)確性越高。 SEP :校正偏差后的預(yù)測(cè)誤差。
3 結(jié)果與分析
3.1. 系統(tǒng)偏差校正法的結(jié)果
偏差—Bias:偏差又可分為隨機(jī)偏差和系統(tǒng)偏差。隨機(jī)偏差是模型預(yù)測(cè)存在的差異,無(wú)法通過(guò)扣除平均偏差來(lái)改進(jìn)預(yù)測(cè)效果的;而系統(tǒng)偏差可能是樣品來(lái)源、儀器等引起的,可以通過(guò)加或減去偏差來(lái)明顯改進(jìn)預(yù)測(cè)效果。本次實(shí)驗(yàn)以Thermo儀器的預(yù)測(cè)值作為參考值進(jìn)行對(duì)比計(jì)算。
3.1.1. 初烤煙
將收集到的初烤煙樣品,在兩臺(tái)儀器上同時(shí)掃樣,掃描參數(shù)設(shè)置相同。調(diào)用Thermo建立的初烤煙原始模型,分別預(yù)測(cè)Thermo儀器掃描的樣品光譜和Q3000儀器掃描的樣品光譜,對(duì)比分析各個(gè)指標(biāo)的預(yù)測(cè)值之間的偏差情況。
如前面所述,通過(guò)分析校正集的110個(gè)樣品,計(jì)算兩臺(tái)儀器之間的系統(tǒng)偏差。然后再調(diào)用驗(yàn)證集的樣品,進(jìn)一步驗(yàn)證模型的預(yù)測(cè)效果。以Thermo預(yù)測(cè)值作為參考,Q3000預(yù)測(cè)值與之對(duì)比,計(jì)算得到兩臺(tái)儀器的系統(tǒng)偏差(bias),各個(gè)組分的系統(tǒng)偏差值見(jiàn)表3-1-1, 其中110個(gè)樣品的詳細(xì)預(yù)測(cè)值可參考excel表格。
? ? ? ? ? ? ? ??表3-1-1 初烤煙模型的系統(tǒng)偏差
煙堿 | 總糖 | 還原糖 | 總氮 | 鉀 | 氯 | |
bias | 0.04 | 0.62 | -1.29 | -0.06 | -0.44 | 0.07 |
為進(jìn)一步驗(yàn)證系統(tǒng)偏差對(duì)預(yù)測(cè)值的影響,調(diào)用Thermo原始模型,分析20個(gè)外部驗(yàn)證集樣品,并統(tǒng)計(jì)扣除系統(tǒng)偏差前、后的預(yù)測(cè)情況??鄢到y(tǒng)偏差后,無(wú)論是校正集樣品還是驗(yàn)證集樣品,其預(yù)測(cè)結(jié)果都更接近Thermo儀器的預(yù)測(cè)值。各個(gè)組分的相對(duì)偏差、絕對(duì)偏差,以及RMSEP都有所改善。
? ? ? ? ? ? 表3-1-2 初烤煙模型扣除bias前、后的相對(duì)偏差(平均值)統(tǒng)計(jì)
樣品數(shù)量 | 煙堿 | 總糖 | 還原糖 | 總氮 | 鉀(絕對(duì)偏差) | 氯(絕對(duì)偏差) |
校正集 | 2.344 | 2.354 | 4.992 | 2.786 | -0.438 | 0.074 |
校正集-bias | 1.864 | 1.464 | 1.583 | 1.916 | 0.000 | 0.000 |
驗(yàn)證集 | 2.655 | 2.936 | 4.339 | 2.826 | -0.433 | 0.081 |
驗(yàn)證集-bias | 1.891 | 1.479 | 1.641 | 1.925 | 0.007 | 0.001 |
? ? ? ? ? ? ? ? ? ? 表3-1-3 初烤煙模型扣除bias前、后的RMSEP統(tǒng)計(jì)
校正集 | 驗(yàn)證集 | |||
扣除bias前 | 扣除bias后 | 扣除bias前 | 扣除bias后 | |
煙堿 | 0.066 | 0.049 | 0.074 | 0.060 |
總糖 | 0.892 | 0.649 | 1.066 | 0.469 |
還原糖 | 1.386 | 0.509 | 1.217 | 0.502 |
總氮 | 0.076 | 0.051 | 0.087 | 0.058 |
鉀 | 0.466 | 0.160 | 0.451 | 0.128 |
氯 | 0.098 | 0.065 | 0.092 | 0.046 |
從上表可以看出,兩臺(tái)儀器之間存在系統(tǒng)偏差,且偏差值較為穩(wěn)定。通過(guò)扣除系統(tǒng)偏差(bias),各組分的相對(duì)偏差(或絕對(duì)偏差)值變小,RMSEP也變小。
對(duì)于驗(yàn)證集樣品而言,煙堿相對(duì)偏差從2.655降為1.891;總糖的相對(duì)偏差從2.936變?yōu)?.479;還原糖的相對(duì)偏差從4.339降為1.641;總氮的相對(duì)偏差從2.826變?yōu)?.925,鉀的偏差平均值從-0.433變?yōu)?.007,氯的偏差平均值從0.081變?yōu)?.001。
同上,驗(yàn)證集樣品的RMSEP也有所改善,扣除bias以后,煙堿從0.074降為0.060;總糖從1.066變?yōu)?.469;還原糖從1.217降為0.502;總氮從0.087變?yōu)?.058,鉀從0.451變?yōu)?.128,氯從0.092變?yōu)?.046。
說(shuō)明Q3000的預(yù)測(cè)值與Thermo的預(yù)測(cè)值逐漸接近,扣除bias后提高了初烤煙模型預(yù)測(cè)的準(zhǔn)確性。
3.1.2. 復(fù)烤煙
復(fù)烤煙樣品的掃描情況與初烤煙類(lèi)似,都在Thermo和Q3000儀器上同時(shí)掃描,掃描參數(shù)設(shè)置相同。調(diào)用Thermo建立的復(fù)烤煙原始模型,分別預(yù)測(cè)Thermo儀器掃描的樣品光譜和Q3000儀器掃描的樣品光譜,對(duì)比分析各個(gè)指標(biāo)的預(yù)測(cè)值之間的偏差情況。
如前面所述,通過(guò)分析校正集的43個(gè)樣品,計(jì)算兩臺(tái)儀器之間的系統(tǒng)偏差。然后再調(diào)用驗(yàn)證集的樣品,進(jìn)一步驗(yàn)證模型的預(yù)測(cè)效果。以Thermo預(yù)測(cè)值作為參考,Q3000預(yù)測(cè)值與之對(duì)比,計(jì)算得到兩臺(tái)儀器的系統(tǒng)偏差(bias),各個(gè)組分的系統(tǒng)偏差值見(jiàn)表3-1-4, 其中43個(gè)校正集樣品的詳細(xì)預(yù)測(cè)值見(jiàn)excel表格。
? ? ? ? ? ? ? ? ? ? ? ? ?表3-1-4 復(fù)烤煙模型的系統(tǒng)偏差
煙堿 | 總糖 | 還原糖 | 總氮 | 鉀 | 氯 | |
bias | 0.09 | -0.57 | -0.68 | 0.08 | -0.15 | 0.02 |
為進(jìn)一步驗(yàn)證系統(tǒng)偏差對(duì)預(yù)測(cè)值的影響,調(diào)用Thermo原始模型,分析20個(gè)外部驗(yàn)證集樣品,并統(tǒng)計(jì)扣除系統(tǒng)偏差前、后的預(yù)測(cè)情況??鄢到y(tǒng)偏差后,無(wú)論是校正集樣品還是驗(yàn)證集樣品,其預(yù)測(cè)結(jié)果都更接近Thermo儀器的預(yù)測(cè)值。各個(gè)組分的相對(duì)偏差、絕對(duì)偏差,以及RMSEP都有所改善。
? ? ? ?表3-1-5 復(fù)烤煙模型扣除bias前、后的相對(duì)偏差(平均值)統(tǒng)計(jì)
樣品數(shù)量 | 煙堿 | 總糖 | 還原糖 | 總氮 | 鉀(絕對(duì)偏差) | 氯(絕對(duì)偏差) |
校正集 | 4.763 | 1.527 | 2.411 | 4.409 | -0.152 | 0.020 |
校正集-bias | 2.167 | 0.582 | 0.820 | 0.601 | 0.000 | 0.020 |
驗(yàn)證集 | 4.313 | 1.101 | 2.082 | 4.483 | -0.154 | 0.015 |
驗(yàn)證集-bias | 1.992 | 0.524 | 0.578 | 0.778 | -0.003 | 0.015 |
表3-1-6 復(fù)烤煙模型扣除bias前、后的RMSEP統(tǒng)計(jì)
校正集 | 驗(yàn)證集 | |||
扣除bias前 | 扣除bias后 | 扣除bias前 | 扣除bias后 | |
煙堿 | 0.099 | 0.050 | 0.095 | 0.052 |
總糖 | 0.633 | 0.271 | 0.468 | 0.238 |
還原糖 | 0.740 | 0.289 | 0.624 | 0.210 |
總氮 | 0.083 | 0.015 | 0.086 | 0.019 |
鉀 | 0.163 | 0.059 | 0.159 | 0.043 |
氯 | 0.034 | 0.028 | 0.031 | 0.028 |
從表中可以看出,兩臺(tái)儀器之間存在系統(tǒng)偏差,且偏差值較為穩(wěn)定。通過(guò)扣除系統(tǒng)偏差(bias),各組分的相對(duì)偏差(或絕對(duì)偏差)值變小,RMSEP也變小。
對(duì)于驗(yàn)證集樣品而言,煙堿相對(duì)偏差從4.313降為1.992;總糖的相對(duì)偏差從1.101變?yōu)?.524;還原糖的相對(duì)偏差從2.082降為0.578;總氮的相對(duì)偏差從4.483變?yōu)?.778,鉀的絕對(duì)偏差從-0.154變?yōu)?0.003,氯的絕對(duì)偏差平均值沒(méi)有變化。
同上,驗(yàn)證集樣品的RMSEP也有所改善,扣除bias以后,煙堿從0.095降為0.052;總糖從0.468變?yōu)?.238;還原糖從0.624降為0.210;總氮從0.086變?yōu)?.019,鉀從0.159變?yōu)?.043,氯從0.031變?yōu)?.028。
說(shuō)明Q3000的預(yù)測(cè)值與Thermo的預(yù)測(cè)值逐漸接近,扣除bias后提高了復(fù)烤煙模型預(yù)測(cè)的準(zhǔn)確性。
3.2. 模型優(yōu)化方法的結(jié)果
除了上述扣除系統(tǒng)偏差的方法外,還可以建立Q3000儀器的獨(dú)立模型。由于復(fù)烤煙的樣品數(shù)量較少,本實(shí)驗(yàn)只建立了初烤煙的定量模型。初烤煙樣品一共有130個(gè),所有樣品均在Q3000儀器上掃樣。通過(guò)KS算法挑選110個(gè)樣品作為校正集,20個(gè)樣品作為外部驗(yàn)證集,以下所處理的光譜均為Q3000儀器的掃描光譜數(shù)據(jù)。然后以Thermo預(yù)測(cè)值作為參考值,建立初烤煙6個(gè)組分的定量模型,其模型指標(biāo)值與Thermo原始模型的指標(biāo)值如下表所示。
? ? ? ? ?表3-2-1 Thermo 模型 vs Q3000模型的指標(biāo)值
模型名稱(chēng) | RMSECV | R2 | 維數(shù) | 建模光譜數(shù) |
煙堿-原模型 | 0.083 | 0.996 | 18 | 1193 |
煙堿-Q3000模型 | 0.064 | 0.991 | 14 | 110 |
總糖-原模型 | 0.828 | 0.994 | 18 | 910 |
總糖-Q3000模型 | 0.429 | 0.990 | 14 | 110 |
還原糖-原模型 | 0.745 | 0.992 | 19 | 916 |
還原糖-Q3000模型 | 0.391 | 0.989 | 14 | 110 |
總氮-原模型 | 0.070 | 0.990 | 18 | 813 |
總氮-Q3000模型 | 0.030 | 0.993 | 15 | 110 |
鉀-原模型 | 0.124 | 0.977 | 22 | 1002 |
鉀-Q3000模型 | 0.125 | 0.867 | 14 | 110 |
氯-原模型 | 0.054 | 0.982 | 20 | 913 |
氯-Q3000模型 | 0.052 | 0.979 | 14 | 110 |
從表3-2-1可以看出,Q3000儀器上掃描的初烤煙光譜,以Thermo預(yù)測(cè)值作為參考值所建立的初烤煙模型,建模效果接近原模型,部分優(yōu)于原模型。RMSECV值明顯減小,說(shuō)明樣品的偏差值變小,進(jìn)一步說(shuō)明樣品的預(yù)測(cè)值逐漸接近Thermo預(yù)測(cè)值。
本實(shí)驗(yàn)中用KS算法挑選了驗(yàn)證集樣品,分別調(diào)用Thermo原始模型和Q3000模型,預(yù)測(cè)這20個(gè)樣品,并以Thermo的預(yù)測(cè)值作為參考,統(tǒng)計(jì)了各個(gè)組分的相對(duì)偏差平均值的情況,見(jiàn)表3-2-2。
? ? ? ? ?表3-2-2 Q3000模型vsThermo模型預(yù)測(cè)驗(yàn)證集樣品的相對(duì)偏差統(tǒng)計(jì)表
模型名稱(chēng) | 煙堿 | 總糖 | 還原糖 | 總氮 | 鉀 | 氯 |
Q3000模型 | 2.696 | 1.308 | 1.198 | 1.075 | -0.026 | 0.001 |
Thermo模型-bias | 2.655 | 2.936 | 4.339 | 2.826 | -0.433 | 0.081 |
Thermo原模型扣除bias | 1.891 | 1.479 | 1.641 | 1.925 | 0.007 | 0.001 |
由表3-2-2中數(shù)據(jù)分析可知, Q3000儀器建立的初烤煙模型,其預(yù)測(cè)結(jié)果接近Thermo原模型的預(yù)測(cè)結(jié)果,部分優(yōu)于原模型。后期可繼續(xù)在Q3000儀器上掃描樣品,收集建模數(shù)據(jù),不斷優(yōu)化、更新初烤煙模型,使得模型的預(yù)測(cè)結(jié)果更準(zhǔn)確。
4 結(jié)論
1、 Thermo近紅外光譜儀與Q3000近紅外光譜儀都屬于傅立葉變換型儀器,Thermo儀器建立的模型可以直接應(yīng)用于與其原理大同小異的Q3000儀器上。盡管各個(gè)組分的預(yù)測(cè)值存在系統(tǒng)偏差,但通過(guò)扣除系統(tǒng)偏差,兩臺(tái)儀器相同樣品的各組分的預(yù)測(cè)值接近,達(dá)到模型轉(zhuǎn)移的要求。
2、在Q3000儀器上掃描煙葉樣品,重新建立定量模型,新模型對(duì)Q3000儀器的預(yù)測(cè)值,同樣接近Thermo儀器的預(yù)測(cè)值。
綜上所述,通過(guò)上述兩種方法,既能實(shí)現(xiàn)Thermo儀器的原始模型轉(zhuǎn)移至Q3000儀器上,還能建立Q3000儀器的定量模型,其模型預(yù)測(cè)效果接近原模型。外部驗(yàn)證集樣品的預(yù)測(cè)結(jié)果已能達(dá)到檢測(cè)誤差的要求;轉(zhuǎn)移后的模型,已能用于實(shí)際生產(chǎn)檢測(cè)中。
致謝:本研究得到了四川維斯派克科技有限公司的設(shè)備和技術(shù)支持,在此表示感謝。
參考文獻(xiàn)
【1】張進(jìn);蔡文生;邵學(xué)廣《近紅外光譜模型轉(zhuǎn)移新算法》[J]
2025中國(guó)雪茄(四川)博覽會(huì)暨第七屆“中國(guó)雪茄之都”全球推介之旅