最新資訊
聯(lián)系我們
- 電話 : 4000-180-060
- 手機(jī) : 158-022-89629
- 企業(yè)QQ : 3041980058
- 郵箱 : info@np17.cn
- 網(wǎng)址 : http://www.info-ok.cn
- 地址 : 天津?yàn)I海新區(qū)華苑產(chǎn)業(yè)園區(qū)(環(huán)外)海泰創(chuàng)新六路2號(hào)華鼎新區(qū)一號(hào)3號(hào)樓1門(mén)10層
- 編輯 :
天津市能譜科技有限公司
時(shí)間: 2018-05-01 瀏覽量: 327 -
稻谷脂肪近紅外光譜特征篩選及檢測(cè)模型構(gòu)建
摘 要 應(yīng)用近紅外光譜技術(shù)對(duì)稻谷脂肪含量進(jìn)行檢測(cè)。采集了90個(gè)稻谷樣本的漫反射近紅外光譜,運(yùn)用Kennard-Stone法選取校正集及預(yù)測(cè)集樣本。對(duì)比研究了歸一化、一階導(dǎo)、二階導(dǎo)、一階導(dǎo)+歸一化等4種預(yù)處理方法對(duì)模型性能的影響,確定一階導(dǎo)為優(yōu)良預(yù)處理方法。運(yùn)用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣技術(shù)篩選出與稻谷脂肪含量檢測(cè)相關(guān)的特征波長(zhǎng),再用多元線性回歸對(duì)特征波長(zhǎng)進(jìn)行優(yōu)選,最終得到30個(gè)特征波長(zhǎng)。其中最典型的特征波長(zhǎng)為1 343、1 489和1 583 nm,反映了稻谷脂肪中大量存在的—CH和—OH基團(tuán)。所建立的基于近紅外光譜分析技術(shù)的稻谷脂肪含量檢測(cè)模型具的決定系數(shù)為0.958 9,定標(biāo)標(biāo)準(zhǔn)差RMSEC為0.223 6,相對(duì)偏差為5.53%。
關(guān)鍵詞 近紅外光譜;稻谷;脂肪;競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣;多元線性回歸
脂肪含量是評(píng)價(jià)稻谷品質(zhì)的重要指標(biāo)[1]。而其傳統(tǒng)測(cè)定方法存在過(guò)程繁瑣、條件不易控制、藥品消耗大、費(fèi)時(shí)費(fèi)力等不足。近紅外光譜分析技術(shù)以其檢測(cè)過(guò)程簡(jiǎn)單迅速、耗材少、無(wú)損、分析重現(xiàn)性好、成本低等優(yōu)點(diǎn),在糧食、蔬果、肉制品等方面的檢測(cè)中得到了廣泛的應(yīng)用[2-4]。
目前國(guó)內(nèi)外學(xué)者利用近紅外分析技術(shù)做了一些食品檢測(cè)方面的研究,BAGCHI等[5]、SUN等[6]和XIE等[7]建立了稻米中蛋白質(zhì)及淀粉含量的檢測(cè)模型。SIRISOMBOON等[8]研究了稻谷中黃曲霉素的近紅外檢測(cè)方法。張中衛(wèi)等[9]、郭中華等[10]和趙明富等[11]建立了牛奶中脂肪和蛋白質(zhì)含量的數(shù)學(xué)模型。林家永等[12]對(duì)不同品種和儲(chǔ)存期限的大米水分、脂肪酸值進(jìn)行檢測(cè)。上述研究所建立的數(shù)學(xué)模型對(duì)食品主要營(yíng)養(yǎng)成分的檢測(cè)都能取得較好的精度,檢測(cè)結(jié)果的決定系數(shù)R2大多在0.8以上,但是模型的建立思路主要集中在2個(gè)方面:(1)根據(jù)食品營(yíng)養(yǎng)成分中特殊化學(xué)基團(tuán)所對(duì)應(yīng)的近紅外光譜特征波長(zhǎng)建立模型,具有模型簡(jiǎn)單,物理意義明確的優(yōu)點(diǎn),但檢測(cè)結(jié)果不穩(wěn)定,精度不高;(2)利用近紅外光譜全波長(zhǎng)建立模型,具有適應(yīng)性廣,精度理想的優(yōu)點(diǎn),但模型復(fù)雜,計(jì)算量較大。
本文針對(duì)模型性能與復(fù)雜度的矛盾關(guān)系,采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling,CARS)[13]方法,在稻谷近紅外光譜的全波段,篩選出適量的特征波長(zhǎng),然后采用多元線性回歸法建立稻谷脂肪含量的檢測(cè)模型,在保證較好模型性能的前提下盡量減小計(jì)算量,為快速檢測(cè)稻谷主要營(yíng)養(yǎng)成分提供新的方法。
1 材料與方法
1.1 試驗(yàn)材料
試驗(yàn)材料包含A4A/R326、巨風(fēng)A/R257、廣占S/R166、中9A/R591、岡紅1A/R15等46個(gè)品種的稻谷,由黃岡農(nóng)科院提供,產(chǎn)自海南省。袋裝封存于陰涼處,收獲至試驗(yàn)在2個(gè)月內(nèi)完成。將部分品種按質(zhì)量1∶1的比例兩兩混合,得到44個(gè)混合樣本,共計(jì)90個(gè)稻谷樣本。
1.2 試驗(yàn)設(shè)備與樣本光譜采集
近紅外光譜儀:漫反射式Supnir-2720近紅外光譜儀,杭州聚光科技股份有限公司。其測(cè)定范圍為1 000~1 799 nm,光譜采樣間隔為1 nm,光譜分辨率為10 nm。為減小誤差,每個(gè)樣本掃描3次。稻谷籽粒置于樣本盤(pán)內(nèi),且裝滿、壓實(shí),逐一掃描。
1.3 稻谷脂肪含量測(cè)定
按照GB/T 5511—2008《糧油檢驗(yàn) 糧食中粗脂肪含量測(cè)定》中的索氏抽提法[14]測(cè)定稻谷的脂肪含量,取3次測(cè)定的平均值。
1.4 數(shù)據(jù)處理方法
1.4.1 樣本集劃分
運(yùn)用Kennard-Stone方法[15]對(duì)90個(gè)稻谷樣本進(jìn)行分組,80%為校正集,20%為驗(yàn)證集,分別用于模型的建立與驗(yàn)證。Kennard-Stone方法基于變量之間的歐氏距離,在樣本光譜的特征空間中均勻選取樣本,依次選取歐氏距離最遠(yuǎn)的點(diǎn),進(jìn)入校正集,留下馬氏距離居中的點(diǎn)在驗(yàn)證集之中[16]。這樣可使光譜差異較大的樣本全部進(jìn)入校正集,從而在一定程度上避免了校正集樣本分布的不均勻。
1.4.2 近紅外光譜預(yù)處理
預(yù)處理能將光譜的有效信息放大,且將光譜壓縮在相同的范圍進(jìn)行比較,消除了基線漂移、樣品不均勻、光散射、光程變化等對(duì)光譜的影響。選擇合適的預(yù)處理方法,對(duì)提高模型的檢測(cè)能力和精度十分重要。本文運(yùn)用歸一化、一階導(dǎo)、二階導(dǎo)等預(yù)處理方法中的一種或多種的組合對(duì)稻谷近紅外光譜做預(yù)處理。然后根據(jù)不同預(yù)處理方法所建立模型的性能指標(biāo)來(lái)確定最終的光譜預(yù)處理方案。
1.4.2.1 歸一化
在建立近紅外定量模型前,為了將光譜的有效信息放大,常采用歸一化來(lái)進(jìn)行預(yù)處理,使光譜數(shù)據(jù)的方差為1,均值為0,將光譜數(shù)據(jù)放在相同的范圍進(jìn)行比較[17]。本文運(yùn)用Z-score歸一化進(jìn)行預(yù)處理試驗(yàn)。
1.4.2.2 一階導(dǎo)
導(dǎo)數(shù)法可消除基線偏移、背景干擾出現(xiàn)的譜線重疊,呈現(xiàn)變化明顯的波峰波谷,提供比原始光譜更清晰的光譜輪廓變化[18]。
1.4.2.3 二階導(dǎo)
原始光譜經(jīng)過(guò)二階導(dǎo)數(shù)處理后,會(huì)變得很尖銳,有利于更好的確定波峰和波谷的位置,可使各吸收峰變得更容易區(qū)分。二階導(dǎo)數(shù)可以消除基線的線性傾斜[19]。
1.4.3 特征波長(zhǎng)篩選
稻谷脂肪的近紅外光譜波長(zhǎng)點(diǎn)數(shù)為800個(gè),而樣本數(shù)是90個(gè),利用此數(shù)據(jù)進(jìn)行回歸分析,共線性非常嚴(yán)重。利用CARS方法[20]對(duì)特征波長(zhǎng)進(jìn)行篩選可簡(jiǎn)化模型,并提高模型的檢測(cè)能力。
1.4.4 建模
為了降低模型的運(yùn)算量,便于后續(xù)研究中在線快速檢測(cè)系統(tǒng)的開(kāi)發(fā),使用多元線性回歸方法建立基于近紅外光譜分析技術(shù)的稻谷脂肪含量檢測(cè)模型,以模型的決定系數(shù)(R2)、定標(biāo)標(biāo)準(zhǔn)差(RMSEC)、相對(duì)偏差來(lái)評(píng)價(jià)模型的穩(wěn)定性、檢測(cè)能力和優(yōu)劣。當(dāng)R2越趨近于1,RMSEC和相對(duì)偏差的值越趨近于0,則模型的穩(wěn)定性和檢測(cè)能力越好,在實(shí)際中的檢測(cè)越準(zhǔn)確。同時(shí),在建模的過(guò)程中通過(guò)顯著性指標(biāo)進(jìn)一步對(duì)特征波長(zhǎng)進(jìn)行優(yōu)選,使模型進(jìn)一步簡(jiǎn)化。
2 結(jié)果與分析
2.1 樣本近紅外光譜
圖1為90個(gè)稻谷樣本的近紅外光譜圖??梢?jiàn),不同樣本的近紅外光譜在總體趨勢(shì)上是一致的。但由于物質(zhì)成分含量的微小差異,不同樣本的吸光度略有不同。
圖1 90個(gè)稻谷樣本的原始近紅外光譜圖
Fig.1 Original Near-infrared spectra of ninety rice samples2.2 樣本集劃分結(jié)果
采用Kennard-Stone法選取校正集與驗(yàn)證集,結(jié)果見(jiàn)表1。驗(yàn)證集的范圍包含在校正集內(nèi),分組合理。
表1 Kennard-Stone 分組結(jié)果
Table1 Results of Kennard-Stone2.3 樣本預(yù)處理
4種預(yù)處理方法后的結(jié)果如圖2和表2所示。由表2可知,運(yùn)用一階導(dǎo)處理后所建模型的決定系數(shù)最大、定標(biāo)標(biāo)準(zhǔn)差最小,因此選用一階導(dǎo)為優(yōu)良的預(yù)處理方法。
圖2 經(jīng)過(guò)4種預(yù)處理后的光譜圖
Fig.2 Spectra after 4 preprocessing methods表2 不同預(yù)處理方法的比較
Table2 Comparison of different pretreatments2.4 特征波長(zhǎng)篩選
對(duì)光譜進(jìn)行預(yù)處理后,采用CARS方法對(duì)稻谷脂肪的特征波長(zhǎng)進(jìn)行多次篩選,其篩選過(guò)程如圖3所示。圖3-a為篩選過(guò)程中選出變量的變化趨勢(shì),隨著運(yùn)行次數(shù)的增加,保留的變量數(shù)越來(lái)越少,且由快到慢呈指數(shù)函數(shù)遞減。圖3-b為波長(zhǎng)變量篩選過(guò)程中交叉驗(yàn)證均方差RMSECV的變化趨勢(shì),在1~53次采樣過(guò)程中,RMSECV呈現(xiàn)遞減趨勢(shì),表明篩選過(guò)程中剔除了與樣本性質(zhì)無(wú)關(guān)的變量,此時(shí)對(duì)應(yīng)的變量數(shù)為34,53次后開(kāi)始遞增,說(shuō)明篩選過(guò)程中開(kāi)始剔除了與稻谷脂肪含量相關(guān)的變量,從而導(dǎo)致RMSECV值增大,可見(jiàn)在第53次時(shí),已將無(wú)關(guān)變量全部剔除,最后保留波長(zhǎng)數(shù)34個(gè)。圖3-c中“*”所對(duì)應(yīng)的點(diǎn)即為RMSECV最低點(diǎn),圖3-c中各線表示隨著運(yùn)行次數(shù)增加各波長(zhǎng)變量回歸系數(shù)的變化趨勢(shì)。特征波長(zhǎng)篩選時(shí)蒙特卡羅采樣次數(shù)為100,挑選出的34個(gè)特征波長(zhǎng)見(jiàn)圖4。
圖3 稻谷脂肪特征波長(zhǎng)篩選圖
Fig.3 Key wavelengths selection of fat in rice2.5 稻谷脂肪數(shù)學(xué)模型的建立
運(yùn)用多元線性回歸方法,以34個(gè)特征波長(zhǎng)建立稻谷脂肪含量的檢測(cè)模型,將顯著性不高的特征波長(zhǎng)剔除,優(yōu)選特征波長(zhǎng),最終得到30個(gè)特征波長(zhǎng),回歸系數(shù)及顯著性見(jiàn)表3。檢測(cè)模型的具體形式為:
圖4 稻谷脂肪特征波長(zhǎng)的分布情況(o表示特征波長(zhǎng))
Fig.4 Distribution of key wavelengths (shown by “o”) for fat in ricey=b+∑aixi
(1)
式中:y,稻谷脂肪含量;b,回歸常數(shù)項(xiàng);ai,各特征波長(zhǎng)的回歸系數(shù);xi,特征波長(zhǎng)的吸光值經(jīng)過(guò)一階導(dǎo)數(shù)處理后的數(shù)值;i=1 000, 1 001, … , 1 799,波長(zhǎng)所對(duì)應(yīng)的納米數(shù)。
表3為稻谷脂肪檢測(cè)模型的參數(shù)及其顯著性??梢?jiàn),在x1 343、x1 489和x1 583處,回歸系數(shù)的絕對(duì)值最大,說(shuō)明這些特征波長(zhǎng)對(duì)模型的影響最大,t值相對(duì)較大,說(shuō)明對(duì)模型的影響較顯著。其中,1 343 nm反映了C—H基團(tuán)的第二組合頻和O—H基團(tuán)的伸縮振動(dòng)的二級(jí)倍頻吸收帶,1 489 nm反映了O—H基團(tuán)的伸縮振動(dòng)的二級(jí)倍頻,1 583 nm反映了O—H基團(tuán)的伸縮振動(dòng)的一級(jí)倍頻吸收帶。檢測(cè)模型的決定系數(shù)R2為0.958 9,定標(biāo)標(biāo)準(zhǔn)差RMSEC為0.223 6,相對(duì)偏差為5.53%,說(shuō)明模型具有較好的穩(wěn)定性和準(zhǔn)確性。
表3 稻谷脂肪檢測(cè)模型的參數(shù)及其顯著性
Table 3 Parameters and significances of fat prediction model利用上述回歸方程預(yù)測(cè)18個(gè)驗(yàn)證集的脂肪含量,偏差的絕對(duì)值最大為0.716 1,最小為0.003 2,模型驗(yàn)證的決定系數(shù)R2為0.825 0,校驗(yàn)標(biāo)準(zhǔn)差RMSEP為0.339 8,相對(duì)偏差為8.55%,說(shuō)明所建模型具有較好的檢測(cè)能力。
3 結(jié)論
本文首先采集了90個(gè)稻谷樣本的漫反射近紅外光譜,使用Kennard-Stone法選取了校正集與驗(yàn)證集。然后對(duì)比了歸一化、一階導(dǎo)、二階導(dǎo)、一階導(dǎo)+歸一化等4種預(yù)處理方法對(duì)模型性能的影響,使用CARS法確定了與稻谷脂肪含量檢測(cè)相關(guān)的近紅外特征波長(zhǎng)。最后利用多元線性回歸理論對(duì)特征波長(zhǎng)進(jìn)行優(yōu)選,并建立了基于近紅外光譜分析技術(shù)的稻谷脂肪含量的檢測(cè)模型。結(jié)果表明,稻谷紅外光譜的優(yōu)良預(yù)處理方法為一階導(dǎo),與稻谷脂肪含量檢測(cè)相關(guān)的近紅外特征波長(zhǎng)為30個(gè),其中最典型的特征波長(zhǎng)為:1 343、1 489和1 583 nm。檢測(cè)模型的決定系數(shù)R2為0.958 9,定標(biāo)標(biāo)準(zhǔn)差RMSEC為0.223 6,相對(duì)偏差為5.53%。將檢測(cè)模型用于驗(yàn)證集,偏差的絕對(duì)值最大為0.716 1,最小為0.003 2,模型驗(yàn)證的決定系數(shù)R2為0.825 0,校驗(yàn)標(biāo)準(zhǔn)差RMSEP為0.339 8,相對(duì)偏差為8.55%,說(shuō)明所建模型具有較好的穩(wěn)定性和檢測(cè)能力。
參考文獻(xiàn)
[1] 黃麗, 柏蕓, 韓文芳, 等. 稻米質(zhì)量對(duì)食品安全的影響[J]. 中國(guó)糧油學(xué)報(bào), 2013, 28(4): 113-117.
[2] MILICA M P, JASNA S M. Near infrared spectroscopy-advanced analytical tool in wheat breeding, trade, and processing [J]. Food and Bioprocess Technology, 2013, 6: 330-352.
[3] 陳辰, 魯曉翔, 張鵬, 等. 玫瑰香葡萄貯藏期間糖酸品質(zhì)的近紅外檢測(cè)[J]. 食品與發(fā)酵工業(yè), 2015, 41(6): 175-180.
[4] 涂斌, 陳志, 彭博, 等. 基于多源光譜特征融合技術(shù)的花生油摻偽檢測(cè)[J]. 食品與發(fā)酵工業(yè), 2014, 42(4): 169-173.
[5] BAGCHI T B, SHARMA S G, CHATTOPADHYAY K. Development of NIRS models to predict protein and amylose content of brown rice and proximate compositions of rice bran [J]. Food Chemistry, 2016, 191(1): 20-27.
[6] SUN Cheng-xiao, YU Yong-hong, DUAN Bing-wu, et al. Rapid prediction of rice quality characteristics by near-infrared reflectance spectroscopy for breeding programs [J]. Cereal Chemistry, 2014, 91(3): 270-275.
[7] XIE L H, TANG S Q, CHEN N, et al. Optimisation of near-infrared reflectance model in measuring protein and amylose content of rice flour [J]. Food Chemistry, 2014, 142: 92-100.
[8] SIRISOMBOON C D, PUTTHANG R, SIRISOMBOON P. Application of near infrared spectroscopy to detect aflatoxigenic fungal contamination in rice [J]. Food Control, 2013, 33(1): 207-214.
[9] 張中衛(wèi), 溫志渝, 曾甜玲, 等. 微型近紅外光纖光譜儀用于奶粉中蛋白質(zhì)脂肪的定量檢測(cè)研究[J]. 譜學(xué)與光譜分析, 2013, 33(7): 1 796-1 800.
[10] 郭中華, 王磊, 金靈, 等. 基于近紅外透射光譜的乳制品蛋白質(zhì)、脂肪含量檢測(cè)[J]. 光電子·激光, 2013(6): 1 163-1 168.
[11] 趙明富, 施玉佳, 羅彬彬, 等. 基于近紅外透射光譜的牛奶中脂肪和蛋白質(zhì)含量檢測(cè)[J]. 激光雜志, 2014(1): 44-45.
[12] 林家永, 范維燕, 薛雅琳, 等. 稻米儲(chǔ)藏品質(zhì)近紅外光譜快速判定技術(shù)及儀器研發(fā)[J]. 中國(guó)糧油學(xué)報(bào), 2011, 26(7): 113-118.
[13] LI Hong-dong, LIANG Yi-zeng, XU Qing-song, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009, 648(1): 77-84.
[14] GB 5009.5—2010. 食品安全國(guó)家標(biāo)準(zhǔn): 食品中蛋白質(zhì)的測(cè)定[S].
[15] 陳鑫. 基于智能算法的近紅外光譜分析預(yù)測(cè)模型建立方法研究[D]. 無(wú)錫:江南大學(xué), 2013.
[16] 張華秀, 李曉寧, 范偉, 等. 近紅外光譜結(jié)合CARS變量篩選方法用于液態(tài)奶中蛋白質(zhì)與脂肪含量的測(cè)定[J]. 分析測(cè)試學(xué)報(bào), 2010, 29(5): 430-434.
[17] 王艷陽(yáng), 魏永霞. 基于Z比分?jǐn)?shù)的參考作物騰發(fā)量計(jì)算方法優(yōu)選[J]. 節(jié)水灌溉, 2015, 29(3): 52-54.
[18] 宋麗華. 花生籽仁蛋白質(zhì)含量近紅外光譜模型的建立及育種應(yīng)用[D]. 保定:河北農(nóng)業(yè)大學(xué), 2011.
[19] 白雁, 余振喜, 孫素琴, 等. 近紅外漫反射光譜技術(shù)測(cè)定牛膝中蛻皮甾酮[J]. 中草藥, 2005, 36(9): 115-118.
[20] 劉星, 單楊, 李高陽(yáng). CARS結(jié)合PLS-LDA法識(shí)別奶牛飼料中土霉素的可行性研究[J]. 包裝與食品機(jī)械, 2012, 30(4): 1-4.
Establishment of a selection and detection model of fat inrice by nearinfrared spectrum characteristics
ABSTRACT Near Infrared (NIR) spectrum was used to detect fat content in rice. NIR spectra of 90 rice samples were measured. Kennard-Stone method was used to select the calibration set and prediction set samples. The effects of different pretreatment (normalize, first derivative and second derivative methods) have been compared for the accuracy of the models. The best pretreatment method is the first derivative. The competitive self-adaptive weighted sampling technology is used to screen the key wavelengths associated with sample properties. Finally, thirty key wavelengths are selected by Multiple Linear Regression further. The most typical key wavelengths are 1 343 nm, 1 489 nm and 1 583 nm which related to the groups of —CH and —OH in rice fat. The detection model of fat content of rice based on near infrared spectroscopy has higher precision with the coefficient of determination, root mean square error of calibration and relative deviation are 0.958 9, 0.223 6 and 5.53%, respectively.
Key words near infrared spectrum; rice; fat; competitive adaptive reweighted sampling; multiple linear regression
DOI:10.13995/j.cnki.11-1802/ts.014950
引用格式:李路,黃漢英,李毅,等.稻谷脂肪近紅外光譜特征篩選及檢測(cè)模型構(gòu)建[J].食品與發(fā)酵工業(yè),2018,44(2):87-91.
基金項(xiàng)目:中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)(2662015PY078);湖北省重大科技創(chuàng)新計(jì)劃(2014ABC009)
收稿日期:2017-06-13,改回日期:2017-06-21