基于LM-BP神經網絡的穿心蓮藥材分類識別
佚名
作者:周舒冬 李倚岳 李麗霞 張敏
【摘要】 目的建立高效準確的穿心蓮樣品識別模型,為進行質量控制提供參考。方法收集不同產地的12個穿心蓮藥材樣品的指紋圖譜,提取4個主成分利用LM-BP神經網絡進行模式識別。結果建立了穿心蓮藥材指紋圖譜的LM-BP神經網絡模型,經過對不同產地穿心蓮的識別,證明其有較好的識別功能。結論LM-BP算法在識別速度和精度上都比傳統BP算法有了較大提高。
【關鍵詞】 LM-BP神經網絡 穿心蓮 指紋圖譜
為了更全面地檢測各種成分在藥材中分布的全貌,評價藥材質量,促進優質中成藥的生產,對中藥品種的分類識別是一個首要環節[1]。我國中藥材產地多,資源豐富、品種繁多、來源復雜,單憑傳統的經驗鑒別容易造成失誤,而隨著計算機技術發展和模式識別算法的提出和改進,利用中藥指紋圖譜進行中藥材鑒定已經取得了長足發展。由于中藥指紋圖譜含有大量信息,形成一個巨大的多維信息庫,且同時存在一些噪聲干擾而真偽難辨等,因此如何提高中藥指紋圖譜的識別效率,獲取更多有用的數據信息成為亟待解決的問題。本研究結合Levenberg-Marquardt算法與BP神經網絡技術,提取不同產地批次的穿心蓮中藥指紋圖譜的特征空間信息,利用Matlab7.0軟件編程建立高效準確的穿心蓮樣品識別系統。
1 材料與儀器
1.1 樣品來源 12批穿心蓮藥材樣品由廣東省中藥研究所提供,經廣州華南植物研究所陳炳輝研究員鑒定為穿心蓮Andrographis paniculata(Burm.f.)Nees,其中4批產自江西,5批來自廣東,福建3批。
1.2 試劑 乙腈(色譜純),甲酸(分析純),二次蒸餾水(自制)。
1.3 儀器Agilent四元泵高效液相色譜儀、SPD210A紫外檢測器,LC210ATVP輸液泵、UV24802型紫外可見分光光度計,AR2140電子分析天平。
2 方法
2.1 色譜分析條件 Phenomsil ODS柱( 250 mm ×4.6 mm,5 μm),0.1%甲酸乙腈(A)與0.2%甲酸(B)梯度洗脫:0~20 min(20%A-80%B),20~40 min(30%A -70%B),40~55 min(40%A -60%B),55~60 min(85%A-15%B)。流速1.0 ml/min,柱溫25。C,檢測波長254 nm,進樣量10 μl,所有組分均在60 min內被洗脫。
2.2 對照品溶液的制備精密稱取穿心蓮內酯、脫水穿心蓮內酯、新穿心蓮內酯和脫氧穿心蓮內酯對照品適量,用50%甲醇配制成1.0 mg/ml的對照品溶液。
2.3 供試品溶液的制備取各批干燥的穿心蓮藥材2.0 g,粉碎,過40目,用20 ml 85%的乙醇回流提取兩次,2 h/次,過濾,合并濾液,回收乙醇,濾液濃縮至干,再加50%甲醇使其充分溶解,置10ml量瓶中稀釋至刻度,作為供試品溶液。
2.4 方法學考察
2.4.1 精密度實驗取供試品溶液(樣品1),連續進樣6次,各主要色譜峰的相對保留時間和相對峰面積比值的RSD均小于3.0%,表明儀器精密度良好。
2.4.2 穩定性實驗取供試品溶液(樣品1)分別在0,1,2,4,12,24 h進樣測定,各主要色譜峰的相對保留時間和相對峰面積比值的RSD均小于3.0%,表明樣品在24 h內穩定。
2.4.3 重復性實驗取穿心蓮藥材(樣品1),按“2.3”項下的方法分別制備供試品溶液6份,進樣檢測,結果各主要色譜峰的相對保留時間和相對峰面積比值的RSD均小于3.0%,表明方法的重復性良好。
2.5 模式識別方法
2.5.1 模式識別和BP神經網絡模式識別作為一個研究領域,迅速發展于20世紀60年代,它是一門以應用數學為理論基礎,利用計算機應用技術,解決實際分類及識別問題的學問[2]。 神經網絡是一種模擬人腦功能的成熟的模式識別方法,它借鑒了人腦神經系統處理信息的過程,以數學網絡拓撲結構為理論基礎,其中BP神經網絡是迄今為止應用最為廣泛的神經網絡[3]。 BP神經網絡是一種有監督的學習算法,它的特點是同一層內的神經元不連接,在整個信號傳遞過程中不存在任何信號反饋;輸入層用于信號分配和傳遞,不具備運算功能;隱含層和輸出層的神經元具有運算功能,可輸出最終運算結果。BP神經網絡的學習過程有正向與反向兩個過程,在正向傳播過程中,輸入信息從輸入層經過隱含層傳向輸出層,若不能得到預期輸出,則轉為反向傳播,將信號沿原來的連接通道返回并修改各層節點間的權值,經過反復調試,使得誤差信號小于某個閾值或等于0,此時訓練結束。經過訓練的網絡則可將系統規則、預測能力等隱含在網絡中,只需將測試樣本輸入則可給出處理結果。
2.5.2 Levenberg-Marquardt算法改進的BP算法BP神經網絡的常規算法在實際應用還存在一些需要改進的問題,例如網絡學習收斂速度慢,容易陷入局部極小等。而L-M算法是專門用于誤差平方和最小化的方法,它在網絡訓練速度和識別精度上的具有明顯的優勢[4],因此本研究采用L-M算法對標準的BP算法進行改進。 設BP神經網絡的誤差指標函數為: E(x)=12?Ni=1‖Yi-Y^i‖2=12?Ni=1e2i(x) 其中,Yi為實際輸出向量, Y^i為預期的輸出向量, ei(x)為誤差。 設xk表示第k次迭代的權值和閾值組成的向量,新的權值和閾值組成的向量xk+1表示為: xk+1=xk+△x,△x=[JT(x)J(x)=μI]-1J(x)e(x) 其中, J(x)為網絡訓練誤差e(x)的Jacobian矩陣, I為單位矩陣, μ>0。 L-M算法的流程:①給出訓練誤差允許值ε,常數β和μ0,初始化權值和閾值向量k=0,μ=μ0。② 計算網絡輸出及誤差指標函數E(xk)。 ③計算Jacobian矩陣J(x)。④計算△x 。⑤如果E(xk)<?,則轉到⑥,否則以xk+1=xk+△x為權值和閾值向量計算誤差指標函數E(xk+1),若E(xk+1)<E(xk),則令k=k+1,μ=μ/β,轉到②;否則令μ=μβ,轉到④。⑥結束。 當μ=0時,L-M算法即高斯-牛頓法,當μ取值很大時,則越接近梯度下降法。在實踐中,它具有二階收斂速度,所需要的迭代次數很少,既具備牛頓法的局部收斂特性,又有梯度下降算法的全局特性。因此,L-M算法提供了一種快速有效的訓練手段,其算法計算復雜度為O(n3/6) 。
2.6 指紋圖譜的建立和分析
2.6.1 穿心蓮的指紋圖譜按照上述方法,分別對12批穿心蓮藥材進行分析,制作了穿心蓮藥材的HPLC指紋圖譜,并計算出其穿心蓮內酯、脫水穿心蓮內酯、新穿心蓮內酯和脫氧穿心蓮內酯的含量。
2.6.2 資料預處理 為消除由于數據變換的幅度和范圍以及數據分布的非正態性對結果的影響,先將原始數據進行標準化變換。
2.6.3 LM-BP神經網絡結構及訓練測試結果本實驗所采用的3層LM-BP網絡中,輸入節點數為4,即原始數據經特征提取后的4個主成分,隱含層節點數為4,輸出層有1個節點。由于目前仍無系統的關于中間隱層節點數的選取理論,經多次實驗比較,最終選取隱層節點數為4時效果比較顯著。 動量因子和學習速率是影響BP神經網絡訓練速率和收斂度的兩個重要因素。如果學習效率和動量因子過大則網絡收斂很快,但最后網絡發生振蕩,失去功能;如果學習效率和動量因子太小則學習速度太慢,網絡性能也會受到影響。因此經實驗比較選擇,本網絡的最佳學習率為0.05,動量因子為0.6。 由于實驗的樣品數目較少,故采用交叉驗證法進行分類驗證,也就是說將標準化變換后的每個樣本依次作為待測樣本,用剩余的其它樣本組成新的訓練集建立學習模型,用于預測每個樣本的歸屬。 經過LM-BP神經網絡的訓練,可發現有一個穿心蓮樣品被識別錯誤,這份來自江西的樣品被鑒別為福建的樣品,其他11個樣品的鑒別結果均正確。從總體來看,使用LM-BP網絡鑒別穿心蓮樣品的識別正確率達到了91.67%,結果見表1。
表1 LM-BP神經網絡對穿心蓮預測樣本的預測結果(略)
同時實驗預先使用傳統BP神經網絡進行訓練學習,發現雖然傳統BP神經網絡的鑒別結果與改進的模型結果一致,但從訓練的速度進行比較,LM-BP算法的收斂速度很快,而傳統算法的收斂速度則比較緩慢,其誤差收斂曲線圖如圖1和圖2。
圖1 傳統BP神經網絡的誤差收斂曲線(略)
圖2 LM-BP神經網絡的誤差收斂曲線(略)
3 討論 中藥指紋圖譜是一種綜合的、可量化的鑒定手段[5,6],它是建立在中藥化學成分系統研究的基礎上,它能通過指紋圖譜的特征性來有效鑒別樣品的真偽或產地,并且能夠通過指紋圖譜主要特征峰的面積或比例的確定,有效控制產品的質量,確保產品質量的相對一致。但由于受到不同產地及不同采收期的影響,當不同藥材樣品的指紋圖譜非常相似時,不可能用直接觀察的方法對各類產區的藥材作出準確鑒別,如果使用簡單的傳統相關系數法,當樣品間的相關系數非常大也很難作出鑒定。因此使用神經網絡方法可對相似度較高的樣品分類鑒定作深入地研究。 本文首先利用穿心蓮HPLC的指紋圖譜資料建立了LM-BP神經網絡模型,測試時只需將樣品的主要圖譜數據作為輸入,則可輸出相應的產地類別,操作簡便快捷。由于中藥指紋圖譜的模糊綜合等特性,單純依靠人工識別容易出現混淆,因此借助人工神經網絡技術對中藥指紋圖譜資料進行分析,充分利用了模糊、非線性的技術特性,可以真實反映中藥材的內在質量。 應用基于L-M算法的神經網絡進行穿心蓮藥材的識別分類,訓練時間比普通的BP網絡訓練時間短,且擬合精度并未降低。本方法克服了傳統BP網絡訓練時間長、易陷入局部極小的局限性,在對識別精度和識別速度要求比較高的情況下,采用L-M算法改進的BP網絡可以達到很好的效果,具有一定的實用價值。
【參考文獻】 [1] 萬紹暉,萬紹明,康廷國.系統科學在中藥質量控制中的運用[J].時珍國醫國藥,2005,16(5): 457. [2] Andrew R.Webb著.王 萍,楊培龍,羅穎昕譯.統計模式識別,第2版[M].北京:電子工業出版社, 2004. [3] 湯 丹,李 薇,許 毅,等.廣藿香指紋圖譜解析的人工神經網絡方法研究[J].中藥材,2004,27 (7): 534. [4] 趙 弘,周瑞祥,林廷圻.基于Levenberg-Marquardt算法的神經網絡監督控制[J].西安交通大學學報,2002,36(5):523. [5] 林蔚蘭,曾令杰,梁惠瑜.不同產地穿心蓮藥材HPLC指紋圖譜初步研究[J].中成藥,2007,29 (5): 730. [6] 梁永樞,段 啟,方麗華,等.廣東德慶何首烏藥材HPLC指紋圖譜方法學研究[J].廣東藥學院學報, 2006,22(3):265.