統計方法選擇與綜合運用
陳長生
【摘要】 實驗設計、 資料搜集與整理分析是科學研究的3個緊密聯系的階段, 而良好的設計是順利地進行實驗和收集數據、 分析數據的先決條件。統計方法的選擇與正確應用依賴于研究方案中的統計學設計,應充分考慮實驗目的、 設計類型、 觀察指標組成的資料性質和樣本大小等。
【關鍵詞】 統計學; 統計方法; 統計分析; 研究設計
正確運用統計方法的前提是良好的實驗設計。如果試驗前沒有良好的設計, 或者設計存在缺陷, 那么, 即使使用高級的計算機和復雜的統計方法處理數據, 也只能得到錯誤的結論。對于生物(醫學)研究者來說, 統計問題咨詢應該在一個研究項目開始之前, 而不是在研究數據出來以后。沒有系統學習過生物(醫學)統計學的許多實際工作者常常錯誤地認為統計分析是在試驗完成后才考慮的問題, 而且不考慮研究目的、 資料類型以及統計方法的前提條件等有關統計方法選擇的問題。需強調的是,實驗設計、 資料搜集與整理分析是科學研究的三個緊密聯系的階段, 而良好的設計是順利地進行實驗和收集數據、 分析數據的先決條件, 希望通過運用統計方法的計算來彌補設計上的錯誤是不可能的, 也是有害的[1]。
1 統計分析步驟
統計方法的選擇依賴于研究方案中的統計學設計。統計學設計是要求研究工作者, 根據研究目的規定研究因素, 選擇觀察指標, 確定研究對象的樣本含量, 擬定研究的實施方法及數據收集、 整理和分析的模式, 以達到用最少的人力、 物力和時間, 獲得可靠的結論。在實際工作中, 必須根據醫學研究目的、 設計類型、 資料性質、 樣本大小和分析過程中所遇到的各種實際情況等, 并結合專業方面的知識來恰當地選擇和運用統計分析方法, 才能做出正確的、 符合實際的結論。在區分了研究資料的反應變量和解釋變量的基礎上, 數據的統計分析主要回答兩個問題: 一是反應變量的差異是否可歸因于分組因素或對比因素? 二是多個反應變量之間是否存在某種聯系? 因此, 醫學科研數據統計分析大致分以下4個步驟。
1.1 數據整理 主要進行數據質量的核查、 異常值的處理, 考察數據分布及變量轉換等, 以及看數據是否符合特定統計方法所要求的條件。如計算均數和標準差要求數據基本上呈正態分布, 方差分析要求各組方差的差別不宜過大等。
1.2 統計描述 按分組因素或控制因素分組計算反應變量的基本統計量, 如均數、 百分率、 標準差、 標準誤等, 得出資料的大致輪廓和進一步分析方向。結果的表達方式主要是統計圖或統計表[2, 3]。
1.3 統計推斷 選擇和運用恰當的統計方法(見統計方法選擇)作詳細分析, 如均數間的差異比較進行t檢驗或方差分析、 反應變量間的相互關系進行相關分析、 反應變量與解釋變量的依存關系擬合各類回歸模型等等。各種假設檢驗得到的P值是下結論的主要依據[2-4]。
1.4 結果表達 將各種分析結果簡單明了地表達出來, 為專業上的分析討論提供統計學背景[4]。有條件的話, 前3個步驟應在計算機上借助統計軟件完成。另外, 以上4個步驟只是一種粗略地劃分, 對有些資料,統計描述即可得出較為明確的結論。對于隨機分組的實驗設計資料或隨機抽樣的調查資料, 一般可根據資料性質和分析目的找到恰當的統計方法。但對于對比性資料的分析, 往往需要同時用多種統計方法進行處理或擬合復雜的統計模型。
2 統計方法選擇
生物(醫學)科學研究從研究設計開始到數據的收集、 整理、 分析的全過程中, 統計學知識始終貫穿其中, 而統計分析方法的正確選擇在數據處理中至關重要。在研究方案制定時選擇何種統計分析方法取決于實驗的目的、 不同的設計類型、 觀察指標組成的資料性質和樣本大小等。
在研究設計時, 統計方法的選擇需考慮以下6個方面的問題: (1)看反應變量是單變量、 雙變量還是多變量; (2)看單變量資料屬于3種資料類型(計量、 計數及等級資料)中的哪一種; (3)看影響因素是單因素還是多因素; (4)看單樣本、 兩樣本或多樣本; (5)看是否是配對或配伍設計; (6)看是否滿足檢驗方法所需的前提條件, 必要時可進行變量變換, 應用參數方法進行假設檢驗往往要求數據滿足某些前提條件, 如兩個獨立樣本比較t檢驗或多個獨立樣本比較的方差分析, 均要求方差齊性, 因此需要做方差齊性檢驗。如果要用正態分布法估計參考值范圍, 首先要檢驗資料是否服從正態分布。在建立各種多重回歸方程時, 常需檢驗變量間的多重共線性和殘差分布的正態性。
不同的統計分析方法都有其各自的應用條件和適用范圍。實際應用時, 必須根據研究目的、 資料的性質以及所要分析的具體內容等選擇適當的統計分析方法, 切忌只關心P值的大小(是否<0.05), 而忽略統計分析方法的應用條件和適用范圍。
3 統計方法綜合運用實例
例 根據2001年進行的大規模調查, 已知某地健康青年男子身高均數為168.34 cm, 體重均數為57.20 kg, 同年在該地應征男性青年中隨機抽取120名男子, 測得其身高、 體重資料見表1, 試對該資料進行統計分析[1]。表1 120名應征男性青年的身高與體重資料
3.1 資料的分布特征和數字特征的統計描述 本例屬于單樣本雙變量計量資料。對該資料進行統計分析時, 首先應對每一個變量的分布類型及其特征進行統計描述, 編制直方圖或頻數表, 計算相應的統計描述指標, 然后在此基礎上選擇和運用恰當的統計方法進行統計推斷, 最后作出明確結論。
本例的身高、 體重頻數分布情況見圖1~2。由圖1可直觀看出, 身高的頻數分布特征為: 所有數據分布在155~182之間; 數據主要集中在164~173之間, 共有73人, 占總人數的60.8%; 各組段的頻數基本以168.5為中心呈對稱分布。因此, 可認為身高近似服從正態分布。而體重的頻數最多組段58~不在所有組段的中間位置, 各組段的頻數以61為中心呈不對稱分布(圖2), 故可認為體重呈偏態分布。圖1 120名應征男性青年身高的頻數分布圖表2給出了資料分布的數字特征: 均數(x)、 標準差(s)、 中位數(Md)、 四分位數間距(QR)和全距(R)。為了進一步說明各變量是否服從正態分布, 表2也同時給出了偏度系數 由表2可見, 身高的|ug1|和|ug2|均小于1.65, 故可認為身高服從正態分布(矩法正態性檢驗), 此結論與上述的直觀結果相同, 也與圖3的圖示法結論相同(散點幾乎都在一條直線上)。同理, 體重的|ug1|和|ug2|均大于1.65, 故可認為體重不服從正態分布, 此結論亦與上述的直觀結果相同, 顯然與圖4的圖示法結論也相同(散點不在一條直線上)。
由于身高近似服從正態分布, 且是大樣本數據, 故可用樣本均數168.84 cm代表身高的平均水平, 用樣本標準差5.19 cm代表身高的個體差異, 用x±1.96 s來描述身高的95%散布范圍, 即168.84±1.96×5.19=158.67~179.01 cm。由于體重不服從正態分布, 用中位數58.00 kg代表體重的平均水平, 用四分位數間距8.75 kg代表體重的個體差異, 用百分位數P2.5~P97.5描述體質量的95%參考值范圍, 即49.03~80.77 kg。
3.2 參數的點估計與區間估計 身高的均數: =X=168.84 cm, SX=0.47 cm, 95% CI=167.90~169.78 cm 。體重的均數: =X=57.67 kg, SX=0.63 kg, 95%CI=56.44~58.90 cm。體質瘦弱(體重≤50 kg )檢出率: =p=17/120=14.17%, SP=3.18%, 95%CI=7.93%~10.41% 。身高與體重的相關系數: =r=0.4040, Sr=0.0842, 95%CI=0.2423~0.5435。本例n=120, 屬于大樣本數據, 由樣本均數分布規律可知, 雖然體重不是正態分布, 但在大樣本時, 其樣本均數近似服從正態分布, 故仍可用正態分布法進行總體均數的點估計與區間估計。相關系數也不服從正態分布, 故在計算ρ的95%CI時要進行反雙曲正切函數轉換。
3.3 假設檢驗 根據歷史資料, 已知10年前該地健康青年男子身高均數為166.50 cm, 體重均數為55.20 kg, 可通過假設檢驗回答: 本次調查結果所代表的該地健康青年男子的身高總體均數、 體重的總體均數、 是否比10年前提高了。
本例屬于大樣本資料, 可用樣本標準差作為總體標準差的估計值, 即身高標準差的估計值=S=5.19, 體重標準差的估計值=S=6.89, 分別進行單樣本u檢驗: 身高: u=4.98, P<0.01。體重: u=3.92, P<0.01。所以, 根據本次調查結果, 該地健康青年男子的身高和體重都比10年前有所增長。
同理, 還可以對體質瘦弱檢出率、 身高與體重的相關系數等作假設檢驗。