哦哇資訊網

觀察性研究中的logistic迴歸分析思路

由 醫咖會 發表于 健康2021-04-06

本文內容來自《中華流行病學雜誌》2019年第40卷第8期,作者為馮國雙教授,原題目為《

觀察性研究中的logistic迴歸分析思路

》。將這篇文章分享給醫咖會的夥伴們,希望大家能從領域大咖的見解中有所收穫,指導醫學研究之路。

(感謝馮國雙教授的授權)

觀察性研究在研究設計中佔有非常重要的地位,實際應用中比較常見的是病例對照研究和佇列研究。儘管其應用廣泛,但在資料分析中卻存在不少問題。在分析時往往只考慮資料本身,而未能結合研究型別,從而導致結果的偏倚。甚至在已發表的文章中,也存在一些不嚴謹用語。

本文從觀察性研究的型別出發,基於不同研究型別的研究目的,

以logistic迴歸分析為例,探討觀察性研究的不同分析思路

,希望為醫學科研工作者提供一定的參考和借鑑。

logistic迴歸

假定有m個自變數X1,X2,…,Xm,

logistic迴歸模型的基本形式

可表達為:

只從資料本身考慮的話,logistic迴歸模型都是包括一個分類因變數及若干自變數(可以是分類變數,也可以是連續變數),反映了m個自變數對因變數的線性影響。

無論對於病例對照研究還是佇列研究,這種形式都是不變的

部分研究在資料分析時,忽略了前期的設計思路,只是簡單地把因變數和所有自變數納入統計軟體中相應位置,點選執行直接給出結果。從資料上來看,病例對照研究和佇列研究的資料形式完全一樣,軟體操作過程也並無不同,都是指定因變數和自變數,然後給出引數估計值及統計檢驗結果。

統計軟體無法判斷研究者採用的是病例對照研究還是佇列研究,也並不清楚作者的主要研究目的是什麼,只是對指定的變數進行引數估計。而統計分析的思路需要根據研究目的和研究型別而定,對於病例對照研究或佇列研究而言,它們的分析思路顯然不同。

一味依靠統計軟體,不僅容易出現一些錯誤分析思路,也會導致錯誤的分析結果。

病例對照研究中的logistic迴歸

從資料分析的角度來看,病例對照研究大致有

兩大類目

:一是探索危險因素,二是驗證危險因素。

1、以探索危險因素為目的的分析思路:

危險因素的探索常見於臨床研究中,通常用於研究初期,此時研究者並不清楚哪些因素可能會影響結局的發生,因此先進行初步探索。根據專業知識和經驗收集一些可能的指標,然後從中尋找可能對結局影響較大的因素。

例如,探索兒童打鼾的危險因素,研究者並無太多的前期基礎,只是為了發現可能與兒童打鼾有關的因素,這種情況下會根據文獻報道、專業經驗等收集一些可能有關的指標,並從中找出與兒童打鼾有關的部分因素。

危險因素探索的文章中,最常見的表述錯誤是“校正其他混雜因素”後,發現共K個變數對結局有影響。混雜因素是相對主要研究因素而言,而危險因素探索的研究中,並無明確的主要研究因素,所有變數都是待研究的因素,目的是從這些變數中找出哪些有影響。此類研究中,“校正其他混雜因素”是一種不嚴謹的表達方式。

對於這種分析思路,需要有一定的分析經驗和技巧。

實際分析中,需要考慮幾個問題:

線性問題:

由於logistic迴歸本質上仍屬於“線性模型”,因此一定要確認自變數與因變數(logit P)之間是否存線上性關係,如果不是,需要考慮進行相應的變換,否則可能會產生錯誤結果。

例1:

某研究分析老年人高血壓(二分類變數,是或否)的危險因素,研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG 和 ox-LDL IgM 共6個指標。其中gender 為二分類變數,其餘變數均為連續變數。如果把6個自變數直接納入統計軟體分析,所得結果見表 1。

可以看出,6個變數均差異無統計學意義。然而對資料重新分析後發現,並不是這些變數對結局均無影響,只是未能發現它們之間的真實關係而已。經仔細觀察,發現 age 和 ox-LDL IgM 對結局的影響是有統計學意義的,但不是線性影響,而是二次項關係(表 2)。

共線性問題

:共線性即自變數之間存在高度相關,從而導致結果不可靠 [1]。共線性是大多數迴歸模型都需要考慮的一個問題,一旦發現該問題,需要採取不同措施來解決。常見的解決方案包括刪除某一自變數、主成分分析、Lasso迴歸等。

例2:

某研究分析乳腺增生的危險因素,自變數同時包括妊娠次數(三分類變數,用1、2、3表示相應次數)和流產次數(三分類變數,用0、1、2表示相應次數)。在單因素分析中妊娠次數差異有統計學意義(2 vs。 1,P=0。026;3 vs。 1,P=0。035),然而多因素分析中則差異無統計學意義(P值分別為0。635、0。594)。分析原因發現,主要是由於妊娠次數和流產次數有較強的共線性,二者相關係數高達0。55,從而導致妊娠次數變得無統計學意義。解決方案採用了刪除法,刪除妊娠次數變數,保留了流產次數變數。

單因素和多因素的問題

:目前危險因素篩選的一種分析思路:先進行單因素分析,將單因素分析中差異有統計學意義(P<0。05)的變數再納入多因素分析,選出最終有統計學意義的變數作為危險因素。然而這一思路並非十分可靠,有些情況下可能會出現單因素分析無統計學意義而多因素分析有統計學意義的情況,此時就容易漏掉某些重要的因素。

例3:

某研究分析兩個血清學指標(分別用陽性和陰性表示)對胃癌的影響,資料結果見表 3。

該資料採用單因素分析的話,可以發現 x1 差異無統計學意義(P=0。114),而在多因素分析中卻變得有統計學意義(P=0。018)。如果只將單因素分析中有統計學意義的變數納入多因素分析的話,就會漏掉x1變數。

為什麼會出現這種情況,主要是因為 x1 和 x2 之間存在負相關,而 x1、x2 與結局之間均為正相關。因此,資料分析過程中,不要盲目套用所謂的“分析套路”,而應結合實際情況具體問題具體分析。

總之,在篩選危險因素時,

建議不要僅將單因素分析有統計學意義的變數納入多因素分析

,一定要釐清變數之間的關係,否則容易遺漏重要的變數或納入無意義的變數。

2、以驗證危險因素為目的的分析思路:

驗證危險因素,說明研究者在研究開始時已經有明確的主要研究因素,主要目的是為了驗證該因素是不是真正的影響因素。基於這種目的,

研究者在設計時會突出主要因素,但同時也會收集其他可能的混雜因素。

例如,探索肺癌與吸菸的關係,吸菸是主要研究因素,因此問卷調查中會詳細設定各種與吸菸有關的問題。考慮到其他因素可能也會影響肺癌發生,因此調查時也會加入其他有關因素的調查,但這些因素不是研究者關心的,只是為了校正這些因素,以便真正明確吸菸與肺癌的關係。

因此,對於這種研究目的關鍵的問題是,如何控制混雜因素,以便真正明確主要研究因素與結局的關係。混雜因素在流行病學中已有詳細定義[2],不再贅述。

從資料分析的角度來看,

要判斷一個因素是否為混雜因素,可以從兩個方面來考慮:

第一,分析該因素是否對結局有較大影響,通常可採用χ2檢驗或單因素logistic迴歸來實現;

第二,分析該因素在主要研究因素中的分佈情況,通常採用χ2檢驗來實現。

例4:

某研究分析性別與幽門螺桿菌(Hp)的關係,現在考慮吸菸是否為影響二者關係的混雜因素。具體資料見表 4。

首先分析吸菸對結局的影響,採用χ2檢驗或單因素logistic迴歸不難發現,吸菸人群與不吸菸人群相比,Hp陽性的風險更高(OR=1。84,95%CI:1。44~2。35)。其次分析吸菸在性別中的分佈,χ2檢驗結果顯示,男性和女性中吸菸的比例差異有統計學意義(χ2=396。97,P<0。001),男性的吸菸比例遠高於女性。

由此看出,以性別作為主要分析變數,在分析性別與Hp感染時,吸菸可能是影響二者關係的混雜因素,必須加以校正。校正前結果顯示,性別對Hp的影響有統計學意義,男性有更高的Hp陽性風險(OR=1。62,95%CI:1。26~2。07);校正後發現,性別對Hp的影響無統計學意義(OR=1。26,95%CI:0。94~1。68)。

因此,對於以驗證危險因素為目的的logistic迴歸分析,分析思路主要是明確哪些因素可能是混雜因素並加以校正,以發現主要研究因素與結局的真實關係。

建議儘量避免的兩種思路

把所有變數都進行校正。除非樣本量足夠大,否則這種方式不可取。因為納入的自變數越多,所消耗的自由度越大,用於估計主要研究因素的樣本量相對越小,結果的精確度也越低。

採用逐步迴歸篩選變數。作為主要研究變數,一定要保留在模型中,同時要納入混雜因素。逐步迴歸篩選適用於探索危險因素,不適用於驗證危險因素。

佇列研究中的logistic迴歸

佇列研究絕大多數都是為了驗證某一危險因素,這是由研究性質決定的。因為佇列研究在一開始就需要指定暴露和非暴露,也就相當於確定了主要研究因素。因此,從資料分析角度來講,佇列研究主要是為了排除混雜因素,與前文介紹的思路並無不同。

但佇列研究在時間順序上可以證明研究因素髮生在前,結局發生在後,因此其驗證能力更強。

由於佇列研究有明確的時間先後順序,此時在說明主要研究因素與結局的關聯強度時,可採用RR(risk ratio)而非OR(odds ratio)。佇列研究中,當結局發生率很低時(<10%),OR是RR的一個很好的替代指標,此時用logistic迴歸可直接求得OR值,用來說明暴露的危險度。但如果結局發生率不是很低,OR與RR差別較大,此時用OR來說明危險度可能會有一定的偏倚 [3]。

例5:

某研究分析Hp感染與胃黏膜病變進展的關係,觀察資料見表 5。

本研究如果計算OR值,則OR=2。44(95%CI:1。05~5。70),如果計算RR值,則RR=1。77(95%CI:1。01~3。12)。由於病變進展的發生率較高,兩個指標差別較大。

佇列研究中RR值的計算通常可採用對數二項分佈迴歸(log-binomial regression)。通常需要藉助軟體實現,如SAS的proc genmod過程[4]。

小結

本文介紹了病例對照研究和佇列研究中logistic迴歸分析的不同思路,以及常見的一些應用錯誤。然而本文的思路並不僅限於logistic迴歸分析,完全可以推廣到其他廣義線性模型。

例如,佇列研究的觀察結局如果是計數資料,則可考慮Poisson迴歸或負二項迴歸,此時仍需考慮混雜因素的校正問題。因此,

本文思路對各種常見的迴歸模型均有一定借鑑意義

,至於模型的選擇主要取決於研究結局型別及其分佈。

在各種常見的迴歸分析中,一定要分清研究型別及其目的,到底是探索危險因素還是驗證危險因素。危險因素的篩選過程較為複雜,需要考慮較多問題,包括變數篩選方式等;驗證危險因素相對較為簡單,不需要考慮變數篩選,但要明確混雜因素並加以校正。

一定要避免“把資料完全交給軟體”這種分析方式

,軟體主要用來解決計算問題,分析思路必須由研究者來確定。統計分析不是簡單的引數估計,而應結合研究型別,明確研究思路,才能給出合理的結果。

利益衝突:所有作者均宣告不存在利益衝突

參考文獻:

1。Mennard S。 Applied logistic regression analysis[M]。 Newbury Park, California: SAGE Publications, Inc, 2001。

2。徐飆。 流行病學原理[M]。 上海: 復旦大學出版社, 2007。

Xu B。 Epidemic theory[M]。 Shanghai: Fudan University Press, 2007。

3。Stokes ME, Davis CS, Koch GG。 Categorical data analysis using the SASsystem[M]。 2nd ed。 Cary, NC: John Willy & Sons, Inc, 2000。

4。馮國雙, 劉德平。 醫學研究中的logistic迴歸分析及SAS實現[M]。 2版。 北京: 北京大學醫學出版社,, 2015。

Feng GS, Liu DP。 Logistic regression analysis and SAS application in medical research[M]。 2nd ed。 Beijing: Peking University Medical Press, 2015。

TAG: 因素研究分析變數logistic