我們在進行臨床研究時,通常會收集大量不同的指標變數,每個指標的性質、量綱、數量級等特徵,均存在一定的差異。針對
涉及多個不同指標綜合起來的評價模型
,由於各個指標的屬性不同,無法直接在不同指標之間進行比較和綜合。
例如,假設各個指標之間的
水平相差很大
,此時直接使用原始指標進行分析時,數值較大的指標,在評價模型中的絕對作用就會顯得較為突出和重要,而數值較小的指標,其作用則可能就會顯得微不足道。
因此,
為了統一比較的標準
,保證結果的可靠性,我們在分析資料之前,
需要對原始變數進行一定的處理
,即我們本期內容將向大家介紹的
資料的標準化處理
,將原始資料轉化為無量綱、無數量級差異的標準化數值,消除不同指標之間因屬性不同而帶來的影響,從而使結果
更具有可比性
。
資料的標準化
資料的標準化,是透過一定的數學變換方式,將原始資料按照一定的比例進行轉換,使之落入到一個小的特定區間內,例如0~1或-1~1的區間內,消除不同變數之間性質、量綱、數量級等特徵屬性的差異,將其轉化為一個無量綱的相對數值,也就是標準化數值,使
各指標的數值都處於同一個數量級別上
,從而便於不同單位或數量級的指標能夠進行綜合分析和比較。
資料標準化處理的型別
資料標準化處理主要包括
指標一致化處理
和
無量綱化處理
兩種型別。
一、指標一致化處理
指標一致化處理,主要解決的是
資料之間不同性質的問題
。例如我們在評價多個不同指標的作用時,某一類指標,數值越大越好,我們稱之為正指標,例如診斷符合率、病床平均週轉次數等指標;
另有一類指標,數值越小越好,我們稱之為逆指標,例如平均住院日、圍產期嬰兒死亡率等指標。
在這種情況下,如果同時評價這兩類指標的綜合作用,由於他們的作用方向不同,將不同性質的指標作用直接相加,並不能正確反映不同作用方向產生的綜合結果,此時我們就需要對逆指標進行一致化處理,改變逆指標的性質和作用方向,
使所有指標作用方向一致化
,從而得出適宜的結果。
針對逆指標一致化處理的方法主要有兩種:
1、倒數一致化,即對原始資料取倒數,X’ = 1 / x(x>0)
2、減法一致化,即利用該指標允許範圍內的一個上界值(M),依次減去每一個原始資料,X’ = M - x
注意
:倒數一致化常常會改變原始資料的分散程度,這種改變會誇大或縮小原始資料的實際差異,對於進行綜合評價是不利的。而減法一致化則不改變資料的分散程度,因此結果較倒數一致化而言會更加穩定。
二、無量綱化處理
資料無量綱化處理,主要解決
資料之間可比性
的問題,這也是我們對資料進行標準化處理的最主要的一個目的。
在實際的應用中,由於不同變數自身的量綱不同,數量級存在較大差異,在進行綜合評價時,不同變數所佔的作用比重也會有所不同。例如,某個變數的數值在1-10之間,而另一個變數的數值範圍在100-1000之間,此時若進行綜合評價,從數值的角度,很有可能數值變化範圍大的變數,它的絕對作用就會較大,所佔的比重較大。
因此,為了消除量綱、變數自身變異和數值大小的影響,比較不同變數之間的相對作用,就需要對資料進行無量綱化處理,將其轉化為無量綱的純數值來進行評價和比較。
常用的資料標準化方法
一、極差標準化法
極差標準化法,是消除變數量綱和變異範圍影響最簡單的方法。
具體的操作方法
為
:首先需要找出該指標的最大值(Xmax)和最小值(Xmin),並計算極差(R = Xmax - Xmin),然後用該變數的每一個觀察值(X)減去最小值(Xmin),再除以極差(R),即:
X’ = (X-Xmin) / (Xmax-Xmin)
經過極差標準化方法處理後,無論原始資料是正值還是負值,該變數各個觀察值的數值變化範圍都滿足0≤X’≤1,並且正指標、逆指標均可轉化為正向指標,作用方向一致。但是如果有新資料加入,就可能會導致最大值(Xmax)和最小值(Xmin)發生變化,就需要進行重新定義,並重新計算極差(R)。
二、Z-score標準化法
當我們遇到某個指標的最大值和最小值未知的情況時,或者有超出取值範圍的離群數值的時候,就不再適宜計算極差了,此時我們可以採用另一種資料標準化最常用的方法,即
Z-score標準化,也叫標準差標準化法
。
具體的操作方法
為
:
經過Z-score標準化後,資料將符合標準正態分佈,即將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的均值為0,標準差為1,變化範圍為-1≤X’≤1。
在SPSS中,預設的標準化方法就是Z-score標準化法
。
操作步驟如下:
1.
Analyze → Descriptive Statistics → Descriptives
2.
將需要標準化的變數Y選入Variable(s)框中,並勾選Save standardized values as variables,點選OK完成
3.
變數列表中生成一列新變數ZY,即Zscore(Y),也就是經過Z-score標準化轉化後生成的新變數。
三、線性比例標準化法
1、極大化法
對於正指標,取該指標的最大值Xmax,然後用該變數的每一個觀察值除以最大值,即:X’=X / Xmax。(X≥0)
2、極小化法
對於逆指標,取該指標的最小值Xmin,然後用該變數的最小值除以每一個觀察值,即:X’ = Xmin/ X。(X>0)
注意,以上兩種方法不適用於X
四、log函式標準化法
首先對該變數的每一個觀察值取以10為底的log值,然後再除以該指標最大值(Xmax)的log值,即:
X’=log10X / log10 Xmax
注意,此方法要求X≥1。
五、反正切函式標準化法
透過三角函式中的反正切函式(arctan)也可以實現資料的標準化轉換,計算方法如下:
X’ = arctan(X)*2 / π
注意,如果原始資料為正、負實數,則標準化後的資料區間為-1≤X’≤1,若要得到0≤X’≤1區間,則原始資料應該保證X≥0。
當然,資料標準化的處理還有其他方法,最常用的還是前兩種:極差標準化法和Z-score標準化法。
猜你喜歡
- 2022-12-20為什麼銀行的考核指標越來越多、考核壓力越來越大?
- 2022-12-02看圖如何識別頂,如何逃頂
- 2021-12-08著色器語言GLSL基礎
- 2021-04-12血小板數值提升到安全範圍,可以停止治療嗎?
- 2021-04-10為何腎衰竭來得靜悄悄?腎友防範尿毒症,2件事一定要注意