哦哇資訊網

資料的標準化處理:分享幾種常用方法

由 醫咖會 發表于 健康2021-04-26

我們在進行臨床研究時,通常會收集大量不同的指標變數,每個指標的性質、量綱、數量級等特徵,均存在一定的差異。針對

涉及多個不同指標綜合起來的評價模型

,由於各個指標的屬性不同,無法直接在不同指標之間進行比較和綜合。

例如,假設各個指標之間的

水平相差很大

,此時直接使用原始指標進行分析時,數值較大的指標,在評價模型中的絕對作用就會顯得較為突出和重要,而數值較小的指標,其作用則可能就會顯得微不足道。

因此,

為了統一比較的標準

,保證結果的可靠性,我們在分析資料之前,

需要對原始變數進行一定的處理

,即我們本期內容將向大家介紹的

資料的標準化處理

,將原始資料轉化為無量綱、無數量級差異的標準化數值,消除不同指標之間因屬性不同而帶來的影響,從而使結果

更具有可比性

資料的標準化

資料的標準化,是透過一定的數學變換方式,將原始資料按照一定的比例進行轉換,使之落入到一個小的特定區間內,例如0~1或-1~1的區間內,消除不同變數之間性質、量綱、數量級等特徵屬性的差異,將其轉化為一個無量綱的相對數值,也就是標準化數值,使

各指標的數值都處於同一個數量級別上

,從而便於不同單位或數量級的指標能夠進行綜合分析和比較。

資料標準化處理的型別

資料標準化處理主要包括

指標一致化處理

無量綱化處理

兩種型別。

一、指標一致化處理

指標一致化處理,主要解決的是

資料之間不同性質的問題

。例如我們在評價多個不同指標的作用時,某一類指標,數值越大越好,我們稱之為正指標,例如診斷符合率、病床平均週轉次數等指標;

另有一類指標,數值越小越好,我們稱之為逆指標,例如平均住院日、圍產期嬰兒死亡率等指標。

在這種情況下,如果同時評價這兩類指標的綜合作用,由於他們的作用方向不同,將不同性質的指標作用直接相加,並不能正確反映不同作用方向產生的綜合結果,此時我們就需要對逆指標進行一致化處理,改變逆指標的性質和作用方向,

使所有指標作用方向一致化

,從而得出適宜的結果。

針對逆指標一致化處理的方法主要有兩種:

1、倒數一致化,即對原始資料取倒數,X’ = 1 / x(x>0)

2、減法一致化,即利用該指標允許範圍內的一個上界值(M),依次減去每一個原始資料,X’ = M - x

注意

:倒數一致化常常會改變原始資料的分散程度,這種改變會誇大或縮小原始資料的實際差異,對於進行綜合評價是不利的。而減法一致化則不改變資料的分散程度,因此結果較倒數一致化而言會更加穩定。

二、無量綱化處理

資料無量綱化處理,主要解決

資料之間可比性

的問題,這也是我們對資料進行標準化處理的最主要的一個目的。

在實際的應用中,由於不同變數自身的量綱不同,數量級存在較大差異,在進行綜合評價時,不同變數所佔的作用比重也會有所不同。例如,某個變數的數值在1-10之間,而另一個變數的數值範圍在100-1000之間,此時若進行綜合評價,從數值的角度,很有可能數值變化範圍大的變數,它的絕對作用就會較大,所佔的比重較大。

因此,為了消除量綱、變數自身變異和數值大小的影響,比較不同變數之間的相對作用,就需要對資料進行無量綱化處理,將其轉化為無量綱的純數值來進行評價和比較。

常用的資料標準化方法

一、極差標準化法

極差標準化法,是消除變數量綱和變異範圍影響最簡單的方法。

具體的操作方法

:首先需要找出該指標的最大值(Xmax)和最小值(Xmin),並計算極差(R = Xmax - Xmin),然後用該變數的每一個觀察值(X)減去最小值(Xmin),再除以極差(R),即:

X’ = (X-Xmin) / (Xmax-Xmin)

經過極差標準化方法處理後,無論原始資料是正值還是負值,該變數各個觀察值的數值變化範圍都滿足0≤X’≤1,並且正指標、逆指標均可轉化為正向指標,作用方向一致。但是如果有新資料加入,就可能會導致最大值(Xmax)和最小值(Xmin)發生變化,就需要進行重新定義,並重新計算極差(R)。

二、Z-score標準化法

當我們遇到某個指標的最大值和最小值未知的情況時,或者有超出取值範圍的離群數值的時候,就不再適宜計算極差了,此時我們可以採用另一種資料標準化最常用的方法,即

Z-score標準化,也叫標準差標準化法

具體的操作方法

經過Z-score標準化後,資料將符合標準正態分佈,即將有約一半觀察值的數值小於0,另一半觀察值的數值大於0,變數的均值為0,標準差為1,變化範圍為-1≤X’≤1。

在SPSS中,預設的標準化方法就是Z-score標準化法

操作步驟如下:

1.

Analyze → Descriptive Statistics → Descriptives

2.

將需要標準化的變數Y選入Variable(s)框中,並勾選Save standardized values as variables,點選OK完成

3.

變數列表中生成一列新變數ZY,即Zscore(Y),也就是經過Z-score標準化轉化後生成的新變數。

三、線性比例標準化法

1、極大化法

對於正指標,取該指標的最大值Xmax,然後用該變數的每一個觀察值除以最大值,即:X’=X / Xmax。(X≥0)

2、極小化法

對於逆指標,取該指標的最小值Xmin,然後用該變數的最小值除以每一個觀察值,即:X’ = Xmin/ X。(X>0)

注意,以上兩種方法不適用於X

四、log函式標準化法

首先對該變數的每一個觀察值取以10為底的log值,然後再除以該指標最大值(Xmax)的log值,即:

X’=log10X / log10 Xmax

注意,此方法要求X≥1。

五、反正切函式標準化法

透過三角函式中的反正切函式(arctan)也可以實現資料的標準化轉換,計算方法如下:

X’ = arctan(X)*2 / π

注意,如果原始資料為正、負實數,則標準化後的資料區間為-1≤X’≤1,若要得到0≤X’≤1區間,則原始資料應該保證X≥0。

當然,資料標準化的處理還有其他方法,最常用的還是前兩種:極差標準化法和Z-score標準化法。

TAG: 指標標準化變數數值原始資料