首頁 > 健康

資料的標準化處理：分享幾種常用方法

由醫咖會發表于健康2021-04-26

我們在進行臨床研究時，通常會收集大量不同的指標變數，每個指標的性質、量綱、數量級等特徵，均存在一定的差異。針對

涉及多個不同指標綜合起來的評價模型

，由於各個指標的屬性不同，無法直接在不同指標之間進行比較和綜合。

例如，假設各個指標之間的

水平相差很大

，此時直接使用原始指標進行分析時，數值較大的指標，在評價模型中的絕對作用就會顯得較為突出和重要，而數值較小的指標，其作用則可能就會顯得微不足道。

因此，

為了統一比較的標準

，保證結果的可靠性，我們在分析資料之前，

需要對原始變數進行一定的處理

，即我們本期內容將向大家介紹的

資料的標準化處理

，將原始資料轉化為無量綱、無數量級差異的標準化數值，消除不同指標之間因屬性不同而帶來的影響，從而使結果

更具有可比性

。

資料的標準化

資料的標準化，是透過一定的數學變換方式，將原始資料按照一定的比例進行轉換，使之落入到一個小的特定區間內，例如0~1或-1~1的區間內，消除不同變數之間性質、量綱、數量級等特徵屬性的差異，將其轉化為一個無量綱的相對數值，也就是標準化數值，使

各指標的數值都處於同一個數量級別上

，從而便於不同單位或數量級的指標能夠進行綜合分析和比較。

資料標準化處理的型別

資料標準化處理主要包括

指標一致化處理

和

無量綱化處理

兩種型別。

一、指標一致化處理

指標一致化處理，主要解決的是

資料之間不同性質的問題

。例如我們在評價多個不同指標的作用時，某一類指標，數值越大越好，我們稱之為正指標，例如診斷符合率、病床平均週轉次數等指標；

另有一類指標，數值越小越好，我們稱之為逆指標，例如平均住院日、圍產期嬰兒死亡率等指標。

在這種情況下，如果同時評價這兩類指標的綜合作用，由於他們的作用方向不同，將不同性質的指標作用直接相加，並不能正確反映不同作用方向產生的綜合結果，此時我們就需要對逆指標進行一致化處理，改變逆指標的性質和作用方向，

使所有指標作用方向一致化

，從而得出適宜的結果。

針對逆指標一致化處理的方法主要有兩種：

1、倒數一致化，即對原始資料取倒數，X’ = 1 / x（x>0）

2、減法一致化，即利用該指標允許範圍內的一個上界值（M），依次減去每一個原始資料，X’ = M - x

注意

：倒數一致化常常會改變原始資料的分散程度，這種改變會誇大或縮小原始資料的實際差異，對於進行綜合評價是不利的。而減法一致化則不改變資料的分散程度，因此結果較倒數一致化而言會更加穩定。

二、無量綱化處理

資料無量綱化處理，主要解決

資料之間可比性

的問題，這也是我們對資料進行標準化處理的最主要的一個目的。

在實際的應用中，由於不同變數自身的量綱不同，數量級存在較大差異，在進行綜合評價時，不同變數所佔的作用比重也會有所不同。例如，某個變數的數值在1-10之間，而另一個變數的數值範圍在100-1000之間，此時若進行綜合評價，從數值的角度，很有可能數值變化範圍大的變數，它的絕對作用就會較大，所佔的比重較大。

因此，為了消除量綱、變數自身變異和數值大小的影響，比較不同變數之間的相對作用，就需要對資料進行無量綱化處理，將其轉化為無量綱的純數值來進行評價和比較。

常用的資料標準化方法

一、極差標準化法

極差標準化法，是消除變數量綱和變異範圍影響最簡單的方法。

具體的操作方法

為

：首先需要找出該指標的最大值（Xmax）和最小值（Xmin），並計算極差（R = Xmax - Xmin），然後用該變數的每一個觀察值（X）減去最小值（Xmin），再除以極差（R），即：

X’ = （X-Xmin） / （Xmax-Xmin）

經過極差標準化方法處理後，無論原始資料是正值還是負值，該變數各個觀察值的數值變化範圍都滿足0≤X’≤1，並且正指標、逆指標均可轉化為正向指標，作用方向一致。但是如果有新資料加入，就可能會導致最大值（Xmax）和最小值（Xmin）發生變化，就需要進行重新定義，並重新計算極差（R）。

二、Z-score標準化法

當我們遇到某個指標的最大值和最小值未知的情況時，或者有超出取值範圍的離群數值的時候，就不再適宜計算極差了，此時我們可以採用另一種資料標準化最常用的方法，即

Z-score標準化，也叫標準差標準化法

。

具體的操作方法

為

：

經過Z-score標準化後，資料將符合標準正態分佈，即將有約一半觀察值的數值小於0，另一半觀察值的數值大於0，變數的均值為0，標準差為1，變化範圍為-1≤X’≤1。

在SPSS中，預設的標準化方法就是Z-score標準化法

。

操作步驟如下：

Analyze → Descriptive Statistics → Descriptives

將需要標準化的變數Y選入Variable（s）框中，並勾選Save standardized values as variables，點選OK完成

變數列表中生成一列新變數ZY，即Zscore（Y），也就是經過Z-score標準化轉化後生成的新變數。

三、線性比例標準化法

1、極大化法

對於正指標，取該指標的最大值Xmax，然後用該變數的每一個觀察值除以最大值，即：X’=X / Xmax。（X≥0）

2、極小化法

對於逆指標，取該指標的最小值Xmin，然後用該變數的最小值除以每一個觀察值，即：X’ = Xmin/ X。（X＞0）

注意，以上兩種方法不適用於X

四、log函式標準化法

首先對該變數的每一個觀察值取以10為底的log值，然後再除以該指標最大值（Xmax）的log值，即：

X’=log10X / log10 Xmax

注意，此方法要求X≥1。

五、反正切函式標準化法

透過三角函式中的反正切函式（arctan）也可以實現資料的標準化轉換，計算方法如下：

X’ = arctan（X）*2 / π

注意，如果原始資料為正、負實數，則標準化後的資料區間為-1≤X’≤1，若要得到0≤X’≤1區間，則原始資料應該保證X≥0。

當然，資料標準化的處理還有其他方法，最常用的還是前兩種：極差標準化法和Z-score標準化法。

TAG: 指標標準化變數數值原始資料

上一篇：“品美食促消費享幸福”第五屆“媽媽的味道”活動在富陽正式開幕

下一篇：開機！紀錄片《印跡·重訪》開機儀式暨《紅蓮湖的故事》創作分享會舉行！

猜你喜歡

最近發表

哦哇資訊網

資料的標準化處理：分享幾種常用方法

猜你喜歡