首頁 > 家居

多層感知器的SPSS操作

由 SPSS學堂發表于家居2021-04-25

作者：王鵬審稿：柏安之封面：吉江

本節我們主要介紹如何運用SPSS統計軟體進行神經網路分析。在本案例中主要根據資料預測低出生體重兒童的比例。在資料中一共有189個孕婦的資料，按照訓練集與測試集的比例為7：3，則132個樣本資料用於建模，57個樣本資料用於測試模型的有效性。

注意：為了防止過度擬合，在神經網路中需要對樣本進行拆分，一般按照

：

或者

:3:3

的比例，形成訓練集、驗證集和支援集。這裡採用

SPSS

預設的

：

。

由於神經網路模型和內容複雜，因此，這裡主要介紹神經網路中多層感知器模型（前向傳播模型）的主要操作步驟。

操作步驟如下：

第一步，開啟“檔案”→“開啟”→“資料”，將樣本資料neural-network。sav匯入。

第二步，選擇“分析”→“神經網路”→“多層感知”選單選項。

第三步，將變數“low”選入“因變數”（因為本案例預測低出生兒的比例，所以選擇其作為因變數）。

第四步，將變數“ht”選入“因子”，將“lwt”和“pt”選入“協變數”。因各協變數量綱不同，選擇“標準化”處理。如圖1所示。

第五步，在“分割槽”選項卡中，可以看到SPSS自動將樣本分為“培訓”和“檢驗”，也就是上面提到的訓練集和測試集，比例為7：3，支援集為。

第六步，在“輸出”選項卡中，選中“網路結構”選項組的“描述”、“圖表”和“鍵結值”，在“網路效能”中，選擇前四個選項。如圖2所示。

注意：

“鍵結值”是顯示係數估計的，它會給某一層與下一層的單元之間的關係（大於或者小於）。

第七步，單擊“確定”，SPSS會輸出結果。這就是多層感知器最基本的操作步驟。

圖1

圖2

結果分析

表1分析結果中給出了所有樣本的使用情況，可見，SPSS按照7：3比例隨機抽出了132個樣本用於建模，57個樣本用於測試。

表2給出了模型的基本框架，包括：輸入層、隱藏層和輸出層。可以看到透過樣本資料最終建立的是一個隱藏層的模型，該隱藏層包括2個隱單元。

因子：一般有分類變數。協變數一般有尺度變數或者連續的自變數。

圖3

圖3為神經網路的結果示意圖，可見因子“ht”分為兩個啞變數

（

或者

的人工變數）

節點，ht=0（沒有高血壓），ht=1（患有高血壓），相應的兩個分類的因變數也以low=0和low=1兩個啞變數輸出。協變數“lwt”和“ptl”各自以一個節點方式納入模型。在相鄰的兩層中，以兩種顏色區分連線權重的正負，連線線的粗細代表權重絕對值的大小，從圖中可以看出，自變數ht對模型的貢獻較大，且輸入層的ht=1的節點透過隱藏層H（1：1）節點與輸出層low=1節點有較強的連線權重，這表示有高血壓的孕婦更容易生出低體重嬰兒。

表3顯示無論是訓練集還是測試集，其相對錯誤都在25%-30%之間，等於說，預測準確率在70%-75%。

表4輸出的是模型對樣本的預測分類結果。則訓練集和測試集對出生嬰兒低體重的預測準確率為29。5%和26。7%。

圖4ROC曲線

圖4給出了分別針對正常和低出生提供的兩個類別的ROC曲線。關於ROC曲線的詳細內容，在本公眾號的系列內容中已經介紹過。這裡不再敘述。