哦哇資訊網

多層感知器的SPSS操作

由 SPSS學堂 發表于 家居2021-04-25

作者:王鵬   審稿:柏安之  封面:吉江

本節我們主要介紹如何運用SPSS統計軟體進行神經網路分析。在本案例中主要根據資料預測低出生體重兒童的比例。在資料中一共有189個孕婦的資料,按照訓練集與測試集的比例為7:3,則132個樣本資料用於建模,57個樣本資料用於測試模型的有效性。

注意:為了防止過度擬合,在神經網路中需要對樣本進行拆分,一般按照

7

3

或者

4

:3:3

的比例,形成訓練集、驗證集和支援集。這裡採用

SPSS

預設的

7

3

由於神經網路模型和內容複雜,因此,這裡主要介紹神經網路中多層感知器模型(前向傳播模型)的主要操作步驟。

1.

操作步驟如下:

第一步,開啟“檔案”→“開啟”→“資料”,將樣本資料neural-network。sav匯入。

第二步,選擇“分析”→“神經網路”→“多層感知”選單選項。

第三步,將變數“low”選入“因變數”(因為本案例預測低出生兒的比例,所以選擇其作為因變數)。

第四步,將變數“ht”選入“因子”,將“lwt”和“pt”選入“協變數”。因各協變數量綱不同,選擇“標準化”處理。如圖1所示。

第五步,在“分割槽”選項卡中,可以看到SPSS自動將樣本分為“培訓”和“檢驗”,也就是上面提到的訓練集和測試集,比例為7:3,支援集為。

第六步,在“輸出”選項卡中,選中“網路結構”選項組的“描述”、“圖表”和“鍵結值”,在“網路效能”中,選擇前四個選項。如圖2所示。

注意:

“鍵結值”是顯示係數估計的,它會給某一層與下一層的單元之間的關係(大於或者小於)。

第七步,單擊“確定”,SPSS會輸出結果。這就是多層感知器最基本的操作步驟。

圖1

圖2

2.

結果分析

表1分析結果中給出了所有樣本的使用情況,可見,SPSS按照7:3比例隨機抽出了132個樣本用於建模,57個樣本用於測試。

表2給出了模型的基本框架,包括:輸入層、隱藏層和輸出層。可以看到透過樣本資料最終建立的是一個隱藏層的模型,該隱藏層包括2個隱單元。

因子:一般有分類變數。協變數一般有尺度變數或者連續的自變數。

圖3

圖3為神經網路的結果示意圖,可見因子“ht”分為兩個啞變數

或者

1

的人工變數)

節點,ht=0(沒有高血壓),ht=1(患有高血壓),相應的兩個分類的因變數也以low=0和low=1兩個啞變數輸出。協變數“lwt”和“ptl”各自以一個節點方式納入模型。在相鄰的兩層中,以兩種顏色區分連線權重的正負,連線線的粗細代表權重絕對值的大小,從圖中可以看出,自變數ht對模型的貢獻較大,且輸入層的ht=1的節點透過隱藏層H(1:1)節點與輸出層low=1節點有較強的連線權重,這表示有高血壓的孕婦更容易生出低體重嬰兒。

表3顯示無論是訓練集還是測試集,其相對錯誤都在25%-30%之間,等於說,預測準確率在70%-75%。

表4輸出的是模型對樣本的預測分類結果。則訓練集和測試集對出生嬰兒低體重的預測準確率為29。5%和26。7%。

圖4ROC曲線

圖4給出了分別針對正常和低出生提供的兩個類別的ROC曲線。關於ROC曲線的詳細內容,在本公眾號的系列內容中已經介紹過。這裡不再敘述。

多層感知器的SPSS操作

圖5累積增益圖

圖5橫軸代表進入預測的個案比例,縱軸代表某類別中已被正確預測的樣本佔該類別所有被正確預測樣本的比例。基線(斜45度直線)代表隨機選擇得到的結果,模型累積增益線代表使用模型之後的預測結果。圖中累積增益線從一開始就明顯高於基線,在某一點之後逐漸開始靠近基線並且最終重疊。

注意:若累積增益圖從左到右開始階段越陡峭,而且下面所包圍的面積越大,則模型的效果越好。

多層感知器的SPSS操作

提==

學堂正在招募內容主筆、短影片創作者、課程講師,請在公眾號底部選單欄點選“招聘”瞭解詳情!

TAG: 樣本變數模型HT神經網路