我的網誌清單

20111206

3-資料預處理

 

1.異常值

1.1遺漏值

遺漏值是指資料收集的不完整或是有遺漏未填的狀況.一般的處理狀況為邏輯填補/填補統計值(補中位數或平均值)/將遺漏值視為新的選項/利用data mining的模型補遺漏值

一般而言現在的data mining大多是"交易資料"為主,此類資料大多從系統來,所以有遺漏的會是主檔資料,而主檔資料在data mining中是會儘量不使用的

1.2 極端值

極端值是相對概念而不是絶對概念,可以用z分數來估計,其為z=(案例值-每體平均值)/母體標準差,即用案例值距離母體平均值有幾個標準差.來衡量是否是極端值

有時最大及最小值區間很大時,對人而言很難判斷,所以我們會用些方法將區間值轉換到0及1之間,如全距法/sigmoid函數調整法/十進位調整法

2.變數轉換

有時我們會將連續變數及離散變數互相轉換,即離離轉連續,連續轉離散

2.1 連續變轉換成類別變數

某些演算法不支援連續變數時,就只能將變數轉換成類別變數,如決策數/貝氏機率

連續變轉換成類別變數的技術稱為離散化(discretization)或級距切割(binning),而運用這些技術的方法有等寛法/等分法/z分數法/反曲點法/監督式切割

等寛法每個級距一樣寛/等分法每個級距中的樣本數一樣

Z分數法是以平均值為起點,每間隔n個標準差,將連續變數切割開來

反曲點法將反曲點做為切點

監督式切割(supervise binning)根據要預測的變數為基礎,找出最好的切點組合

2.2 類別變數轉換連續變數

某些演算法並不適用類別變數來建模,如線性迴歸/羅吉斯回歸/類神經/群集;可將類別變數轉化成0或1(稱為dummy variables),不過此法預測力較不好,可用連續性指派(continuousness arbitrary)這會有較好的預測力

連續性指派(continuousness arbitrary)是指找出和類別變數有關的屬性,而這個屬性是具有連續性變數的,如學歷可以用年級數替換;縣巿別用人口數來替換

3. 變數篩選

在data mining中,會將大量的輸入變;數及要預測的輸出變數整合在一張資料表中,通常這張表會被稱為候選變名單;變數篩選的過程中,會考量所有的變數,並透過衍生變數產生新的變數,再接著過嚴格的評選及審查(變數篩選),將變數變成最終的決選變數名單

3.1 衍生變數(derived variables)

衍生變數(derived variables)是將原有資料庫的欄位或是既有的變數進行組合,以產生新的輸入變數過程,也就是說衍生變數的目的在於將候選變數名單變廣,但也非漫無目地的變廣,而是要產生有意義的輸入變數

3.2 篩選有效變數

若沒有做變數篩選,有可能讓模型變成OVER-FITTING(過度學習),所謂的過度學習是指,當我們使用訓練資料集來製作模型時,因為模型過度雜或是無效變數過多,因此模型"記憶"了一些規則,將一些只是發生在訓練資料組的內部巧合,當作規則

篩選變數可以分二個層面來看,一個是哪些變數絶不可放入模型,第二個才時找出合宜的變數

3.2.1 非重複性變數

變數的內容值,若永遠不會重複,則不可放入當變數,如ID/姓名...等等,需要再加工過后才可當作變數

3.2.2 選項過多或分布差異過大的變數

選項過多或是單一選項過度集中的變數,也不適合當變數,如郵遞區號

3.2.3 時點錯誤變數

要由A推B,則A要比B早發生

3.2.4 卡方檢定

其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數亦為類別變數

其基本概念為測試某類別資料出現的頻率,是否隨著另一個類別資料的選項而變動

3.2.5 F檢定

其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數為連續變數,或是反之,輸入變數為連續變數,輸出變數為類別變數

用來檢定類別變數選項間連續變數的平均值有無顯著差異,如果要檢定年齡與信用卡是否違約之間的關係,如果違約客戶的年齡與未違約客戶平均年齡有顯著差異時,就表示可以用年齡來預測信用卡是否違約

3.2.6 WOE法(Weight of evidence)實務上常用此法

其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數為二元變數

其只能用在輸出變數為二元變數的狀況下

3.2.7 變數共線性

其為篩選變數的方法之一,即不同的輸入變數間是否存在高度相關,測量方法為皮爾森相關係數即共變數

沒有留言:

張貼留言