蔚然天空: 3-資料預處理


1.異常值
1.1遺漏值	遺漏值是指資料收集的不完整或是有遺漏未填的狀況.一般的處理狀況為邏輯填補/填補統計值(補中位數或平均值)/將遺漏值視為新的選項/利用data mining的模型補遺漏值一般而言現在的data mining大多是"交易資料"為主,此類資料大多從系統來,所以有遺漏的會是主檔資料,而主檔資料在data mining中是會儘量不使用的

1.2 極端值
	極端值是相對概念而不是絶對概念,可以用z分數來估計,其為z=(案例值-每體平均值)/母體標準差,即用案例值距離母體平均值有幾個標準差.來衡量是否是極端值有時最大及最小值區間很大時,對人而言很難判斷,所以我們會用些方法將區間值轉換到0及1之間,如全距法/sigmoid函數調整法/十進位調整法

2.變數轉換
	有時我們會將連續變數及離散變數互相轉換,即離離轉連續,連續轉離散

2.1 連續變轉換成類別變數
	某些演算法不支援連續變數時,就只能將變數轉換成類別變數,如決策數/貝氏機率連續變轉換成類別變數的技術稱為離散化(discretization)或級距切割(binning),而運用這些技術的方法有等寛法/等分法/z分數法/反曲點法/監督式切割等寛法每個級距一樣寛/等分法每個級距中的樣本數一樣 Z分數法是以平均值為起點,每間隔n個標準差,將連續變數切割開來反曲點法將反曲點做為切點監督式切割(supervise binning)根據要預測的變數為基礎,找出最好的切點組合

2.2 類別變數轉換連續變數
	某些演算法並不適用類別變數來建模,如線性迴歸/羅吉斯回歸/類神經/群集;可將類別變數轉化成0或1(稱為dummy variables),不過此法預測力較不好,可用連續性指派(continuousness arbitrary)這會有較好的預測力連續性指派(continuousness arbitrary)是指找出和類別變數有關的屬性,而這個屬性是具有連續性變數的,如學歷可以用年級數替換;縣巿別用人口數來替換

3. 變數篩選
	在data mining中,會將大量的輸入變;數及要預測的輸出變數整合在一張資料表中,通常這張表會被稱為候選變名單;變數篩選的過程中,會考量所有的變數,並透過衍生變數產生新的變數,再接著過嚴格的評選及審查(變數篩選),將變數變成最終的決選變數名單

3.1 衍生變數(derived variables)
	衍生變數(derived variables)是將原有資料庫的欄位或是既有的變數進行組合,以產生新的輸入變數過程,也就是說衍生變數的目的在於將候選變數名單變廣,但也非漫無目地的變廣,而是要產生有意義的輸入變數

3.2 篩選有效變數
	若沒有做變數篩選,有可能讓模型變成OVER-FITTING(過度學習),所謂的過度學習是指,當我們使用訓練資料集來製作模型時,因為模型過度雜或是無效變數過多,因此模型"記憶"了一些規則,將一些只是發生在訓練資料組的內部巧合,當作規則篩選變數可以分二個層面來看,一個是哪些變數絶不可放入模型,第二個才時找出合宜的變數

3.2.1 非重複性變數
	變數的內容值,若永遠不會重複,則不可放入當變數,如ID/姓名...等等,需要再加工過后才可當作變數

3.2.2 選項過多或分布差異過大的變數
	選項過多或是單一選項過度集中的變數,也不適合當變數,如郵遞區號

3.2.3 時點錯誤變數
	要由A推B,則A要比B早發生

3.2.4 卡方檢定
	其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數亦為類別變數其基本概念為測試某類別資料出現的頻率,是否隨著另一個類別資料的選項而變動

3.2.5 F檢定
	其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數為連續變數,或是反之,輸入變數為連續變數,輸出變數為類別變數用來檢定類別變數選項間連續變數的平均值有無顯著差異,如果要檢定年齡與信用卡是否違約之間的關係,如果違約客戶的年齡與未違約客戶平均年齡有顯著差異時,就表示可以用年齡來預測信用卡是否違約

3.2.6 WOE法(Weight of evidence)實務上常用此法
	其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數為二元變數其只能用在輸出變數為二元變數的狀況下

3.2.7 變數共線性
	其為篩選變數的方法之一,即不同的輸入變數間是否存在高度相關,測量方法為皮爾森相關係數即共變數

蔚然天空

我的網誌清單

20111206

3-資料預處理

沒有留言:

張貼留言