我的網誌清單

20111206

2-Data mining 執行流程

 

1.Data mining執行流程

CRISP-DM

CRISP-DM是由SPSS及NCR二家廠商在合作克萊斯勒車廠的DATA WAREHOUSE及DATA MINING過程中發展出的一個流程方法論

其分為定義商業問題/定義分析資料/資料預處理/建立模型/評估模型/應用模型

1.1 business understanding(定義商業問題)

主要是將重心放在透過對於商業問題的分析,來決定最佳的data mining分析框架,並將它轉換為符合需求的data mining flow.同時進一步定義出檢覈data mining專案成功與否的要件,以作為驗証資料的品質

1.2 data understnading(定義分析資料)

此階段主要是要開始蒐集可以用來分析的資料,運用基礎統計以提昇資料分析人員對於資料的熟悉度,同時利用驗証邏輯,以驗証資料的品質

1.3 data preparation(資料預處理)

此step目地是將原始資料加工產生最終分析資料表,也就是要feed進data mining系統的資料.這個step是最耗時間的,主要是要建立適合data mining的資料集

1.4 modeling(建模)

本階段會選擇適合的data mining技術以及設定最佳的參數,以達到最佳的預測結果.一般而言一個商業問題,可以同時使用不同的data mining技術,去做預測及分析

1.5 evaluation(評估)

預立預測modeling后,會再透過模型評估技術,來評估此data mining modeling能帶給我們哪些可預期效益.評估的標準並非是結果的準確度,而是不同模型中哪個模型可以帶給企業最大的效應

例如預測客戶流失,正確的預測哪些客戶會流失,並非data mining的主要目地,而是在預測到這些客戶會流失后,馬上進行相關挽回措施,這才是data mining的重點

1.6 deployment

建立modeling后,還必需將data mining model整合在整個企業的決策流程中,或是透過自動化的機制來進行預測應用,才可真正發揮data mining的功效,所以在這step中會再包含維護/傳承/再修正等步驟,回溯到前面的步驟形成良性的工作循環

例如探討客戶流失的議題,再決定資料及模型后,找出客戶流失的相關屬性或是其他關連,則此時公司政策就必需為這些事件,做一些商業決策,以降低客戶流失率

2. business understanding(定義商業問題)

data mining的重心在於如何從大量的資料中mining出knowledge以獲取商業利潤,因此整個data mining的核心必須環繞在商業問題上,而不似學術僅專注於演算法的推導與程式的撰寫

3. data understnading(定義分析資料)

定義分析資料這個step會包含幾個步驗,排除常識的樣本預區隔/time windows/訓練、鑑試測、試組

3.1 排除常識樣本

例如客戶流失模型分析中就應要排除合約未到期的user,因為未到期就不會流失,不能算入客戶流失模型的"未流失"中

3.2 time windows

預測prediction 是利用發生在之前的事件來預測發生在之后的事件,因此們可以將時間依照發生的順序分成三個部份,過去/現在/未來

過去又稱為樣本時間(sample windows),輸入變數所存在的時間

現在又稱為緩衝期,若在此區段的資料完全不用

未來又稱觀察期(performance windows),預測變數所存在的時間,即我們要花多久時間觀察到預測事件的發生

收集資料的時間愈長會愈準確,這是不一定的,因為如二年前的刷卡購物行為,會影响到未來一年的信用狀況嗎?大多捉的時間會在一年以內

3.3 training/validation/test

使用training資料建立預測模型,使用鑑效資料來避免模型對於訓練資料產生記憶效應,使用測試資料來選擇模型以及測量模型在預測未知資料的能力

訓練組和測試組可以選不同時期的資料,來規避模型受到季節性因素的影响

鑑識組及訓練組則是可以驗証經由訓練組推出的規則是否可以再現到鑑識組上,若可以此規則才可被保留

鑑識組及測試組雖說都來驗証模型推導出規則的再現性,但鑑識組重心是在衡量規則是否再現,以刪除巧合的規則,是在建模的過程中驗証,而測試組是在檢視模型效果以及效果是否隨時間變化,是在建模后驗証

3.4 稀有事件

data mining的本質就是透過模型從大量案例中搜尋出稀有事件,而這個稀有事件必定會讓企業賺很多或是賠很多,但是一般統計技術會把這些當作noise,而忽略這些資料的重要性

一般而言處理這方面的統計技術叫做error-sampling誤差抽樣,通常會有多抽少及少抽多二種,建議用多抽少,才不會在樣不數過少的情況下,導致這些少的樣本被重覆抽到

4. 資料預處理/建立模型/評估模型/應用模型

這幾個部分,因為議題較大后面將有專節說明

沒有留言:

張貼留言