我的網誌清單

20111206

1-Data mining 概論

 

1.Data mining定義

Data mining是利用系統以及機械學習的演算法,啟發性地從大量資料中找尋隱藏具有商業價值的知識與規律,以作為商業策略之應用

同意名詞KDD(knowledge discovery in database)

2.規則的分類

Data mining是用來針對已存在的資料找尋有意義的規則,進而去預測未來的行為,因此我們可以將規則的型態區分為幾種模式=>分類/推估/群集化/同質分組/序列/描述

2.1 分類(classification)

Data mining的原型就是預測,可將預測的事物區分為二大類,第一類是不連續性事物(discrete variables;類別變數),這類的預測稱為分類(classification),第二類是連續性事物,這類的預測稱為推估(estimation)

2.2 推估(estimation)

因為推估是預測連續型事物的未來行為,所以相對於分類,僅提供有限的選項,而其提供的是依已知的連續性的屬性去推估未來的走向或是趨勢

2.3 群組(cluster)

依相似性,將相似的事物分群.其和分類最大的差異是分類是根據一個明確但還未發生的分類事實,但群集沒有分類準則,而是綜合各項屬性研判,將有相似狀況的事物聚在一齊;所以分類是對未知事實的預測,而群集則是找出事物相似性的內部結構

群集化亦可想成群集並沒有預測功能,只是協助我們理清資料的相似性來做區隔

群集化主要是拿來做巿場區隔

2.4 同質分組(affinity group)

同質分組就是從歷史資料中,找出哪些物件/事件總是一齊發生,我們亦可稱為關連規則(association rule)

最有名的例子就是尿布與啤酒

2.5 序列(sequential)

在關連規則中是找出哪些事物會一齊發生,而序列則是找出事物發生的順序性

序列最大的功能是協助我們找出顧客的消費週期

2.6 描述(description)

Data mining是透過演算法來找出潛在的規則,但人的觀察力是不可被取代的.在Data mining過程中除了分析的預測模型之外,很重要的是在分析與處理資料的過程中,透過資料視覺化以及觀察出許多有意義的規則

3. data mining的應用

Data mining的應用範圍其實已無所不在,簡單來說,只要是希望從歷史資料中找出規律,或是對於未來進行預測,都可以用Data mining的技術來達成

4. 演算法

Datamine的演算法計有決策樹/群集/類神經/迴歸/關聯規則/時間序列/貝氏機率;7種

沒有留言:

張貼留言