| |
1.Data mining定義 | |
Data mining是利用系統以及機械學習的演算法,啟發性地從大量資料中找尋隱藏具有商業價值的知識與規律,以作為商業策略之應用 同意名詞KDD(knowledge discovery in database) | |
2.規則的分類 | |
Data mining是用來針對已存在的資料找尋有意義的規則,進而去預測未來的行為,因此我們可以將規則的型態區分為幾種模式=>分類/推估/群集化/同質分組/序列/描述 | |
2.1 分類(classification) | |
Data mining的原型就是預測,可將預測的事物區分為二大類,第一類是不連續性事物(discrete variables;類別變數),這類的預測稱為分類(classification),第二類是連續性事物,這類的預測稱為推估(estimation) | |
2.2 推估(estimation) | |
因為推估是預測連續型事物的未來行為,所以相對於分類,僅提供有限的選項,而其提供的是依已知的連續性的屬性去推估未來的走向或是趨勢 | |
2.3 群組(cluster) | |
依相似性,將相似的事物分群.其和分類最大的差異是分類是根據一個明確但還未發生的分類事實,但群集沒有分類準則,而是綜合各項屬性研判,將有相似狀況的事物聚在一齊;所以分類是對未知事實的預測,而群集則是找出事物相似性的內部結構 群集化亦可想成群集並沒有預測功能,只是協助我們理清資料的相似性來做區隔 群集化主要是拿來做巿場區隔 | |
2.4 同質分組(affinity group) | |
同質分組就是從歷史資料中,找出哪些物件/事件總是一齊發生,我們亦可稱為關連規則(association rule) 最有名的例子就是尿布與啤酒 | |
2.5 序列(sequential) | |
在關連規則中是找出哪些事物會一齊發生,而序列則是找出事物發生的順序性 序列最大的功能是協助我們找出顧客的消費週期 | |
2.6 描述(description) | |
Data mining是透過演算法來找出潛在的規則,但人的觀察力是不可被取代的.在Data mining過程中除了分析的預測模型之外,很重要的是在分析與處理資料的過程中,透過資料視覺化以及觀察出許多有意義的規則 | |
3. data mining的應用 | |
Data mining的應用範圍其實已無所不在,簡單來說,只要是希望從歷史資料中找出規律,或是對於未來進行預測,都可以用Data mining的技術來達成 | |
| |
4. 演算法 | |
Datamine的演算法計有決策樹/群集/類神經/迴歸/關聯規則/時間序列/貝氏機率;7種 | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
我的網誌清單
20111206
1-Data mining 概論
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言