| |
1.定義 by NIST(2011) | |
A model for enabling convenient, on-demand network access to a shared pool of configurable computing resources. It can be rapidly provisioned and released with minimal management effort or service provider interaction. It promotes availability. It consists of five essential characteristics, three service models, and four deployment models. | |
2.基本特徵 | |
有五個基本特徵 | |
2.1 On-demand self-service | |
Users are able to provision, monitor and manage computing resources as needed without the help of human administrators | |
2.2 Broad network access | |
Computing services are delivered over standard networks and heterogeneous devices | |
2.3 Resource pooling | |
IT resources are shared across multiple applications and tenants in a non-dedicated manner | |
2.4 Rapid elasticity | |
IT resources are able to scale out and in quickly and on an as needed basis | |
2.5 Measured service | |
IT resource utilization is tracked for each application and tenant, typically for public cloud billing or private cloud chargeback | |
3. 三個service model | |
3.1 IaaS | |
The capability provided to the consumer is to use the provider’s applications running on a cloud infrastructure.(Ex. Google docs) | |
3.2 PaaS | |
The capability provided to the consumer is to deploy onto the cloud infrastructure consumer-created or -acquired applications created using programming languages and tools supported by the provider. (Ex. Google App, Amazon S3, Windows Azure) | |
3.3 SaaS | |
The capability provided to the consumer is to provision processing, storage, networks, and other fundamental computing resources where the consumer is able to deploy and run arbitrary software, which can include operating systems and applications. (Ex. Amazon EC2) | |
4. 四個佈署模式 | |
4.1 Private cloud | |
| The cloud infrastructure is operated solely for an organization. |
4.2 Community cloud | |
The cloud infrastructure is shared by several organizations and supports a specific community that has shared concerns. | |
4.3 Public cloud | |
For use by multiple organizations (tenants) on a shared basis and hosted and managed by a third party service provider . | |
4.4 Hybrid cloud | |
The cloud infrastructure is a composition of two or more clouds. | |
5. The General Statements For Cloud Computing | |
5.1 Network dependency | |
If the network is not reliable, the cloud will not be reliable from the subscriber's point of view. | |
5.2 Subscribers still need IT skills | |
subscribers will still access the cloud from onsite subscriber-managed client systems that must be maintained, secure, etc. | |
5.3 Workload locations are dynamically assigned and are thus hidden from clients | |
providers must be able to migrate subscriber workloads between machines without inconveniencing the clients. | |
5.4 Risks from multi-tenancy | |
The workloads of different clients may reside concurrently on the same system and local network. | |
5.5 Data import/export, and performance limitations | |
subscribers access a cloud over a network, on-demand bulk data import or export may exceed the network's ability to carry the data in a timely manner. | |
6. The Key-Technologies of | |
Virtualization. Utility Computing. Parallel & Distributed Computing(Grid). Fault-Tolerant Computing. Automatic Systems Computing. Client-server computing. Web technique. | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
我的網誌清單
20111214
Cloud computing
20111206
2-Data mining 執行流程
| |
1.Data mining執行流程 | |
CRISP-DM | CRISP-DM是由SPSS及NCR二家廠商在合作克萊斯勒車廠的DATA WAREHOUSE及DATA MINING過程中發展出的一個流程方法論 其分為定義商業問題/定義分析資料/資料預處理/建立模型/評估模型/應用模型 |
1.1 business understanding(定義商業問題) | |
主要是將重心放在透過對於商業問題的分析,來決定最佳的data mining分析框架,並將它轉換為符合需求的data mining flow.同時進一步定義出檢覈data mining專案成功與否的要件,以作為驗証資料的品質 | |
1.2 data understnading(定義分析資料) | |
此階段主要是要開始蒐集可以用來分析的資料,運用基礎統計以提昇資料分析人員對於資料的熟悉度,同時利用驗証邏輯,以驗証資料的品質 | |
1.3 data preparation(資料預處理) | |
此step目地是將原始資料加工產生最終分析資料表,也就是要feed進data mining系統的資料.這個step是最耗時間的,主要是要建立適合data mining的資料集 | |
1.4 modeling(建模) | 本階段會選擇適合的data mining技術以及設定最佳的參數,以達到最佳的預測結果.一般而言一個商業問題,可以同時使用不同的data mining技術,去做預測及分析 |
1.5 evaluation(評估) | |
預立預測modeling后,會再透過模型評估技術,來評估此data mining modeling能帶給我們哪些可預期效益.評估的標準並非是結果的準確度,而是不同模型中哪個模型可以帶給企業最大的效應 例如預測客戶流失,正確的預測哪些客戶會流失,並非data mining的主要目地,而是在預測到這些客戶會流失后,馬上進行相關挽回措施,這才是data mining的重點 | |
| |
1.6 deployment | 建立modeling后,還必需將data mining model整合在整個企業的決策流程中,或是透過自動化的機制來進行預測應用,才可真正發揮data mining的功效,所以在這step中會再包含維護/傳承/再修正等步驟,回溯到前面的步驟形成良性的工作循環 例如探討客戶流失的議題,再決定資料及模型后,找出客戶流失的相關屬性或是其他關連,則此時公司政策就必需為這些事件,做一些商業決策,以降低客戶流失率 |
2. business understanding(定義商業問題) | |
data mining的重心在於如何從大量的資料中mining出knowledge以獲取商業利潤,因此整個data mining的核心必須環繞在商業問題上,而不似學術僅專注於演算法的推導與程式的撰寫 | |
3. data understnading(定義分析資料) | |
定義分析資料這個step會包含幾個步驗,排除常識的樣本預區隔/time windows/訓練、鑑試測、試組 | |
3.1 排除常識樣本 | |
例如客戶流失模型分析中就應要排除合約未到期的user,因為未到期就不會流失,不能算入客戶流失模型的"未流失"中 | |
3.2 time windows | |
預測prediction 是利用發生在之前的事件來預測發生在之后的事件,因此們可以將時間依照發生的順序分成三個部份,過去/現在/未來 過去又稱為樣本時間(sample windows),輸入變數所存在的時間 現在又稱為緩衝期,若在此區段的資料完全不用 未來又稱觀察期(performance windows),預測變數所存在的時間,即我們要花多久時間觀察到預測事件的發生 收集資料的時間愈長會愈準確,這是不一定的,因為如二年前的刷卡購物行為,會影响到未來一年的信用狀況嗎?大多捉的時間會在一年以內 | |
3.3 training/validation/test | |
使用training資料建立預測模型,使用鑑效資料來避免模型對於訓練資料產生記憶效應,使用測試資料來選擇模型以及測量模型在預測未知資料的能力 訓練組和測試組可以選不同時期的資料,來規避模型受到季節性因素的影响 鑑識組及訓練組則是可以驗証經由訓練組推出的規則是否可以再現到鑑識組上,若可以此規則才可被保留 鑑識組及測試組雖說都來驗証模型推導出規則的再現性,但鑑識組重心是在衡量規則是否再現,以刪除巧合的規則,是在建模的過程中驗証,而測試組是在檢視模型效果以及效果是否隨時間變化,是在建模后驗証 | |
3.4 稀有事件 | |
| data mining的本質就是透過模型從大量案例中搜尋出稀有事件,而這個稀有事件必定會讓企業賺很多或是賠很多,但是一般統計技術會把這些當作noise,而忽略這些資料的重要性 一般而言處理這方面的統計技術叫做error-sampling誤差抽樣,通常會有多抽少及少抽多二種,建議用多抽少,才不會在樣不數過少的情況下,導致這些少的樣本被重覆抽到 |
4. 資料預處理/建立模型/評估模型/應用模型 | |
這幾個部分,因為議題較大后面將有專節說明 | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
1-Data mining 概論
| |
1.Data mining定義 | |
Data mining是利用系統以及機械學習的演算法,啟發性地從大量資料中找尋隱藏具有商業價值的知識與規律,以作為商業策略之應用 同意名詞KDD(knowledge discovery in database) | |
2.規則的分類 | |
Data mining是用來針對已存在的資料找尋有意義的規則,進而去預測未來的行為,因此我們可以將規則的型態區分為幾種模式=>分類/推估/群集化/同質分組/序列/描述 | |
2.1 分類(classification) | |
Data mining的原型就是預測,可將預測的事物區分為二大類,第一類是不連續性事物(discrete variables;類別變數),這類的預測稱為分類(classification),第二類是連續性事物,這類的預測稱為推估(estimation) | |
2.2 推估(estimation) | |
因為推估是預測連續型事物的未來行為,所以相對於分類,僅提供有限的選項,而其提供的是依已知的連續性的屬性去推估未來的走向或是趨勢 | |
2.3 群組(cluster) | |
依相似性,將相似的事物分群.其和分類最大的差異是分類是根據一個明確但還未發生的分類事實,但群集沒有分類準則,而是綜合各項屬性研判,將有相似狀況的事物聚在一齊;所以分類是對未知事實的預測,而群集則是找出事物相似性的內部結構 群集化亦可想成群集並沒有預測功能,只是協助我們理清資料的相似性來做區隔 群集化主要是拿來做巿場區隔 | |
2.4 同質分組(affinity group) | |
同質分組就是從歷史資料中,找出哪些物件/事件總是一齊發生,我們亦可稱為關連規則(association rule) 最有名的例子就是尿布與啤酒 | |
2.5 序列(sequential) | |
在關連規則中是找出哪些事物會一齊發生,而序列則是找出事物發生的順序性 序列最大的功能是協助我們找出顧客的消費週期 | |
2.6 描述(description) | |
Data mining是透過演算法來找出潛在的規則,但人的觀察力是不可被取代的.在Data mining過程中除了分析的預測模型之外,很重要的是在分析與處理資料的過程中,透過資料視覺化以及觀察出許多有意義的規則 | |
3. data mining的應用 | |
Data mining的應用範圍其實已無所不在,簡單來說,只要是希望從歷史資料中找出規律,或是對於未來進行預測,都可以用Data mining的技術來達成 | |
| |
4. 演算法 | |
Datamine的演算法計有決策樹/群集/類神經/迴歸/關聯規則/時間序列/貝氏機率;7種 | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
3-資料預處理
| |
1.異常值 | |
1.1遺漏值 | 遺漏值是指資料收集的不完整或是有遺漏未填的狀況.一般的處理狀況為邏輯填補/填補統計值(補中位數或平均值)/將遺漏值視為新的選項/利用data mining的模型補遺漏值 一般而言現在的data mining大多是"交易資料"為主,此類資料大多從系統來,所以有遺漏的會是主檔資料,而主檔資料在data mining中是會儘量不使用的 |
1.2 極端值 | |
極端值是相對概念而不是絶對概念,可以用z分數來估計,其為z=(案例值-每體平均值)/母體標準差,即用案例值距離母體平均值有幾個標準差.來衡量是否是極端值 有時最大及最小值區間很大時,對人而言很難判斷,所以我們會用些方法將區間值轉換到0及1之間,如全距法/sigmoid函數調整法/十進位調整法 | |
2.變數轉換 | |
有時我們會將連續變數及離散變數互相轉換,即離離轉連續,連續轉離散 | |
2.1 連續變轉換成類別變數 | |
某些演算法不支援連續變數時,就只能將變數轉換成類別變數,如決策數/貝氏機率 連續變轉換成類別變數的技術稱為離散化(discretization)或級距切割(binning),而運用這些技術的方法有等寛法/等分法/z分數法/反曲點法/監督式切割 等寛法每個級距一樣寛/等分法每個級距中的樣本數一樣 Z分數法是以平均值為起點,每間隔n個標準差,將連續變數切割開來 反曲點法將反曲點做為切點 監督式切割(supervise binning)根據要預測的變數為基礎,找出最好的切點組合 | |
2.2 類別變數轉換連續變數 | |
某些演算法並不適用類別變數來建模,如線性迴歸/羅吉斯回歸/類神經/群集;可將類別變數轉化成0或1(稱為dummy variables),不過此法預測力較不好,可用連續性指派(continuousness arbitrary)這會有較好的預測力 連續性指派(continuousness arbitrary)是指找出和類別變數有關的屬性,而這個屬性是具有連續性變數的,如學歷可以用年級數替換;縣巿別用人口數來替換 | |
3. 變數篩選 | |
在data mining中,會將大量的輸入變;數及要預測的輸出變數整合在一張資料表中,通常這張表會被稱為候選變名單;變數篩選的過程中,會考量所有的變數,並透過衍生變數產生新的變數,再接著過嚴格的評選及審查(變數篩選),將變數變成最終的決選變數名單 | |
衍生變數(derived variables)是將原有資料庫的欄位或是既有的變數進行組合,以產生新的輸入變數過程,也就是說衍生變數的目的在於將候選變數名單變廣,但也非漫無目地的變廣,而是要產生有意義的輸入變數 | |
3.2 篩選有效變數 | |
若沒有做變數篩選,有可能讓模型變成OVER-FITTING(過度學習),所謂的過度學習是指,當我們使用訓練資料集來製作模型時,因為模型過度雜或是無效變數過多,因此模型"記憶"了一些規則,將一些只是發生在訓練資料組的內部巧合,當作規則 篩選變數可以分二個層面來看,一個是哪些變數絶不可放入模型,第二個才時找出合宜的變數 | |
3.2.1 非重複性變數 | |
變數的內容值,若永遠不會重複,則不可放入當變數,如ID/姓名...等等,需要再加工過后才可當作變數 | |
3.2.2 選項過多或分布差異過大的變數 | |
選項過多或是單一選項過度集中的變數,也不適合當變數,如郵遞區號 | |
3.2.3 時點錯誤變數 | |
要由A推B,則A要比B早發生 | |
3.2.4 卡方檢定 | |
其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數亦為類別變數 其基本概念為測試某類別資料出現的頻率,是否隨著另一個類別資料的選項而變動 | |
3.2.5 F檢定 | |
其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數為連續變數,或是反之,輸入變數為連續變數,輸出變數為類別變數 用來檢定類別變數選項間連續變數的平均值有無顯著差異,如果要檢定年齡與信用卡是否違約之間的關係,如果違約客戶的年齡與未違約客戶平均年齡有顯著差異時,就表示可以用年齡來預測信用卡是否違約 | |
3.2.6 WOE法(Weight of evidence)實務上常用此法 | |
其為篩選變數的方法之一,適合用來檢定輸入變數是類別變數,輸出變數為二元變數 其只能用在輸出變數為二元變數的狀況下 | |
3.2.7 變數共線性 | |
其為篩選變數的方法之一,即不同的輸入變數間是否存在高度相關,測量方法為皮爾森相關係數即共變數 | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
20111116
SD-遞延收入
| |
IFRS遞延收入 | |
目前聽過相關的解法有三種 1.PRICE CONDITION下新增一個CONDITION TYPE去收集遞延收入 2.用REBEAT 功能 3.每月月底從GL調 感覺上最好的做法是第二種 |
20111020
CO-01 基本概念
| |
1.基本概念 | |
Overhead可視為費用(無法直接歸到某個產品成本中) Activity type為cost center可以提供的Activity的分類 Business process為activity 的集合, 集合相關作業, 就會形成商業流程 Internal orders 為收集內部行為的一個容器, 可以收集如費用,活動,預計值...等等 | |
| |
2. 組織結構 | |
Operation concern是最高的組織結構,可視為集團管理報表的最高分類 在同一個Controlling area下, 可以做費用的分攤,即可以做inter-company 交易,其可以出同一份管理報表.相同的Controlling area其前提為必需要有相同的coa及fiscal year variant(相同的正常期間,特殊期可以不相同) 一個Controlling area可以含多個company code,所以其會有多個幣別,但是任一個compnay code,若要同屬於同一個Controlling area,則必需要有相同的coa Business area 可以視為在同一company 下,因為內部需求可以依ba再出b/s 或P&L報表 一個OPERATION CONCERN會有多個CONTROLLING AREA,一個CRONTROLLING AREA 會有多個COMPANY CODE , 一個COMPANY CDOE會有多個PLANT 在同一COMPANY CODE下可以有不同的VALUATION AREA, 不同的VALUATION AREA可以指派不同的PLANT | |
| |
3. Controlling area | |
CO的number range 是用controlling area 為key 去設定的,和FI用COMPANY CODE不同 不同的company code要屬於同一ontrolling area除了要有相同的coa外,也要有相同的過帳期間(但可以有不同的特殊期間) 一個controlling area會含多個公司,所以有可能會有多個可交易幣別 | |
Control indicator 可以在controlling area 下去指定哪些子模組功能要on或是off | |
controlling area 及company code可以是1:1或是1:n,這個設定會影响到幣別的設定 | |
| |
4. currency | |
因為一個controlling area 可以有多個company code, 而每一個company code有自己的local currency, 但是controlling area的幣別可以不等於其下屬的company code 之一的幣別 若controlling area 和company code是1對1,則controlling area currency會等於company code currency Transaction currency是指文件過帳時的交易幣別 | |
4.1 object currency | |
object currency 是指在cost obejct 上所指定的currency,最明顯的就是在internal order上指定這個internal order的幣別,或是在cost center上指定currency 若是controlling area 和company code是1對1,則cost object上的幣別可以任何指定,但是若是1:n,則cost obejct的幣別會自動等於compnay code的幣別且不能變更 | |
4.2 transaction currency | |
transaction currency是指交易時指定的幣別,如公司幣是usd, 但是過帳時過eur | |
| |
5. controlling area 和company code要1:1還是1:N | |
是要針對每個company code設定唯一的controlling area,還是將所有的company code 指定到同一個controlling area,可以從限制的角度及需求的角度來看 限制=>要相同的coa/period post/currency/結帳(因為co 是by controlling area結帳和fi是by conpany code 結帳不同) 需求=>有跨公司費用分担需求/跨公司出管報/前端交易的需求(如二岸三地/一條龍式生產)/profit center會跨公司 在還沒有主檔資料或是交易資料前,要1:1或是1:n都可以修正,但是有資料后,就不能改了 | |
| |
6.Business Area | |
BA是一個FI的組織結構,主要是針對同一個Client也有需要針對client 內的交易出BS或是P&L這種固定格式的對外報表 BA是在每筆交易上去指定的,所以是在CLIENT內的REPORT | |
| |
| |
| |
| |
| |
| |
| |
| |
| |
|
20111017
FI-35 archive
| |
1.archive 的物件結構 | |
先決定archvie object,再決定businese object,最底層是table中的資料 | |
2.archive object | |
Archive object 可分為三個部份data declaration /customizing settings/ program | |
2.1 data delcaration | |
宣告關於archive object的參數,如路徑/檔名…等等 | |
2.2 customizing seeting | |
這個部份設定了write program將資料寫到os的檔案上,並借由delete program將table中的資料刪除,再借由display program可以將已archive的資料再讀出來 | |
3. archive 的對像 | |
要archive 的對像可分為三種,分別為transaction figures(交易數據),master data,doc Master data 的archive是要上刪除旗標,而且doc level的資料及transaction figuers要先archive后,才可以archive master data | |
Doc level的archvie是by company code指定的 | |
4.archive 操作STEP | |
Tx:sara,選定archive object后按下write,先指定執行程式的variant,再指定USER,再做執行時間的決定,最后定義輸出的參數 | |
FI-34 vaildation and substitution.
| |
1.概述 | |
Vaildation 是用來做資料check的,若符合條件就ok,不符合就出mesg或error Substituation是符合條件就會將值給替換掉 Fi有三個callup point=>header/line/complete doc. 若是callup point是設在complete 則會整張文件一齊檢查 Vaildatio and substitution 都是by company code 去設定的 | |
2. vaildation | |
Vaildation的step 大致可分為三類,prerequest/check/mesg 其step最多可以到999 | |
3.substitution | |
substitution的step 大致可分為二類,prerequest/replace 其step最多可以到999 | |
4.rule | |
Rule主要是將prerequest/check中的”statment”,額外拉出來,這樣常用的statement就可以重複使用 | |
5. set | |
可以將一些常用值輸入到set中,這就可以形成statement中的值域,或是變成arrary(basic set * basic set) | |
6.vaildation rule for acct. assignment | |
針對ecc6 ehp 4 以后,SAP提供可以將欄位組合成一個group,然后判斷這些欄位的值若符合某些條件就是vaild acct. assignment combination(這樣的組合是有效組合),如會科研究發展費不應和資訊成本中心形成一個組合,這樣的過帳是不可以的 | |
FI-33 Park and Hold doc.
| |
1.Hold | |
沒有產生號碼 自己取訂義識別名字,但后續也只有自己可以編輯,別人看不到 不會借貸二平,即不能模擬 Hold的下一個階段可以為complete/park/post Substution 不會在hold時生效,其會在complete或是post時才會生效,但是vaildation 會生效在item/head level | |
2.Park | |
要Park需先進特定的tx如fv60….等等 Park 和Hold最大的差異是會取號及fbl1n/fbl3n/fbl5n可以看到(要選park) Substution 不會在park時生效,其會在complete或是post時才會生效,但是vaildation 會生效在item/head level Park通常運用在FI文件需等主管審核才可以過帳,所以park文件可以大量過帳 | |
FI-32 special G/L
| |
1.reconciliation account | |
統制科目就是將subledger(ap/ar/aa)的交易各自匯整到各自的總帳科目下,這樣出財務報表時,才不用還要去各個子帳結算出子帳的餘額,加速出報表的速度 | |
2. special G/L transaction | |
特殊總帳交易大致可分為三類down pym/BOE/other special G/L transaction 只會存在ap/ar 中 | |
會對應到前端的 menu 上 | |
3. special G/L type | |
有noed item/auto offsetting/ free offsetting三類 | |
3.1 auto offseeting | |
這個是指由系統自動決定會科 這個亦稱為statistical posting,因為他會出現在財報的note中,不會直接影响餘額 如存出入保証金(guarantee made/recived),預收/付款(down payment recived/made) | |
3.2 noted item | |
這個只是一個註記,所以不會有會科,且這類的文件只有一個借方或貸方,故他不會卡借貸平衡並不能過帳 如down payment request,BOE request | |
3.3 free offsetting | |
這個會科是由前端keyin時,由user自行決定的 | |
4.down pym for customer | |
先做down pym request,再做down pym,然后立customer inv,再做down pym clearing,最后做down pym 和 ar對沖 | |
5. individual value adjustment | |
立ar后,再立暫估呆帳,若確定要提呆帳時,再把暫估那筆回掉,重新立到呆帳,而不是暫估的科目 | |
6. special G/L indicator | |
特殊指示碼可以設定會科/posting key...等等相關屬性 過此類交易時,是否需要考量到credit limit | |
FI-31 drilldown report
| |
1. drilldown report 的操作 | |
Drilldown report 可以由report paint當入口,切到各個組成中,如report writer/drilldown report form/layout | |
2. drilldown report 的組成 | |
Drilldown report,先由form為基底,然后再加上key figures(可計算的)或是characteristics(特性值/不可計算的) | |
2.1 characteristics | |
Characteristics指的是特性值的名字,如company code/currency/fiscal year.... Characteristics values 指的是特性值的值,對compnay code 來說就是1000/2000..等等的公司代碼值 Characteristics+characteristics values=>object | |
2.2 Key figures | |
只要是可計算的都可以叫做key figures,如金額/數量/餘額...等等 | |
Drilldown list是拿來放object (Characteristics+characteristics values) | |
Detail list是放key fingures | |
3. form type | |
Form type 可以分為三種 單軸w/o key figures 單軸w key figures 雙軸 | |