DATA IS BUSINESS: 八月 2015

2015年8月31日星期一

巨量資料或將損害您業務的六大方式及其應對措施

每名行銷人員都知道，巨量資料時代已然來臨，隨之而來的是各種巨大的機遇以及驚人以客戶保持連接的各種新的方式。大量的客戶信息通過社交媒體，智能手機，機器人，GPS設備，照相機，電器和衛星流入企業，而各種日益複雜的計算機演算法正試圖把這一切資料信息轉變成對企業有用的情報。

對於企業的營銷人員和品牌經理而言，比以往任何時候都能夠更多的了解客戶的生活習慣、需求無疑是相當令人振奮的。但在振奮之餘，企業相關業務部門(包括CXO級別的高層管理人員)不應該忘了對於巨量資料的革命性力量或者說其對於各類企業所潛在的破壞性的威脅的真正理解。

當您企業正準備甩開膀子，最大限度地充分利用巨量資料所帶來的巨大優勢和機會時，請務必記住，巨量資料中的魔鬼也正隱藏在這些被忽略的細節中。

1、保護您企業的資料
對於那些收集和存儲了大量客戶資料的企業而言，最明顯的威脅是黑客以這些資料存儲的安全漏洞為攻擊目標，這方面的前車之鑒是家得寶和J.P.摩根大通。當然還有其它數百家公司在近幾年也經歷過類似的資料破壞，所有安全事件均是由於黑客通過安全漏洞人侵到了企業資料庫。

解決方案：在巨量資料時代，更好的安全並不一定意味著很好的安全管理政策審查，而應該意味著的是對於企業基礎設施的長期投資，以及對於現如今正在迅速成為企業重要資產的客戶資料信息的重點維護，以獲得客戶的信任。將其個人信息放心的交付給企業的用戶數越多，企業就越是需要是值得信任的。

2、不要被海量的資料「淹沒」
巨量資料不只是更多的信息;其是從四面八方湧來的巨大海嘯般的實時信息，其傳遞速度和巨巨量資料量均是人類從未見過的。因此，被如此海量的資料信息所「淹沒」的可能性是非常真實的。所以，浪費大量的時間、精力和資源到與企業業務價值無用的資料信息方面也是可能的。企業所面臨的挑戰是需要從這些資料中提取真正對於您的企業有洞察價值的資料信息，而許多企業從中所學到的重要的教訓是：收集了太多無用的信息和沒有收集足夠的信息(或不正確的信息)一樣。

解決方案：對於那些可能會對於您企業有價值的資料類型盡量具體化。資料本身正變得越來越細粒化，因此其需要更進一步精篩以更加細化。縮小您的關注焦點範圍。定義您的參數。別忽略了一些顯而易見的問題，比如：當客戶在您企業的品牌與其他企業品牌進行比較時，您企業是否能實時地與客戶進行溝通?如果能，您對會對他們說什麼?

3、不要妄圖僅靠創意就站住腳跟
以前，從來沒有幾人能夠僅憑藉有創意的想法，就能夠形成一家有競爭力的，甚至能夠挑戰最老牌企業的初創型企業。但在巨量資料時代，企業規模已經不一定是決定性力量了。巨量資料撕破了一個市場的裂口，讓人們可以很容易地利用其開拓市場。任何人都可以是一個潛在的競爭威脅。

解決方案：無論企業的規模大小如何，其系統需要到位，以確保至少企業的一部分能夠保持運作，這樣的企業就像是一家處於飢餓狀態的小型初創企業。但企業更多的能量需要進入市場研究，偵察競爭市場情報獲得，因為市場是瞬息萬變的，競爭的威脅無處不在。

4、重視對存儲資料的利用
除了巨量資料的消費層面，在未來幾年，企業將會需要處理企業內部所產生的更大量的資料。然而在許多企業中，在各個不同部門的信息仍然是孤立的，這些部門包括會計，工程，製造，營銷，IT等等，這妨礙了各部門之間相互分享有用的信息。而那些知道如何讓各部門之間實現更透明的信息溝通，同時又不破壞資料倉庫和部門實際優勢的企業將在未來贏得競爭優勢。

解決方案：資料管理對每家企業來說都是一大挑戰，而其中一個重要的挑戰是找到有經驗的專業人士來針對企業員工進行專業化的培訓，以滿足企業的業務需求。優良的專業化資料管理人員培訓教育會讓企業獲得巨大收益，即使這些教育投資目前看起來似乎並無必要。

5、聽從機器的決策
隨著企業的不斷發展，資料筒倉的牆壁已被分解，而資料分析日益成為企業業務發展的一個重要的業務過程，資料管理將不可避免需要進行大的改變。隨著企業越來越多的決策是由資料分析所驅動的，對而人類而言，最難的一件事是放手讓機器進行決策。不幸的是，決策可能是重要的，而機器可能是正確的。

解決方案：了解資料所告訴您的東西，試著儘可能合理地使用它。不要放棄您的本能或直覺，但盡量使用所有可用的信息來檢驗您的直覺決策。否則，您的直覺可能會背叛您。

6、及時化解用戶的不滿情緒
能夠與客戶親密連接的一個缺點是客戶的生氣或不滿情緒會迅速的傳播。現如今，所有的客戶幾乎都能夠輕易的通過他們手上的設備讓全世界知道他們對於商家的服務或產品的不滿，他們非常喜歡使用這種力量。而每名營銷人員都知道，一個憤怒的客戶會對企業造成非常大的傷害。

解決方案：一如既往的，及時的對客戶服務做出反饋是關鍵，針對每一名心懷不滿的客戶都進行恰當的響應，並將其轉換成您企業的品牌聲譽。幸運的是，同樣的技術，可以讓用戶註冊，以發泄他們的不滿，也允許企業幾乎能夠在瞬間解決這些問題和關切。更即時的用戶響應，對大家都更好。

opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自：機房360

如何成為一名合格資料分析師

如何成為一名合格資料分析師
「21世紀什麼最貴，人才」，在目前巨量資料時代下，什麼最難找，什麼最貴，實現資料價值的人，資料分析師。

但是對於資料分析師的認識，比較極端，但對資料分析師價值的認識正在回歸理性。很多人對資料分析師的期望，是無所不能，向諸葛亮一樣「指點江山，運籌帷幄」，招了資料分析師，好像一切困難迎刃而解。

的確，好的資料分析師可以在企業中發揮很大的價值，可以對公司未來的用戶行為進行提前預測，從而為行銷人員提供更好行銷參考。例如，以下案例：

女兒竟然懷孕了？！
美國第三大零售連鎖超市Target的一家店鋪，一名男子闖入進行抗議：「你們竟然給我女兒發嬰兒尿片和童車的優惠券？！要知道她才只有17歲啊」。出於客戶服務的需要，超市經理立刻代表公司進行道歉。

然而，若干天后，這位父親再次來到這家超市，很誠摯的向超市經理道歉，原來女兒真的懷孕了，而做父親的沒有察覺，竟然是一家超市提醒了自己，這位父親感到很愧疚。

送走了愧疚的父親，超市經理忍不住好奇，向公司總部詢問我們是怎麼做到的。原來Target的巨量資料工作部門通過資料挖掘的方法「猜到了」這位女士已經懷孕。

如何「猜到」懷孕

Target的巨量資料工作團隊，通過資料挖掘模型在資料倉庫中找出25項與懷孕高度相關的商品，製作「懷孕預測指數」。比如他們發現女性會在懷孕四個月左右，大量購買無香味乳液。以此為依據推算出預產期後，實施精準化行銷，搶先於競爭對手將孕婦裝、嬰兒床等折扣券寄給客戶。這也是前述案例發生的根源。

上面可以看到，Target實際上通過如下幾件事情完成了「猜測」客戶懷孕，並進行行銷的過程。

資料倉庫

-基礎資料的梳理。

資料挖掘

-資料到訊息的提煉。

精準化推薦

-訊息到行銷方案的實現。

母嬰年齡標籤的意義和價值
精準化行銷，提升行銷效率

-預知用戶可能需求，從用戶出發，進行精準化推薦，提升行銷效率。

提前關懷和激勵，增強用戶粘性，提升用戶重複購買

-提前預知未來用戶群的分布特徵，通過行銷活動，關懷並激勵用戶，增強用戶粘性，也可針對性引導用戶進行重複購買。

把握用戶需求，優化品類結構，提升庫存周轉

-根據未來用戶群的分布特徵，預知可能消費狀況，採購備貨時即可進行參考，在用戶未來需求量大的商品上，加大SKU的寬度和深度，減少需求量小的SKU庫存深度，實現優化品類結構、提升庫存周轉的目標

但是現實中的資料分析師，經常開玩笑說自己是民工，是專門「搬磚」，好像沒有做那麼高大尚的工作。在實際中的很大一部分時候是在寫程式碼，取資料，處理臨時需求，一起來看看幾個場景：

場景一：開會資料又「打架」

A公司管理層會上，張三部門領導給出的資料說XX指標是在上升了。李四部門領導給出完全相反，XX指標是在下降了。等討論完資料口徑，會議時間到了。

老闆內心OS ：又白開了，我必須要招個做資料的人，你們就別出資料了。

場景二：腦袋一拍，目標就來

B公司運營團隊在做一檔大促，活動方案已好，但目標多少。領導腦袋一拍，直接3X！

運營團隊內心OS：領導，到底還能不能好好的玩耍？不是說好資料化運營的嗎？

場景三：親，快給我資料

親，昨天要的資料好了嗎，要定活動目標了？分析師內心OS ：今天又要工作到明天

親，明天老闆開會，快給幾個資料吧！分析師內心OS ：XXX，我剛到家又要加班

親，銷售掉了，看是不是資料有問題？分析師內心OS :明明就是你業務掉了。

那一個資料分析師具體工作內容有哪些？企業的價值是如何體現？

資料分析師是從資料的角度幫助公司業務團隊監控、定位、分析、解決工作中的業務問題，然後通過資料產品把「洞察」、「知識」結構化的沉澱下來。例如：

所以資料分析師的工作內容分為四個層面：

1、處理臨時需求：解決業務一次性，臨時性的資料需求

2、報表開發：根據業務需要，與開發工程師討論進行相關報表開發。

3、資料分析與挖掘：與業務同事一起溝通，分析業務問題，提供建議; 根據業務需要建立各類挖掘模型。

4、資料產品化：通過資料產品化方式解決結構化業務問題。

幾點經驗分享：

有臨時需求的企業才是有生命力的企業，為什麼這樣說？

臨時需求的產生來源

新業務出現

業務發展過程中會不斷出現問題

業務發展過程中需要不斷調整優化

管理層各類思考，你懂的

報表不可能滿足所有看資料需求

不要把臨時需求僅僅就當做一個取數工作。學會梳理，管理程式碼。

把臨時需求做為一個了解業務，學習&熟悉業務，發現業務問題的工具。同時與通過各類臨時需求的處理，為業務方提供滿意的，為後續各類工作的開展打下基礎。

不要設計大而全的報表，這種報表基本上雞肋。

對報表一定要進行生命周期管理。

對大多資料企業來說，資料主要還是服務「內部」顧客。

所以一名合格的資料分析師的成長，的確需要經過幾個階段：

能否成為一條合格再到後來優秀的資料分析師，不僅在技能層面要有一定的基礎，更重要的以下幾點非技能層面：

希望以上幾點經驗能幫忙大家，分享自己在資料分析師成長路上經驗，為同行為提供參考。

opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自：資料海洋

2015年8月27日星期四

美麗的資料：資料視覺化與信息視覺化淺談

我們常常迷失在資料中，紛繁複雜的資料讓我們無所適從。視覺化作為解決這問題的有效手段，通過視覺的方式讓數字易於理解。

資料視覺化和信息視覺化都是視覺化的一種方式，資料視覺化將資料庫中每一個資料項作為單個圖元元素表示，大量的資料集構成資料圖像，同時將資料的各個屬性值以多維資料的形式表示，可以從不同的維度觀察資料，從而進行更深入的觀察和資料分析。信息視覺化，旨在把資料資料以視覺化的方式表現出。信息視覺化是一種將資料與設計結合起來的圖片，有利於個人或組織簡短有效地向受眾傳播信息的資料表現形式。

本文梳理了視覺化相關內容，並且根據資料平台組同仁們在視覺化項目過程中使用經驗，總結一些視覺化使用注意事項，與大家分享。

資料視覺化的圖表類型簡介
資料視覺化有很多既定的圖表類型，下面我們分別來談談這些圖表類型，他們的適用場景，以及使用的優勢和劣勢。

1.柱狀圖

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813241255dff07c32229_resize.jpg

適用場景：它的適用場合是二維資料集（每個資料點包括兩個值x和y），但只有一個維度需要比較。
優勢：柱狀圖利用柱子的高度，反映資料的差異。肉眼對高度差異很敏感，辨識效果非常好。
劣勢：柱狀圖的局限在於只適用中小規模的資料集。

2.折線圖

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813242955dff08d9889b_resize.jpg

適用場景: 折線圖適合二維的巨量資料集，尤其是那些趨勢比單個資料點更重要的場合。它還適合多個二維資料集的比較。
優勢：容易反應出資料變化的趨勢。

3.餅圖

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813244855dff0a07bae3_resize.jpg

適用場景：適用簡單的佔比圖，在不要求資料精細的情況下可以適用。
劣勢：餅圖是一種應該避免使用的圖表，因為肉眼對面積大小不敏感。

4.漏斗圖

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813245755dff0a9c06d4_resize.jpg

適用場景：漏斗圖適用於業務流程比較規範、周期長、環節多的流程分析，通過漏斗各環節業務資料的比較，能夠直觀地發現和說明問題所在。
優勢:能夠直觀地發現和說明問題所在。在網站分析中，通常用於轉化率比較，它不僅能展示用戶從進入網站到實現購買的最終轉化率，還可以展示每個步驟的轉化率。
劣勢:單一漏斗圖無法評價網站某個關鍵流程中各步驟轉化率的好壞。

5.地圖

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813250855dff0b41dfb0_resize.jpg

適用場景：適用於有空間位置的資料集。
優劣勢：特殊狀況下使用。

6.雷達圖

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813251655dff0bcaa6c3_resize.jpg

適用場景：雷達圖適用於多維資料（四維以上），且每個維度必須可以排序。但是，它有一個局限，就是資料點最多6個，否則無法辨別，因此適用場合有限。
劣勢：需要注意的時候，用戶不熟悉雷達圖，解讀有困難。使用時盡量加上說明，減輕解讀負擔。

資料視覺化使用小貼士
1.餅圖順序不當

http://ithelp.ithome.com.tw/upload/images/20150828/2015082813252855dff0c8765f3_resize.jpg

（最好的做法是將份額最大的那部分放在12點方向，順時針放置第二大份額的部分，以此類推。）

2.在線狀圖中使用虛線

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips2.jpg

（虛線會讓人分心，用實線搭配合適的顏色更容易區分。）

3.資料被遮蓋

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips3.jpg

（確保資料不會因為設計而丟失或被覆蓋。例如在面積圖中使用透明效果來確保用戶可以看到全部資料。）

4. 耗費用戶更多的精力

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips4.jpg

（通過輔助的圖形元素來使資料更易於理解，比如在散點圖中增加趨勢線。）

5.柱狀過寬或過窄

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips5.jpg

（經過調研，柱子的間隔最好調整為寬的1/2。）

6．資料對比困難

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips6.jpg

（選擇合適的圖表，讓資料對比更明顯直接。上圖的資料作用是為了比較，顯然，柱狀圖比餅圖在視覺上更易於比較。）

7.錯誤呈現資料

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips7.jpg

（確保任何呈現都是準確的，比如，上圖氣泡圖的面積大小應該跟數值一樣。）

8.不要過分設計

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips8.jpg

（清楚標明各個圖形表示的資料，避免用與主要資料不相關的顏色，形狀干擾視覺。）

9. 資料沒有很好歸類，沒有重點區分

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips9.jpg

（將同類資料歸類，簡化色彩，幫助用戶更快理解資料。上圖的第一張沒有屬於同類型手機中不同系統進行顏色上的歸類，從而減少了比較的作用。下圖就通過藍色系很好的把iPhone,Android,WP版歸為一類，很好的與iPad版，其他比較。）

10.誤導用戶的圖表

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/tips10.jpg

（要客觀反映真實資料，縱坐標不能被截斷，否則視覺感受和實際資料相差很大。左圖的資料起始點被截斷從50開始。）

信息視覺化案例
信息視覺化囊括了資料視覺化，信息圖形，知識視覺化，科學視覺化，以及視覺設計方面的所有發展與進步。下面是信息視覺化的案例分享。

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/anli1.jpg

(上圖為關係網——基於60000封電子郵件存檔資料，用不同顏色深度的線條呈現了地址簿中用戶和個體之間的關係，比如回復、發送、抄送。)

http://www.finereport.com/tw/wp-content/themes/BusinessNews/images/anli2.jpg

（上圖通過資料化的比較，用變形的柱狀圖等圖形，形象的展示了不同國家老師的收入水平，社會包括學生和公眾對其的尊重度。）

如何製作信息視覺化？
第一步：確定表意正確明確信息圖表達內容，確定最主要的表現內容。
第二步：優化展現形式內容正確還不夠，還要易懂。我們需要在這個步驟里尋找信息圖最優表現形式，讓讀者一目了然，降低理解難度。
第三步：探索視覺風格在探索視覺風格時要注意抓大放小，先定下來最主要模塊的風格，再做延展。
第四步：完善細節視覺風格確定後，可根據需要添加、完善細節。
第五步：風格延展「一致」的視覺設定有助於用戶理解，也能更好的提升品牌形象。所以主風格確定後，我們需要把它延展到其它有需要的頁面上。

以上是分享了資料視覺化和信息視覺化相關內容，不過信息視覺化和資料視覺化是兩個容易混淆的概念，基於資料生成的資料視覺化和信息視覺化這兩者在現實應用中非常接近，並且有時能夠互相替換使用。但是這兩者其實是不同的，資料視覺化是指那些用程序生成的圖形圖像，這個程序可以被應用到很多不同的資料上。信息視覺化是指為某一資料定製的圖形圖像，它往往是設計者手工定製的，只能應用在那個資料中。信息視覺化的代表特徵：具體化的，自解釋性的和獨立的。為了滿足這些特徵，這個圖是需要手工定製的。並沒有任何一個視覺化程序能夠基於任一資料生成這樣具體化的圖片並在上面標註所有的解釋性文字。

資料視覺化則是普適的，比如平行坐標圖並不因為資料的不同而改變自己的視覺化設計。視覺化的強大的普適性能夠使用戶快速應用某種視覺化技術在一些新的資料上，並且通過視覺化結果圖像理解新資料，與針對已知特定資料進行信息視覺化設計繪製相比，用戶更像是通過對資料進行視覺化的應用來學習和挖掘資料，而普適性的資料視覺化技術本身並沒有解釋資料的功能。

分享自：opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自：巨量資料實驗室

2015年8月26日星期三

主流的報表與BI開發軟體具備的常規的功能有哪些？

資料無處不在，原始性的資料需要進行收集、統計、管理和分析之後才能夠具有更大的價值，而在這樣的過程中發揮了關鍵性的作用的就是報表與BI開發軟體，在銀行金融和航海航空中都有對該軟體的使用，那麼主流的報表與BI開發軟體具備的常規功能都有哪些呢？
第一、常規報表的開發
報表與BI開發軟體中所有的報表設計器不但可以隨時生成報表，同時也可以運用其中的報表樣式，通過拖拽操作就能夠創建報表，實現從基礎報表到中式複雜報表等類型的轉換和生成，之後用戶可以使用報表的瀏覽、資料統計資料分析、資料填報以及列印和匯出等多種功能。
第二、互動式報表分析
互動式報表分析也是報表與BI開發軟體所具有的功能之一，它不但可以呈現資料，還能夠兼具有動態化的功能，同時還可以對資料進行深層次的探取、深化以及動態性的過濾功能，自動排序也是大家經常會使用到的，用戶完全可以按照自己的需要來分析報表。
第三、視覺化呈現
當然，在此過程中資料視覺化呈現才是最被大家關注的，報表可以容納龐大的數字，豐富的文本，還可以融入到地圖中，2D圖表、3D圖表和迷你圖等等都是大家經常會看到的，這些都是資料視覺化的步驟之一，從而將資料的大小、分布和趨勢等都挖掘出來；正是因為它具有的豐富的圖表樣式和圖表交互功能功能，此類軟體更深受歡迎。
第四、跨平台支持
報表與BI開發軟體還有的功能就是跨平台與設備支持，同時它還可以集成到諸多WEB系統中，跨瀏覽器也能具有比較好的兼容性，從而幫助用戶實現資料的汇入，這樣就有助於保證用戶資料的精準性，節省了時間，提高了效率。
第五、行動化辦公
報表與BI開發軟體還充分的體現了行動化辦公的趨勢，用戶們可以在PC、平板電腦以及智能手機等平台上的開發，方便用戶們節省時間，在當前行動化辦公成為主導趨勢的前提下，它的出現更能夠符合人們的要求，因此深受歡迎。
報表與BI開發軟體的主流趨勢就是具有上述的幾個功能，當前在一些涉及到資料的業務開展中，以及一些部門中都會有一定的資料統計以及分析的任務，同時此類軟體也在根據現實工作的需求不斷的完善，以便更好的適應用戶們的要求。

分享自：opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。

2015年8月25日星期二

用戶對於報表軟體性能穩定性的要求

市面上每一次出現一些產品，之所以會受到大家的歡迎就是因為這些產品在功能上充分的迎合了大家的需要，在互聯網辦公時代中，人們會對於資料視覺化提出高要求，隨即也就會有一些報表與商業智慧開發類的軟體應運而生，從當前用戶的主導需求來看，大家似乎對於該軟體的性能穩定要求比較高。
那麼報表與商業智慧開發軟體的性能穩定性都和什麼樣的因素有關呢？其中一個方面的因素就是它的容量，一般來說，軟體內部還會有一定的工具，還會有一些組件，想要保證比較穩定的運行性能，不但要容納下這些組件，同時還要容納下比較多的資料，容量足夠大的軟體才真正的能夠保證穩定的運行性能。
報表與商業智慧開發軟體的性能穩定同時也是和它可以承載的工作人數有關的，報表開發軟體的使用者有很多都是大型公司，這些公司中的人數比較多，日常對於該軟體的使用人次自然會很高，因此為了保證穩定的性能，一定要確保該軟體能夠同時容納成千上萬的人辦公。
從當前該軟體所具有的屬性來看，的確是這樣的，儘管諸多大型公司都會定製該軟體，儘管很多公司中的使用人數很多，但是可以看到的是該軟體中的使用人數雖然很多，卻不影響到該系統的穩定運營，就這一點來看無疑是最有助於人們的資料處理的。
穩定的性能僅僅是報表與商業智慧開發軟體所具有的功能之一，它還擁有的一項功能就是在報表顯示和查詢的過程中實現了和用戶的交互，交互性是當前軟體為了更好的適應用戶們的需求而具備的，同時也是該軟體作未來的發展趨勢之一，因此這一點其實是十分寶貴的，用戶在查詢顯示資料時可以實現穿透探取，十分的方便，並且不會影響到列印。
如果說上述的功能都是通用性的功能的話，那麼它還有一些功能是專門為特殊報表與商業智慧的開發而準備的，比如說在對票據套打時有專門的功能，可以將空白票據掃描的圖像作為設計的背景圖，實現精準的定位和列印，這些功能都是很多用戶會選擇報表開發軟體的關鍵因素。報表開發軟體在人們的日常工作中有相當重要的體現，不僅用於人們日常的報表設計中，還可以運用在一般的資料處理中，為人們更為靈活的處理資料提供了條件。

分享自：opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。

為什麼資料分析需要會編程語言

對於資料分析，如果只是給定準備好的資料集，做簡單的描述性統計、簡單繪圖，那麼不太需要掌握任何編程語言。問題是，現實中收集到的資料是多樣的、基礎的，很少能直接滿足模型對資料規格的要求以及模型成立的假設，那麼就需要在分析前變換、合并、分類、整理資料，此時可能需要從資料庫用SQL跨表查詢，資料整理好後利用模型做統計推斷或者機器學習等等，形成樣本內或樣本外的預測，可能還要用視覺化的方式呈現結果。

這整個過程中，各個環節都可能涉及到大量的參數需要調節，各種細節都需要控制，還有很多主觀的選擇。這樣的過程如果用軟體窗口去實現，窗口中的選項將非常複雜，整個過程需要在多個資料及上重複執行也很麻煩。用編程語言可以精確地描述整個過程，控制大部分細節，並且可以批量的重複實現。

資料分析和探索的過程是一個不斷嘗試想法、驗證假設的過程，這就需要臨時產生、執行新的代碼，腳本語言如Python和R天生就是對這樣的互動操作有很好的支持。如果這種過程都用C++或Java這些需要編譯（二進位或bytecode）——執行的語言來完成，那麼過程將比較痛苦。

因此對於專業的資料分析，掌握資料庫的應用、資料分析的編程語言是很有必要的。題目中提到的編程語言一些是通用編程語言（如C++、Java）可以廣泛地用於開發各種項目，而R作為腳本語言憑藉其良好的互動性和豐富的擴展包資源可以方便地解決大部分資料處理、變換、統計分析、資料視覺化的問題，並可以重現所有的細節。資料分析者最好通用語言和腳本語言各至少掌握一種，這樣在處理許多項目時就能合理地發揮不同語言的優勢，提高整體的生產力。對於資料分析，如果只是給定準備好的資料集，做簡單的描述性統計、簡單繪圖，那麼不太需要掌握任何編程語言。問題是，現實中收集到的資料是多樣的、基礎的，很少能直接滿足模型對資料規格的要求以及模型成立的假設，那麼就需要在分析前變換、合并、分類、整理資料，此時可能需要從資料庫用SQL跨表查詢，資料整理好後利用模型做統計推斷或者機器學習等等，形成樣本內或樣本外的預測，可能還要用視覺化的方式呈現結果。
這整個過程中，各個環節都可能涉及到大量的參數需要調節，各種細節都需要控制，還有很多主觀的選擇。這樣的過程如果用軟體窗口去實現，窗口中的選項將非常複雜，整個過程需要在多個資料及上重複執行也很麻煩。用編程語言可以精確地描述整個過程，控制大部分細節，並且可以批量的重複實現。

資料分析和探索的過程是一個不斷嘗試想法、驗證假設的過程，這就需要臨時產生、執行新的代碼，腳本語言如Python和R天生就是對這樣的互動操作有很好的支持。如果這種過程都用C++或Java這些需要編譯（二進位或bytecode）——執行的語言來完成，那麼過程將比較痛苦。
因此對於專業的資料分析，掌握資料庫的應用、資料分析的編程語言是很有必要的。題目中提到的編程語言一些是通用編程語言（如C++、Java）可以廣泛地用於開發各種項目，而R作為腳本語言憑藉其良好的互動性和豐富的擴展包資源可以方便地解決大部分資料處理、變換、統計分析、資料視覺化的問題，並可以重現所有的細節。資料分析者最好通用語言和腳本語言各至少掌握一種，這樣在處理許多項目時就能合理地發揮不同語言的優勢，提高整體的生產力。

opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自：巨量資料實驗室

2015年8月24日星期一

如何做好資料挖掘模型的9條經驗總結

資料挖掘是利用業務知識從資料中發現和解釋知識（或稱為模式）的過程，這種知識是以自然或者人工形式創造的新知識。

當前的資料挖掘形式，是在20世紀90年代實踐領域誕生的，是在集成資料挖掘演算法平台發展的支撐下適合商業分析的一種形式。也許是因為資料挖掘源於實踐而非理論，在其過程的理解上不太引人注意。20世紀90年代晚期發展的CRISP-DM，逐漸成為資料挖掘過程的一種標準化過程，被越來越多的資料挖掘實踐者成功運用和遵循。

雖然CRISP-DM能夠指導如何實施資料挖掘，但是它不能解釋資料挖掘是什麼或者為什麼適合這樣做。在本文中我將闡述我提出資料挖掘的九種準則或「定律」（其中大多數為實踐者所熟知）以及另外其它一些熟知的解釋。開始從理論上（不僅僅是描述上）來解釋資料挖掘過程。

我的目的不是評論CRISP-DM，但CRISP-DM的許多概念對於理解資料挖掘是至關重要的，本文也將依賴於CRISP-DM的常見術語。CRISP-DM僅僅是論述這個過程的開始。

第一，目標律：業務目標是所有資料解決方案的源頭。
它定義了資料挖掘的主題：資料挖掘關註解決業務業問題和實現業務目標。資料挖掘主要不是一種技術，而是一個過程，業務目標是它的的核心。沒有業務目標，沒有資料挖掘（不管這種表述是否清楚）。因此這個準則也可以說成：資料挖掘是業務過程。

第二，知識律：業務知識是資料挖掘過程每一步的核心。
這裡定義了資料挖掘過程的一個關鍵特徵。CRISP-DM的一種樸素的解讀是業務知識僅僅作用於資料挖掘過程開始的目標的定義與最後的結果的實施，這將錯過資料挖掘過程的一個關鍵屬性，即業務知識是每一步的核心。

為了方便理解，我使用CRISP-DM階段來說明：

商業理解必須基於業務知識，所以資料挖掘目標必須是業務目標的映射（這種映射也基於資料知識和資料挖掘知識）；

資料理解使用業務知識理解與業務問題相關的資料，以及它們是如何相關的；

資料預處理就是利用業務知識來塑造資料，使得業務問題可以被提出和解答（更詳盡的第三條—準備律）；

建模是使用資料挖掘演算法創建預測模型，同時解釋模型和業務目標的特點，也就是說理解它們之間的業務相關性；

評估是模型對理解業務的影響；

實施是將資料挖掘結果作用於業務過程；

總之，沒有業務知識，資料挖掘過程的每一步都是無效的，也沒有「純粹的技術」步驟。業務知識指導過程產生有益的結果，並使得那些有益的結果得到認可。資料挖掘是一個反覆的過程，業務知識是它的核心，驅動著結果的持續改善。

這背後的原因可以用「鴻溝的表現」（chasm of representation）來解釋（Alan Montgomery在20世紀90年代對資料挖掘提出的一個觀點）。Montgomery指出資料挖掘目標涉及到現實的業務，然而資料僅能表示現實的一部分；資料和現實世界是有差距（或「鴻溝」）的。在資料挖掘過程中，業務知識來彌補這一差距，在資料中無論發現什麼，只有使用業務知識解釋才能顯示其重要性，資料中的任何遺漏必須通過業務知識彌補。只有業務知識才能彌補這種缺失，這是業務知識為什麼是資料挖掘過程每一步驟的核心的原因。

第三，準備律：資料預處理比資料挖掘其他任何一個過程都重要。
這是資料挖掘著名的格言，資料挖掘項目中最費力的事是資料獲取和預處理。非正式估計，其佔用項目的時間為50%-80%。最簡單的解釋可以概括為「資料是困難的」，經常採用自動化減輕這個「問題」的資料獲取、資料清理、資料轉換等資料預處理各部分的工作量。雖然自動化技術是有益的，支持者相信這項技術可以減少資料預處理過程中的大量的工作量，但這也是誤解資料預處理在資料挖掘過程中是必須的原因。

資料預處理的目的是把資料挖掘問題轉化為格式化的資料，使得資料分析技術（如資料挖掘演算法）更容易利用它。資料任何形式的變化（包括清理、最大最小值轉換、增長等）意味著問題空間的變化，因此這種分析必須是探索性的。這是資料預處理重要的原因，並且在資料挖掘過程中佔有如此大的工作量，這樣資料挖掘者可以從容地操縱問題空間，使得容易找到適合分析他們的方法。

有兩種方法「塑造」這個問題空間。第一種方法是將資料轉化為可以分析的完全格式化的資料，比如，大多數資料挖掘演算法需要單一表格形式的資料，一個記錄就是一個樣例。資料挖掘者都知道什麼樣的演算法需要什麼樣的資料形式，因此可以將資料轉化為一個合適的格式。第二種方法是使得資料能夠含有業務問題的更多的信息，例如，某些領域的一些資料挖掘問題，資料挖掘者可以通過業務知識和資料知識知道這些。通過這些領域的知識，資料挖掘者通過操縱問題空間可能更容易找到一個合適的技術解決方案。

因此，通過業務知識、資料知識、資料挖掘知識從根本上使得資料預處理更加得心應手。資料預處理的這些方面並不能通過簡單的自動化實現。

這個定律也解釋了一個有疑義的現象，也就是雖然經過資料獲取、清理、融合等方式創建一個資料倉庫，但是資料預處理仍然是必不可少的，仍然佔有資料挖掘過程一半以上的工作量。此外，就像CRISP-DM展示的那樣，即使經過了主要的資料預處理階段，在創建一個有用的模型的反覆過程中，進一步的資料預處理的必要的。

第四，試驗律（NFL律：No Free Lunch）：對於資料挖掘者來說，天下沒有免費的午餐，一個正確的模型只有通過試驗（experiment）才能被發現。
機器學習有一個原則：如果我們充分了解一個問題空間（problem space），我們可以選擇或設計一個找到最優方案的最有效的演算法。一個卓越演算法的參數依賴於資料挖掘問題空間一組特定的屬性集，這些屬性可以通過分析發現或者演算法創建。但是，這種觀點來自於一個錯誤的思想，在資料挖掘過程中資料挖掘者將問題公式化，然後利用演算法找到解決方法。事實上，資料挖掘者將問題公式化和尋找解決方法是同時進行的—–演算法僅僅是幫助資料挖掘者的一個工具。

有五種因素說明試驗對於尋找資料挖掘解決方案是必要的：

資料挖掘項目的業務目標定義了興趣範圍（定義域），資料挖掘目標反映了這一點；

與業務目標相關的資料及其相應的資料挖掘目標是在這個定義域上的資料挖掘過程產生的；

這些過程受規則限制，而這些過程產生的資料反映了這些規則；

在這些過程中，資料挖掘的目的是通過模式發現技術（資料挖掘演算法）和可以解釋這個演算法結果的業務知識相結合的方法來揭示這個定義域上的規則；

資料挖掘需要在這個域上生成相關資料，這些資料含有的模式不可避免地受到這些規則的限制。

在這裡強調一下最後一點，在資料挖掘中改變業務目標，CRISP-DM有所暗示，但經常不易被覺察到。廣為所知的CRISP-DM過程不是下一個步驟僅接著上一個步驟的「瀑布」式的過程。事實上，在項目中的任何地方都可以進行任何CRISP-DM步驟，同樣商業理解也可以存在於任何一個步驟。業務目標不是簡單地在開始就給定，它貫穿於整個過程。這也許可以解釋一些資料挖掘者在沒有清晰的業務目標的情況下開始項目，他們知道業務目標也是資料挖掘的一個結果，不是靜態地給定。

Wolpert的「沒有免費的午餐」理論已經應用於機器學習領域，無偏的狀態好於（如一個具體的演算法）任何其他可能的問題（資料集）出現的平均狀態。這是因為，如果我們考慮所有可能的問題，他們的解決方法是均勻分布的，以至於一個演算法（或偏倚）對一個子集是有利的，而對另一個子集是不利的。這與資料挖掘者所知的具有驚人的相似性，沒有一個演算法適合每一個問題。但是經過資料挖掘處理的問題或資料集絕不是隨機的，也不是所有可能問題的均勻分布，他們代表的是一個有偏差的樣本，那麼為什麼要應用NFL的結論？答案涉及到上面提到的因素：問題空間初始是未知的，多重問題空間可能和每一個資料挖掘目標相關，問題空間可能被資料預處理所操縱，模型不能通過技術手段評估，業務問題本身可能會變化。由於這些原因，資料挖掘問題空間在資料挖掘過程中展開，並且在這個過程中是不斷變化的，以至於在有條件的約束下，用演算法模擬一個隨機選擇的資料集是有效的。對於資料挖掘者來說：沒有免費的午餐。

這大體上描述了資料挖掘過程。但是，在有條件限制某些情況下，比如業務目標是穩定的，資料和其預處理是穩定的，一個可接受的演算法或演算法組合可以解決這個問題。在這些情況下，一般的資料挖掘過程中的步驟將會減少。但是，如果這種情況穩定是持續的，資料挖掘者的午餐是免費的，或者至少相對便宜的。像這樣的穩定性是臨時的，因為對資料的業務理解（第二律）和對問題的理解（第九律）都會變化的。

第五，模式律（大衛律）：資料中總含有模式。
這條規律最早由David Watkins提出。我們可能預料到一些資料挖掘項目會失敗，因為解決業務問題的模式並不存在於資料中，但是這與資料挖掘者的實踐經驗並不相關。

前文的闡述已經提到，這是因為：在一個與業務相關的資料集中總會發現一些有趣的東西，以至於即使一些期望的模式不能被發現，但其他的一些有用的東西可能會被發現（這與資料挖掘者的實踐經驗是相關的）；除非業務專家期望的模式存在，否則資料挖掘項目不會進行，這不應感到奇怪，因為業務專家通常是對的。

然而，Watkins提出一個更簡單更直接的觀點：「資料中總含有模式。」這與資料挖掘者的經驗比前面的闡述更一致。這個觀點後來經過Watkins修正，基於客戶關係的資料挖掘項目，總是存在著這樣的模式即客戶未來的行為總是和先前的行為相關，顯然這些模式是有利可圖的（Watkins的客戶關係管理定律）。但是，資料挖掘者的經驗不僅僅局限於客戶關係管理問題，任何資料挖掘問題都會存在模式（Watkins的通用律）。

Watkins的通用律解釋如下：

資料挖掘項目的業務目標定義了興趣範圍（定義域），資料挖掘目標反映了這一點；

與業務目標相關的資料及其相應的資料挖掘目標是在這個定義域上的資料挖掘過程產生的；

這些過程受規則限制，而這些過程產生的資料反映了這些規則；

在這些過程中，資料挖掘的目的是通過模式發現技術（資料挖掘演算法）和可以解釋這個演算法結果的業務知識相結合的方法來揭示這個定義域上的規則；

資料挖掘需要在這個域上生成相關資料，這些資料含有的模式不可避免地受到這些規則的限制。

總結這一觀點：資料中總存在模式，因為在這過程中不可避免產生資料這樣的副產品。為了發掘模式，過程從（你已經知道它）—–業務知識開始。

利用業務知識發現模式也是一個反覆的過程；這些模式也對業務知識有貢獻，同時業務知識是解釋模式的主要因素。在這種反覆的過程中，資料挖掘演算法簡單地連接了業務知識和隱藏的模式。

如果這個解釋是正確的，那麼大衛律是完全通用的。除非沒有相關的資料的保證，否則在每個定義域的每一個資料挖掘問題總是存在模式的。

第六，洞察律：資料挖掘增大對業務的認知。
資料挖掘是如何產生洞察力的？這個定律接近了資料挖掘的核心：為什麼資料挖掘必須是一個業務過程而不是一個技術過程。業務問題是由人而非演算法解決的。資料挖掘者和業務專家從問題中找到解決方案，即從問題的定義域上達到業務目標需要的模式。資料挖掘完全或部分有助於這個認知過程。資料挖掘演算法揭示的模式通常不是人類以正常的方式所能認識到的。綜合這些演算法和人類正常的感知的資料挖掘過程在本質上是敏捷的。在資料挖掘過程中，問題解決者解釋資料挖掘演算法產生的結果，並統一到業務理解上，因此這是一個業務過程。

這類似於「智能放大器」的概念，在早期的人工智慧的領域，AI的第一個實際成果不是智能機器，而是被稱為「智能放大器」的工具，它能夠協助人類使用者提高獲取有效信息的能力。資料挖掘提供一個類似的「智能放大器」，幫助業務專家解決他們不能單獨完成的業務問題。

總之，資料挖掘演算法提供一種超越人類以正常方式探索模式的能力，資料挖掘過程允許資料挖掘者和業務專家將這種能力融合在他們的各自的問題的中和業務過程中。

第七，預測律：預測提高了信息泛化能力。
「預測」已經成為資料挖掘模型可以做什麼的可接受的描述，即我們常說的「預測模型」和「預測分析」。這是因為許多流行的資料挖掘模型經常使用「預測最可能的結果」（或者解釋可能的結果如何有可能）。這種方法是分類和回歸模型的典型應用。

但是，其他類型的資料挖掘模型，比如聚類和關聯模型也有「預測」的特徵。這是一個含義比較模糊的術語。一個聚類模型被描述為「預測」一個個體屬於哪個群體，一個關聯模型可能被描述為基於已知基本屬性「預測」一個或更多屬性。

同樣我們也可以分析「預測」這個術語在不同的主題中的應用：一個分類模型可能被說成可以預測客戶行為—-更加確切的說它可以預測以某種確定行為的目標客戶，即使不是所有的目標個體的行為都符合「預測」的結果。一個詐騙檢測模型可能被說成可以預測個別交易是否具有高風險性，即使不是所有的預測的交易都有欺詐行為。

「預測」這個術語廣泛的使用導致了所謂的「預測分析」被作為資料挖掘的總稱，並且在業務解決方案中得到了廣泛的應用。但是我們應該意識到這不是日常所說的「預測」，我們不能期望預測一個特殊個體的行為或者一個特別的欺詐調查結果。

那麼，在這個意義下的「預測」是什麼？分類、回歸、聚類和關聯演算法以及他們集成模型有什麼共性呢？答案在於「評分」，這是預測模型應用到一個新樣例的方式。模型產生一個預估值或評分，這是這個樣例的新信息的一部分；在概括和歸納的基礎上，這個樣例的可利用信息得到了提高，模式被演算法發現和模型具體化。值得注意的是這個新信息不是在「給定」意義上的「資料」，它僅有統計學意義。

第八，價值律：資料挖掘的結果的價值不取決於模型的穩定性或預測的準確性。
準確性和穩定性是預測模型常用的兩個度量。準確性是指正確的預測結果所佔的比例；穩定性是指當創建模型的資料改變時，用於同一口徑的預測資料，其預測結果變化有多大（或多小）。鑒於資料挖掘中預測概念的核心角色，一個預測模型的準確性和穩定性常被認為決定了其結果的價值的大小，實際上並非如此。

體現預測模型價值的有兩種方式：一種是用模型的預測結果來改善或影響行為，另一種是模型能夠傳遞導致改變策略的見解（或新知識）。

對於後者，傳遞出的任何新知識的價值和準確性的聯繫並不那麼緊密；一些模型的預測能力可能有必要使我們相信發現的模式是真實的。然而，一個難以理解的複雜的或者完全不透明的模型的預測結果具有高準確性，但傳遞的知識也不是那麼有見地；然而，一個簡單的低準確度的模型可能傳遞出更有用的見解。

準確性和價值之間的分離在改善行為的情況下並不明顯，然而一個突出問題是「預測模型是為了正確的事，還是為了正確的原因?」換句話說，一個模型的價值和它的預測準確度一樣，都源自它的業務問題。例如，客戶流失模型可能需要高的預測準確度，否則對於業務上的指導不會那麼有效。相反的是一個準確度高的客戶流失模型可能提供有效的指導，保留住老客戶，但也僅僅是最少利潤客戶群體的一部分。如果不適合業務問題，高準確度並不能提高模型的價值。

模型穩定性同樣如此，雖然穩定性是預測模型的有趣的度量，穩定性不能代替模型提供業務理解的能力或解決業務問題，其它技術手段也是如此。

總之，預測模型的價值不是由技術指標決定的。資料挖掘者應該在模型不損害業務理解和適應業務問題的情況下關注預測準確度、模型穩定性以及其它的技術度量。

第九，變化律：所有的模式因業務變化而變化。
資料挖掘發現的模式不是永遠不變的。資料挖掘的許多應用是眾所周知的，但是這個性質的普遍性沒有得到廣泛的重視。

資料挖掘在市場營銷和CRM方面的應用很容易理解，客戶行為模式隨著時間的變化而變化。行為的變化、市場的變化、競爭的變化以及整個經濟形勢的變化，預測模型會因這些變化而過時，當他們不能準確預測時，應當定期更新。

資料挖掘在欺詐模型和風險模型的應用中同樣如此，隨著環境的變化欺詐行為也在變化，因為罪犯要改變行為以保持領先於反欺詐。欺詐檢測的應用必須設計為就像處理舊的、熟悉的欺詐行為一樣能夠處理新的、未知類型的欺詐行為。

某些種類的資料挖掘可能被認為發現的模式不會隨時間而變化，比如資料挖掘在科學上的應用，我們有沒有發現不變的普遍的規律？也許令人驚奇的是，答案是即使是這些模式也期望得到改變。理由是這些模式並不是簡單的存在於這個世界上的規則，而是資料的反應—-這些規則可能在某些領域確實是靜態的。

然而，資料挖掘發現的模式是認知過程的一部分，是資料挖掘在資料描述的世界與觀測者或業務專家的認知之間建立的一個動態過程。因為我們的認知在持續發展和增長，所以我們也期望模式也會變化。明天的資料表面上看起來相似，但是它可能已經集合了不同的模式、（可能巧妙地）不同的目的、不同的語義；分析過程因受業務知識驅動，所以會隨著業務知識的變化而變化。基於這些原因，模式會有所不同。

總之，所有的模式都會變化，因為他們不僅反映了一個變化的世界，也反映了我們變化的認知。

後記：

這九條定律是關於資料挖掘的簡單的真知。這九條定律的大部分已為資料挖掘者熟知，但仍有一些不熟悉（例如，第五、第六、第七）。大多數新觀點的解釋都和這九條定律有關，它試圖解釋眾所周知的資料挖掘過程中的背後的原因。

我們為什麼何必在意資料挖掘過程所採用的形式呢？除了知識和理解這些簡單的訴求，有實實在在的理由去探討這些問題。

資料挖掘過程以現在的形式存在是因為技術的發展—-機器學習演算法的普及以及綜合其它技術集成這些演算法的平台的發展，使得商業用戶易於接受。我們是否應該期望因技術的改變而改變資料挖掘過程？最終它會改變，但是如果我們理解資料挖掘過程形成的原因，然後我們可以辨別技術可以改變的和不能改變的。

一些技術的發展在預測分析領域具有革命性的作用，例如資料預處理的自動化、模型的重建以及在部署的框架里通過預測模型集成業務規則。資料挖掘的九條定律及其解釋說明：技術的發展不會改變資料挖掘過程的本質。這九條定律以及這些思想的進一步發展，除了有對資料挖掘者的教育價值之外，應該被用來判別未來任何資料挖掘過程革命性變化的訴求。

opensource開發，類excel設計，全方位異質資料庫整合，資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統——FineReport報表與BI 商業智慧工具免費下載。分享自：中國統計網

订阅：评论 (Atom)