2015年10月31日星期六

雞和蛋的博弈 BI中流程和資料哪個重要?

BI(商業智能)的部署應用成為2010年CIO關注的焦點。當前30%的成功率成為困擾BI前進的「絆腳石」,如果只是從企業部署應用的層度來講,目前企業只有首先理清了自身存在的因素,才能進一步的前進。作為CIO,無論是做什麼類型的系統,業務流程和業務資料都是非常重要的,做BI也是同樣的道理。如果拋開BI產品,從用戶的的角度出發,那麼在用戶做部署BI時,應該是先解決業務流程問題還是解決資料問題?近日,網友「olive」在 ITPUB論壇發起一場關於BI設計階段業務流程和業務資料重要程度的的探討引起了眾多BI實施者的關注。
  情景還原:
  網友olive指出:「公司內部一些跨部門的流程運行不太順暢,關鍵是各個部門各自為政,各用各的系統,各家自掃門前雪,而且信息對其他部門不透明,造成跨部門的資料查詢或協調比較困難。另外某些流程步驟依然採用古老的紙筆。針對這些問題老闆打算做一個通盤的改進,打通流程,然後上一個系統讓各相關部門都在上面運作,以提高總體效率。
  和用戶討論這個問題,我們認為關鍵是要確定總的工作流程,然後依據流程確定資料和資料流。但是用戶認為關鍵是資料,只要把資料統統放進資料庫,什麼時候要用什麼時候拿出來,就是這麼簡單。
  雙方各執己見。我們認為,資料要依附於流程才有意義,如果有些資料在任何流程中都沒有用到,那麼這些資料就是沒有用的。所以流程是關鍵,必須要先確定流程,然後再流程的每一步上確定輸入和輸出的資料,然後才能設計資料模型來存放資料。
  但是用戶認為,不管有用沒用,把資料統統放在中心資料庫里,沒用就讓他放著,有用的時候拿出來,就可以解決一切問題。還舉了一個例子,說前段時間要做一個統計,需要 10年前的某些資料,但是這些資料當時沒有放在系統資料庫中,結果現在找不到了,統計也沒法做了。
  所以即使是「沒用」的資料,也要放起來,誰知道以後有沒有用?只要有了資料,一切都好辦。所以資料是關鍵。」
  網友「olive」個人認為,用戶的觀點顯然是有錯誤的,但是似乎又找不到有力的理據來說服他們。
  圍繞BI的設計階段業務流程和業務資料哪個最重要的話題,筆者從論壇中了解到大量的專家、網友對於此進行了激烈的探討。筆者整理了這些專家、網友的聲音,結合在採訪已經實施或者關注BI的CIO,共同來分析解析BI設計階段「雞」和「蛋」的問題。
  業務流程最重要
  網友「ccwlm741212」指出,業務資料始終跟著業務流程走的,這是實施的問題。客戶固定自己的觀點,需要指導和疏通否則怎麼實施?
  網友「123crm 」認為,這個問題無非就是一個系統分析的過程。按照面向對象的方式,先有業務模型,然後才有概念模型。你們公司的內部流程管理的問題,怎麼扯到用戶身上去了?流程是一個方面還涉及到業務模式的變革,流程變動,涉及一大堆人(每個流程環節的崗位職責變動)的考核變動。
  不管有沒有IT系統,業務流程和業務實體都是客觀存在的。業務流程和業務模式是可以完全脫離IT系統的,要解決的問題是業務流程的梳理和對應的業務模式的變革。然後在IT系統中落地。依據系統分析的原則 在現在這個階段還是跟具體的實現扯不上太大的關係。
  所謂的資料也好,其他的也好。只是用來支撐企業生產和業務運營,也可能包括一些非功能性的需求。
  當然還得包括很多系統的非功能性需求。這個是本末倒置。底層的資料是流程梳理出來的一些抽象的實體。
  網友「ccwlm741212」認為,如果按照用戶的想法做其實就是信息孤島,各自為政階段。
  網友 「dawuwei1983」認為,流程比較重要,因為上系統畢竟是要改變現狀。先反覆確認流程,把流程確定。然後把業務資料套進去(肯定有特例,但說服甲方忍受,畢竟上workflow就是要規則化辦公流程啊,他們肯定接受)
  網友「 近九成網友 」認為,用戶之間的資料是有聯繫的,這個聯繫就是業務流程。如果各自為陣,資料是有了但是資料之間的對應關係不存在,要一堆不能互相聯繫的資料幹什麼用?比如銷售認為A是個整體,而生產認為A是可以拆分的一堆東西,管理時也是按照一堆東西來管理的,那麼,按照他們說的資料是有了但是銷售和生產的資料無法聯繫起來,有用嗎?
  網友「馬甲168 」指出,先整業務流程,業務流程整順了,再整資料不然你的業務流程朝令夕改,你的資料永遠都是垃圾。
  業務流程和業務資料同樣重要
  網友「123crm 」同時指出,如果不按照用戶的想法做,你能推動得了? 實際上,這些問題都不是IT解決的。配套的業務流程和業務模式的變革沒有跟上。IT系統在哪裡,也沒有人用。推動下來的流程,所有人的崗位職責和崗位流程都會發生變化,別人還是想在OA,或者直接回復郵件解決問題。需要強有力的自上而下的推動力才行。
  網友「sead 」:用戶只想談資料迴避流程,期望資料入庫,流程依舊。避免權利重組。作為調研者,了解現有資料和業務流程即可,流程重組只要和大領導討論,不要和基層強辯。
  網友「cowherd」: 如果不同業務資料全部都是用戶在一個地方,一次性錄入完成,可以想見錄入資料的質量。只有各自錄入自己負責的業務資料,才能保證各自錄入資料的準確性,而要保證各自錄入資料之間的關聯,那只能通過流程來控制,不能和基層具體辦事人員爭論系統全局問題。
  不管怎樣如果在流程上扯皮,那還得回到資料上來,最後讓用戶明白,不按新的流程來根本不能保證資料的準確性,實現不了老闆的需求,扯什麼都是沒用的。
  網友「olive「補充到,顯然用戶不想改動流程,只想得到更多的資料。但不講流程只講資料,只能是空中樓閣。
  網友「 bq_wang 」認為,BI的目的是為了提供決策支持,不過是現有資料的報表BI是基於已有流程和資料分析,當然通過BI你可以反映出企業流程是否合理,是否需要改進;企業資料質量是否有問題等等。
  網友「fals」認為,為什麼要把資料和流程對立起來?業務流程和業務資料本來就是統一的,是一個問題的兩個方面。
  1 、原始資料(不是統計資料)是從哪裡來的?是怎麼產生的?
  資料一定是從業務中產生的,一定是業務本身就具備的屬性。
  2 、哪些資料先產生?哪些資料後產生?
  一定是先發生業務的資料先產生,後發生業務的資料後產生。
  3 、不同的資料與資料之間的相互關係由誰來定義?
  一定是業務流程和業務關係來定義的!
  使用部門是希望基礎資料全採集,後期才能提取使用,這個要求是完全合理的,我們不能預見今後會使用哪些資料,因此在業務發生的當時把業務屬性資料全部採集到資料庫中,實際上是完全可行的。
  業務部門疑惑的問題是:每一個業務對象的需要定義哪些屬性?比如一個個人基本信息中,除了姓名性別外,是不是需要記錄他的手機號、家庭電話號碼、辦公室電話號碼、家庭住址、緊急聯繫人、緊急聯繫人電話、與緊急聯繫人的關係……這些資料才是需要與業務部門討論的。
  業務部門希望這些資料盡量的全,但實際上是不可能的;今天的大多數系統記錄個人信息時也不記錄他們的email地址,但很快就會發現這是需要的,以後可能還會要求記錄QQ號什麼的,這些東西是我們沒法預測的,但是這東西隨時可以通過修改資料庫結構在需要的時候增加。
  關係型資料庫設計來就是讓人能夠根據業務的擴展而不斷地增加新的信息的,所以疑慮完全可以讓業務部門打消掉。在系統早期設計的時候,完全可以不考慮得那麼全,在需要的時候再增加就行了。
  很不理解做信息系統為什麼一定需要改動流程??按他們現有的業務流程,把手工的業務搬到信息系統里就不行了嗎?這是最簡單的辦法,為什麼一定要用戶改動流程?
  改動業務流程一定是因為資料的原因:以前手工操作的時候為了某些原因方便之類的,增加了一些業務環節,現在信息系統上起來了,這些環節可以不要了。
  管理也是為基礎業務和核心業務服務的,管理的目標是讓核心業務效率更高、資源配置更合理,而不是單純的為了領導的某些統計資料!!這個一定不能本末倒置!
  網友「fals」指出同時建議,找專業的諮詢公司先拿出一個可行的解決方案。至少需要解決以下幾個問題:
  1 、各部門之間在業務意義上相同的資料,在資料庫中存在著不同的編碼方式、組織方式,計算機難以自動判斷這些資料的業務意義是否相同。也就是說,必須解決各系統之間元資料定義的標準化問題,否則各部門的系統之間資料交換是一場空談。
  2 、各部門之間的實際業務銜接是流暢的,但在全局的環境中信息流轉中不暢通,而且在整個大的流程中某些環節還是手工處理。因此樓主必須解決新的大系統與各部門原有業務系統的銜接問題,可以是全部替換——這個相信阻力會很大,特別是對於那些信息系統已經應用得比較好的部門;或者是做一個新系統,與各部門原有系統通過資料介面的方式進行資料交換和銜接——這樣的話,大系統會做得非常複雜。
  3、對於現有個別業務環節還是手工的情況,只能在新系統中解決,這個相反是最好解決的。
  因此,一個可行的做法是:建立一個全新的大系統,這個大系統跑全局的業務流程,主要解決部門與部門之間的業務銜接問題,涉及到各部門內部流程的,仍然使用各部門自有的系統來處理。
  大系統監控各部門的業務系統中新產生的需要下一業務部門處理的資料,如A部門接了一個訂單,需要B部門評估成本,那麼大系統監測到A部門新增加了訂單時,就將訂單的相關資料轉換成B部門的信息系統能夠處理的資料寫入B部門的系統中。對於全局性的統計需求,可以將需要的資料——或者業務部門所說的「全部」資料統一轉換為標準資料之後提取到大系統的資料中心來,再按大老闆的統計要求進行二次加工。
  這個方案的關鍵在於兩點:資料標準和系統介面。優勢在於對業務部門目前使用的系統儘可能少改或者不改,對各部門內部業務基本無干擾,即使是調整流程也僅僅是局部的調整,不會涉及各部門的利益。
  至於各部門都需要使用的共同資料,也可以全面性的清理一下,由大系統從首次產生這些信息的部門系統里定期提取,再轉換後寫入各部門的系統中。
  CIO解讀
  據上海家化聯合股份有限公司信息管理部總監孫昊介紹,上海家化是是前年開始做BI的。對於BI的設計階段業務流程和業務資料哪個重要?孫昊指出,業務流程是資料正確性和及時性的保證,現在成為真正的資料倉庫但對於智能的要求,我們還在完善。
  名企CIO解讀BI的博弈
  上海家化聯合股份有限公司信息管理部總監孫昊認為,現在的BI應用很多公司還處於報表階段,做些交叉分析。孫昊認為,業務流程首先保證資料源的一致性,第二保證計算公式(KPI等)的統一性,第三保證系統處理的客觀性(自動化)。
  而來自元洲裝飾董事長助理兼CIO白虹認為,BI的設計階段還是業務流程比較重要,流程決定了資料質量。
  關於BI:
  BI 商業智能也稱作BI是英文單詞Business Intelligence的縮寫。商業智能通常被理解為將企業中現有的資料轉化為知識,幫助企業做出明智的業務經營決策的工具。這裡所談的資料包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商等來自企業所處行業和競爭對手的資料以及來自企業所處的其他外部環境中的各種資料。而商業智能能夠輔助的業務經營決策,既可以是操作層的,也可以是戰術層和戰略層的決策。為了將資料轉化為知識,需要利用資料倉庫、聯機分析處理(OLAP)工具和資料挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是資料倉庫、OLAP和資料挖掘等技術的綜合運用。
  商業智能的概念最早在 1996年提出。當時將商業智能定義為一類由資料倉庫(或資料集市)、查詢報表、資料分析、資料挖掘、資料備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。目前,商業智能通常被理解為將企業中現有的資料轉化為知識,幫助企業做出明智的業務經營決策的工具。這裡所談的資料包括來自企業業務系統的訂單、庫存、交易賬目、客戶和供應商資料及來自企業所處行業和競爭對手的資料,以及來自企業所處的其他外部環境中的各種資料。而商業智能能夠輔助的業務經營決策既可以是操作層的,也可以是戰術層和戰略層的決策。為了將資料轉化為知識,需要利用資料倉庫、聯機分析處理(OLAP)工具和資料挖掘等技術。因此,從技術層面上講,商業智能不是什麼新技術,它只是資料倉庫、OLAP和資料挖掘等技術的綜合運用。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
來源:未知

2015年10月30日星期五

是什麼卡住了巨量資料的應用?

要想考察巨量資料最好同時考察巨量資料背後的技術、商業和社會維度。從發展成熟度來看,技術維度走的最遠、商業維度有所發展但不算全面成熟,社會維度發展最差。所以雖然已經談了很久巨量資料,但除了孕育出巨量資料自身的幾個領域比如搜索等,其它領域卻並沒有從巨量資料中獲得可見的收益。大多時候人們還是處在覺得這裡肯定有金子,但需要更多的耐心的狀態。這篇文章則嘗試對巨量資料本身的特徵做點挖掘,對未來的發展趨勢做點預測。
巨量資料上的深度和廣度
如果把巨量資料對應到海量的資料,那它就是非常含糊的概念,相當於變成信息的同義詞,顯然也就很難回答信息到底能幹什麼這樣的問題。
這時候為了推進思考通常需要先分類。如果把時間空間作為最基本的視角,那首先要區分的就是巨量資料的深度和廣度。從時間的角度看巨量資料是完整的歷史,從空間的角度看巨量資料是全球活動的痕迹。前者可以看成一種深度,後者可以看成一種廣度,不同的場景對深度和廣度的側重有所不同。
對於有些垂直的行業,比如醫療,巨量資料的深度更重要,所有的歷史都可以在資料上得到找到之後,人們就可以更好的認知並優化相應的行業。
對社會而言,很多時候廣度則更重要,具體到某個場景我們只有一鱗半爪的消息,但當這種信息足夠多,範圍足夠廣,就有可能描述出相對及時的全貌。經常舉的Google預測傳染病的例子依賴的就是這種廣度。
這點決定了巨量資料的應用發展趨勢,在深度重要的地方,公司這類組織需要成為主體,困難是如何跨越資料所有權的邊界。對於醫院而言,顯然把所有治療案例資料化並共享是有好處的,但如果只有一個醫院這麼做,那對這一家醫院而言更多的可能是隱私上反彈所帶來的壞處。
在廣度重要的地方,雖然在搜索這樣的領域裡公司也可以受益,但真正可以從巨量資料全面受益的機構其實是政府。資料越廣,其所描述的主體就越大,而如果描述的是整個社會,那顯然應該是社會的主要責任人會從中受益。這是個常識問題,就和看病的時候不會吃了醫生給別人開的葯自己反倒好了差不多。有的時候央視會播放百度做的春節期間人員流動圖,這件事情也正好可以從側面說明這問題。這種人員流動地圖對能做出地圖的人公司幫助遠沒有對政府的幫助大。
簡單總結下就是:深度和廣度兩個方向對資料的要求不同,前者需要更為詳盡、有質量的資料源後者則對此要求不高,但兩者在應用的時候都會面臨付出回報不對等問題。巨量資料傾向於描述整體,而有能力收集或處理巨量資料的往往是個體,個體的回報在整體的提升中並不容易獲得清晰體現。
所以說現在巨量資料發展的瓶頸不是技術,而是背後所需要的分配關係的建立。這種關係理不順,資料就會停留在孤島層面,每個組織都有自己的東西,並把它命名為「巨量資料」。而為了理順這種關係則要回到一個非常經典的問題,「公地」到底可不可以建立。
資料公地的設想
巨量資料其實有點像公地,在經濟學裡非常出名的一個論點是公地悲劇。《美國經濟史》舉了一個非常易懂的例子來說什麼是公地悲劇:
…這些經濟推理命題有利於解釋集體所有制和產出的共享(平分或固定份額)如何導致「免費搭車者」問題。為了說明這一點,考慮共享土地所有權,且共同生產了100蒲式耳玉米的10個工人,平均每人消費10蒲式耳玉米。假設一個工人開始偷懶並將其勞動努力減半,從而導致產出減少5蒲式耳。由於產出共享制度的安排,偷懶者的消費量和其它工人一樣,現在都是9.5蒲式耳。儘管他的努力已經下降了50%,但他的消費量只下降了5%。偷懶者是在搭他人勞動的便車。…
這背後有非常深刻的人性問題,即使我們可以通過努力協作創造更多的財富,個人也可以從中分享更多,但在群體里明顯的個人傾向則是自己工作更少但分享更多。這與囚徒困境其實是相通的。
基於實物的世界裡眼下看不到徹底解決這問題的方法,只能依賴於某種被大家基本認可的分配秩序,比如:以前的血統現在的物競天擇,但基於比特的數字財富眼下看卻有解決這問題的可能。
基於比特的資料與實物最大的區別是資料並非是你拿走我就沒有的東西,並且硬體的價格在飛速下降,開源又使資料的訪問工具基本免費。這幾者疊加在一起,使資料公地成為可能。
這裡面很有意思的問題是如果大家更在意我拿到的東西是不是絕對值變大了那資料公地的形成可能性就大些,因為如果存在資料公地,那每個人(企業)一定收穫更多,但如果大家更在意我是不是比你多,那資料公地的建設就會多很多障礙,因為公地其實是讓相關人員站到同樣的競爭起點上。
巨量資料的問題,在資料分析上是技術問題,但在資料源上其實是社會經濟問題,後者更難,所以巨量資料應用的發展不取決於技術的發展而取決於社會經濟方式的變革速度。在有限的領域裡,比如搜索、電商、雲計算,技術已經得到比較充分的發展,眼下來看誰付出誰受益的問題是把小資料變成巨量資料過程中最主要的問題。
巨量資料的路往那裡走?
資料的內在發展動力是資料越全價值越大,其實這也是一種網路效應,這種內在動力導致宏觀來看資料所有權的發展只有兩種趨勢:
一種是像現在移動端一樣,每個人都有自己的私有資料源,接下來開始你死我活的競爭,最終有一家活下來,這也可以達成資料統一的終極目標。
另一種則是在競爭中開始聯合,建設上面所說的資料公地。
如前所述行業資料和全社會的資料性質上差別很大所以要分開來探討。
對於行業資料而言,競爭對手間彼此的坦誠合作除非有極為特別的人物出現,否則是不太可能的。這種情況下最簡單的辦法是引入第三方。
比如說每家運營商都握有幾乎所有網民的行動資料,但要想讓運營商彼此間開誠布公的合作把這些資料整合在一起創造某種價值,這就很難。這時候如果有第三方介入,制定好利益分配方案那就是可能的。
如果這點可以達成,那唯一的關鍵點就是相應的商業模式是不是可以超越資料處理的成本。這點必須強調下的是,巨量資料的價值密度是很稀疏的,很多東西有價值但並不一定值得做,視頻網站之所以賺不到錢一個關鍵原因就是帶寬和存儲的成本比較高,而對巨量資料而言商業模式找不好,情形可能比視頻網站還差。挖礦的成本怎麼也要小於挖礦所得挖礦才有價值。
上述問題在行業資料里可能問題還不是太大,一般來講行業資料的價值密度終究會大一些,並且因為相對比較垂直,總量終究有限制。所以巨量資料的行業應用比較容易發展。
但對社會性的資料,這在很多時候就是個問題。我們都知道樣本的全面性比資料的多少更有價值,但是如果多是確保樣本全面性的唯一手段的話,那就意味必須有全的資料做一件事情才有意義。
社會化的資料有兩種應用方向,一種就是企業可以搞定的比如Google,一種則是屬於社會層面,很難單獨屬於某個企業的比如智慧城市相關的人的活動資料。後者則需要上面所說的資料公地來做支撐。
從資料的視角來看,現在有兩種資料存放形式:一種是Google這樣的企業擁有整個社會某個橫截面上的全部資料,這應該是種特例,並且資料會局限在公開信息;一種則是被割裂的各種與人行為相關的資料,比如購物相關的在電商,與人相關的在社交網路和IM,線下服務相關的則在O2O企業,鐵路相關的在12306等。Google這種擁有全的資料,但並不擁有人的行為,所以說Google這種企業相當於擁有整個社會的一個橫截面的資料。而所有其它企業則只擁有某個垂直領域的資料。
如果依賴於企業做這種資料統一的嘗試,在前者就會有投資200億做O2O類的舉動,因為這會補全資料,在後者就會有做電商的想做社交,做社交的想做電商這類事發生。類似的故事還可以在終端上發生,所有這些行為的終極目標都是一家企業搞定所有這些事情,但這是不可能的,這種不可能還不單是經濟原因。而資料不能打通,那就只能在割裂的資料上做自以為是巨量資料的巨量資料。
所以說這骨子裡是資料公地究竟能不能建立的問題,而要想建立資料公地,那至少要解決誰來做的問題,對此開源給出的啟示有兩點非常關鍵:第一這不能是個盈利組織;第二這要能獲得眾多企業的支持。因為資料會牽涉隱私,所以同開源相比那就一定還要有比較清晰的界定資料使用的規則。
小結
在有一種切實的辦法解決資料所有和使用權之前,巨量資料的應用應該還都是局部的。因為它的深度應用牽涉社會很多部分的彼此協調,所以這個過程可能是非常漫長的。這裡面有意思的事情是,巨量資料的出現直接推動了機器智能的發展,而機器智能產生影響的速度可能會遠快於巨量資料本身。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:李志勇

2015年10月28日星期三

商業智能BI的三個層次--資料報表、資料分析、資料挖掘

經過幾年的積累,大部分中大型的企事業單位已經建立了比較完善的CRM、ERP、OA等基礎信息化系統。這些系統的統一特點都是:通過業務人員或者用戶的操作,最終對資料庫進行增加、修改、刪除等操作。上述系統可統一稱為OLTP(Online Transaction Process,在線事務處理),指的就是系統運行了一段時間以後,必然幫助企事業單位收集大量的歷史資料。但是,在資料庫中分散、獨立存在的大量資料對於業務人員來說,只是一些無法看懂的天書。業務人員所需要的是信息,是他們能夠看懂、理解並從中受益的抽象信息。此時,如何把資料轉化為信息,使得業務人員(包括管理者)能夠充分掌握、利用這些信息,並且輔助決策,就是商業智能主要解決的問題。
如何把資料庫中存在的資料轉變為業務人員需要的信息?大部分的答案是報表系統。簡單說,報表系統已經可以稱作是BI了,它是BI的低端實現。 現在國外的企業,大部分已經進入了中端BI,叫做資料分析。有一些企業已經開始進入高端BI,叫做資料挖掘。而我國的企業,目前大部分還停留在報表階段。
資料報表不可取代
傳統的報表系統技術上已經相當成熟,大家熟悉的Excel、水晶報表、Reporting Service等都已經被廣泛使用。但是,隨著資料的增多,需求的提高,傳統報表系統面臨的挑戰也越來越多。
1. 資料太多,信息太少
密密麻麻的表格堆砌了大量資料,到底有多少業務人員仔細看每一個資料?到底這些資料代表了什麼信息、什麼趨勢?級別越高的領導,越需要簡明的信息。如果我是董事長,我可能只需要一句話:目前我們的情況是好、中還是差?
2. 難以交互分析、了解各種組合
定製好的報表過於死板。例如,我們可以在一張表中列出不同地區、不同產品的銷量,另一張表中列出不同地區、不同年齡段顧客的銷量。但是,這兩張表無法回答諸如「華北地區中青年顧客購買數碼相機類型產品的情況」等問題。業務問題經常需要多個角度的交互分析。
3. 難以挖掘出潛在的規則
報表系統列出的往往是表面上的資料信息,但是海量資料深處潛在含有哪些規則呢?什麼客戶對我們價值最大,產品之間相互關聯的程度如何?越是深層的規則,對於決策支持的價值越大,但是,也越難挖掘出來。
4. 難以追溯歷史,資料形成孤島
業務系統很多,資料存在於不同地方。太舊的資料(例如一年前的資料)往往被業務系統備份出去,導致宏觀分析、長期歷史分析難度很大。 因此,隨著時代的發展,傳統報表系統已經不能滿足日益增長的業務需求了,企業期待著新的技術。
資料分析和資料挖掘的時代正在來臨。值得注意的是,資料分析和資料挖掘系統的目的是帶給我們更多的決策支持價值,並不是取代資料報表。報表系統依然有其不可取代的優勢,並且將會長期與資料分析、挖掘系統一起並存下去。

資料挖掘看穿你的需求
廣義上說,任何從資料庫中挖掘信息的過程都叫做資料挖掘。從這點看來,資料挖掘就是BI。但從技術術語上說,資料挖掘(Data Mining)特指的是:源資料經過清洗和轉換等成為適合於挖掘的資料集。資料挖掘在這種具有固定形式的資料集上完成知識的提煉,最後以合適的知識模式用於進一步分析決策工作。從這種狹義的觀點上,我們可以定義:資料挖掘是從特定形式的資料集中提煉知識的過程
。資料挖掘往往針對特定的資料、特定的問題,選擇一種或者多種挖掘演算法,找到資料下面隱藏的規律,這些規律往往被用來預測、支持決策。
關聯銷售案例:
美國的超市有這樣的系統:當你採購了一車商品結賬時,售貨員小姐掃描完了你的產品後,計算機上會顯示出一些信息,然後售貨員會友好地問你:我們有一種一次性紙杯正在促銷,位於F6貨架上,您要購買嗎?
這句話決不是一般的促銷。因為計算機系統早就算好了,如果你的購物車中有餐巾紙、大瓶可樂和沙拉,則86%的可能性你要買一次性紙杯。結果是,你說,啊,謝謝你,我剛才一直沒找到紙杯。 這不是什麼神奇的科學算命,而是利用資料挖掘中的關聯規則演算法實現的系統。
每天,新的銷售資料會進入挖掘模型,與過去N天的歷史資料一起,被挖掘模型處理,得到當前最有價值的關聯規則。同樣的演算法,分析網上書店的銷售業績,計算機可以發現產品之間的關聯以及關聯的強弱。
資料報表、資料分析、資料挖掘是BI的三個層面。我們相信未來幾年的趨勢是:越來越多的企業在資料報表的基礎上,會進入資料分析與資料挖掘的領域。商業智能所帶來的決策支持功能,會給我們帶來越來越明顯的效益。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
來源:未知

BI系統的應用組織思路與資料分析模式

BI商業智能軟體一般都會提供若干資料整合、資料查詢、分析與評價、資料可視化及資料分享的手段,但是在BI項目的構建與實施過程中,如果不按照一定的應用組織思路、資料分析模式及分析流程使用這些工具或手段,呈現給最終用戶的將是獨立的工具集和離散的分析內容,BI系統的整體應用效果將大打折扣。同時,最終用戶也了解資料分析模式及資料分析流程方面的一些常用理論和方法,以便形成自己的分析內容組織思路,從而有效開展資料決策分析工作。這方面目前已有多種卓有成效的理論及實踐體系,本文基於既往經歷的典型BI/DW項目實施經驗及對BI軟體規劃研發和實施經驗,給出一種BI系統中的資料分析內容及分析流程組織思路。
1. 整體應用模式
在商業智能項目(DW/BI項目)中,通過梳理和優化現有的指標、報表體系和分析體系,同時整合主要的業務系統資料(業務核心支撐系統、財務系統、HR系統、手工維護的資料如行業資料、競爭對手資料等),從而建立面向總部和子公司的業務及IT等部門,集中使用、管理和維護的BI商業智能系統,以強化信息共享、業務分析、輔助管理決策工作。
在系統構建思路(系統整體應用模式)方面,面向資料分析的BI商業智能系統構建工作應達到如下目標:
BI商業智能系統分析應用整體組織思路
2. 資料分析模式
在資料分析的原理及模式方面,BI商業智能系統可採取PDCA管理循環理論的分析問題的模式,PDCA管理循環理論起初應用於質量檢查與保障優化領域,後來在精細化管理及資料分析與決策領域卓有成效。

BI商業智能系統PDCA分析模式及流程
應用在商業智能項目(BI/DW類)中時,PDCA管理循環理論的P、D、C、A四個英文字母所代表的意義如下:
1)P(Plan)——計劃
包括方針和目標的確定以及活動計劃的制定,包括業務發展目標(goal),中期計劃(plan),年度、季度及月度預算等(budget)。
計劃環節的內容觸發了BI商業智能系統應當具有導入並集成計劃與預算等相關資料的能力這一要求,而計劃及預算的制定工作,一般則是通過在專項的計劃與預算管理系統中進行。也有個別BI廠商基於自定義的填報方案為客戶提供計劃和預算的下發與上報等管理功能。
2)D(DO)——執行
執行就是具體運作,實現計劃中的內容。在BI商業智能系統需要對及時、準確的反應業務的現狀提供必要的、充分的手段,包括圍繞業務整體狀況及各個業務面構建的Dashboard、報表、查詢、預警及其他資料分析及可視化手段。
有比較才能明了現狀,有參照才能進行比較。因此BI商業智能系統還應該提供來自內部、外部的參照體系,比如計劃資料、歷史資料、標杆資料、競爭資料等,以便對業務現狀的健康程度有足夠的參照依據。
3)C(Check)——檢查
就是要檢查並總結執行計劃的結果,分清哪些對了,哪些錯了,明確效果,找出問題。
在BI商業智能系統中,應提供相應的對比和評價手段,如各類計劃的達成情況分析、標杆分析、綜合績效評價、EVA評價等手段,以便對一個業務周期的效果進行分析與評價。
該部分的分析粒度應有所提高(如沿著時間、人員等維度),分析的範圍相應縮窄,結合管理及業務現狀有針對性對總體及關鍵業務環節設立專項檢查與評價手段,檢查評價的內容一般集中在業務效率及財務表現等方面。
4)A(Action)——處理
對上文Check環節檢查的結果進行處理,管理人員通過仔細分析內在原因之後對檢車結果認可、否定或調整改進相關參數及結果。並利用有效的結果針對性的開展相關商務政策及管理措施等。
比如,在既往實施的多個經銷商網路管理商業智能項目中,Action環節落實為相應銷售政策、獎罰措施及總部向各經銷商、代理商的利潤返還計劃,同時也落實為對下一輪業務目標計劃資料的調整。
3. 資料分析流程
面對一個具體的資料分析需求時,分析人員在BI商業智能系統中綜合利用各種手段解決問題的典型分析流程示意如下:
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
來源:未知

2015年10月27日星期二

創業公司怎麼搞巨量資料?

這是一個不說自己搞巨量資料就不好意思和人打招呼的時代。阿里巴巴用巨量資料貸款,百度用巨量資料推廣告。那麼,沒有巨頭的天然優勢,創業公司具體怎麼搞巨量資料?
開搞之前,先明確一下目前巨量資料主要是用來預判,挖掘用戶的需求(也有用過去的巨量資料判斷現在的需求,如巨量資料種菜判斷菜目前的長勢情況)。那麼,預判的依據是什麼?就是所謂樣本,例如我通過前幾年的平均氣溫判斷今年的溫度是高是低。
這裡還可以分為三種情況:一種是我的巨量資料軟體自帶了很多樣本可以作為分析依據,一種是我把之前的交易資料作為樣本。第二種較先進,要求系統有自我學習建立樣本模型的能力,也就是邊干邊學。第三種最牛,不光能做出預判,還能告訴你下一步怎麼做,例如一家賣拖拉機的公司,為用戶提供何時在哪裡種植何種作物,犁地的最佳路線。
首先說一下資料來源問題,可以是平時經營過程中積攢下來的也可以向別的公司購買(像京東那樣買騰訊的資料,目前國內貴州巨量資料交易中心和DATACOMB很出名,後面細說),技術關鍵:積攢資料同時要根據自己的需求為用戶和產品貼標籤,例如我希望了解和用戶年齡段有關的規律,那麼年齡就是必須採集的一個標籤。積攢資料的方式大致分兩類,一類是圍繞用戶,一類是圍繞產品,將兩者每次交易的資料都採集下來,可用人力,例如飯店服務員每次交易記錄下菜品,性別,滿意度之類,這一步又叫企業資料化。
然後是資料的初步處理:租伺服器,建立自己的資料分析架構,例如日報表月報表這些都OUT了,應該明確適合公司的格式,如果需要這些定製需求的報表,目前流行的巨量資料的解決方案大部分都是以Hadoop為基礎架構。什麼是Hadoop?簡單來說Hadoop是一個分布式計算的解決方案,分布式通俗來說就是把一件事分布到幾台計算機上運行。由多台計算機同時運行和存儲資料,比一台計算機運行速度快,而且如果資料量大了,或者報表複雜導致運算速度慢,只要再加計算機就解決了。
當每台計算機運算完畢後,會把中間結果集中到一台計算機上,再把這些中間結果匯總起來得出最終結果。把手頭的資料進行預處理,包括將不同資料庫的資料導入到一個資料庫中,資料的粗選,分析,分類,會用到EMC 的GreenPlum、Oracle的Exadata,以及基於MySQL的列式存儲Infobright等,而一些批處理,或者基於半結構化資料的需求可以使用Hadoop。先別頭大,如果你不是淘寶京東這樣的巨頭沒有那麼巨量資料量可以不這麼麻煩,剔除那些和其他資料差別很大的就行
接下來,就是最核心的,資料挖掘。這一步可以挖掘出你意想不到的信息,比如,買啤酒的顧客通常會買尿布,持續買無香精面霜的顧客通常接下來會買母嬰用品。這些資料怎麼挖?需要用到以下工具:
1.決策樹,各種可能性的展示圖,主要用來精確分類。例如,樹的根部是雜貨鋪里所有商品,往上走就是第一個分叉,分叉處有一個判斷標準-吃的還是用的,於是所有商品被分開為兩個樹枝,吃的再往上走又出現分叉,於是被分成甜的和鹹的…
2.神經網路,例如,計算機預判迎面走來的這個軟妹子會買奶茶,因為根據神經網路顯示,上次買咖啡,上上次買酸奶的,這次99.99%的概率會買奶茶。什麼?這貨買的啤酒?那計算機就會根據這次的結果修改神經網路。沒錯,神經網路是具有學習能力的模擬人腦總結教訓的分析模式,他會自己得到一個穩定準確的結果。
3.關聯規則,例如上文說的買啤酒的一定買尿布。
先看一個簡單的例子,假如有下面資料集,每一組資料ti表示不同的顧客一次在商場購買的商品的集合:
t1: 牛肉、雞肉、牛奶
t2: 牛肉、乳酪
t3: 乳酪、靴子
t4: 牛肉、雞肉、乳酪
t5: 牛肉、雞肉、衣服、乳酪、牛奶
t6: 雞肉、衣服、牛奶
t7: 雞肉、牛奶、衣服
假如有一條規則:牛肉—>雞肉,那麼同時購買牛肉和雞肉的顧客比例是3/7,而購買牛肉的顧客過一段時間也購買了雞肉的顧客比例是3/4。這兩個比例參數是很重要的衡量指標,它們在關聯規則中稱作支持度(support)和置信度(confidence)。前者反映了牛肉雞肉組合的吸引力,後者可用來預判消費行為。好了,現指定你想要的支持度和置信度是多少,然後把牛奶雞肉,衣服乳酪等各種組合用程序算一遍,找出支持度和置信度滿足你要求的組合。
其中,假如一條關聯規則的支持度和置信度很高時,不代表這個規則之間就一定存在某種關聯。舉個最簡單的例子,假如X和Y是最近的兩個比較熱門的商品,大家去商場都要買,比如某款手機和某款衣服,都是最新款的,深受大家的喜愛,那麼這條關聯規則的支持度和置信度都很高,但是它們之間沒有必然的聯繫。所以,搞巨量資料既要對專業精通又要對你公司的業務精通,這也是現在公司經常碰到的難題,此事古難全啊。
除了這些,巨量資料還經常用到一些數學工具如,線性回歸,支持向量機等來幫助進行比對和分類。不要小看這些輔助工具,有時候他們是主力。美國警察用電力公司的資料與培養大麻的LED燈用電曲線進行比對,數學工具就是線性回歸,只要發現哪家用電曲線和樣本相符(相符的程度用方差表示,標準老警自己定),直接踹門抓人一抓一個準。這些數學工具很多都是用來分類的,分類在巨量資料中是個大事,例如國外有的門戶網站首頁分類用巨量資料直接篩選出詳細頁使用頻率較高的辭彙作為各個大類的標題。
工具列完了,下面資料挖掘正式開幕:
巨量資料對於什麼時候用人力什麼時候用計算機也能看出來功力,中小公司更應該注意巧妙利用人力,可避免在技術上過多拼財力。比如以上的例子中大家可以看到,相似不相似,是不是關聯,這些標準都是人定的。計算機常負責一些同一個演算法算大批量資料的活。美國巨量資料公司的老大Palantir就因精於此道而著稱。中小公司在這方面也有做的不錯的,最近開始流行的圖片新聞APP 網新聞的策略就很值得借鑒:
網新聞主要是用關係圖,時間軸各種圖片展示更豐富信息,一條新聞,用戶希望在哪一點上獲取更深入的信息是網新聞最想分析的,明確了這個目的又積累了一定用戶行為的資料後,網新聞做了如下工作:把一個新聞,舉個栗子,如釋永信事件,讓小編寫完這條新聞就分析用戶關注這條新聞的點在哪,並且把各種可能性列出來。列出的結果是:
1、用時間軸展示少林寺背後的利益紛爭事件,用關係圖展示各利益相關方的關係,這兩條可以滿足求知慾,用戶也可以說出去秀知識。
2、說明佛門中的禪宗一派特點就是不避世俗。古代就在寺廟做小買賣。進而拓展到律宗,密宗是怎麼回事。
3、傳聞釋永信嫖娼,有情婦,桃色因素是一個。
4、中國法律目前對寺廟住持是怎麼定性的,有哪些法律來約束,觸犯了這些法律會受到什麼樣的懲罰,對事件目前形勢未來預判也是一個吸引人的因素…
這樣列出來後,進行關聯性分析,點擊量高的新聞,一定是具備因素2和因素3?還是因素1和因素3?…網新聞用這種方法得出很多有價值的信息,如用戶對用圖片解釋「經理人採購指數」感興趣還是對展示某經濟指標對自己生活的影響更感興趣,然後用這些資料指導小編擺圖寫稿。
另外,不要覺得分析資料預判用戶需求很屌,其實路邊賣手抓餅的也經常能猜出你這次要不要放辣椒,就是調用的他腦中的巨量資料。可以讓用戶刷打折卡或者是通過QQ定外賣時顯示他平時的偏好。這個方法需要對資料預處理去掉那些和其他資料偏離較大的資料可獲得基本的「用戶畫像」。另外還可以結合其他因素資料豐富「用戶畫像」,例如天氣炎熱或寒冷的情況下用戶的喜好,每到周末是不是多買一些等。
還有一個很重要的使用人力的節點就是先想好你想了解什麼。例如,買啤酒的顧客會買尿布這個例子中,資料挖掘工程師其實提前就想到有必要查看一下啤酒和其他商品的關聯,才有了這個發現,而不是計算機自己去找這兩者關係。這需要洞察力!福布斯網站發文稱「首先制定好策略,然後奔著結果找出答案」,並由此得出「問題比答案重要」的結論。
使用巨量資料的流程就這些了。總結一下哪些地方使用人力:收集什麼樣的資料需要人來做決定,想好要弄清楚哪些規律需要人來做決定。電腦主要用來存儲,以及用數學工具來進行具體計算。哈哈,原來巨量資料不是巨頭們買一個塞滿房子的超級計算機把海量資料統統輸進去然後「度昂」一下就出來結果了!我們小公司一樣可以搞啊!
由於「問題比答案重要」,再說一下巨量資料領域提出的幾個有代表性的「問題」。既然除了利用之前積累的資料了解用戶偏好向用戶推銷這次的產品,還可以用巨量資料讓用戶方便的消費來提高用戶體驗:快餐業的視頻分析。該公司通過視頻分析等候隊列的長度,然後自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。這個案例門檻極低,只要人為設定隊伍多長算長,做食物的速度多塊算快即可,也可以人工標定一下哪些是快食哪些是慢食。
不僅可以預判需求予以滿足,營銷時還可以定點營銷。此類打法常常是從別的機構購得資料或者連錢都不花從政府開放的資料中拿,一家領先的專業時裝零售商,通過當地的百貨商店、網路及其郵購目錄業務為客戶提供服務。公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從Twitter 和Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨後他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。然後通過免費化妝服務,對這兩類消費者進行精準的宣傳。這個案例中,需要用到的工具有用于歸類的線性回歸,聚類分析等。

資料的來源問題:由於沒有巨頭那樣的資料積累,中小企業經常想到購買資料,或使用政府公開的免費資料。目前國內掌握巨量資料的巨頭不夠開放,形成了讓仁人志士頭大的「資料堰塞湖」。雖然也有開放資料的,例如中國首個巨量資料開放平台DataComb,對於掌握一些資料的公司來說也多了一些資料變現的渠道,然而對疏通「堰塞湖」並沒有太大作用。也有好消息,8月19日,國務院常務會議審議通過《關於促進巨量資料發展的行動綱要》,全面公開應該就在眼前了。在美國最重要的資料開放平台就是奧巴馬政府在2009年推出的Data.gov,奧巴馬同學對搞巨量資料一向蠻拼的。

另外,創業公司切記,巨頭們整天嚷嚷的「巨量資料不必追求精確,犧牲精確性可以換取效率和更多規律的發現」,可問題是那是在資料量異常大的情況下,對中小企業資料量不太大時務必要精確。

總的來說,巨量資料分析可謂是兵無常勢,水無常形,真正厲害的資料挖掘大師是碰到什麼樣的形勢知道用什麼樣的工具來解決的人。中小企業玩巨量資料切記:1.不炒概念。2.不燒錢。切實用巨量資料提升企業競爭力才是王道。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:hong

2015年10月25日星期日

巨量資料時代,我為什麼說統計學依然是資料分析靈魂

在資料「爆炸」的時代,巨量資料常常被寄予厚望。到底,什麼樣的資料才算巨量資料,怎樣才能用好巨量資料,傳統統計學還有用武之地嗎?清華大學統計學研究中心前不久成立,著名統計學家、哈佛大學終身教授劉軍擔任主任。日前,劉軍做客人民日報、人民網《文化講壇》,分享他的思考。
——編者
讓巨量資料區別於資料的,是其海量積累、高增長率和多樣性
什麼是資料?資料(data)在拉丁文里是「已知」的意思,在英文中的一個解釋是「一組事實的集合,從中可以分析出結論」。籠統地說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為資料。古人「結繩記事」,打了結的繩子就是資料。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數字是資料,文字是資料,圖像、音頻、視頻等都是資料。
什麼是巨量資料呢?量的增多,是人們對巨量資料的第一個認識。隨著科技發展,各個領域的資料量都在迅猛增長。有研究發現,近年來,數字資料的數量每3年多就會翻一番。
巨量資料區別於資料,還在於資料的多樣性。正如高德納諮詢公司研究報告指出的,資料的爆炸是三維的、立體的。所謂的三維,除了指資料量快速增大外,還指資料增長速度的加快,以及資料的多樣性,即資料的來源、種類不斷增加。
從資料到巨量資料,不僅是量的積累,更是質的飛躍。海量的、不同來源、不同形式、包含不同信息的資料可以容易地被整合、分析,原本孤立的資料變得互相聯通。這使得人們通過資料分析,能發現小資料時代很難發現的新知識,創造新的價值。
通過資料來研究規律、發現規律,貫穿了人類社會發展的始終。人類科學發展史上的不少進步都和資料採集分析直接相關,例如現代醫學流行病學的開端。倫敦1854年發生了大規模的霍亂,很長時間沒有辦法控制。一位醫師用標點地圖的方法研究了當地水井分布和霍亂患者分布之間的關係,發現有一口水井周圍,霍亂患病率明顯較高,藉此找到了霍亂暴發的原因:一口被污染的水井。關閉這口水井之後,霍亂的發病率明顯下降。這種方法,充分展示了資料的力量。
本質上說,許多科學活動都是資料挖掘,不是從預先設定好的理論或者原理出發,通過演繹來研究問題,而是從資料本身出發通過歸納來總結規律。近現代以來,隨著我們面臨的問題變得越來越複雜,通過演繹的方式來研究問題常常變得很困難。這就使得資料歸納的方法變得越來越重要,資料的重要性也越發凸顯出來。
巨量資料是非競爭性資源,有助於政府科學決策、商家精準營銷
巨量資料時代,資料的重要作用更加凸顯,許多國家都把巨量資料提升到國家戰略的高度。
政府合理利用巨量資料,引導決策的將是基於實證的事實,政府會更有預見性、更加負責、更加開放。中國古代治國就已經有重資料的思想,如商鞅提出,「強國知十三數……欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削」。巨量資料時代,循「數」治國將更加有效。小資料時代,政府做決策更多依憑經驗和局部資料,難免頭痛醫頭、腳痛醫腳。比如,交通堵塞就多修路。巨量資料時代,政府做決策能夠從粗放型轉向集約型。路堵了,利用巨量資料分析,可以得知哪一時間、哪一地段最容易堵,或在這一地段附近多修路,或提前預警引導居民合理安排出行,實現對交通流的最佳配置和控制,改善交通。
對於商家來說,巨量資料使精準營銷成為可能。一個有趣的故事,是沃爾瑪超市的「啤酒、尿布」現象。沃爾瑪超市分析銷售資料時發現,顧客消費單上和尿布一起出現次數最多的商品,竟然是啤酒。跟蹤調查後發現,有不少年輕爸爸會在買尿布時,順便買些啤酒喝。沃爾瑪發現這一規律後,搭配促銷啤酒、尿布,銷量大幅增加。巨量資料時代,每個人都會「自發地」提供資料。我們的各種行為,如點擊網頁、使用手機、刷卡消費、觀看電視、坐地鐵出行、駕駛汽車,都會生成資料並被記錄下來,我們的性別、職業、喜好、消費能力等信息,都會被商家從中挖掘出來,以分析商機。
巨量資料也將使個人受益。從生物學、醫學上講,以前生物學家只是通過對單個或幾個基因的操控來觀察其對生物體的影響,很難發現整體的關聯。現在由於技術的發展,可以分析很多,如遺傳信息、全體基因的表達量信息、蛋白質族譜信息、全基因組甲基化信息、表觀遺傳信息等。同時還有個人健康指標、病歷、藥物反應等資料。如果真能達成生物學上多維多向資料的有機融合,就能夠把個人完整地描述出來,從而實現精準醫療的目的。
巨量資料時代,審核資料的真實性也有了更有效的手段。巨量資料的特徵之一是多樣性,不同來源、不同維度的資料之間存在一定的關聯度,可以交叉驗證。例如,某地的工業產值虛報了一倍,但用電量和能耗卻沒有達到相應的規模。這就是資料異常,很容易被系統識別出來。發現異常後,相關部門再進行複核,就能更有針對性地防止、打擊資料造假。
資料是一種資源,但資料又跟煤、石油等物質性資源不一樣。物質性資源不可再生,你用多了,別人就用少了,因而很難共享。資料可以重複使用、不斷產生新的價值。巨量資料資源的使用是非惡性競爭的,共享的前提下,更能夠製造雙贏。從另一個角度來說,資料如果不被融合、聯繫在一起,也不能稱之為巨量資料。
巨量資料不能被直接拿來使用,統計學依然是資料分析的靈魂
現在社會上有一種流行的說法,認為在巨量資料時代,「樣本=全體」,人們得到的不是抽樣資料而是全資料,因而只需要簡單地數一數就可以下結論了,複雜的統計學方法可以不再需要了。
在我看來,這種觀點非常錯誤。首先,巨量資料告知信息但不解釋信息。打個比方說,巨量資料是「原油」而不是「汽油」,不能被直接拿來使用。就像股票市場,即使把所有的資料都公布出來,不懂的人依然不知道資料代表的信息。巨量資料時代,統計學依然是資料分析的靈魂。正如加州大學伯克利分校邁克爾•喬丹教授指出的,「沒有系統的資料科學作為指導的巨量資料研究,就如同不利用工程科學的知識來建造橋樑,很多橋樑可能會坍塌,並帶來嚴重的後果。」
其次,全資料的概念本身很難經得起推敲。全資料,顧名思義就是全部資料。這在某些特定的場合對於某些特定的問題確實可能實現。比如,要比較清華、北大兩校同學數學能力整體上哪個更強,可以收集到兩校同學高考時的數學成績作為研究的資料對象。從某種意義上說,這是全資料。但是,並不是說我們有了這個全資料就能很好地回答問題。
一方面,這個資料雖然是全資料,但仍然具有不確定性。入校時的數學成績並不一定完全代表學生的數學能力。假如讓所有同學重新參加一次高考,幾乎每個同學都會有一個新的成績。分別用這兩組全資料去做分析,結論就可能發生變化。另一方面,事物在不斷地發展和變化,同學入校時的成績並不能夠代表現在的能力。全體同學的高考成績資料,僅對於那次考試而言是全資料。「全」是有邊界的,超出了邊界就不再是全知全能了。事物的發展充滿了不確定性,而統計學,既研究如何從資料中把信息和規律提取出來,找出最優化的方案;也研究如何把資料當中的不確定性量化出來。
所以說,在巨量資料時代,資料分析的很多根本性問題和小資料時代並沒有本質區別。當然,巨量資料的特點,確實對資料分析提出了全新挑戰。例如,許多傳統統計方法應用到巨量資料上,巨大計算量和存儲量往往使其難以承受;對結構複雜、來源多樣的資料,如何建立有效的統計學模型也需要新的探索和嘗試。對於新時代的資料科學而言,這些挑戰也同時意味著巨大的機遇,有可能會產生新的思想、方法和技術。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。 

2015年10月23日星期五

你應該知道,資料視覺化的七個秘密

資料視覺化
資料視覺化的道路上充滿了不可見的陷阱和迷宮,最近ClearStory Data的兩位資料視覺化開發人員分享了他們總結出來的資料視覺化開發的7個不宣之秘,普通開發者了解這些方法能提升視野,少走彎路。
資料視覺化, 特別是基於Web的資料視覺化的時代已經到來了。 類似Javascript的可視化庫如D3.js, Raphaël, 以及Paper.js, 以及最新瀏覽器所支持的如Canvas和SVG, 以及使得那些過去只能由計算機專家和專業設計人員開發的複雜的可視化變得越來越簡單了。
資料視覺化如今成為了很多網站項目的必備功能。 而類似於Platfora, DatameerClearStory Data以及Chartio等初創公司則可以利用基於瀏覽器的分析平台融到數百萬美元的投資。
資料視覺化是資料探索以及資料表現的重要方式, 然而, 對於資料視覺化的開發者來說, 依然有很多挑戰要去面對。 這些迎接這些挑戰的方法, 則是很多專業的資料視覺化開發者不願意讓別人知道的秘密。 ClearStory Data的兩位資料視覺化開發人員Nate Argrin和 Nick Rabinowitz 在 netmagzine.com上分享了他們總結出來的資料視覺化開發的7個秘密以及在實踐中如何應對的方式。 IT經理網編譯如下:
秘密一: 現實中的資料往往很醜
大部分的資料視覺化的教程, 都會讓你輕鬆地從一個原始資料集開始。 無論你是學習基本的柱狀圖還是力導向的網路圖, 你的資料都是乾淨的,經過整理的資料。 這些完美的JSON或者CSV文件就像電視里的廚藝節目中的灶台那樣乾淨整潔。而實際上, 當你在處理現實中的真正的資料是, 你80%的時間得用來搜尋, 獲取, 載入, 清洗以及轉換你的資料。
這樣的過程, 有時候可以用自動化的工具來完成。 不過, 差不多任何需要針對兩個以上的資料集進行清洗的工作總會需要或多或少的人工的工作。有很多工具能夠把XLS文件轉化為XML的格式或者把時間戳轉換為其他日期格式。但是, 要想把一個公司的內部使用的銷售類型與競爭對手進行比對, 或者對輸入錯誤進行檢查, 或者對不同的Encoding或者OCR產生出來的文字進行檢查時, 就只能靠手工來處理了。
工具及處理方式:
1)在資料視覺化項目中給資料清洗留出足夠的時間, 特別是在需要處理多個資料源, 需要手工錄入或者OCR資料, 進行不同類別的配比, 或者需要處理一些非標準格式時, 需要留出更多的時間。
2)Google Refine (編者:需要翻牆)是一個很好的資料清洗工具, 儘管在有些地方, 特別是處理非表格化資料時有些不足。 此外, 還有一些資料清洗專用的工具如Data Wranger 和 Mr. Data Converter。 不過, 很多的資料清洗工作仍然需要你熟悉腳本語言如Python或者需要你在Excel里進行一些手工工作。 記得把你的腳本存檔, 你以後肯定用得上。
3)用簡單的一些散點圖或者直方圖來發現一些超正常範圍的錯誤資料。
秘密二: 柱狀圖往往更好

柱狀圖
和柱狀圖比起來, 氣泡圖可以在同樣的空間表現更多地資料, 餅圖可以更清晰地表現整體和局部的關係, 樹狀圖能夠更好地表現分層的結構。然而, 這些圖在簡單明了方面都無法與柱狀圖相比。
在考慮資料視覺化設計方案時, 我們要問自己的第一個問題就是:「這個方案比柱狀圖好嗎?」 如果你需要在一個單一維度上可視化一個可量化的資料集,那麼很少有別的方式能比得上柱狀圖。 類似的, 時間序列最好表現為線狀圖, 而散點圖一般用來表現兩個線性度量的相關性。 在資料視覺化設計中, 使用這些從18世紀以來就一直在使用的圖風險最低。 而柱狀圖對於進行資料比較的可視化來說是最佳方式。 因為我們人眼最習慣的比較方式就是將兩個東西並排比較。
關於柱狀圖優先, 其實揭示了資料視覺化中一個最大的秘密, 那就是, 那些最酷的可視化往往用處反而最小。 最求新奇以及美觀的可視化往往帶來一個問題,那就是資料的可理解問題。 很多柱狀圖的替代圖迫使人們用他們並不擅長的方式進行比較, 如比較面積, 角度, 色彩, 或者透明度等。 這些比較, 說好聽的, 是增加了比較的難度,說的嚴重一些, 可能會對資料進行扭曲, 導致使用者得出錯誤的結論。
工具及處理方式:
1)不要輕易拋棄那些傳統的可視化方式, 如果這些方式能夠表現你的資料。 先試試柱狀圖或者線狀圖, 如果你的資料真的需要其他的再考慮其他圖。
2)理解其他形式的圖的表現優勢, 比如, 氣泡圖支持更多地資料範圍, 餅圖支持局部全局的對比, 樹狀圖能夠支持分層結構等等。
3)柱狀圖是可視化最容易的圖形之一, 你可以手工編寫一段HTML代碼, 僅僅使用CSS或者很少量的Javascript, 或者從Excel裡面的一個公式, 就可以生成一個有效的柱狀圖來。
秘密三: 真實資料不可替代
對一個資料集進行清洗和格式化已經很繁瑣了, 如果你需要設計一個基於多個資料集的可視化呢? 比如你需要把公司不同部門的資料進行可視化, 而這些部門各自有各自的資料庫, 而且你也沒有時間手工把每個資料集進行清洗。 這時候, 人們的第一想法可能是抓一些Demo的資料來進行可視化。 而且你的可視化庫里可能就有一些標準的樣本資料。
很不幸, 真實資料不可替代。 Demo資料一般遵循正態分布而且資料量有限。 是為了展示可視化用的。 而一個看上去完美的柱狀圖,並不能幫助你解決那些資料缺失, 異常資料或者現實中的真實問題。 如果你過度依賴Demo資料, 當你用真實資料時, 你就會發現你的資料視覺化設計並不能真正滿足你的資料分析或者資料表現的需求。
工具及處理方式:
1)如果你無法訪問整個資料集, 不妨先試試從真實資料集中隨機取些樣本資料。
2)保留無效或者缺失資料, 如果你的資料集在可視化前不準備進行資料清洗, 那麼也不要清洗樣本資料。
3)真實資料集也許過大。 在你使用樣本資料時,在生成最終的可視化圖前, 等比例調整樣本資料規模。
秘密四:細節的地方才最頭痛

信息圖
如上圖, 當你水平排列資料標識時, 資料標識會看不清, 如果旋轉90度, 資料標識是看清楚了, 不過又浪費了很大一塊空間。 選擇一個合適的資料標識格式對有些可視化來說是個解決方案, 不過也不是對所有方案都適用。
設計資料標識, 注釋或者橫軸縱軸通常都是在初始可視化後才考慮的。 不過這些元素對可視化來說非常重要, 而且可能會很困難或者需要大量時間才能把它們做好。 特別是在你無法事先預知你的資料的情況下。
在設計你的可視化的時候, 你需要留出相當部分的空間以便你可能需要添加標識只用, 通常要在你的圖周圍留出相對較大的空間。 橫縱軸上的標識要保證它們不相互覆蓋而且可讀。 如果必要的話, 可以將標識進行旋轉來增加可讀性。 如果有一塊空間標識過於集中, 而你又需要這些標識可讀, 你可以讓考慮把標識離它們所指的元素遠一些, 然後用連接線把標識和元素連起來。 另外一種方式就是把標識整合成一個組, 用標識工具提示的方式來進行可視化。 如果標識的文字過長, 可以考慮進行縮寫或者把超出的文字剪掉等方式。
類似的, 對圖的注釋也需要事先計劃好。 最簡單的方式就是在可視化中保留一部分區域來方便添加註釋。 不過, 這樣意味著你的圖所佔的部分就會減小。 為了保留空間, 把注釋放在圖上的空白部分。 或者把注釋做成可拖拽, 這樣用戶可以把注釋移開來看注釋遮蓋的部分。
工具及處理方式:
1)在設計時把資料標識, 資料軸及注釋的空間在圖上留好。
2)對資料標識, 定義最大字元數, 超出部分需要裁掉。 把相近的標識組合在一起, 在用戶點到時再顯示。
3)對長注釋, 可以考慮用滾動或者展開的方式
4)無論如何, 不要忽視這些元素。 資料標識在你專註圖形設計的時候, 可能不是你的最主要考慮, 不過它們對可視化的用戶來說非常重要。
秘密五:需要的時候才用動畫
可視化的設計者經常希望能夠在最終設計上加上動畫。 動畫是一種連接資料和變化趨勢的非常有用的工具。 不過動畫也常常會導致對你的資料的錯誤理解。 你需要對它會如何影響你的最終效果進行評估, 而不是簡單地在最後加上動畫效果。 動畫最適合表現的, 是揭示資料如何在不同狀態下組合在一起, 如何隨時間變化或者是如何相互影響的等場合。
一般的設計原則是, 動畫要簡單, 可預測並且可以重新播放。 讓用戶能夠多次播放動畫, 可以讓他們看到動畫元素從哪裡開始到哪裡停止。 要避免不同元素在移動中互相覆蓋, 不要讓元素的運動不可預測。 對於複雜的動畫, 研究表明, 可以把動畫分解為幾個不同的階段,在每個階段暫停一會給用戶一些時間來體會。 這樣有助於提高用戶的理解。
工具及處理方式:
1)儘可能讓動畫簡單
2)如果動畫複雜或者有很多動畫元素, 可以考慮分階段動畫
3)一開始動畫往往能夠給人新鮮感, 不過會很快讓用戶感到厭倦。 不要僅僅因為你會加動畫就在你的可視化你加上動畫。
秘密六: 資料視覺化不是分析
資料視覺化可以產生一些分析結果, 不過需要指出的是, 可視化是一個輔助分析的工具, 而不是資料分析的替代, 它也不是統計的替代: 你的圖形可能揭示了一些資料差異或者資料的相關性。 不過, 要得出存在這些差異和相關性的可靠結論, 還需要運用統計的方法。 要對你的資料真正了解, 需要分析的技能, 以及專業的知識。 不要指望可視化能夠給你這些。 因此, 在進行可視化項目的時候, 要調整客戶或者你的CEO的期望值。
工具及處理方式:
1)除非你就是資料分析師, 你對資料視覺化得出的結論不要輕易下判斷。 如果需要進行結論, 最好找一個統計師或者專業人士一起驗證後再給結論。
2)一些細小的設計改變, 比如調色板的變化, 對某個變數的可視化方式等, 都可能改變可視化得出的結論。 如果你用可視化進行分析, 一定要試試多種可視化方式, 而不要依賴於一種方式。
3)Stephen Few的 書「Now You See It」裡面介紹了利用可視化進行商業分析的方式, 包括對開發者如何設計可供分析使用的可視化工具的一些建議, 讀者可以參考
秘密七: 資料視覺化不僅僅是編程
現在大量的可視化編程庫和教程使得普通的人員在進行基於Web的可視化中, 也可以設計出高質量的可視化產品。 然而, 要想真正設計一個能夠提供深入見解, 或者能夠清楚表達的可視化產品, 除了編程之外, 還需要很多其他的技能。 比如圖像設計, 資料分析, 交互設計, 以及對人們認知的了解等待。 這些技能, 是那些可視化編程庫提供不了的。(參考本站文章:資料視覺化是科學, 也是藝術)
不過, 好消息是,如果你堅持採用一些資料視覺化的基本原則的話。
你也不需要對這些技能了解太多。對於初學者來說, 需要堅持一些最基本的原則, 比如, 盡量使用柱狀圖, 不要把圓半徑設置按線性比例設定(編者: 在面積比較時會給用戶錯誤理解), 設計要簡單(不要用3D, 少用動畫, 不要用陰影)等。 按照一些好的可視化樣本, 初學者也可以創造出好的可視化作品來。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:巨量資料

2015年10月22日星期四

資料挖掘在金融風險預警中的應用

摘要: 金融風險預警是金融資料挖掘中的一個重要研究方向,由於金融資料具有類型多樣、關係複雜、資料動態性、資料量大等一般特徵,此外還有高噪音、非 正態等特徵。因此,金融風險預警更有挑戰性。運用資料挖掘技術能夠從海量 ...
金融風險預警是金融資料挖掘中的一個重要研究方向,由於金融資料具有類型多樣、關係複雜、資料動態性、資料量大等一般特徵,此外還有高噪音、非 正態等特徵。因此,金融風險預警更有挑戰性。運用資料挖掘技術能夠從海量的金融資料中發現隱藏在其背後的規律,有效地降低金融機構的運營風險。因此資料挖 掘在金融風險預警有著廣闊的應用價值和市場前景。
金融風險管理
金融風險指任何可能導致企業或機構財物損失的風險,是企業未來收益的不確定性與波動性。按照金融風險產生根源可將金融風險分為靜態與動態兩類;按風險涉及 範圍可分為微觀金融風險與宏觀金融風險;按照金融機構類別可分為銀行風險、證券風險、保險風險與信託風險等。通過對風險的衡量與認識,採取相應措施與處置方案使得風險最低和利潤最大化。可見,金融風險管理是調節金融投資安全性與收益性均衡的一種金融管理方法。
認識資料挖掘
1. 資料挖掘概念
資料挖掘是從大量資料中提取或「挖掘」知識。在大量的資料中發現有趣的模式,其中資料是可以存放在資料庫、資料倉庫或其他信息庫中。資料挖掘是一個年輕的 跨學科領域,源於諸如資料庫系統、資料倉庫、統計學、機器學習、資料可視化、信息檢索和高性能計算。其他的貢獻領域包括神經網路、模式識別、空間資料分析、圖像資料庫、信號處理和許多應用領域,如商務、經濟學和生物信息學。
2.資料挖掘流程

(1)信息收集:根據確定的資料分析對象,抽象出在資料分析中所需要的特徵信息,然後選擇合適的信息收集方法,將收集到的信息存入資料庫。對於海量資料,選擇一個合適的資料存儲和管理的資料倉庫是至關重要的。
(2)資料集成:把不同來源、格式、特點性質的資料在邏輯上或物理上有機地集中,從而為企業提供全面的資料共享。
(3)資料規約:如果執行多數的資料挖掘演算法,即使是在少量資料上也需要很長的時間,而做商業運營資料挖掘時資料量往往非常大。資料規約技術可 以用來得到資料集的規約表示,它小得多,但仍然接近於保持原資料的完整性,並且規約後執行資料挖掘結果與規約前執行結果相同或幾乎相同。
(4)資料清理:在資料庫中的資料有一些是不完整的(有些感興趣的屬性缺少屬性值)、含雜訊的(包含錯誤的屬性值),並且是不一致的(同樣的信息不同的表示方式),因此需要進行資料清理,將完整、正確、一致的資料信息存入資料倉庫中。不然,挖掘的結果會差強人意。
(5)資料變換:通過平滑聚集、資料概化、規範化等方式將資料轉換成適用於資料挖掘的形式。對於有些實數型資料,通過概念分層和資料的離散化來轉換資料也是重要的一步。
(6)資料挖掘過程:根據資料倉庫中的資料信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集,甚至神經網路、遺傳演算法的方法處理信息,得出有用的分析信息。
(7)模式評估:從商業角度,由行業專家來驗證資料挖掘結果的正確性。
(8)知識表示:將資料挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。
資料挖掘分析方法
表2.1 資料挖掘常用分析方法
資料挖掘在金融風險預警中的應用
金融資料挖掘流程

資料挖掘在金融風險預警中典型應用
(1)信用風險評估
資料挖掘對信用風險的評估包括銀行信用卡風險評估和貸款信用評估等。信用風險是由於不可抗拒因素和惡性欺詐等使得債務人無法或不願意履行已簽的合約而給銀 行造成的損失。銀行對個人和企業的財務狀況發生變化的過程往往不能及時了解或者說被循環信用掩蓋。而通過資料挖掘技術對客戶信用的影響因素進行挖掘,如地 區差異、個人知識層次、收入高低、經濟環境狀況、社會職務等,可以快速建立起用戶信用等級,進而給予不同的信用額度;也可以透徹地揭示信用風險的蘊含關係和特徵,增強對信用違約預測的準確性。
(2)公司財務危機預警分析
財務危機的實質是財務風險規模化、高強度化的集中爆發,主要表現為財務狀況極度惡化,發生支付危機甚至破產倒閉。這些公司都不同程度出現以下狀況: 無力償還到期債務、巨額投資無收益、現金流量入不敷出、產品銷路不暢、存貨大量積壓,主營業務發生嚴重萎縮等。
財務危機預警模型的建立能夠對企業經營失敗和財務管理失誤現象進行預警和早期控制,為決策者、投資者和債權人提供重要信息。資料挖掘中的主成分分析、 Logistic回歸、線性回歸和神經網路等方法被國內外學者用來建立財務危機預警模型。首先根據主成分分析的特徵向量與主成分貢獻率計算出對於財務狀況影響最大的財務指標,接著根據該分析的結果,把預測期公司的財務狀況分為兩類作為預測的目標變數,然後運用Logistic回歸方法和決策樹方法等進行公司財務狀況進行預測。最後把每家公司綜合評分作為目標變數,運用線性回歸方法和神經網路方法進行公司財務危機預警分析。
(3)供應鏈風險評估
良好的供應鏈管理可通過資金流、物流和信息流的優化為企業帶來巨大效益,可以使企業有效節約運營成本和縮短反應時間,進而使其服務水平和競爭能力得到提高。供應鏈中任何一個環節的「斷裂」都可能引起鏈上企業的連鎖反應,給企業帶來巨大損失。根據行為主體的不同,供應鏈風險可劃分為供應商風險、生產商風險、物流服務商風險、批發商風險、零售商風險等。
供應商風險作為供應鏈風險的最大起因,常被選為供應鏈風險評估的切入點。通常做法有利用資料挖掘演算法確定有效的指標評價體系,建立模糊矩陣,進行聚類分析或BP神經網路等方法建立供應鏈金融風險評估模型,為供應鏈合作夥伴的選擇提供依據,降低供應鏈風險。
結語
資料挖掘作為深層次的資料分析方法,具有傳統評價方法無法具備的對於各種因素之間隱藏的內在聯繫的全面分析。此技術應用於金融風險管理無疑非常有益,可提供風險預警,讓管理者提前做好準備,為決策提供參考信息,因而使企業極大地降低風險和提高競爭力,為企業的長足發展作出貢獻。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:《產業與科技論壇》

2015年10月21日星期三

統如何分辨出垃圾郵件? 資料挖掘演算法與現實生活中的應用案例

本文,主要想簡單介紹下資料挖掘中的演算法,以及它包含的類型。然後,通過現實中觸手可及的、活生生的案例,去詮釋它的真實存在。
一、資料挖掘的演算法類型
資料挖掘

一般來說,資料挖掘的演算法包含四種類型,即分類、預測、聚類、關聯。前兩種屬於有監督學習,後兩種屬於無監督學習,屬於描述性的模式識別和發現。
(一)有監督學習
有監督的學習,即存在目標變數,需要探索特徵變數和目標變數之間的關係,在目標變數的監督下學習和優化演算法。例如,信用評分模型就是典型的有監督學習,目標變數為「是否違約」。演算法的目的在於研究特徵變數(人口統計、資產屬性等)和目標變數之間的關係。
(1)分類演算法
分類演算法和預測演算法的最大區別在於,前者的目標變數是分類離散型(例如,是否逾期、是否腫瘤細胞、是否垃圾郵件等),後者的目標變數是連續型。一般而言,具體的分類演算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經網路等。
(2)預測演算法
預測類演算法,其目標變數一般是連續型變數。常見的演算法,包括線性回歸、回歸樹、神經網路、SVM等。
(二)無監督學習
無監督學習,即不存在目標變數,基於資料本身,去識別變數之間內在的模式和特徵。例如關聯分析,通過資料發現項目A和項目B之間的關聯性。例如聚類分析,通過距離,將所有樣本劃分為幾個穩定可區分的群體。這些都是在沒有目標變數監督下的模式識別和分析。
(1)聚類分析
聚類的目的就是實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。常見的聚類演算法包括kmeans、系譜聚類、密度聚類等。
(2)關聯分析
關聯分析的目的在於,找出項目(item)之間內在的聯繫。常常是指購物籃分析,即消費者常常會同時購買哪些產品(例如游泳褲、防晒霜),從而有助於商家的捆綁銷售。
二、基於資料挖掘的案例和應用
上文所提到的四種演算法類型(分類、預測、聚類、關聯),是比較傳統和常見的。還有其他一些比較有趣的演算法分類和應用場景,例如協同過濾、異常值分析、社會網路、文本分析等。下面,想針對不同的演算法類型,具體的介紹下資料挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關聯的例子。
資料挖掘
(一)基於分類模型的案例
這裡面主要想介紹兩個案例,一個是垃圾郵件的分類和判斷,另外一個是在生物醫藥領域的應用,即腫瘤細胞的判斷和分辨。
資料挖掘
(1)垃圾郵件的判別
郵箱系統如何分辨一封Email是否屬於垃圾郵件?這應該屬於文本挖掘的範疇,通常會採用樸素貝葉斯的方法進行判別。它的主要原理是,根據郵件正文中的單詞,是否經常出現在垃圾郵件中,進行判斷。例如,如果一份郵件的正文中包含「報銷」、「發票」、「促銷」等辭彙時,該郵件被判定為垃圾郵件的概率將會比較大。
一般來說,判斷郵件是否屬於垃圾郵件,應該包含以下幾個步驟。
第一,把郵件正文拆解成單片語合,假設某篇郵件包含100個單詞。
第二,根據貝葉斯條件概率,計算一封已經出現了這100個單詞的郵件,屬於垃圾郵件的概率和正常郵件的概率。如果結果表明,屬於垃圾郵件的概率大於正常郵件的概率。那麼該郵件就會被劃為垃圾郵件。
(2)醫學上的腫瘤判斷
如何判斷細胞是否屬於腫瘤細胞呢?腫瘤細胞和普通細胞,有差別。但是,需要非常有經驗的醫生,通過病理切片才能判斷。如果通過機器學習的方式,使得系統自動識別出腫瘤細胞。此時的效率,將會得到飛速的提升。並且,通過主觀(醫生)+客觀(模型)的方式識別腫瘤細胞,結果交叉驗證,結論可能更加靠譜。
如何操作?通過分類模型識別。簡言之,包含兩個步驟。首先,通過一系列指標刻畫細胞特徵,例如細胞的半徑、質地、周長、面積、光滑度、對稱性、凹凸性等等,構成細胞特徵的資料。其次,在細胞特徵寬表的基礎上,通過搭建分類模型進行腫瘤細胞的判斷。
(二)基於預測模型的案例
這裡面主要想介紹兩個案例。即通過化學特性判斷和預測紅酒的品質。另外一個是,通過搜索引擎來預測和判斷股價的波動和趨勢。
(1)紅酒品質的判斷
如何評鑒紅酒?有經驗的人會說,紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。但是,統計學家並沒有時間去品嘗各種各樣的紅酒,他們覺得通過一些化學屬性特徵就能夠很好地判斷紅酒的品質了。並且,現在很多釀酒企業其實也都這麼幹了,通過監測紅酒中化學成分的含量,從而控制紅酒的品質和口感。
那麼,如何判斷鑒紅酒的品質呢?
第一步,收集很多紅酒樣本,整理檢測他們的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步,通過分類回歸樹模型進行預測和判斷紅酒的品質和等級。
(2)搜索引擎的搜索量和股價波動
一隻南美洲熱帶雨林中的蝴蝶,偶爾扇動了幾下翅膀,可以在兩周以後,引起美國德克薩斯州的一場龍捲風。你在互聯網上的搜索是否會影響公司股價的波動?
很早之前,就已經有文獻證明,互聯網關鍵詞的搜索量(例如流感)會比疾控中心提前1到2周預測出某地區流感的爆發。
同樣,現在也有些學者發現了這樣一種現象,即公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。這是已經得到無數論文驗證了的。
(三)基於關聯資料分析的案例:沃爾瑪的啤酒尿布
啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發現一個非常有趣的現象,即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在於,美國的婦女通常在家照顧孩子,所以,她們常常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從資料中發現了這種關聯性,因此,將這兩種商品並置,從而大大提高了關聯銷售。
啤酒尿布主要講的是產品之間的關聯性,如果大量的資料表明,消費者購買A商品的同時,也會順帶著購買B產品。那麼A和B之間存在關聯性。在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關聯分析的結果。
(四)基於聚類分析的案例:零售客戶細分
對客戶的細分,還是比較常見的。細分的功能,在於能夠有效的劃分出客戶群體,使得群體內部成員具有相似性,但是群體之間存在差異性。其目的在於識別不同的客戶群體,然後針對不同的客戶群體,精準地進行產品設計和推送,從而節約營銷成本,提高營銷效率。
例如,針對商業銀行中的零售客戶進行細分,基於零售客戶的特徵變數(人口特徵、資產特徵、負債特徵、結算特徵),計算客戶之間的距離。然後,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如,理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
資料挖掘
(五)基於異常值分析的案例:支付中的交易欺詐偵測
採用支付寶支付時,或者刷信用卡支付時,系統會實時判斷這筆刷卡行為是否屬於盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這裡面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會被終止。
異常值的判斷,應該是基於一個欺詐規則庫的。可能包含兩類規則,即事件類規則和模型類規則。第一,事件類規則,例如刷卡的時間是否異常(凌晨刷卡)、刷卡的地點是否異常(非經常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標準差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規則,則是通過演算法判定交易是否屬於欺詐。一般通過支付資料、賣家資料、結算資料,構建模型進行分類問題的判斷。
(六)基於協同過濾的案例:電商猜你喜歡和推薦引擎
電商中的猜你喜歡,應該是大家最為熟悉的。在京東商城或者亞馬遜購物,總會有「猜你喜歡」、「根據您的瀏覽歷史記錄精心為您推薦」、「購買此商品的顧客同時也購買了**商品」、「瀏覽了該商品的顧客最終購買了**商品」,這些都是推薦引擎運算的結果。
這裡面,確實很喜歡亞馬遜的推薦,通過「購買該商品的人同時購買了**商品」,常常會發現一些質量比較高、較為受認可的書。
一般來說,電商的「猜你喜歡」(即推薦引擎)都是在協同過濾演算法(Collaborative Filter)的基礎上,搭建一套符合自身特點的規則庫。即該演算法會同時考慮其他顧客的選擇和行為,在此基礎上搭建產品相似性矩陣和用戶相似性矩陣。基於此,找出最相似的顧客或最關聯的產品,從而完成產品的推薦。
(七)基於社會網路分析的案例:電信中的種子客戶
種子客戶和社會網路,最早出現在電信領域的研究。即,通過人們的通話記錄,就可以勾勒出人們的關係網路。電信領域的網路,一般會分析客戶的影響力和客戶流失、產品擴散的關係。
基於通話記錄,可以構建客戶影響力指標體系。採用的指標,大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基於社會影響力,分析的結果表明,高影響力客戶的流失會導致關聯客戶的流失。其次,在產品的擴散上,選擇高影響力客戶作為傳播的起點,很容易推動新套餐的擴散和滲透。
此外,社會網路在銀行(擔保網路)、保險(團伙欺詐)、互聯網(社交互動)中也都有很多的應用和案例。
資料挖掘
(八)基於文本分析的案例
這裡面主要想介紹兩個案例。一個是類似「掃描王」的APP,直接把紙質文檔掃描成電子文檔。相信很多人都用過,這裡準備簡單介紹下原理。另外一個是,江湖上總是傳言紅樓夢的前八十回和後四十回,好像並非都是出自曹雪芹之手,這裡面準備從統計的角度聊聊。
(1)字元識別:掃描王APP
手機拍照時會自動識別人臉,還有一些APP,例如掃描王,可以掃描書本,然後把掃描的內容自動轉化為word。這些屬於圖像識別和字元識別(Optical Character Recognition)。圖像識別比較複雜,字元識別理解起來比較容易些。
查找了一些資料,字元識別的大概原理如下,以字元S為例。
第一,把字元圖像縮小到標準像素尺寸,例如12*16。注意,圖像是由像素構成,字元圖像主要包括黑、白兩種像素。
第二,提取字元的特徵向量。如何提取字元的特徵,採用二維直方圖投影。就是把字元(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個維度,垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數量、垂直方向各個像素列上的黑色像素的累計數量。從而得到水平方向12個維度的特徵向量取值,垂直方向上16個維度的特徵向量取值。這樣就構成了包含28個維度的字元特徵向量。
第三,基於前面的字元特徵向量,通過神經網路學習,從而識別字元和有效分類。
(2)文學著作與統計:紅樓夢歸屬
這是非常著名的一個爭論,懸而未決。對於紅樓夢的作者,通常認為前80回合是曹雪芹所著,後四十回合為高鶚所寫。其實主要問題,就是想確定,前80回合和後40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統計學家比較興奮了。有些學者通過統計名詞、動詞、形容詞、副詞、虛詞出現的頻次,以及不同詞性之間的相關係做判斷。有些學者通過虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前後文風的差異。有些學者通過場景(花卉、樹木、飲食、醫藥與詩詞)頻次的差異,來做統計判斷。總而言之,主要通過一些指標量化,然後比較指標之間是否存在顯著差異,藉此進行寫作風格的判斷。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:比格雅塔

2015年10月19日星期一

視覺化圖表表達的10個錯誤

資料視覺化是一個溝通複雜信息的強大武器。通過視覺化信息,我們的大腦能夠更好地抓取和保存有效信息,增加信息的印象。但如果資料視覺化做的較弱,反而會帶來負面效果。錯誤的表達會損害資料的傳播,完全曲解他們
所以優秀的資料視覺化依賴優異的設計,並非僅僅選擇正確的圖表模板那麼簡單。全在於以一種更加有助於理解和引導的方式去表達信息,儘可能減輕用戶獲取信息的成本。當然並非所有的圖表製作者都精於此道。所以我們看到的圖表表達中,各種讓人啼笑皆非的錯誤都有,下面就是這些錯誤當容易糾正的例子:
1、餅圖順序不當
餅圖是一種非常簡單的視覺化工具,但他們卻常常過於複雜。份額應該直觀排序,而且不要超過5個細分。有兩種排序方法都可以讓你的讀者迅速抓取最多的重要信息
方法一:將份額最大的那部分放在12點方向,逆時針放置第二大份額的部分,以此類推。
方法二: 最大部分放在12點,然後順時針放置

2、在線狀圖中使用虛線
虛線會讓人分心,而是用實線搭配合適的顏色更容易彼此區分


3、資料擺放不直觀
你的內容應該符合邏輯並於直觀的方式引導讀者閱讀資料。對類目進行按字母,次數或數值大小進行排序

4、資料模糊化
確保資料不會因為設計而丟失或被覆蓋。例如在面積圖中使用透明效果來確保用戶可以看到全部資料

5、耗費讀者更多的精力
要通過輔助的圖形元素來使資料更易於理解,比如在散點圖中增加趨勢線

6、錯誤呈現資料
確保任何呈現都是準確的,比如,氣泡圖的大小應該跟數值一樣,不要隨便標註

7、在熱圖中使用不同顏色
一些顏色比其他顏色突出,賦予了資料不必要的重元素。反而你應該使用單一顏色,然後通過顏色的深淺來表達

8、柱狀過寬或過窄
柱子與柱子之間的間隔最好調整為寬的1/2

9、資料對比困難
對比是呈現差異的有效方式,但如果你的讀者不易對比時,效果就大打折扣了。確保資料的呈現方式一致,可以讓你的讀者對比

10、使用三維圖
儘管這些圖看來讓人振奮,但3D圖也容易分散預期和擾亂資料,堅持2D是王道
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:未知

2015年10月13日星期二

對巨量資料時代下的我國行業發展的思考——以保險業為例

一、我國保險業所面臨的問題 
近年來由於宏觀經濟的粗放型發展、居民財富分配不均,以及保險行業產品單一、同質化競爭、創新艱難、信息化建設不足、營銷機制問題等自身難題,各大保險公司壽險保費收入出現負增長。而保險產品供給與需求的錯位,產品不能滿足投保人需求,則被認為是其陷入困境的根本原因。 
舊有的保險系統缺乏統一的客戶視圖,沒有完整的客戶信息資料,加大了理賠難度,尤其是跨區域業務。靈活的產品建模工具和快捷的產品發布方式的缺乏,使得產品難以滿足客戶靈活多變的投保需求。公司內部的資料並未形成一個完整的資料體系,導致分散經營,極大增加了運營成本,影響著企業的管理和決策。保險業所面臨的危機,恰恰給保險業擁抱巨量資料時代,藉助巨量資料分析提供了良好的機遇。 

二.巨量資料技術對保險需求的影響 
(1)對客戶需求的精確鎖定 
在保險需求方面,巨量資料使過去無法滿足的保險需求成為可能。保險企業不是用網際網路渠道去切原有市場的蛋糕,而是在巨量資料時代挖掘新的社會需求、創造新的產品,把蛋糕真正地做大。巨量資料幫助保險產業進行需求挖掘和產品設計,從而實現自動核保、自動理賠、精準營銷和風險管理的全過程。 
藉助巨量資料,保險業可以直接鎖定客戶需求。以淘寶運費退貨險為例。經統計,淘寶用戶運費險索賠率在50%以上,該產品對保險公司帶來的利潤只有5%左右。僅從保險公司的角度,這個產品並不是很成功,但是有很多保險公司都有意願去提供這種保險。據分析,客戶購買運費險後保險公司就可以獲得該客戶的個人基本信息,包括手機號和銀行賬戶信息等,並能夠了解該客戶購買的產品信息,從而實現精準推送。假設該客戶購買並退貨的是嬰兒奶粉,那麼保險公司就可以估計該客戶家裡有小孩,可以向其推薦關於兒童疾病險、教育險等相關產品,這比5%的利潤更有吸引力。 
另外,在網路營銷領域,保險公司可以通過收集網際網路用戶的各類資料,如地域分布等屬性資料,搜索關鍵詞等即時資料,購物行為、瀏覽行為等行為資料,以及興趣愛好、人脈關係等社交資料,可以在廣告推送中實現地域定向、需求定向、偏好定向、關係定向等定向方式,實現精準化、個性化營銷。 
(2)對信息安全類保險需求更多  
一方面,對個人來說,近期隨著微信,手機支付寶等移動支付平台的搭建完成,以及網際網路平台發展過程中的其他問題的產生,支付安全保障問題和網際網路安全問題成了進一步發展的瓶頸,對於信息安全和相關保險產品的需求會升溫。 
 另一方面,在網際網路金融大的環境下資金安全面臨著重大的挑戰,網際網路很重要的特徵就是巨量資料,隨著雲服務的推出,很多網際網路的企業都是把一些敏感的資料放在網際網路的雲端,這給信息安全,包括資金安全帶來更大的挑戰。這些都直接催生了對這類保險的需求。  

三.巨量資料技術對保險經營,保險定價的革新 
(1)巨量資料對保險業傳統經營的變革 
保險的核心功能或者技能是解釋風險。但是巨量資料時代對於解釋風險的技術將帶來革命性變化。所以,我們必須重新認識並承認這個世界是複雜的 我們可以看到保險傳統的經營,只是在一定的維度來看並解釋風險,但我們知道,這樣的解釋是不能充分地反映這個世界的複雜性。比如,現在的保險經營,我們希望通過更多的因素來定價,但這只是在有限的範圍內解釋。過去,成千上百的人都放在同一風險水平之上,但事實上這是不可能的,大多數人都在支付多餘的保費。傳統保險會研究平均數,而不是個案保險公司賣車險的時候通常考慮的因素有,年齡,性別,婚姻情況,駕駛記錄,收入,職業,教育背景等等。 
但是,通過巨量資料的分析可以解決現有的風險控制問題,可以為客戶制定個性化的保單。利用社交網路改善產品和服務,影響目標客戶,通過對已有信息的分析,保險公司可以獲得更準確以及更高利潤率的定價模型,保險公司給每一位顧客提供個性化的解決方案。不再像現在一樣,所有人都面對相同的風險測量準則。 
(2)對保險精算,大數法則的挑戰 
保險行業是最早建立了科學、完善的資料統計體系,並且以資料統計運算為立業根本的行業。它與巨量資料的聯繫可謂淵源已久——巨量資料的本質是基於對海量資料的提煉、分析,預測並解決問題;而保險業經營的核心也與此類似,同樣是依靠強大的用戶信息來預測、規避風險。 
保險業面臨的挑戰是,巨量資料的核心是預測,而保險經營的核心也是基於預測。因此,作為傳統保險業經營的重要基礎,大數法則可能面臨著「顛覆性的問題」,這對保險業來說是一個很大的挑戰,因為保險原理之一就是大數法則。 
巨量資料時代,前所未有地創造了精準風控每個投保標的可能。從未有如此豐富、多維度、低成本的資料,如此系統地、更新地提供給保險行業。所以保險業僅靠大數定律運作是不夠的。理解風險,降低風險成本,才是保險真正的內涵,甚至達到個性化風險控制和定價,變風險為可控。 

四.中國保險業在巨量資料時代下的展望 
現階段儘管國內有不少保險公司已經開始嘗試運用巨量資料,但行業的現狀,對資料缺乏深層次的挖掘,如何有效整合資料資源成為最大難題。在另一方面,網際網路企業由於對資料收集的先天優勢,在巨量資料上牢牢把握了話語權。保險業如何學會去與網際網路企業合作,達到雙贏,則成為行業發展不可避免的問題。 
對保險產品的創新上,巨量資料時代使得每個消費者都有可能成為保險產品的創造者。消費者可以通過C2B模式創意一個保險產品理念,其他消費者跟風預購,然後保險公司競價出單,這種模式一定出現,而且節省的不止渠道成本。逆向選擇當然會是個麻煩,但是從此可以產生的產品創新將源源不絕。 

4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】 
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。 
分享自:張博

2015年10月12日星期一

基於巨量資料的客戶關係管理——以民生銀行為例

利率市場化改革、宏觀經濟新常態、互聯網金融和巨量資料時代的來臨正從經營環境和商業模式兩個維度徹底顛覆著商業銀行賴以生存發展的生態環境。可以預期,內外部經營環境的變化和巨量資料的應用將共同推動商業銀行進入真正向「以客戶為中心」的業務轉型期。
一、巨量資料的定義及民生銀行巨量資料戰略
各行各業都在講巨量資料,但是至今仍沒有一個被廣泛採納的巨量資料的明確定義。中國民生銀行將國際國內巨量資料研究成果與自身應用實踐相結合,綜合考慮資料結構、資料技術和資料價值等不同維度,對巨量資料給出以下定義:
巨量資料是指把結構化、半結構化、非結構化海量資料通過資料技術進行收集、整理而成的資料集或資料群。利用資料挖掘分析技術能夠使這些資料集群產生巨大的商業價值。
實現巨量資料的商業價值不能急功近利,必須超越炒作,有步驟、務實的去實現。結合國內外先進企業經驗,民生銀行正逐步推進我行的巨量資料戰略。希望用三到五年的時間,實現通過資料分析研發的資料產品、支持的數字化營銷,進而創造的利潤佔全行利潤的10%以上,大幅提升營銷活動投入產出效率,實現資料價值最大化。
資料分析力量要滲透到業務和管理的各個環節,圍繞核心大客戶的綜合金融服務、產業鏈商機挖掘、小微風險分析與徵信、小區選址與差異化定位、客戶標籤與名單制營銷、基於交易鏈和社交網路的批量獲客等我行亟需關注的課題,在各個層面、各個環節發出資料的聲音、體現資料的價值。
中國民生銀行提出以「資料創造價值」為核心理念,全力推動民生集團巨量資料平台建設。基於巨量資料平台,重點打造以「阿拉丁雲平台」為代表的立體化資料服務生態圈和以「金融e管家平台」為代表的智能化的客戶關係管理體系。
通過阿拉丁和金融e管家在全行的應用推廣,巨量資料量化分析和數字化管理真正實現了與各層級員工的零距離接觸,民生銀行業務運行的商業模式正悄然發生改變,並逐步形成了高效率的具有獨特核心競爭力的智能化客戶關係管理模式。
二、阿拉丁巨量資料云平台
先說阿拉丁巨量資料云平台,阿拉丁是民生巨量資料基礎設施,未來將發展成巨量資料服務和分析的生態圈。依託阿拉丁平台讓民生銀行「人人都是資料專家」,實現美妙絕倫的巨量資料用戶體驗。資料分析挖掘像遊戲一樣充分趣味和挑戰,讓用戶玩著玩著就停不下來,徹底點燃組織內部的巨量資料熱情。
目前阿拉丁平台註冊用3500餘人,覆蓋民生銀行所有分行。分行發布資料應用3568個,其中有很多精彩的案例,如北京管理部:基於資料的小微客戶評級;重慶分行:通過巨量資料挖掘潛在高價值客戶;廣州分行:民生e貸;西安分行:手機銀行數字化管理、ATM渠道布局優化及ATM存放現金量預測等等。這些應用都實實在在的推動了分行營銷和管理的提升。
三、民生銀行基於巨量資料的智能化客戶關係管理
民生銀行基於巨量資料的客戶關係管理體系在設計伊始,「以市場為中心,以客戶需求為導向」的目標就非常的清晰而堅定。設計者們基於巨量資料和移動互聯等新技術,在更新視角、更深層次上,幫助市場人員站在客戶的角度思考問題。市場人員思考業務的原點不再限定在客戶本身,還包括客戶的「錢從哪兒來,錢去哪兒了」,客戶產業鏈的上游、下游,以及合作夥伴組成的生態圈。
客戶經理可以藉助巨量資料平台上源源不斷的資料來源和資料分析結果成為客戶的外腦和顧問。向客戶提供當地最新的市場信息、上下遊動向甚至市場開發建議、產品改進建議。
民生銀行在新客戶關係管理體系建設中充分引入各類巨量資料智能商機挖掘模型,實現了智能化的目標客戶推薦和產品推薦。交易鏈智能獲客模型、客戶價值彈性預測模型、產品精準營銷模型、客戶流失預警模型,縱貫銀企關係的整個生命周期,為全行客戶經理進行精確化的市場營銷提供了利器。巨量資料模型告訴民生營銷和管理人員「哪些潛在客戶最易開發?哪些客戶最易貢獻價值?哪些產品最易被客戶接受?哪些客戶最易流失?」
舉例說明,各銀行都存在大量的低價值的休眠對公客戶。面對如此巨大的客戶數量,依靠傳統的以客戶經理為主、全面掃描客戶的開發模式將會產生巨大的開發成本。針對這個問題,民生銀行為市場人員提供了客戶價值彈性分析、交易鏈智能獲客模型和產品交叉銷售模型,進而精準定位潛在高價值客戶群,達到了事半功倍的營銷效果。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:hong

2015年10月11日星期日

資料可視化常用的五種方式及案例分析

資料可視化這塊兒進行了研究和心得的整理,跟大家分享下資料可視化常用的五種方式,希望能給大家帶來思路的拓展。
概念
藉助於圖形化的手段,清晰、快捷有效的傳達與溝通信息。從用戶的角度,資料可視化可以讓用戶快速抓住要點信息,讓關鍵的資料點從人類的眼睛快速通往心靈深處。 資料可視化一般會具備以下幾個特點:準確性、創新性 和 簡潔性。
常用五種可視化方法
下面從最常用和實用的維度總結了如下5種資料可視化方法,讓我們來一一看一下:
一、面積&尺寸可視化
對同一類圖形(例如柱狀、圓環和蜘蛛圖等)的長度、高度或面積加以區別,來清晰的表達不同指標對應的指標值之間的對比。這種方法會讓瀏覽者對資料及其之間的對比一目了然。製作這類資料可視化圖形時,要用數學公式計算,來表達準確的尺度和比例。
a: 天貓的店鋪動態評分
天貓店鋪動態評分模塊右側的條狀圖按精確的比例清晰的表達了不同評分用戶的佔比。從下圖中我們第一眼就可以強烈的感知到5分動態評分的用戶占絕對的比例。
b: 聯邦預算圖
如下圖,在美國聯邦預算剖面圖裡,用不同高度的貨幣流清晰的表達了資金的來源去向,及每一項所佔金額的比重。

c: 公司黃頁-企業能力模型蜘蛛圖
如下圖,通過蜘蛛圖的表現,公司綜合實力與同行平均水平的對比便一目了然。

二、顏色可視化
通過顏色的深淺來表達指標值的強弱和大小,是資料可視化設計的常用方法,用戶一眼看上去便可整體的看出哪一部分指標的資料值更突出。
a: 點擊頻次熱力圖
比如下面這張眼球熱力圖,通過顏色的差異,我們可以直觀的看到用戶的關注點。

b: 2013年美國失業率統計
在圖中可以看到,通過對美國地圖以州為單位的劃分,用不同的顏色來代表不同的失業率等級範圍,整個的全美失業率狀況便盡收眼底了。

c: 美國手機用戶城市分布
圖中紅點是用iPhone的人,綠點是用安卓的人。這兩張在微博上看到的圖,第一張是美國一個城市的一覽,第二張圖特寫了紐約的市中心,尤其是曼哈頓地區。我們可以看到在市中心和主幹道的人用iPhone居多,而用安卓的人都在郊區。這也引起了人們的熱議,有的說在美國富人都住郊區別墅,所以富人愛用安卓手機;有的反駁說曼哈頓地區的人幾乎都用iPhone,說明富人喜歡用iPhone手機。不管結論如何,都足以說明用戶都被這些圖所吸引,所以可視化的方式效果真的很直觀。

註:科學家統計了2年里30億條含有地理資料的twitter推文,根據客戶端總結出來的資料。
三、圖形可視化
在我們設計指標及資料時,使用有對應實際含義的圖形來結合呈現,會使資料圖表更加生動的被展現,更便於用戶理解圖表要表達的主題。
Examples
a: iOS手機及平板分布
如下圖所示,當展示使用不同類型的手機和平板用戶佔比時,直接用總的蘋果圖形為背景來劃分用戶比例,讓用戶第一眼就可以直觀的看到這些圖是在描述蘋果設備的,直觀而清晰。

b: 人人網用戶的網購調查
下圖可以看出,該資料可視化的設計直接採用男性和女性的圖形,這樣的設計讓分類一目了然。再結合了顏色可視化(左面藍色右麵粉色),同時也採用了面積&尺寸可視化,不同的比例用不同長度的條形。這些可視化方法的組合使用,大大加強了資料的可理解性。

四、地域空間可視化
當指標資料要表達的主題跟地域有關聯時,我們一般會選擇用地圖為大背景。這樣用戶可以直觀的了解整體的資料情況,同時也可以根據地理位置快速的定位到某一地區來查看詳細資料。
a: 美最好喝啤酒的產地分布
下圖中,通過以美國地圖為大背景,清晰的記錄了不同州所產啤酒在1987-2007年間在美國啤酒節中獲得的獎牌累計總數。再輔以顏色可視化的方法,讓用戶清晰的看到美國哪些州更盛產好喝的啤酒。

五、概念可視化
通過將抽象的指標資料轉換成我們熟悉的容易感知的資料時,用戶便更容易理解圖形要表達的意義。
a: 廁所貼士
下圖是廁所里貼在牆上的節省紙張的環保貼士,用了概念轉換的方法,讓用戶清晰的感受到員工們一年的用紙量之多。如果只是描述擦手紙的量及堆積可達高度,我們還沒有什麼顯性化概念。但當用戶看到用紙的堆積高度比世界最高建築還高、同時需砍伐500多顆樹時,想必用戶的節省紙張甚至禁用紙張的情懷便油然而生了。所以可見用概念轉換的方法是多麼的重要和有效。

b: Flickr雲存儲空間達1TB的可視化描述
Flickr對雲存儲空間升至1TB確實是讓人開心的事情,但相信很多人對這一數量級所代表的含義並不清晰。所以Flickr在宣傳這一新的升級產品時,採用了概念可視化的方案。從下圖可以看出,用戶可以動態的選擇照片的大小,之後Flickr會採用動態交互的方式計算和顯示出1TB能容納多少張對應大小的圖片。這樣一來,用戶便有了清晰的概念,知道這1TB是什麼量級的容量了。

注意事項:
在總結了常見維度的資料可視化方法和範例之後,要再次總體強調下做資料可視化設計時的注意事項,總結了三點如下:
1)設計的方案至少適用於兩個層次:一是能夠整體展示大的圖形輪廓,讓用戶能夠快速的了解圖表所要表達的整體概念;之後再以合適的方式對局部的詳細資料加以呈現(如滑鼠hover展示)。
2)做資料可視化時,上述的五個方法經常是混合用的,尤其是做一些複雜圖形和多維度資料的展示時。
3)做出的可視化圖表一定要易於理解,在顯性化的基礎上越美觀越好,切忌華而不實。
總結
作為設計師,除了掌握方法來有針對性的設計之外,還要在平時多留心積累素材,同時培養自己的創造力和專業素養,保持一顆好奇心,才能真正的設計出樣式精美又實用的資料可視化圖表。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:数据挖掘与分析