2015年9月26日星期六

資料分析師的原則

面對一大堆看似雜亂的資料,如何進行信息提取與資料加工,從中獲取自己想要的信息,並應用這些信息,有理有據的進行需求的討論、最終設計決策的推進,這是每一個交互設計師必修的課程。

在我看來,資料分析是很難的。利用你當下有限的資料資源(大多數資料往往掌握在產品經理、運營手上)去整理、分析並得出結果。
交互設計師如何培養資料分析的能力呢?
首先,要有資料收集分析的意識,掌握資料產生的來源;
其次,拿到資料後,在資料間找關聯性,深挖內在含義;
再次,掌握基本的資料分析方法,並在實戰中加以應用;
最後,將分析的結果應用到後續工作中,檢驗分析結果。
如此,循環往複,形成一種職業習慣,一個工作的流程。

從平時的工作中,總結出以下幾點資料分析時要注意的原則,在這裡拋磚引玉,歡迎來拍:

1、明確資料分析的目的
要分析一份資料,首先得先明確自己的目的:為什麼要收集並分析這樣一份資料?只有你的目的明確了之後,才能對接下來你要收集哪些資料、如何收集有一個整體的把握。當然你的目的可以是多個小點,(如:用戶在首頁瀏覽了哪些內容?登錄框在頁面上的重要程度?)只要這些點是一個個切實待解決的問題點,將其羅列下來,一個一個的去收集資料。
你分析的結果可能會改變整個項目,但有了資料的支撐,會讓項目或需求有一個全新的開始或細節的調整。

2、了解資料來源並收集
按照分析的目標中羅列的點,建立一個分析框架,並按照輕重緩急進行資料收集。與此同時,需要對資料是如何產生的,如何獲取這些資料進行相應的了解。在工作中應用到的資料統計工具有:金牌令箭、顯微鏡、CNZZ統計等,通過這些統計工具可以方便的進行資料的收集,同時交互設計師也要與前端保持溝通,了解資料統計的方法,適時添加統計的維度,請前端同學幫忙埋統計代碼。

3、掌握資料分析的方法
作為交互設計師,要掌握幾種基本的資料分析方法:對比分析法、分組分析法、結構分析法、平均分析法、交叉分析法……基於這些分析方法,我們可以對現狀、原因、未來有初步的了解,並進入後續更深入的分析。如:現狀分析適用於對現今站點或頁面的瀏覽點擊情況做一個資料統計與熱點分析,可以得出用戶的瀏覽路徑及關注重點。原因分析則側重於一個問題,深入挖掘答案。未來分析可用於與產品經理溝通時,對後期產品的規划進行資料交流。

4、溝通分析結果
在溝通分析結果前,要注意不要只用手上僅有的資訊作判斷,如果手上的證據不足以完全反應實際狀況的時候,以資料分析結果作為決策就很容易出錯,尤其是單看某一個資料維度時。交互設計師要超前思考,考慮產品經理可能從中提出的問題,並給出回應。讓溝通高效且有意義。

5、騙人的分析結果
資料是會騙人的。其中最有名的例子就是辛普森悖論。一所美國高校的兩個學院,分別是法學院和商學院,開學時,人們以為有性別歧視。
法學院:(女生錄取率高)


商學院:(女生錄取率高)


單從學院資料來看,女生的錄取率都比男生高,但是在總評中,女生的錄取率比男生低。


為了避免這種情況,我們應該適當分組,並且調整某些組別的權重,根據業務來衡量可能會影響關聯關係的一些潛在因素。

6、資料不是萬能的
前期資料可以用來挖掘用戶需求,中期資料可以用來過濾產品功能,後期資料可以用來反映產品成敗。整個過程當中,資料還能舉證,作為產品經理與交互設計師之間的溝通內容。
但是,我們要認清一個事實:資料不是萬能的。它不能反映一切問題:在前期的分析中不一定能找到創新的突破口或者潛在的需求點;在後期的效果驗證中,往往又會顯得很有說服力。我們要懷著客觀的心態來關注資料,從不同的角度出發,與產品經理之間保持有效的溝通。

4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:阿里媽媽MUX

2015年9月25日星期五

優秀的企業級 BI 架構師需要具備的素質

一個優秀的企業級 BI 架構師應該需要具備怎麼樣的素質?
第一,我所理解的BI架構師不是局限於聚焦於前台Report & Analytics分析平台的精深的專家,而是更普適的至少跨越三個領域:資料庫,ETL,Report & Analytics的整體解決方案的架構師。此處需重點指出,本人對聚焦於前台R&A的專家只有敬仰,他們同樣是架構師並且也存在世界級應用的架構師,只是不在我本次回答的範疇內。
第二,架構師也是分等級的,我姑且分為入門級,專業級,大師級和殿堂級。
入門級:親自做過小規模項目,規模大約3-4個人,6個月左右。
專業級:作為Lead做過不少中等規模的項目,規模在15個人以上,12個月以上(有的時候做兩期)。輔佐專家級架構師做過大規模項目。
大師級:作為Lead作為大規模項目,規模在30個人以上,24個月(一般來說至少兩期)以上。作為專家組成員輔佐殿堂級專家完成世界級超大規模項目。
殿堂級:統領世界級知名企業超大規模項目,規模在100人以上,周期在24個月以上。且有的殿堂級專家著書立說,又或出過各種專利....
(這裡我沒考慮數據volume, 使用User數量等相關信息,因為這種東西很多時候和行業有關,有的行業就是天然有很多數據,比如互聯網比如電信,不想把其他行業的漏掉。這裡的項目人數要求絕對不是衡量架構師水準的硬性指標,只是一個參照而已)
當然,項目之複雜,豈能通過如上三言兩語描述的清,只是給看官們一個借鑒的樣子。
第三,就技能掌握的水平分類,又分為初級,中級,高級和大牛級。
初級:學過,簡單任務可實操
中級:用過,項目中實際實操,自己能解決大多數疑難雜症
高級:經常指導中級的人用,自己專門負責解決疑難問題,出模板pattern之類的
大牛級:重點考慮repeatable的產品化應用設計
再講講我對架構師的理解
通常,架構師的技術範圍是T字形的,也就是在某一個或者某幾個領域很精深,其他領域相對一般。很難找到所有技術範圍都是大師級的選手,而很多時候不一定需要所有領域都是大師級的才能夠成為架構師。所有的架構師都是Leader,因為你需要善用別人的長處來輔助你做架構的設計,架構設計很多很多時候都是集體智慧的結晶。如果有人抬杠說他的項目由他自己一個人搞定,要麼這個人是各方面都卓越的大神(大神這詞快被用濫了),而更多的時候或者說絕大多數的時候實在是因為項目的難度和複雜性不夠。
此外,架構師非常重要的特質是,需要站在全局的考慮問題,而不是把眼光放在局部。因此需要架構師對各個領域的知識均有涉獵,建立我們稱之為Insight的洞察能力,架構師很多很多時候都要對各種解決方案做取捨,沒有整體架構的洞察力,就非常容易做出錯誤的決定。
另外,很有趣的是,只有你在某一個領域特別精深的,你才能在其他領域達到下一個級別。也就是說不存在T字形縱向一般,但橫向很寬,並且能夠交付合格出品物的架構師。這種架構師,通常嘴上功夫一流但沒有實際的交付能力,不是我等技術人員所倡導的發展方向。T字形,縱向越深,往往觸類旁通,在其他領域可能實操能力或許一般但也都有獨到的見解。
好吧,從入門級別開始,至少你得懂DB,ETL,Report其中一種產品,能達到高級的水準,其他領域至少應該是中級。此外還需要懂得一些Unix的知識,怎麼也應該是初級水準,如果能會一門編程語言,Java也好,Python也罷,都會是很好的補充。同時所參與的行業,需要達到中級的水準。而其餘領域的知識,比如元數據管理,數據挖掘,主數據管理,數據質量等等如有涉獵當然更好。而這一級別的架構師通常的主要使命是完成當下項目的交付,一般來說不需要太強的系統工程(System Engineering)和項目管理經驗,依賴個人能力為主,大部分架構師都是從這個層面成長起來的,這個階段重點培養的是解決問題的能力。
等到了專業級別的架構師,除如上」硬「技能需要持續提高以外,需要站在項目以及系統工程的層面來思考問題。這時候僅僅」硬「知識就顯得不夠了,通常來說都需要管理10-15人的團隊,這時依靠單打獨鬥的個人英雄模式就很難行得通了。再牛的架構師也會發現自己無論如何一個人無法搞定所有事情,會更依賴團隊。同時又有大量的時間用於和PM,和需求方,對團隊內部的溝通,需要考慮更多時間,成本等問題。因此,需要掌握更多項目管理,系統工程方面的知識,並且提高溝通的技巧,學會解放自己並把任務交給團隊成員。這個時候的架構師需要大量的Review,制定規範等工作,並開始有些Trade off類的技術方向等決策性工作要做。
我不是大師級的架構師,只是作為普通一兵有幸輔佐過大師級架構師的工作,因此我很難給出準確的描述。只是儘可能描述我所接觸過的牛人的特質:
1. 使命必達。這個看起來和技能的關係不大了,但這個優秀架構師必備的品質和素質,對於項目的交付有責無旁貸。有的時候PM換的像走馬燈,而總架構師巋然不動。
2. 洞察以及豐富的經驗。這裡我舉幾個例子,來表示經驗的重要性。比如全球性的項目,能很早的洞察到貨幣的需求,其中包括對計劃/實際的不同匯率的需求;也包括交易發生時需要記錄的貨幣的種類。還包括個別發展中國家本地貨幣通貨膨脹引起的不可信賴,林林總總。再比如,義大利,奧地利,瑞士對私人信息保護的法律上的嚴格要求;再比如上市公司在財務年報季報發出前半個月的blackout,如果提前釋放銷售信息可以從股市獲利的金融風險等等,這些是我這種沒見過天兒的選手根本事先么有想到的需求,而在澄清需求過程中,如果沒有相關知識的儲備,可以說完全無法和資深的BA做溝通。所謂需求進,架構出,在這個階段的架構師需要對公司業務,對行業,對數據有非常豐富的經驗,而具體需要上手的操作的技術反而要求不高了。我們稱之為大爺的架構師在我們對OS/390的程序一籌莫展的時候,也能伸出援手去coding,當新款MPP資料庫設計出現問題時,也能提出非常精準的建議和研究方向。因此,其實「硬」技術一直都很重要,只是到了這個階段就會被弱化了,但放棄對技術的學習也會逐漸失去了洞察力。這個階段的架構師需要更多的是對行業以及全方位需求的洞察,對數據整體的把控,對企業發展方向以及數據戰略的Alignment,需要更強的領袖風範,需要更強的說服和談判能力,需要從整個企業的視角去審視架構,需要有平台級的設計觀念,而不是局限於某個項目。
殿堂級:這個我更沒有資格評論了,也沒有共同工作過。我所能理解的還是,他們看的更遠,我們著眼於當下以,他們著眼於未來。
林林總總,說起來高大上,但即使是殿堂級架構師也是普通的人類一步步走上去的。Bigdata時代對技術有了更多的要求,持續學習能力也是架構師必備的素質。我也看到過快60歲的老頭兒還對新技術懷有熱烈的學習動力。
以上,無非是個人片面的看法,只是一個參照而已。
Appendix: 技術列表, 視個人情況而定,沒人能都學全。
1. DB
1) Data Modeling: 3NF, Dimensional Modeling,Data Vault, Anchor(後兩種沒有太大必要學,尤其最後一種)
2) DB Repository:
i. 商用傳統:Oracle, DB2, MS SQL Server, Sybase, Informix
ii. 商用數據倉庫專用:Oracle ExatraData, SAP HANA, Netezza, Teradata, SybaseIQ, GreenPlum, Vertica,
iii. 開源:PostgreSQL, MySQL
iv. NOSQL:MongoDB, Neo4j, Cassandra, HIVE, HBASE, ...
大部分我也只是知道名字而已。
3) Data Modelling Tool: ERWIN, PowerDesigner, Oracle SQL Developer Data Modeler, IBM Infosphere Data Architect
4) ETL: Datastage, Informatica, Ab Initio, Kettle, SSIS
5)多維資料庫:Essbase, TM1, Cognos Powerplay, MS AS,
6) Report: Cognos, BO, Hyperion Performance Suite, OBIEE, MSTR, Qlikview, Tableau, ...
7) Metadata
8) Data Mining: SAS, SPSS, R, Excel, Matlab...
9)MDM
10) Data Quality
11) Data Governance
林林總總,還有各種bigdata的平台,我連名字都不知道。
職業生涯是有很多偶然性的,如果離實際工作很遠,我不是很建議去學習,因為很難深入且容易遺忘,去學習離你近的東西。
吾生而有涯而知也無涯。學海無邊,回頭是岸。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行動應用、客制化、交互分析、報表協同作業管理系統。
分享自:煉數成金_小數

2015年9月23日星期三

說說到底什麼是資料分析?

之前在微博上發起一個話題,大家一句話向外行說說什麼是資料分析?有100多位同學參與討論和轉發,其中一些有意思的、不錯的說法,大家一起來看看。
最專業的資料分析:
@沈浩老師: 有針對性的收集、加工、整理資料,並採用統計和挖掘技術分析和解釋資料的科學與藝術!
最簡潔的資料分析
@小蚊子樂園:簡單的很,就是分析資料。
@Terensu:描述資料特徵,預測資料趨勢,展示分析結果。
@wangman02:從一大堆資料中提取到你想要的信息,就是資料分析。
最浪漫的資料分析:
@資料化管理:資料分析就是:茫茫人海中,你通過觀察、跟蹤、記錄等手段找到你生命中最想愛的那個人,進而根據對方的喜好,成功的展示了自己的優點,改進了自己的缺點,並且說服了對方的父母,承諾終身與ta為伴的一項工作。
@劉萬祥ExcelPro: 你喜歡上一個姑娘,你會搜集她的興趣、愛好、星座、閨密、乃至三圍。。。等等各種信息吧,然後想自己怎麼能搭訕上、約出來,碰壁了會繼續找原因、想辦法,這裡面你都有在做資料分析呀。
@CIVN可視化社區:從你每天發的微博研究你喜歡哪個明星、是哪個星座的、喜歡吃什麼買什麼、大概幾歲會嫁出去。
最IT的資料分析:
@穆浩然:所以我一般都說我是做IT的。
@YicoLeung:複製粘貼。
@倉鼠_茄子把:你應該對男的低調說自己是碼農,對女的高調說自己是分析師!現在甭管是什麼職業,加個師字就顯得特牛B,比如策劃師,揉奶師,麵包師,搬磚師等等。
最實用的資料分析:
@ETwise:我告訴別人:你買了牙膏我還會推薦你買牙刷,我就是做這樣的工作的。
@老仲琢磨:可以知道剛當爹的男人買尿布時最可能順便買點啥。
@張勇往前行:每個月的月底,老婆問你,這個月的錢你都是怎麼花的?你的回答就是資料分析。
最神化的資料分析:
@張啟仁:資料分析是算命的。
最霸氣的資料分析:
@淘貨郎:資料分析就是企業的軍統和中統。
@牧羊人_DM:這是一個很有前途特牛B的職業,具體細節你沒必要知道。
最恐怖的資料分析:
@遊走的背包:資料分析就是文革時的查人祖上三代,最後定義你這代什麼成份!
@寶泥馬冷死了:從你爸的日常行為統計中推測你下次考試不及格他會用什麼東西揍你。
那到底什麼是資料分析呢?
說說資料哥的理解:資料分析是基於商業目的,有目的的進行收集、整理、加工和分析資料,提煉有價信息的一個過程。
其過程概括起來主要包括:明確分析目的與框架、資料收集、資料處理、資料分析、資料展現和撰寫報告等6個階段。
1、明確分析目的與框架
一個分析項目,你的資料對象是誰?商業目的是什麼?要解決什麼業務問題?資料分析師對這些都要瞭然於心。
基於商業的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優化活動效果、提高客戶響應率等等。不同的項目對資料的要求,使用的分析手段也是不一樣的。
2、資料收集
資料收集是按照確定的資料分析和框架內容,有目的的收集、整合相關資料的一個過程,它是資料分析的一個基礎。
3、資料處理
資料處理是指對收集到的資料進行加工、整理,以便開展資料分析,它是資料分析前必不可少的階段。這個過程是資料分析整個過程中最佔據時間的,也在一定程度上取決於資料倉庫的搭建和資料質量的保證。
資料處理主要包括資料清洗、資料轉化等處理方法。
4、資料分析
資料分析是指通過分析手段、方法和技巧對準備好的資料進行探索、分析,從中發現因果關係、內部聯繫和業務規律,為商業目提供決策參考。
到了這個階段,要能駕馭資料、開展資料分析,就要涉及到工具和方法的使用。其一要熟悉常規資料分析方法,最基本的要了解例如方差、回歸、因子、聚類、分類、時間序列等多元和資料分析方法的原理、使用範圍、優缺點和結果的解釋;其二是熟悉1+1種資料分析工具,Excel是最常見,一般的資料分析我們可以通過Excel完成,後而要熟悉一個專業的分析軟體,如資料分析工具SPSS/SAS/R/Matlab等,便於進行一些專業的統計分析、資料建模等。
5、資料展現
一般情況下,資料分析的結果都是通過圖、表的方式來呈現,俗話說:字不如表,表不如圖。。藉助資料展現手段,能更直觀的讓資料分析師表述想要呈現的信息、觀點和建議。。
常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點圖、雷達圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。
6、撰寫報告
最後階段,就是撰寫資料分析報告,這是對整個資料分析成果的一個呈現。通過分析報告,把資料分析的目的、過程、結果及方案完整呈現出來,以供商業目的提供參考。
一份好的資料分析報告,首先需要有一個好的分析框架,並且圖文並茂,層次明晰,能夠讓閱讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內容;圖文並茂,可以令資料更加生動活潑,提高視覺衝擊力,有助於閱讀者更形象、直觀地看清楚問題和結論,從而產生思考。
另外,資料分析報告需要有明確的結論、建議和解決方案,不僅僅是找出問題,後者是更重要的,否則稱不上好的分析,同時也失去了報告的意義,資料的初衷就是為解決一個商業目的才進行的分析,不能舍本求末。
來,說說你理解的資料分析是什麼呢?
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:資料分析精選

商業智慧的前世今生

今天大家都在談資料,都在用資料,那麼我們就一起看看資料行業的相關發展歷程。
    關於資料分析
至今,學術界和企業界對資料分析的概念仍很模糊。在元素看來,資料分析可以從兩方面理解,一是從廣義上理解,資料分析可以視為一種用資料解決問題的方法論,是一套解決問題的思維體系;另一種是從俠義上理解,也就是企業界通常所說的資料分析技術,又可稱之為「商業智慧」資料決策支持系統,如今它又有了一個時髦的名字「巨量資料」。
    關於分析,我想說分析的其實是信息,而不是資料,資料只是信息的原材料之一。分析的目的是尋找業務短板,可能是自身的也可能是競爭對手的。在日常經營過程中,分析是指導決策的唯一依據,但我們用什麼來保證分析的正確呢?是不斷的試錯還是考驗我們分析師分析和利用信息的能力,這個過程歸根結底還是對人的分析,一方面是對製作原始信息人的溯源,另一方面則是對人的行為目的的還原。
商業決策流程     

      

商業智慧的發展歷程
《經濟學人》雜誌早在2010年曾報道說:「隨著計算機處理器、存儲器的價格不斷下降和軟體質量的不斷提升,這種被稱為「商業智慧」的技術不再是大公司的專利,逐步成為商界主流。大大小小的公司都收集了前所未有的資料。過去,這些資料被存儲在不同的系統中,如財務系統、人力資源系統和客戶關係管理系統中,老死不相來往。現在,這些系統彼此相連,通過資料挖掘技術,可獲得一幅關於企業運營的完整圖景,被稱之為一致的真相」。
商業智慧的起源伴隨著決策支持系統的誕生而誕生,其誕生代表了從資料到知識的巨大跨越。早期,商業智慧起始於決策支持系統,後來伴隨著計算機的發展、隨機的普及,商業智慧領域也有了長足的發展,硬體的擴充、軟體的更新、資料庫在企業的廣泛應用等,再後來IBM「資料倉庫」概念的提出,使商業智慧真正破繭而出。隨後,在資料倉庫的基礎上,在線聯機分析(OLAP)、資料挖掘技術開始大行其道,使停滯多年的商業智慧如雨後春筍般的蓬勃崛起。
當從資料到知識不再是問題,越來越多的知識充斥著人們的視野,多屏、碎片化的應用場景不斷的消費著人們的注意力,如何充分展現資料知識?讓人們更好的理解接受資料到知識的跨越,於是,資料可視化應運而生。伴隨著機器、人工智慧的進步,帶自適應調整的機器學習將成為商業智慧領域的下一個前沿陣地。商業智慧領域發展過程中的那些突出貢獻者:
1、赫伯特.西蒙
赫伯特.西蒙,人工智慧的創始人之一,《行為組織的決策過程》一書的作者,1975年因為對人工智慧的貢獻獲圖靈獎,1978年因對商務決策過程的出色研究獲諾貝爾經濟學獎。
2、馮.諾伊曼
馮.諾伊曼被稱之為計算機之父,他明確了計算機內部的資料組織形式——二進位,解決了資料在計算機內部的傳遞和理解問題。
3、埃德加.科德
埃德加.科德為IBM研究員,他在1970年提出了關係型資料庫的概念,後來又總結出構建關係型資料庫的「黃金十二定律」。
資料倉庫領域
麻省理工和卡內基梅隆大學一直被視為人工智慧領域的火車頭,此外還有一些企業也在人工智慧行業的發展過程中發揮著巨大的推動作用。
4、1979年,Teradata成立,1983年為國家富國銀行建立了第一個決策支持系統。
5、1988年,IBM的研究員Barry bevlin和Paul Murphy提出了「資料倉庫」的概念。
6、1992年,比爾恩門出版了《資料倉庫之架構》,第一次給出了資料倉庫的清晰定義和操作性很強的實戰法則,比爾恩門也因此被稱之為「資料倉庫之父」。
7、1996年,金博爾出版了《資料倉庫工具》一書,該書強調務實的資料倉庫應該是自下而上的,從部門到企業,並把部門級的資料倉庫稱之為資料集市。
聯機分析(OLAP)——解決靜態的報表與動態的決策需求之間的矛盾
8、1993年,埃德加.科德率先定義了「聯機分析」,並發表了論文《信息技術的必然:給分析用戶提供聯機分析》,提出構建聯機分析的「黃金十二定律」。
9、詹姆斯.格雷,因為在OLAP多維立方體的構建和運算方面的貢獻,1998年獲圖靈獎。
1989年被海外媒體稱之為資料挖掘技術元年
10、1989年,高納德諮詢公司的德納斯給出了「商業智慧」的正式定義。
資料可視化
11、1850年,英國佛羅倫斯.南丁格爾因為創造性的使用了「南丁格爾圖」,而使戰地醫院得以改進,第一次讓人看到了資料視覺化的魅力。
12、1973年,耶律大雪弗朗西斯.安科斯姆《統計分析中的圖形》這一論文提出了關於資料圖形在統計中意義的「安科斯姆四重奏」。
13、1983年,耶律大學愛德華.塔夫特《定量信息的視覺展示》出版,此書被稱為資料可視化領域的開山之作,隨後其《視覺解釋》、《美麗的證據》等書更加驚艷。

4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:巨量資料時代

2015年9月22日星期二

巨量資料要牢記的5大經驗教訓

對於企業來說,巨量資料應用有5大經驗教訓需要牢記。
1、 要贏得利益相關者的信任
巨量資料正確的分析方法是業務而不是技術,在開始部署巨量資料應用之前,贏得業務部門的信任,增強其信息至關重要。首先,利益相關者會幫助你獲取所 需要的資源,包括團隊、資金和必要的資料資源,讓你的項目取得成功。其次,任何資料分析只有被付諸實踐才是有效的。如果主要管理者不願意基於巨量資料分析結 果對業務進行改進,那麼所有的投入都會被浪費。
因此,增強利益相關者的信心將是當務之急。
2、專註於那些對於企業至關重要的問題
對於很多大的機構或者企業而言,如果能夠進行資料歸檔並進行離線,採用幾乎免費的集群資料庫將會帶來巨大的成本節省,這是非常普遍的。
如果能夠對非結構化資料進行遷移,將會幫助企業節省大量的購買授權的成本,而部署和管理這樣的系統,就需要投入進行系統架構,而所節省的授權成本恰好可以用於系統架構的開銷。
在這種情況下,給中型企業的建議就是不要更多關注投資回報率,不要過多關注成本節省。獲得最大的商業利益,是需要集中重點加以闡述的口頭禪。
3、培養資料科學家
要將巨量資料應用付諸實踐,對於人才的需求首當其衝。對於擁有大量資源的大機構這尚且是一個難題,對於中等企業就更是如此了。眾多的市場研究表明,對於人才的需求難以在短時間內解決。與其花重金招聘,莫不如內部挖潛。
可以挑選那些充滿了激情的資料庫管理人員(DBA)已經願意學習的業務分析人員,採取適合步驟對他們進行培養。
4、正確採用本機分析技術
擁有一個企業級巨量資料處理平台並不意味著企業具有駕馭意義資料的能力,擁有處理巨量資料集群是一件非常好的事情,但問題在於你是否能夠以正確方式來確保能夠獲預期的商業價值呢?
儘管擁有高端巨量資料平台,但許多企業發現還是很難獲取和分析資料。鑒於巨量資料已經成為整個IT業熱點,因此市場上會有各種產品和方案供應商,但這些產品解決方案的效果還有待觀察。
5、協作是口頭禪
企業業務部門領導、銷售主管以及職能部門人,如果缺乏必要的IT知識將很難認同巨量資料分析的結果。很快就可以發現,儘管具有前所未有的創新,然而相關人員不敢將其付諸應用。
中等企業通過協調IT和業務線,這會幫助克服可能碰到的路障、避免那些妨礙成功的陷阱。通過這種方式,不僅可以幫助企業適當管理好資料,同時也 可以確保能夠在正確時間獲取到正確的資料。 資料分析具有至關重要的價值,這些資料貴在發現,並證明有效,這將有助於企業進行正確的決策。
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:資料分析

2015年9月17日星期四

資料分析師:啥時候說Yes啥時候該說No?

早在20世紀90年代的美國沃爾瑪超市中,就有「啤酒與尿布「的故事表現了巨量資料分析給企業帶來的利益體現。這些年來巨量資料分析正在為企業帶來巨大的變化。雖然越來越普遍,但資料分析中有些「YES」和「NO」卻是必須遵循的。
YES!立體式分析
立體式分析即維度分析。產品資料挖掘應該在產品環境下從產品性能、市場需求、用戶體驗等方面切入分析。資料分析是帶有商業性的,因此要立體性對於資料進行深層次整理分析,才能將各方面有價值的信息提煉出來對產品優化帶來幫助。
YES!明確適用性
要注意每種統計分析方法的適用範圍。許多分析方法對資料的要求很高,如果樣本分布不符合要求,樣本量數量不足,或存在大量偽樣本,都將影響最後結果的正確性。譬如,我們經常要使用的因子分析、聚類分析,若樣本量不足獲得分析結果是沒有任何意義的。
YES!正確整理資料庫
在選擇好分析方法分析資料時的同要按照要求整理資料庫。錯誤的資料庫格式對研究的弊處是顯而易見的。在使用研究模型前,要考慮資料的適用性。同時,資料的合理轉換也很重要。如在訪問時經常提問出生年份而非年齡,這樣可以避免誤差。這樣將收集到的資料進行轉換也得到一樣的結果。在計算時,我們還常整合幾個變數成為一個或者另幾個變數。
YES!分析資料可視化
巨量資料的體現往往是以海量的形式,而資料分析首先要整理,其次要分析。巨量資料的分析將能將普通的數字變成珍貴的信息,體現未來的趨勢和相應的結果。一號店等企業使用巨量資料魔鏡,將巨量資料可視化分析作為基礎,建立起一體性的業務模型和產品,明確了顧客關係,提高了運營效率,運用資料規模化幫助企業規劃。IBM, NIK, 星巴克等企業通過FineReport系統讓了解每天的業績更便捷,為企業帶來更大利潤。
NO!輕視精準
資料中的每一個小數點都可能帶來巨大的影響。因此資料分析不能有「不準確可以再改」的想法。做資料分析最基礎的是要有嚴謹的態度和科學的方法。
NO!分析方式不當
資料分析是一項專業性技能,需要使用專業工具進行分析。一般分析資料的工具有Excel、報表工具、BI等。應當使用專業工具進行資料分析,可利用圖表表達分析結果。而不能粗略地計算資料,以此保證其有效性。
NO!忽略資料源
足夠多的資料的確是實現技術的前提,但資料越多並不是結果越準確。一旦不能保證資料來源的準確度,大量的資料反而會使資料分析難度加大,從而使最後作出不準確決策。因此不能盲目追求資料量的大,而要同時對資料源的準確性有保證。
分享自:愛數據網
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。

為資料分析瘦身法



越來越多的公司開始倡導『用資料說話』,利用資料分析來幫助公司進行商務運營和制定決策。但如果一個公司試圖對所有可能收集到的資料進行分析或者期望用數字來解決一切問題,那便又陷入了另一個極端,讓自己受到資料分析複雜性的困擾。公司應該利用簡單有效的資料分析方法幫助其在已有的業務認知基礎上更好地作出商務決策。下面我們就結合一些公司的實例來介紹利用簡單的資料分析解決商務問題的三部曲。

第一步,提高資料產生速度

更快的資料=更快的認知=更快的結果。通過建立一個可以快速融合巨量資料的混合科技資料服務平台來自動化並加速資料的產生和更新。這樣的環境能夠幫助企業更好地運轉和管理業務,並使大量資料在企業內部更好地流通。實時的資料分析可以幫助公司更快地制定決策並提高服務質量。例如,美國一家銀行採用了這樣一個科技環境來更有效地管理持續大量增長的客戶信息,將分析運行速度提高了幾個小時,更快地得到分析結果並及時向客戶反饋。

第二步,充分利用分析工具

(1)商業智慧資料可視化

商業智慧的核心就是將資料分析融入公司運營中來優化的決策制定並提高業績。商業智慧通過合適的資料,時機和媒介(例如手機,電腦等),用直觀明了的可視化方式(例如熱點圖,圖表等)向公司決策者展示他們需要的分析結果,幫助他們更好地理解資料分析結果並進一步優化決策分析。例如,一個金融服務公司利用商業智慧和資料可視化來比較不同的風險投資組合。他們分析了關鍵資料並以可視化方式展示了分析結果,成功地找出美國哪些地區有較高拖債率,按照貸款人、貸款目的和貸款渠道等因素更準確地制定資金份額,以及及時有效審查銀行貸款投資組合。同時,用戶可以對分析結果進行交互操作並按需查詢資料,例如選擇不同的日期,信用等級,比較貸方和貸款方式等。利用互動式商業智慧的靈活性和資料探索能力以及可視化方式,決策者可以制定更準確有效地制定策略。目前不少商業智慧工具可以免費下載使用,比如FineReport報表與 BI商業智慧軟體,可以先下載使用之後再做決定選擇哪一款。

(2)資料挖掘

利用資料挖掘技術,公司可以更好地探索出原本不是很明顯的資料變化趨勢,以此來優化商業決策。例如,一個能源公司通過資料挖掘預測了哪些管道有更大的破裂風險,並根據分析結果來優化資源進行管道維護。

(3)資料分析應用程序

利用資料分析應用程序可以讓公司管理者直接有效地進行資料分析,幫助他們更好地按照資料分析結果來作出商業決定。這些應用程序可以針對不同行業,也可以靈活機動地滿足公司內部不同人群的需要-從市場部到財務部,從公司管理層到中層。例如,一個貨物儲存經理可以利用資料分析軟體優化存貨清單,一個市場總監也可以利用分析軟體決定公司的全球市場運營。

(4)機器學習和認知運算

機器學習能夠去除資料建模中的人員影響因素,更直觀地預測客戶行為和企業業績。通過大量的資料和強大的運行能力,智能軟體可以結合資料科學和認知科技幫助機器作出更好的決定。例如,一個零售商利用不同銷售渠道(例如手機、商店、網路等)獲得的實時資料進行機器學習,完善了針對不同用戶的推薦服務,有效地提高了業績。

第三步,認識到每個公司利用資料分析制定決策的道路都是獨特的

商務目的,科技,資料形式,資料來源等很多因素都會影響資料分析,這些因素也在隨時間不斷變化。比如其中一個非常重要的影響因素就是企業文化:這個公司是保守風格還是喜歡風險呢?這個公司是否已經有足夠的資料和分析方法,還是才剛剛嘗試第一個資料分析項目?每一個公司都擁有不同的企業文化和科技特徵,因此其資料探索道路也是獨特的。通常,公司可以按照不同的商業問題的本質採用兩種方法。第一個,如果商業問題很明確而且有已經存在的解決方法(例如,針對市場營銷的用戶分割和偏好模型),公司可以從已有的結果出發(例如,針對已有顧客的交叉銷售),採用以假驗為基礎的方法,用對照組測試結果,然後再進一步將分析結果應用到更大的顧客群中。第二個,如果商業問題很明確,但是沒有已知的應對方法,那麼公司可以採用一些資料挖掘的方法,從資料中尋找規律以及因素之間的關聯性。例如,一個銀行利用資料挖掘方法發現用戶填寫網上表格的速度和詐騙行為有很高的關聯性。當商業問題較多時,公司首先應該關註解決哪個問題能給公司帶來最大的價值,然後按照已有的知識來選擇是假驗法還是挖掘法。

以資料分析結果為導向的運營思路可以幫助公司決策者優化決定,但是過猶不及,紛繁複雜的資料分析也許也會擾亂決策制定。有時候,去繁就簡,才能更好地利用資料,看清海量資料背後隱藏的商業秘密。

分享自:數據工匠
4500+企業選擇FineReport報表與BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。

2015年9月15日星期二

貝恩諮詢:巨量資料的三個誤區及危險

巨量資料解決方案供應商總是信誓旦旦。他們說,你要做的就是把資料給到我們。然後我們就會提供一系列想法,讓你們公司在營銷效率、客戶體驗和服務運營效率方面得到極大改善。你和你的團隊就放心吧,我們的技術和你們的資料科學家會把重頭扛下來。

是不是有似曾相識的感覺?如果你曾經歷客戶關係管理(CRM)改革時最初那個興奮階段,那麼你一定會有這種感覺。早在20世紀90年代,很多企業對這種技術十分認同,最後的結果就是搞了一堆沒用的資料庫、養成了很多叛逆的銷售團隊,以及資本預算的耗盡。

此後,CRM行業日漸成熟。毫無疑問,現在的CRM解決方案可以為很多機構提供真正的價值。例如,在貝恩諮詢「2015管理工具與趨勢」調查(2015 Management Tools & Trends)中,CRM是排名第六的暢銷業務工具。根據Gartner統計, 2014年,全球的CRM開支總計達到204億美元,此前一年為180億美元。

但CRM的失敗率也很高。C5 Insight在2014年發布的一份報告中稱,有超過30%的CRM應用以失敗告終,同一批公司的第二和第三次CRM應用,其失敗率僅比第一次實施略低。這就是CRM改革之前20年的情況。

我們看到,巨量資料的發展路徑與此類似,都是在客戶影響力和價值創造方面信誓旦旦。Gartner在最新一份報告中預測,到2017年,60%的巨量資料項目過不了試驗期,會被打入冷宮。為什麼歷史會重演?原因不在於興趣、努力或投資的缺乏。相反,這說明從既有客戶、運營和服務資料中創造價值是非常困難的,更不用提社交媒體、移動設備和在線活動所產生的大量非結構化的內外部資料。

各家公司在利用巨量資料和高級分析工具方面面臨的壓力日漸增大,因為客戶希望從與他們打交道的機構中獲取更多信息。競爭在加劇,特別是在金融服務、零售、通信和媒體等成熟行業。以資料為驅動的行業繼續洗牌。包括Progressive、Capital One、亞馬遜、谷歌、優步、Zappos等新舊行業的攪局者已經創造出以資料為驅動的經營模式,並將其應用於定製產品和服務的生產。

以美國汽車保險商Progressive為例,他們利用插件設備,追蹤司機的行為。Progressive利用資料細分客戶群,並確定保費。美國金融服務公司Capital One則在確定客戶風險評分及忠誠度項目中十分倚重先進的資料分析。為此,Capital One開發了多種客戶資料,包括先進的文本和語音分析。與此同時,美國零售業巨擘亞馬遜則對客戶資料深度開發,創造出個性化的在線購物體驗。亞馬遜參照客戶的購買歷史和瀏覽記錄,開發出一種先進的推薦引擎,不同的消費者會看到定製化的網路頁面。在物流領域,亞馬遜在將資料分析應用於優化庫存和減少裝運時間方面也走在了前列。

巨量資料的先行者設定了很高的成功標準。他們聚集了一大批資料分析人才,並創造出很多流程,使這些機構能從高級分析中獲得有用的想法。他們打造技術平台,以發布最新資料以及這些資料何時何地會被用到的洞察。很多公司還基於「測試與學習」(test and learn)方法營造持續創新的文化理念。

那麼你的公司如何才能從巨量資料中獲益呢?第一步就是,學習如何大浪淘金。對巨量資料的持續炒作有賴三個誤區:一、巨量資料技術會自行識別出商機;二、就是掌握的資料越多,自動創造出的價值也越多;三、資料科學家可以幫助任何公司從巨量資料中盈利,無論該公司的組織架構如何。

以下內容是我們認為與上述三個誤區分別有關的危險。

誤區一:巨量資料技術會自行識別商機。

危險:儘管投入了大量的資金和時間,但這種投資所產生的回報非常有限。失敗的技術布局往往是以假想這種新工具會自行產生價值開始。成功利用巨量資料能量的企業往往都是在重金投入巨量資料技術前,先將高級分析應用於少量高價值商業問題的解決。在這個過程中,他們學會了如何有組織地實施解決方案,也獲得了對於運營挑戰的新認識,並漸漸了解其資料和技術的局限性。根據對於他們實際需求的理解,他們可以確定巨量資料技術解決方案的具體要求。(圖1)

例如,一家大型保險公司最近將其資料分析項目聚焦騙保問題。這家公司的騙保率激增,且由此產生了高額的調查成本。這個項目旨在以最低的成本減少騙保行為。為此,這家公司開發了一種可以算出騙保傾向分數的文本挖掘演算法。這種演算法幫助這家公司實現了騙保分數準確性的增加。結果就是,需要調查的騙保案變少,節省了3000萬美元的成本。在證明了高級分析的價值後,這家公司現在加大了對高級分析的技術和能力投資。

誤區二:掌握的資料越多,自動產生的價值也越多。

危險:對於未經證實的資料來源過度投資,忽略了那些有價值的、接近真相的資料來源。

隨著社交媒體和移動設備的爆炸性增長,獲取和利用新資料的誘惑在不斷強化。很多大型機構已經被淹沒在資料的海洋中了,其中多數資料存儲在筒倉內,不能輕易接觸並連接。我們發現,成功的巨量資料之路往往始於充分開發該機構的現有資料。

從分析的角度而言,通常處理歷史資料要比處理全新資料更容易。美國一家大型通信公司就採用了這種方法。這家公司面臨的競爭日趨激烈,因此希望創建一個項目,能系統地增加現有客戶群的價值。為了實現這個目標,該公司從既有的15個營銷、服務和運營資料庫中提取了200多個資料,為所有客戶描繪出「高清晰」畫像。這家公司利用這些畫像開發出有針對性的新員工培訓、交叉銷售和客戶管理專案。

誤區三:好的資料科學家會為你發現價值。

危險:現有組織還沒有做好實現資料價值的準備。為了從巨量資料中持續獲利,你需要打造出一個持續利用巨量資料和高級分析力量的運營模式。基於資料和分析團隊的思考,成功的資料驅動業務可以讓其組織、流程、體制和能力協調化,以做出更好的業務決策。(圖2)

一家通信服務供應商創建了一種涵蓋資料和分析團隊、技術部門和一線職能部門(銷售、市場、客戶運營和產品開發)的合作模式。在這個模式中,BI商業智慧團隊(資料科學家、統計學、資料挖掘工程師)與各業務部門緊密配合,通過對海量的內部資料進行分析來解決具體問題。

結論

巨量資料革命已經擾亂了很多行業。某些資料驅動公司已經從這場革命中獲取到重要價值,但很多傳統公司正在迎頭趕上。但光靠技術是無法彌補這一鴻溝的。

那些能夠實現客戶資料分析承諾的公司通常遵循以下三個規則:

1.在投資巨量資料技術解決方案前,證明你所在的機構可以將高級分析應用於解決一些高價值的業務問題。

2.在向新資料來源擴張前,先利用現有資料創造價值。然後再利用測試-學習的方法,向你的歷史資料注入前瞻性資料

3.將運營模式賦能企業,特別是業務前線,使其快速行動,並對企業高級分析團隊的洞見報有信心。

在巨量資料時代,那些遵守這些規則的企業將更有可能獲得成功。


作者:Eric Almquist和Tom Springer是貝恩諮詢波士頓辦事處合伙人,John Senior是貝恩諮詢悉尼辦事處合伙人。


分享自:中文互聯網數據研究資訊中心
4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。

資料分析的五大思維方式

今天要講資料分析的五大思維方式。
首先,我們要知道,什麼叫資料分析。其實從資料到信息的這個過程,就是資料分析。資料本身並沒有什麼價值,有價值的是我們從資料中提取出來的信息。
然而,我們還要搞清楚資料分析的目的是什麼?
目的是解決我們現實中的某個問題或者滿足現實中的某個需求。
那麼,在這個從資料到信息的過程中,肯定是有一些固定的思路,或者稱之為思維方式。下面零一給你一一介紹。(本文用到的指標和維度是同一個意思)



第一大思維【對照】
【對照】俗稱對比,單獨看一個資料是不會有感覺的,必需跟另一個資料做對比才會有感覺。比如下面的圖a和圖b。
圖a毫無感覺



圖b經過跟昨天的成交量對比,就會發現,今天跟昨天實則差了一大截。



這是最基本的思路,也是最重要的思路。在現實中的應用非常廣,比如選款測款丶監控店鋪資料等,這些過程就是在做【對照】,分析人員拿到資料後,如果資料是獨立的,無法進行對比的話,就無法判斷,等於無法從資料中讀取有用的信息。

第二大思維【拆分】
分析這個詞從字面上來理解,就是拆分和解析。因此可見,拆分在資料分析中的重要性。在派代上面也隨處可見「拆分」一詞,很多作者都會用這樣的口吻:經過拆分後,我們就清晰了……。不過,我相信有很多朋友並沒有弄清楚,拆分是怎麼用的。
我們回到第一個思維【對比】上面來,當某個維度可以對比的時候,我們選擇對比。再對比後發現問題需要找出原因的時候?或者根本就沒有得對比。這個時候,【拆分】就閃亮登場了。

大家看下面一個場景。
運營小美,經過對比店鋪的資料,發現今天的銷售額只有昨天的50%,這個時候,我們再怎麼對比銷售額這個維度,已經沒有意義了。這時需要對銷售額這個維度做分解,拆分指標。
銷售額=成交用戶數*客單價,成交用戶數又等於訪客數*轉化率。
詳見圖c和圖d
圖c是一個指標公式的拆解



圖b是對流量的組成成分做的簡單分解(還可以分很細很全)



拆分後的結果,相對於拆分前會清晰許多,便於分析,找細節。可見,拆分是分析人員必備的思維之一。

第三大思維【降維】
是否有面對一大堆維度的資料卻促手無策的經歷?當資料維度太多的時候,我們不可能每個維度都拿來分析,有一些有關聯的指標,是可以從中篩選出代表的維度即可。如下表


這麼多的維度,其實不必每個都分析。我們知道成交用戶數/訪客數=轉化率,當存在這種維度,是可以通過其他兩個維度通過計算轉化出來的時候,我們就可以【降維】.
成交用戶數丶訪客數和轉化率,只要三選二即可。另外,成交用戶數*客單價=銷售額,這三個也可以三擇二。
另外,我們一般只關心對我們有用的資料,當有某些維度的資料跟我們的分析無關時,我們就可以篩選掉,達到【降維】的目的。

第四大思維【增維】
增維和降維是對應的,有降必有增。當我們當前的維度不能很好地解釋我們的問題時,我們就需要對資料做一個運算,增加多一個指標。請看下圖。



我們發現一個搜索指數和一個寶貝數,這兩個指標一個代表需求,一個代表競爭,有很多人把搜索指數/寶貝數=倍數,用倍數來代表一個詞的競爭度(僅供參考)。這種做法,就是在增維。增加的維度有一種叫法稱之為【輔助列】。
【增維】和【降維】是必需對資料的意義有充分的了解後,為了方便我們進行分析,有目的的對資料進行轉換運算。

第五大思維【假說】
當我們拿不準未來的時候,或者說是迷茫的時候。我們可以應用【假說】,假說是統計學的專業名詞吧,俗稱假設。當我們不知道結果,或者有幾種選擇的時候,那麼我們就召喚【假說】,我們先假設有了結果,然後運用逆向思維。
從結果到原因,要有怎麼樣的因,才能產生這種結果。這有點尋根的味道。那麼,我們可以知道,現在滿足了多少因,還需要多少因。如果是多選的情況下,我們就可以通過這種方法來找到最佳路徑(決策)
當然,【假說】的威力不僅僅如此。【假說】可是一匹天馬(行空),除了結果可以假設,過程也是可以被假設的。
我們回到資料分析的目的,我們就會知道只有明確了問題和需求,我們才能選擇分析的方法。
順帶給大家講講三巨量資料類型。這個屬於偷換概念,其實就是時間序列的細分,不是真正意義上的資料類型,但這個卻是在處理店鋪資料時經常會碰到的事情。資料放在坐標軸上面分【過去】丶【現在】和【未來】

第一 巨量資料類型【過去】
【過去】的資料指歷史資料,已經發生過的資料。
作用:用於總結丶對照和提煉知識
如:歷史店鋪運營資料,退款資料,訂單資料

第二 巨量資料類型【現在】
【現在】的概念比較模糊,當天,當月,今年這些都可以是現在的資料,看我們的時間單位而定。如果我們是以天作為單位,那麼,今天的資料,就是現在的資料。現在的資料和過去的資料做比較,才可以知道現在自己是在哪個位置,單有現在的資料,是沒什麼用處的。
作用:用於了解現況,發現問題
如:當天的店鋪資料

第三 巨量資料類型【未來】
【未來】的資料指未發生的資料,通過預測得到。比如我們做得規劃,預算等,這些就是在時間點上還沒有到,但是卻已經有了資料。這個資料是作為參考的資料,預測沒有100%,總是有點兒出入的。
作用:用於預測
如:店鋪規劃,銷售計劃
三種資料是單向流動的,未來終究會變成現在,直到變成過去。
他人我不知道,但我自己非常喜歡把資料往坐標軸上面放,按時間段一划分,每個資料的作用就非常清晰。

4500+企業選擇FineReport報表與 BI 商業智慧工具【免費下載】
opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。
分享自:爱数据

2015年9月11日星期五

Teradata首席分析官Bill Franks:資料分析變革猶如一場工業革命

2013年Teradata天睿公司首席分析官Bill Franks出版了《駕馭巨量資料》,時隔兩年他又帶來了新書《資料分析變革》,從書名可以看出巨量資料的應用已經發生了質變。Bill也把資料分析的變革比做是一場工業革命,因為技術的發展帶來了更多的分析能力,以及可以實現自動化的分析,這些也就如同蒸汽機給工業革命帶來發展的動力是同一道理。

從分析到高級分析的進化

分析的重要性已經成為現如今企業的共識,很多企業都在使用商業智能軟體將自身的業務進行匯總呈現。但報表呈現和分析的概念不盡相同,報表通常是按照固定格式自動生成,而分析並不是簡單的信息匯總,企業需要將匯總的資料進行整合并分析為決策給出建議。

當然分析的程度也有淺有深,巨量資料分析就是時下企業非常追捧的資料分析技術。Bill認為,巨量資料必須置於更廣泛的企業資料和分析戰略的場景中,而且不要糾結於如何定義巨量資料,只需思考如何善用巨量資料!

然而分析的種類也多種多樣,有人會問普通分析和高級分析有什麼區別?普通分析屬於概述型分析,高級分析則更多是預測性分析。在四、五年前很多企業並不具備高級分析的技能,所以觀望是普遍狀態,而現在高級分析已經成為主流的發展趨勢,企業需要把高級分析作為標配。

在Bill看來,高級分析要從探索發現、設計、部署整個流程形成閉環,因為資料類型的不同就需要不同的演算法和存儲方式,所以在發現階段就要考慮未來階段怎麼才能推進地更加迅速,並且在部署之後還有一個很重要的階段衡量和評估。

作為Teradata首席分析官,Bill的工作主要有三部分,戰略、客戶、品牌。在企業里首席分析官的職位並不多見,Bill建議如果企業對於資料分析有核心需求就應該設立這一職位,當然其需要具備優秀的資料分析的能力,以及優秀的溝通能力,可以用業務語言對管理者和非IT人員進行溝通。

行業客戶如何做資料分析

Teradata 天睿公司一方面為具有共性需求的客戶提供標準化的解決方案,另一方面為大型客戶進行個性化定製解決方案,同時針對行業客戶進行分析,嵌入相應的功能模塊。

零售、金融、通信等行業是目前應用巨量資料較好的行業,那現在的零售行業是如何用創新的方法挖掘資料價值呢?「其實零售行業有很多問題有待解決,」Bill說。例如,賣場在即將結束營業的時段會有大量客人集中結賬,這對於結賬帶來了很大的壓力,零售商則可以通過監控賣場的人流量和停車場流量來進行多方面資料分析,預測出未來5-15分鐘的流量壓力,讓管理人員可以及時進行調度,為顧客帶來更好的購物體驗。

巨量資料分析已經不再是某幾個行業的「玩物」,其已經在各行業開始蔓延,那些看起來不太適合採用巨量資料分析的行業都已經開始了巨量資料,像汽車行業目前就在大量應用車聯網的巨量資料分析技術。

物聯網也會使得新的資料源逐漸增多,Teradata也將應對新的資料源解決新的業務問題。例如,感測器就可以引發多環節的客戶體驗提升的連鎖效應,在倉儲物流行業通過感測器可以了解到倉儲環境的溫度,從而進行溫控保證產品質量,之後賣家還可以分析產品的買賣行為和途徑,從而制定未來的營銷策略。

未來雲服務會是企業越來越認可的一種服務提供模式,使得客戶可以獲得按需提供的資料分析服務。在過去的一年中Teradata也同一些雲服務商展開溝通,目前看來這種服務方式更加適合中小型企業,因為產品的部署和實施對於中小企業相對困難,所以通過雲的模式可以使用到一些共性的分析服務。

FineReport報表與BI商業智慧工具【免費下載】opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。分享自:ZDNet

2015年9月9日星期三

別奢望巨量資料會為你做這10件事兒!

每個追尋巨量資料的組織機構都對它寄予厚望,希望它可以回答長期的業務問題,讓企業在市場中具有更多的競爭力,更好地交付產品和服務。然而在這種熱情之中,很容易產生對巨量資料的虛假期望——有些好處永遠不會實現,除非你藉助一定的「幫助」。以下就是巨量資料不會為你做的10件關鍵的事情,除非你採取正確的步驟來優化它的價值。

1、解決你的業務問題

巨量資料不會解決業務問題,解決問題的是人。只有那些在採用巨量資料之前冷靜地坐下來考慮他們想要從中獲得什麼的組織機構,才能獲得他們一直在尋求的商業智能的成果。

2、有助於你的資料管理

IBM聲稱全球每天會生成2.5億億個位元組的資料,其中大多數資料是巨量資料。不出所料,全球企業中受管理的資料正在成倍增長。隨著資料快速累積卻沒有明確的資料保留和使用策略(尤其是針對巨量資料),那麼機構組織就要面對管理這些資料的難題了。

3、緩解你的安全擔心

對於很多企業來說,確定對資料的安全訪問仍然是一個開放的話題。這是因為針對巨量資料的安全實踐,並不像系統記錄中的資料那樣已經限定好了。我們正處於這樣一個時間點,IT應該與終端用戶合作,確定誰可以訪問哪些巨量資料以及相應的分析結果。

4、解決關鍵IT技能領域

巨量資料資料庫管理、伺服器管理、軟體開發和業務分析技能都是供不應求的。這在很多IT部門已經匱乏的重要核心IT技能上有增加了額外的負擔。

5、減少遺留系統的價值

如果有的話,在巨量資料時代,記錄在案的遺留系統要比以往任何時候都更有價值。通常情況下,這些遺留系統為如何更好地剖析巨量資料提供了關鍵線索,讓資料分析可以回答重要的業務問題。

6、簡化你的資料中心

巨量資料要求並行處理計算集群和不同於傳統IT轉型的系統管理模式以及資料倉庫系統。這意味運行這些新系統所需的能耗、冷卻、軟體、硬體和系統技能也將是不同的。

7、改善你的資料質量

傳統事務處理系統的優點在於,會有固定的資料欄位長度,對資料的全面編輯和驗證,有助於讓其轉變為相對乾淨的格式。對於巨量資料並非如此,巨量資料是非結構化的,可以是任何一種格式。這讓巨量資料質量成為一大難題。資料質量是至關重要的。如果你沒有資料質量的話,你就無法信任資料查詢的結果。

8、驗證當前的投資回報率指標

從記錄系統中衡量投資回報的最常用方法就是監測交易的速度,然後推斷這在獲得收入方面意味著什麼(例如每分鐘你能獲得多少個新的酒店預定)。交易速度對於巨量資料處理來說並不是很好的指標,可能需要數小時甚至數天時間處理大規模資料並運行資料分析。相反,評估巨量資料處理效率的最好指標是利用率,這應該在定期基礎上高出90%(與交易系統相比,後者可能只有20%)。開發這些針對巨量資料的新ROI指標很重要,因為你仍然需要說服CFO和其他業務領導在巨量資料上進行投資。

9、減少「噪音」

巨量資料中95%都是「噪音」,對商業智慧貢獻很少或者幾乎沒有。過濾這些資料、獲得能真正幫助企業的情報將是一件艱巨的事情。

10、每次都管用

多年來,大學和研究中心運作了很多巨量資料實驗以得出基因組、藥物研究以及外星生命方面難以捉摸的答案。雖然這些演算法和查詢中很多會產生結果,但更多的是沒有定論的。大學和研究環境對於沒有定論是可以容忍的,但是在企業環境中就不行了。這是IT和其他關鍵決策者需要管理期望的所在。


FineReport報表與BI商業智慧工具【免費下載】opensource開發,類excel設計,全方位異質資料庫整合,資料填報、Flash列印、權限控制、行动應用、客制化、交互分析、報表協同作業管理系統。分享自:ZDNet