2015年1月18日星期日

科學研究與大數據概念的濫用

突如 一夜春風來,千樹萬樹梨花開。2012年興起的「大數據」潮流,讓「data」這個IT圈子裡面的名詞一下風靡各個行業。可以說,沒有任何一個IT界的術 語能夠受到如此之大的關注和使用。除了傳統IT界以及和IT圈子相關的行業以外,各種如餐飲業、房地產業、金融業等都迫不及待的宣布了自己的」大數據「戰 略。
微軟研究院的《第四範式:數據密集型的科學研究》,將人類的科學研究從實驗型科學研究、理論型科學研究和模擬計算型科學研究三個範式的定義之後,推出了第四個範式,即數據密集型的科學研究。
大數據
所以,大數據的風潮不可避免的刮進了科學研究領域。
就在 這種全民熱炒的時代,還是有一群科技工作者保持著冷靜的。大數據這個名詞雖然是科學研究界最早提出來的,但是真正被推廣和使用的,都是在互聯網領域,特別 是對於大數據的公認的那些個V不管是最早的3V還是4V,到現在的11V,無一不是與互聯網所產生的數據洪流的特性相匹配的,科學研究界真的需要這些嗎?
大數據
首先,大數據從概念上講究數據的「快」,這裡的快可以是產生快、傳播快、變化快、處理速度快等。但是在科學研究領域,很多數據的並沒有這麼多快的概念。比如在地理信息相關的很多領域,如土地利用、土壤變化、行政區劃等信息中,多年不變,或者變化很少是很常見的現象。
其 次,關於維度的問題。大數據有一種思想,就是去收集更多的數據,不管這個數據是否目前能夠用得上,是否是我們目前所關注的信息,只要有可能,就去收集,不 怕全不怕多,就怕沒有(很多時候,很多公司和研究者,都進入一種為了數據而數據的走火入魔的狀態)。特別是NoSQL這種數據思想的流行,讓很多研究者高 呼「媽媽再也不用擔心我的數據存儲範式了……」。但是,我們知道在科學領域,首先要定義的就是你的科學研究目標,目標必須要界定清晰,那麼你的數據結構一 開始就要設計得符合你的研究目標,這樣才能有目的性的開展工作,如果不預先進行詳細界定和設計,在研究的過程中就會導致目標的弱化以至於迷失。
還有關於數據價值的問題。互聯網的數據可用「得來全不費工夫」來形容,特別是我們常用來舉例的推特、谷歌、臉書這樣的互聯網行業。但是科學研究的每一份數據都得來不易,無論是從實驗中獲取,還是實地考察採樣,每一份數據後面都可能有極其高昂的人力和時間成本。
獲取更多的數據,是一個理想的狀態,但是如果每一份數據都有很大的成本,要想在科學研究領域達到互聯網領域那種數據量,是一個幾乎無法完成的任務。
當然,《大數據時代》的思想來看,大數據的大並不是單純的數量龐大的概念,還包含有完整性分析的概念。
在科 研領域,獲取完全的數據,進行分析也是一個理想狀態。就從地理信息領域來看,採樣點以點方式存在,根據地理信息要素的概念,點要素只有(X,Y)的性質, 只表示位置,不能表示大小,所以不管怎麼進行採集,也無法鋪滿整個研究區域。所以各種以樣本來估算整體的演算法,在地理信息領域才如此重要,包括空間抽樣、 地統計分析等。
大數據是一種思想,但是在使用的過程中不能犯教條主義,不是數據量才加大數據,也不是符合各種V才叫大數據,我們需要在真正理解的情況下,去應用。正如小平同志說的:黑貓白貓,抓住老鼠,才是好貓!
FineReport報表免費下載——零編碼做報表、多維圖表、多源填報、許可權管理,完美兼容excel官網:http://www.finereport.com/tw/

没有评论:

发表评论