正文

什么是大數(shù)據(jù)(1)

智慧政府:大數(shù)據(jù)治國時代的來臨 作者:徐繼華


“人類歷史上最早的一批城市都誕生在河邊,河流為人類提供了食物、水和交通。而我們要做的就是創(chuàng)造一條數(shù)據(jù)的河流,滋養(yǎng)信息經(jīng)濟的發(fā)展。”

——紐約一家數(shù)據(jù)網(wǎng)站首頁的標語

什么是大數(shù)據(jù)

“大數(shù)據(jù)”一詞已經(jīng)無處不在,然而其概念仍然存在混淆。有人從數(shù)量大、速度快、種類多等特征定義大數(shù)據(jù);有人把大數(shù)據(jù)看作一項新技術,例如大數(shù)據(jù)處理技術Hadoop和非關系型數(shù)據(jù)庫NoSQL;有人從大數(shù)據(jù)與數(shù)據(jù)的區(qū)別角度提出,大數(shù)據(jù)不僅包括人們過去搜集、存儲和分析的交易數(shù)據(jù),更包括人們從點擊網(wǎng)頁等操作中得到的交互數(shù)據(jù)以及機器自動搜集的觀察數(shù)據(jù);還有人認為大數(shù)據(jù)是一種新的預測信號,在傳統(tǒng)情況下,當數(shù)據(jù)被記錄時,人們已經(jīng)無法對它們采取任何行動,組織在不斷管理“失效的數(shù)據(jù)”,而在“新世界”,組織可以使用信號數(shù)據(jù)預測將發(fā)生什么,并通過干預改善情況。

值得注意的是,無論如何定義,業(yè)界幾乎所有人都普遍認同,大數(shù)據(jù)不只是更多的數(shù)據(jù),大數(shù)據(jù)是一個大事件,在未來幾年將帶來重大的機遇。

大數(shù)據(jù)與數(shù)據(jù)有何不同

“大數(shù)據(jù)”一詞由英文“Big Data”翻譯而來。很多文章在介紹大數(shù)據(jù)這一概念時都側重于強調其“大”,即需要處理的信息量過大,已經(jīng)超出了一般計算機在處理數(shù)據(jù)時所能使用的內存量,因此工程師們必須改進處理數(shù)據(jù)的工具。

然而,究竟多大才算是大數(shù)據(jù)?這個問題并沒有標準答案,因為大數(shù)據(jù)的標準是不斷調整的。麥肯錫全球研究所報告對大數(shù)據(jù)有以下定義:大數(shù)據(jù)是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群。這個定義有意地帶有主觀性,即我們不以超過多少TB為大數(shù)據(jù)的標準。我們假設隨著時間的推移和技術的進步,大數(shù)據(jù)的量仍會增加。還應注意到,該定義可以因部門的不同而有所差異,這取決于什么類型的軟件工具是通用的,以及某個特定行業(yè)的數(shù)據(jù)集通常的大小。因此,今天眾多行業(yè)的大數(shù)據(jù)范圍可以從幾十TB到數(shù)千TB。

有人可能有這樣的疑問:大數(shù)據(jù)不就是數(shù)據(jù)分析的另一種說法嗎?大數(shù)據(jù)與數(shù)據(jù)究竟有何不同?大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)挖掘相比,與其說是一種量的進步,不如說是一種質的飛躍。人們在大數(shù)據(jù)的基礎上可以做到的事情,在小規(guī)模數(shù)據(jù)的基礎上是無法完成的。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號