“大象無形”出自老子的《道德經(jīng)》,可以理解為世界上最巍峨的氣勢往往并不拘泥于一定的規(guī)則和格局,而是表現(xiàn)出氣象萬千的形態(tài),無法捉摸。但在大數(shù)據(jù)時代,這種無法捕捉的“氣”和“形”也許會隨著技術(shù)的發(fā)展被描繪出來。
全景式觀察與盲人摸象
過去,隨機抽樣一直被公認為一種最有效率的數(shù)據(jù)搜集方法。樣本選擇的科學(xué)性比樣本數(shù)量更重要,統(tǒng)計學(xué)家這樣告訴我們?nèi)绾尉_預(yù)測。抽樣的目的是用最少的數(shù)據(jù)得到最準確的信息,抽樣的科學(xué)程度(尤其是樣本的隨機性和代表性)對于統(tǒng)計結(jié)果的準確性至關(guān)重要。在傳統(tǒng)數(shù)據(jù)思維下,尋找更大的樣本量根本沒有必要。因為當樣本量達到一定程度后,我們從新增的個體樣本上獲得的信息只會越來越少,呈現(xiàn)出邊際效應(yīng)遞減的規(guī)律。因此,并不是數(shù)據(jù)越大越好。
然而,統(tǒng)計學(xué)家們已經(jīng)開始抱怨抽樣方法的缺陷:它注定讓我們無法觀察事物全面的細節(jié),抽樣結(jié)果會受到主觀偏見的影響,有如盲人摸象。有人說,用抽樣的方法分析整體人口狀況時,正確率能達到97%,但也許正是那被忽略的3%會完全顛覆已有的結(jié)論,尤其是當我們想了解更深層次的微觀情況時,抽樣方法就有些愛莫能助了。例如,1 000人看似是一個比較大的樣本,但如果將研究對象細分至一線城市大齡單身女性,符合條件的可能只有10多個樣本。從這樣小規(guī)模的數(shù)據(jù)中,無法分析出任何有意義的結(jié)論。
即便不抽樣,動員大量人力、物力進行普查,也是在事先確定調(diào)研問題和被訪問人群后才開始執(zhí)行的。從有限的問卷題目中,注定只能看到事物的某幾個方面,無法獲得更加客觀和深入的信息。
以前由于缺乏存儲和處理全量數(shù)據(jù)的工具,我們通常把這種無奈看作理所當然。在大數(shù)據(jù)時代,“樣本=全體”的數(shù)據(jù)處理模式已經(jīng)成為可能。我們可以分析更多的數(shù)據(jù),而不再依賴于隨機抽樣。
谷歌可以提供谷歌流感趨勢的原因就在于它幾乎覆蓋了7成以上的北美網(wǎng)絡(luò)搜索市場,而在這些數(shù)據(jù)中,已經(jīng)完全沒有必要抽樣調(diào)查這些數(shù)據(jù):所有的記錄都在數(shù)據(jù)倉庫躺著等待人們挖掘和分析。