正文

龐雜贏得勝利(1)

智慧政府:大數(shù)據(jù)治國(guó)時(shí)代的來(lái)臨 作者:徐繼華


“大象無(wú)形”出自老子的《道德經(jīng)》,可以理解為世界上最巍峨的氣勢(shì)往往并不拘泥于一定的規(guī)則和格局,而是表現(xiàn)出氣象萬(wàn)千的形態(tài),無(wú)法捉摸。但在大數(shù)據(jù)時(shí)代,這種無(wú)法捕捉的“氣”和“形”也許會(huì)隨著技術(shù)的發(fā)展被描繪出來(lái)。

全景式觀(guān)察與盲人摸象

過(guò)去,隨機(jī)抽樣一直被公認(rèn)為一種最有效率的數(shù)據(jù)搜集方法。樣本選擇的科學(xué)性比樣本數(shù)量更重要,統(tǒng)計(jì)學(xué)家這樣告訴我們?nèi)绾尉_預(yù)測(cè)。抽樣的目的是用最少的數(shù)據(jù)得到最準(zhǔn)確的信息,抽樣的科學(xué)程度(尤其是樣本的隨機(jī)性和代表性)對(duì)于統(tǒng)計(jì)結(jié)果的準(zhǔn)確性至關(guān)重要。在傳統(tǒng)數(shù)據(jù)思維下,尋找更大的樣本量根本沒(méi)有必要。因?yàn)楫?dāng)樣本量達(dá)到一定程度后,我們從新增的個(gè)體樣本上獲得的信息只會(huì)越來(lái)越少,呈現(xiàn)出邊際效應(yīng)遞減的規(guī)律。因此,并不是數(shù)據(jù)越大越好。

然而,統(tǒng)計(jì)學(xué)家們已經(jīng)開(kāi)始抱怨抽樣方法的缺陷:它注定讓我們無(wú)法觀(guān)察事物全面的細(xì)節(jié),抽樣結(jié)果會(huì)受到主觀(guān)偏見(jiàn)的影響,有如盲人摸象。有人說(shuō),用抽樣的方法分析整體人口狀況時(shí),正確率能達(dá)到97%,但也許正是那被忽略的3%會(huì)完全顛覆已有的結(jié)論,尤其是當(dāng)我們想了解更深層次的微觀(guān)情況時(shí),抽樣方法就有些愛(ài)莫能助了。例如,1 000人看似是一個(gè)比較大的樣本,但如果將研究對(duì)象細(xì)分至一線(xiàn)城市大齡單身女性,符合條件的可能只有10多個(gè)樣本。從這樣小規(guī)模的數(shù)據(jù)中,無(wú)法分析出任何有意義的結(jié)論。

即便不抽樣,動(dòng)員大量人力、物力進(jìn)行普查,也是在事先確定調(diào)研問(wèn)題和被訪(fǎng)問(wèn)人群后才開(kāi)始執(zhí)行的。從有限的問(wèn)卷題目中,注定只能看到事物的某幾個(gè)方面,無(wú)法獲得更加客觀(guān)和深入的信息。

以前由于缺乏存儲(chǔ)和處理全量數(shù)據(jù)的工具,我們通常把這種無(wú)奈看作理所當(dāng)然。在大數(shù)據(jù)時(shí)代,“樣本=全體”的數(shù)據(jù)處理模式已經(jīng)成為可能。我們可以分析更多的數(shù)據(jù),而不再依賴(lài)于隨機(jī)抽樣。

谷歌可以提供谷歌流感趨勢(shì)的原因就在于它幾乎覆蓋了7成以上的北美網(wǎng)絡(luò)搜索市場(chǎng),而在這些數(shù)據(jù)中,已經(jīng)完全沒(méi)有必要抽樣調(diào)查這些數(shù)據(jù):所有的記錄都在數(shù)據(jù)倉(cāng)庫(kù)躺著等待人們挖掘和分析。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)