在线兔费欧美黄色网站,亚洲国产成人高清在线播放

“大象無形”出自老子的《道德經(jīng)》，可以理解為世界上最巍峨的氣勢往往并不拘泥于一定的規(guī)則和格局，而是表現(xiàn)出氣象萬千的形態(tài)，無法捉摸。但在大數(shù)據(jù)時代，這種無法捕捉的“氣”和“形”也許會隨著技術(shù)的發(fā)展被描繪出來。

全景式觀察與盲人摸象

過去，隨機(jī)抽樣一直被公認(rèn)為一種最有效率的數(shù)據(jù)搜集方法。樣本選擇的科學(xué)性比樣本數(shù)量更重要，統(tǒng)計學(xué)家這樣告訴我們?nèi)绾尉_預(yù)測。抽樣的目的是用最少的數(shù)據(jù)得到最準(zhǔn)確的信息，抽樣的科學(xué)程度（尤其是樣本的隨機(jī)性和代表性）對于統(tǒng)計結(jié)果的準(zhǔn)確性至關(guān)重要。在傳統(tǒng)數(shù)據(jù)思維下，尋找更大的樣本量根本沒有必要。因?yàn)楫?dāng)樣本量達(dá)到一定程度后，我們從新增的個體樣本上獲得的信息只會越來越少，呈現(xiàn)出邊際效應(yīng)遞減的規(guī)律。因此，并不是數(shù)據(jù)越大越好。

然而，統(tǒng)計學(xué)家們已經(jīng)開始抱怨抽樣方法的缺陷：它注定讓我們無法觀察事物全面的細(xì)節(jié)，抽樣結(jié)果會受到主觀偏見的影響，有如盲人摸象。有人說，用抽樣的方法分析整體人口狀況時，正確率能達(dá)到97%，但也許正是那被忽略的3%會完全顛覆已有的結(jié)論，尤其是當(dāng)我們想了解更深層次的微觀情況時，抽樣方法就有些愛莫能助了。例如，1 000人看似是一個比較大的樣本，但如果將研究對象細(xì)分至一線城市大齡單身女性，符合條件的可能只有10多個樣本。從這樣小規(guī)模的數(shù)據(jù)中，無法分析出任何有意義的結(jié)論。

即便不抽樣，動員大量人力、物力進(jìn)行普查，也是在事先確定調(diào)研問題和被訪問人群后才開始執(zhí)行的。從有限的問卷題目中，注定只能看到事物的某幾個方面，無法獲得更加客觀和深入的信息。

以前由于缺乏存儲和處理全量數(shù)據(jù)的工具，我們通常把這種無奈看作理所當(dāng)然。在大數(shù)據(jù)時代，“樣本=全體”的數(shù)據(jù)處理模式已經(jīng)成為可能。我們可以分析更多的數(shù)據(jù)，而不再依賴于隨機(jī)抽樣。

谷歌可以提供谷歌流感趨勢的原因就在于它幾乎覆蓋了7成以上的北美網(wǎng)絡(luò)搜索市場，而在這些數(shù)據(jù)中，已經(jīng)完全沒有必要抽樣調(diào)查這些數(shù)據(jù)：所有的記錄都在數(shù)據(jù)倉庫躺著等待人們挖掘和分析。