正文

《大數(shù)據(jù)時代》全數(shù)據(jù)模式,樣本=總體(1)

大數(shù)據(jù)時代 作者:(英)維克托·邁爾-舍恩伯格


在信息處理能力受限的時代,世界需要數(shù)據(jù)分析,卻缺少用來分析所收集數(shù)據(jù)的工具,因此隨機采樣應(yīng)運而生,它也可以被視為那個時代的產(chǎn)物。如今,計算和制表不再像過去一樣困難。感應(yīng)器、手機導(dǎo)航、網(wǎng)站點擊和 twitter被動地收集了大量數(shù)據(jù),而計算機可以輕易地對這些數(shù)據(jù)進行處理。

采樣的目的就是用最少的數(shù)據(jù)得到最多的信息。當(dāng)我們可以獲得海量數(shù)據(jù)的時候,它就沒有什么意義了。數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的改變,但我們的方法和思維卻沒有跟上這種改變。

然而,采樣一直有一個被我們廣泛承認卻又總有意避開的缺陷,現(xiàn)在這個缺陷越來越難以忽視了。采樣忽視了細節(jié)考察。雖然我們別無選擇,只能利用采樣分析法來進行考察,但是在很多領(lǐng)域,從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生了。如果可能的話,我們會收集所有的數(shù)據(jù),即“樣本 =總體”。

正如我們所看到的,“樣本 =總體”是指我們能對數(shù)據(jù)進行深度探討,而采樣幾乎無法達到這樣的效果。上面提到的有關(guān)采樣的例子證明,用采樣的方法分析整個人口的情況,正確率可達 97%。對于某些事物來說, 3%的錯誤率是可以接受的。但是你無法得到一些微觀細節(jié)的信息,甚至還會失去對某些特定子類別進行進一步研究的能力。正態(tài)分布是標(biāo)準(zhǔn)的。生活中真正有趣的事情經(jīng)常藏匿在細節(jié)之中,而采樣分析法卻無法捕捉到這些細節(jié)。

谷歌流感趨勢預(yù)測并不是依賴于對隨機樣本的分析,而是分析了整個美國幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個數(shù)據(jù)庫,而不是對一個樣本進行分析,能夠提高微觀層面分析的準(zhǔn)確性,甚至能夠推測出某個特定城市的流感狀況,而不只是一個州或是整個國家的情況。 Farecast的初始系統(tǒng)使用的樣本包含 12 000個數(shù)據(jù),所以取得了不錯的預(yù)測結(jié)果。但是隨著奧倫·埃齊奧尼不斷添加更多的數(shù)據(jù),預(yù)測的結(jié)果越來越準(zhǔn)確。最終, Farecast使用了每一條航線整整一年的價格數(shù)據(jù)來進行預(yù)測。埃齊奧尼說:“這只是一個暫時性的數(shù)據(jù),隨著你收集的數(shù)據(jù)越來越多,你的預(yù)測結(jié)果會越來越準(zhǔn)確?!?/p>

所以,我們現(xiàn)在經(jīng)常會放棄樣本分析這條捷徑,選擇收集全面而完整的數(shù)據(jù)。我們需要足夠的數(shù)據(jù)處理和存儲能力,也需要最先進的分析技術(shù)。同時,簡單廉價的數(shù)據(jù)收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現(xiàn)在,解決這些難題已經(jīng)變得簡單容易得多。曾經(jīng)只有大公司才能做到的事情,現(xiàn)在絕大部分的公司都可以做到了。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號