正文

《大數(shù)據(jù)時代》小數(shù)據(jù)時代的隨機采樣,最少的數(shù)據(jù)獲得最多的信息(1)

大數(shù)據(jù)時代 作者:(英)維克托·邁爾-舍恩伯格


直到最近,私人企業(yè)和個人才擁有了大規(guī)模收集和分類數(shù)據(jù)的能力。在過去,這是只有教會或者政府才能做到的。當然,在很多國家,教會和政府是等同的。有記載的、最早的計數(shù)發(fā)生在公元前 8000年的,當時蘇美爾的商人用黏土珠來記錄出售的商品。大規(guī)模的計數(shù)則是政府的事情。數(shù)千年來,政府都試圖通過收集信息來管理國民。

以人口普查為例。據(jù)說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都凱撒主導實施的人口普查,提出了“每個人都必須納稅”,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。 1086年的《末日審判書》(The Doomsday Book)對當時英國的人口、土地和財產做了一個前所未有的全面記載?;始椅瘑T穿越整個國家對每個人、每件事都做了記載,后來這本書用《圣經(jīng)》中的《末日審判書》命名,因為每個人的生活都被赤裸裸地記載下來的過程就像接受“最后的審判”一樣。

然而,人口普查是一項耗資且費時的事情。國王威廉一世(King William I)在他發(fā)起的《末日審判書》完成之前就去世了。但是,除非放棄收集信息,否則在當時沒有其他辦法。盡管如此,當時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準確記錄下每個人的信息。實際上,“人口普查”這個詞來源于拉丁語的“ censere”,意思就是推測、估算。

三百多年前,一個名叫約翰·格朗特(John Graunt)①的英國縫紉用品商提出了一個很有新意的方法。他采用了一個新方法推算出鼠疫時期倫敦的人口數(shù),這種方法就是后來的統(tǒng)計學。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。

雖然后來證實他能夠得出正確的數(shù)據(jù)僅僅是因為運氣好,但在當時他的方法大受歡迎。樣本分析法一直都有較大的漏洞,因此無論是進行人口普查還是其他大數(shù)據(jù)類的任務,人們還是一直使用具體計數(shù)這種“野蠻”的方法。

考慮到人口普查的復雜性以及耗時耗費的特點,政府極少進行普查。古羅馬人在人口以萬計數(shù)的時候每 5年普查一次。美國憲法規(guī)定每 10年進行一次人口普查,因為隨著國家人口越來越多,只能以百萬計數(shù)了。但是到 19世紀為止,即使這樣不頻繁的人口普查依然很困難,因為數(shù)據(jù)變化的速度超過了人口普查局統(tǒng)計分析的能力。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號