數(shù)字?jǐn)?shù)據(jù)的增長
希爾伯特研究發(fā)現(xiàn):全球數(shù)字?jǐn)?shù)據(jù)的數(shù)量每3年多就會翻一番,而模擬數(shù)據(jù)的數(shù)量則基本上沒有增加。2000年,世界上3/4的數(shù)據(jù)都是存儲在報紙、膠片、黑膠唱片和盒式磁帶這類媒介上的模擬數(shù)據(jù),數(shù)字存儲信息只占全球數(shù)據(jù)量的1/4。2002年,數(shù)字技術(shù)的全球數(shù)據(jù)存儲量首次超過模擬技術(shù)。而在2007年,只有7%的數(shù)據(jù)是存儲在報紙、圖書、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù)。預(yù)計到2013年,非數(shù)字?jǐn)?shù)據(jù)只占不到2%。1986~2007年,紙質(zhì)媒介存儲的數(shù)據(jù)在全球數(shù)據(jù)總量中的比重從33%降到了的0.007%。
電子書替代了紙質(zhì)書,數(shù)字影像替代了膠片影像,數(shù)字語音替代了模擬語音,數(shù)字視頻替代了模擬視頻,甚至公交卡替代了傳統(tǒng)的公交票,存儲在手機上的票據(jù)可以充當(dāng)電影票、登機牌……當(dāng)文本、圖像、聲音、視頻都可以用1和0表示,都能夠以數(shù)字格式記錄、存儲、編輯并傳播時,數(shù)據(jù)便開始全面進入我們工作和生活。信息生產(chǎn)和傳播變得更加簡單,通過計算機智能化地處理這些信息成為可能。
數(shù)字化的力量是強大的。2010年紙質(zhì)版《大英百科全書》,全套書售價1 395 美元,包含32冊,重達58.5千克。然而,它的全部內(nèi)容還裝不滿一個4G的U盤。有鑒于此,《大英百科全書》的出版社于2012年3月對外宣布,具有244年歷史的《大英百科全書》將不再推出紙質(zhì)版,內(nèi)容全面數(shù)字化。實際上,4年前,大英百科全書公司總裁喬治·考茨就曾表示,《大英百科全書》的網(wǎng)絡(luò)版和電子版的發(fā)行量已經(jīng)超過紙質(zhì)版,紙質(zhì)版的發(fā)行收入只占總收入的20%。
互聯(lián)網(wǎng)上運行的維基百科是數(shù)字化百科全書的代表,以此為例。在2001年,即維基百科創(chuàng)建的第一年,就創(chuàng)建了超過2萬個條目,平均每月1 500條。截至2013年8月,英文版的維基百科已有429萬多個條目,是《大英百科全書》的43倍。而全球所有282種語言獨立運作的維基百科版本共突破2 100萬個條目,總登記用戶超越3 200萬人,總編輯次數(shù)更是突破12億次。來自世界各地的參與者都可以編輯維基百科中的任何文章及條目,他們共同形成了一個免費的、動態(tài)的、自由開放的全球知識體。數(shù)字化正是實現(xiàn)這一切的基礎(chǔ)。
非結(jié)構(gòu)化數(shù)據(jù)的增長
有研究認為,組織一直在分析應(yīng)用的數(shù)據(jù)只占數(shù)據(jù)總量20%,這些數(shù)據(jù)主要是結(jié)構(gòu)化數(shù)據(jù),另外80%的數(shù)據(jù)并沒有得到很好的利用,這部分?jǐn)?shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù)。