“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關系,然而直到最近,我們對此似乎還是難以把握。 IBM的資深“大數(shù)據(jù)”專家杰夫·喬納斯( Jeff Jonas)提出要讓數(shù)據(jù)“說話”。從某種層面上來說,這聽起來很平常。人們使用數(shù)據(jù)已經(jīng)有相當長一段時間了,無論是日常進行的大量非正式觀察,還是過去幾個世紀里在專業(yè)層面上用高級算法進行的量化研究,都與數(shù)據(jù)有關。
在數(shù)字化時代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數(shù)據(jù)。但當我們談論能“說話”的數(shù)據(jù)時,我們指的遠遠不止這些。
實際上,大數(shù)據(jù)與三個重大的思維轉變有關,這三個轉變是相互聯(lián)系和相互作用的。
·首先,要分析與某事物相關的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。
·其次,我們樂于接受數(shù)據(jù)的紛繁復雜,而不再追求精確性。
·最后,我們的思想發(fā)生了轉變,不再探求難以捉摸的因果關系,轉而關注事物的相關關系。
本章就將介紹第一個轉變:利用所有的數(shù)據(jù),而不再僅僅依靠一小部分數(shù)據(jù)。
很長一段時間以來,準確分析大量數(shù)據(jù)對我們而言都是一種挑戰(zhàn)。過去,因為記錄、儲存和分析數(shù)據(jù)的工具不夠好,我們只能收集少量數(shù)據(jù)進行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數(shù)據(jù)量縮減到最少。這是一種無意識的自?。何覀儼雅c數(shù)據(jù)交流的困難看成是自然的,而沒有意識到這只是當時技術條件下的一種人為的限制。如今,技術條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,也永遠是有限的,但是我們可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會越來越多。
在某些方面,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力。我們還是在信息匱乏的假設下做很多事情,建立很多機構組織。我們假定自己只能收集到少量信息,結果就真的如此了。這是一個自我實現(xiàn)的過程。我們甚至發(fā)展了一些使用盡可能少的信息的技術。別忘了,統(tǒng)計學的一個目的就是用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn)。事實上,我們形成了一種習慣,那就是在我們的制度、處理過程和激勵機制中盡可能地減少數(shù)據(jù)的使用。為了理解大數(shù)據(jù)時代的轉變意味著什么,我們需要首先回顧一下過去。