通過使用所有的數(shù)據(jù),我們可以發(fā)現(xiàn)如若不然則將會在大量數(shù)據(jù)中淹沒掉的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數(shù)據(jù)才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。這是一個大數(shù)據(jù)問題。而且,因為交易是即時的,所以你的數(shù)據(jù)分析也應該是即時的。
大數(shù)據(jù)先鋒
Xoom與跨境匯款異常交易報警
Xoom是一個專門從事跨境匯款業(yè)務(wù)的公司,它得到了很多擁有大數(shù)據(jù)的大公司的支持。它會分析一筆交易的所有相關(guān)數(shù)據(jù),一旦發(fā)現(xiàn)用“發(fā)現(xiàn)卡”從新澤西州匯款的交易比平常多的話,系統(tǒng)就會報警。 Xoom公司的首席執(zhí)行官約翰·孔澤(John Kunze)解釋說:“這個系統(tǒng)關(guān)注的是不應該出現(xiàn)的情況?!眴为殎砜?,每筆交易都是合法的,但是事實證明這是一個犯罪集團在試圖詐騙。而發(fā)現(xiàn)異常的唯一方法就是,重新檢查所有的數(shù)據(jù),找出樣本分析法錯過的信息。然而,使用所有的數(shù)據(jù)并不代表這是一項艱巨的任務(wù)。大數(shù)據(jù)中的“大”不是絕對意義上的大,雖然在大多數(shù)情況下是這個意思。谷歌流感趨勢預測建立在數(shù)億的數(shù)學模型上,而它們又建立在數(shù)十億數(shù)據(jù)節(jié)點的基礎(chǔ)之上。完整的人體基因組有約 30億個堿基對。但這只是單純的數(shù)據(jù)節(jié)點的絕對數(shù)量,并不代表它們就是大數(shù)據(jù)。大數(shù)據(jù)是指不用隨機分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。谷歌流感趨勢和喬布斯的醫(yī)生們采取的就是大數(shù)據(jù)的方法。
日本國民體育運動“相撲”中非法操縱比賽結(jié)果的發(fā)現(xiàn),就恰到好處地說明了使用“樣本 =總體”這種全數(shù)據(jù)模式的重要性。消極比賽一直被極力禁止,備受譴責,很多運動員深受困擾。芝加哥大學的一位很有前途的經(jīng)濟學家斯蒂夫·列維特( Steven Levitt),在《美國經(jīng)濟評論》上發(fā)表了一篇研究論文,其中提到了一種發(fā)現(xiàn)這個情況的方法:查看運動員過去所有的比賽資料。他的暢銷書《魔鬼經(jīng)濟學》(Freakonomics)中也提到了這個觀點,他認為檢查所有的數(shù)據(jù)是非常有價值的。
列維特和他的同事馬克·達根( Mark Duggan)使用了 11年中超過 64 000場摔跤比賽的記錄,來尋找異常性。他們獲得了重大的發(fā)現(xiàn)。非法操縱比賽結(jié)果的情況確實時有發(fā)生,但是不會出現(xiàn)在大家很關(guān)注的比賽上。冠軍賽也有可能被操縱,但是數(shù)據(jù)顯示消極比賽主要還是出現(xiàn)在不太被關(guān)注的聯(lián)賽的后幾場中。這時基本上沒有什么風險,因為選手根本就沒有獲獎的希望。