正文

05 統(tǒng)計(jì)學(xué)家的大數(shù)據(jù)“狂想曲”(2)

看穿一切數(shù)字的統(tǒng)計(jì)學(xué) 作者:(日)西內(nèi)啟


表2–1 專業(yè)術(shù)語(yǔ)簡(jiǎn)單介紹

數(shù)據(jù)挖掘 從已經(jīng)存在的大量數(shù)據(jù)中找出有價(jià)值的信息和假設(shè)的方法,被稱為數(shù)據(jù)挖掘。這種方法在擁有一定準(zhǔn)確度的前提下更加重視速度,通過(guò)重復(fù)比較簡(jiǎn)單的計(jì)算過(guò)程就能夠?qū)崿F(xiàn),所以應(yīng)用比較廣泛。最常見(jiàn)的例子是對(duì)超市的POS(銷售終端)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,結(jié)果顯示同時(shí)購(gòu)買尿片與啤酒的概率出人意料得高。

文本挖掘 對(duì)文字進(jìn)行數(shù)據(jù)分析的方法。將語(yǔ)言學(xué)的方法延展,使其也能夠應(yīng)用于商務(wù)活動(dòng)。通過(guò)被稱為語(yǔ)素分析(將文章拆分成單詞)的過(guò)程,對(duì)出現(xiàn)過(guò)的某些單詞,以及單詞之間的關(guān)聯(lián)性進(jìn)行分析。

Exadata

系統(tǒng) 常年以來(lái),一直占據(jù)數(shù)據(jù)庫(kù)業(yè)界老大地位的甲骨文公司經(jīng)過(guò)巨額收購(gòu)后終于完成的大數(shù)據(jù)相關(guān)主力商品。在軟件和硬件兩方面都能夠最快地分散數(shù)據(jù)進(jìn)行高速處理。性能和價(jià)格都很高。

Greenplum系統(tǒng) Exadata系統(tǒng)的競(jìng)爭(zhēng)對(duì)手。充分地利用了開(kāi)源技術(shù),比Exadata系統(tǒng)便宜很多,同時(shí)也能夠?qū)嫶蟮臄?shù)據(jù)進(jìn)行高速處理。

分散處理 對(duì)于難以處理的龐大數(shù)據(jù),如果分散到100臺(tái)服務(wù)器上分別處理,最后將結(jié)果統(tǒng)計(jì)一下就能夠得到比單一處理高100倍的效率。由于數(shù)據(jù)的構(gòu)造和計(jì)算程序算法的不同,想要實(shí)現(xiàn)“完美分散后統(tǒng)計(jì)結(jié)果”所消耗的時(shí)間也不同,這是這種方法最大的難點(diǎn)所在。

內(nèi)存

數(shù)據(jù)庫(kù) 為了提高數(shù)據(jù)讀寫(xiě)的速度,將數(shù)據(jù)記錄在內(nèi)存(RAM)上的方法。當(dāng)然,如果切斷電源數(shù)據(jù)就會(huì)消失,所以為了彌補(bǔ)這一缺陷嘗試使用SSD(固態(tài)硬盤(pán))和RAM相結(jié)合的方法。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)