注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)計(jì)算機(jī)科學(xué)理論與基礎(chǔ)知識(shí)重構(gòu)大數(shù)據(jù)統(tǒng)計(jì)

重構(gòu)大數(shù)據(jù)統(tǒng)計(jì)

重構(gòu)大數(shù)據(jù)統(tǒng)計(jì)

定 價(jià):¥79.00

作 者: 楊旭 著
出版社: 電子工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)叢書 阿里巴巴集團(tuán)技術(shù)叢書
標(biāo) 簽: 計(jì)算機(jī)理論、基礎(chǔ)知識(shí) 計(jì)算機(jī)與互聯(lián)網(wǎng)

ISBN: 9787121225000 出版時(shí)間: 2014-08-01 包裝: 平裝
開本: 16開 頁數(shù): 404 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  基于《重構(gòu)大數(shù)據(jù)統(tǒng)計(jì)》內(nèi)容開發(fā)的數(shù)據(jù)分析工具已經(jīng)在阿里巴巴集團(tuán)內(nèi)部的多個(gè)部門使用,取得顯著效果。大數(shù)據(jù)的統(tǒng)計(jì)計(jì)算是進(jìn)行數(shù)據(jù)探索和分析挖掘的基礎(chǔ),在實(shí)際應(yīng)用中會(huì)遇到兩個(gè)問題:一個(gè)是需要使用多少資源;另一個(gè)是計(jì)算時(shí)間,它關(guān)系到數(shù)據(jù)探索分析的效率和效果。人們都希望花更少的錢,并且計(jì)算時(shí)間更短,但對(duì)于某個(gè)確定的計(jì)算過程,它們是成反比的?!吨貥?gòu)大數(shù)據(jù)統(tǒng)計(jì)》就是從統(tǒng)計(jì)計(jì)算的算法入手,重構(gòu)其計(jì)算過程,從而同時(shí)降低資源使用量和計(jì)算時(shí)間。《重構(gòu)大數(shù)據(jù)統(tǒng)計(jì)》提出了一套完整的關(guān)于大數(shù)據(jù)統(tǒng)計(jì)的計(jì)算理論,包括常用的各種統(tǒng)計(jì)量和統(tǒng)計(jì)方法?!吨貥?gòu)大數(shù)據(jù)統(tǒng)計(jì)》還提供大量的示例程序代碼幫助讀者進(jìn)一步了解算法細(xì)節(jié),便于將書中的方法運(yùn)用于實(shí)際計(jì)算。

作者簡(jiǎn)介

  楊旭,2004年獲南開大學(xué)數(shù)學(xué)博士學(xué)位,之后在南開大學(xué)信息學(xué)院從事博士后研究工作。2006年加入微軟亞洲研究院,進(jìn)行符號(hào)計(jì)算、大規(guī)模矩陣計(jì)算及機(jī)器學(xué)習(xí)算法研究;2010年加入阿里巴巴,從事大數(shù)據(jù)相關(guān)的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法研發(fā)。

圖書目錄

第1章基本概念 1
1.1 數(shù)據(jù)類型 1
1.2 總體和樣本 2
1.3 參數(shù)和統(tǒng)計(jì)量 2
1.4 分布式計(jì)算 3
第2章單變量基本統(tǒng)計(jì)量 5
2.1 數(shù)量統(tǒng)計(jì)量 5
2.1.1 樣本方差為何除以n-1 7
2.1.2 數(shù)據(jù)分布與標(biāo)準(zhǔn)差的關(guān)系 10
2.1.3 新的計(jì)算公式 11
2.1.4 代碼實(shí)現(xiàn) 16
2.2 頻數(shù)統(tǒng)計(jì)量 18
2.3 次序統(tǒng)計(jì)量 23
2.3.1 通過排序方法計(jì)算次序統(tǒng)計(jì)量 25
2.3.2 不需排序就可計(jì)算的次序統(tǒng)計(jì)量 29
2.3.3 基于頻數(shù)信息計(jì)算次序統(tǒng)計(jì)量 31
2.3.4 中位數(shù)、眾數(shù)和均值的關(guān)系 34
第3章單變量數(shù)據(jù)的分布 36
3.1 直方圖 36
3.1.1 直方圖的計(jì)算 39
3.1.2 算法實(shí)現(xiàn) 42
3.1.3 已知數(shù)據(jù)頻數(shù)的情況下求直方圖 49
3.1.4 日期類型直方圖 49
3.2 經(jīng)驗(yàn)分布 57
3.3 近似分位數(shù)和近似百分位數(shù) 61
3.4 PP、QQ概率圖 65
3.5 單變量的基本統(tǒng)計(jì)信息 69
第4章多變量的數(shù)據(jù)特征 77
4.1 協(xié)方差 77
4.2 相關(guān)系數(shù) 79
4.3 協(xié)方差和相關(guān)系數(shù)的計(jì)算實(shí)現(xiàn) 80
4.4 數(shù)據(jù)表的基本統(tǒng)計(jì)結(jié)果 84
第5章數(shù)據(jù)探索 88
5.1 擴(kuò)展直方圖 88
5.1.1 計(jì)算方法 90
5.1.2 代碼實(shí)現(xiàn) 91
5.2 交叉表 110
第6章極限定理 116
6.1 大數(shù)定理 116
6.2 中心極限定理 117
第7章常用的分布函數(shù)介紹 123
7.1 基本定義 123
7.2 標(biāo)準(zhǔn)正態(tài)分布(Z分布或U分布) 124
7.3 卡方分布(χ^2分布) 129
7.4 學(xué)生T分布 133
7.5 F分布 139
第8章常用分布函數(shù)計(jì)算 145
8.1 函數(shù)定義 145
8.2 函數(shù)性質(zhì)及相互間的關(guān)系 147
8.3 分布函數(shù)關(guān)系圖 164
8.4 分布函數(shù)的計(jì)算 166
8.4.1 計(jì)算Γ(x) 166
8.4.2 計(jì)算CDF_Γ 170
8.4.3 計(jì)算CDF_Β 173
8.4.4 計(jì)算IDF_Γ和CDF_Β 176
8.4.5 其他函數(shù)的計(jì)算 178
8.5 生成常用分布的隨機(jī)數(shù) 180
第9章參數(shù)估計(jì) 187
9.1 點(diǎn)估計(jì)與區(qū)間估計(jì) 187
9.2 單個(gè)總體的參數(shù)估計(jì) 190
9.2.1 不同情況的參數(shù)估計(jì)表達(dá)式 190
9.2.2 單個(gè)總體參數(shù)估計(jì)的實(shí)現(xiàn) 191
9.3 兩個(gè)總體的參數(shù)估計(jì) 196
9.3.1 不同情況的參數(shù)估計(jì)表達(dá)式 196
9.3.2 兩個(gè)總體參數(shù)估計(jì)的實(shí)現(xiàn) 199
第10章假設(shè)檢驗(yàn) 207
10.1 基本概念 207
10.2 參數(shù)檢驗(yàn) 209
10.3 單個(gè)總體參數(shù)的檢驗(yàn) 212
10.3.1 各種情況下的檢驗(yàn)方法 212
10.3.2 單個(gè)總體參數(shù)檢驗(yàn)方法的實(shí)現(xiàn) 214
10.3.3 不同檢驗(yàn)方法的選擇 223
10.4 兩個(gè)總體參數(shù)的檢驗(yàn) 227
10.4.1 各種情況下的檢驗(yàn)方法 227
10.4.2 兩個(gè)總體參數(shù)檢驗(yàn)方法的實(shí)現(xiàn) 231
10.4.3 不同檢驗(yàn)方法的選擇 237
第11章非參數(shù)檢驗(yàn) 244
11.1 Pearson擬合優(yōu)度χ^2檢驗(yàn) 245
11.2 兩個(gè)變量的列聯(lián)表檢驗(yàn) 248
11.3 K-S檢驗(yàn) 250
11.3.1 單樣本K-S檢驗(yàn) 251
11.3.2 雙樣本K-S檢驗(yàn) 256
11.4 符號(hào)檢驗(yàn) 258
11.5 秩統(tǒng)計(jì)量和秩檢驗(yàn)方法 260
11.5.1 Wilcoxon秩和檢驗(yàn) 260
11.5.2 Wilcoxon符號(hào)秩和檢驗(yàn) 266
11.5.3 Kruskal-Wallis檢驗(yàn) 268
11.5.4 Friedman檢驗(yàn) 273
第12章方差分析 277
12.1 單因素方差分析 278
12.1.1 計(jì)算流程 278
12.1.2 代碼實(shí)現(xiàn) 280
12.1.3 方差分析與T檢驗(yàn)的關(guān)系 283
12.1.4 方差分析中的多重比較方法 285
12.2 雙因素方差分析 289
12.2.1 無交互作用的雙因素方差分析 289
12.2.2 有交互作用的雙因素方差分析 295
第13章多元線性回歸 302
13.1 數(shù)學(xué)模型 302
13.2 顯著性檢驗(yàn) 308
13.3 計(jì)算步驟 309
13.4 代碼實(shí)現(xiàn) 313
13.5 多重共線性 320
13.5.1 度量指標(biāo) 320
13.5.2 代碼實(shí)現(xiàn) 323
13.5.3 應(yīng)用示例 328
13.6 逐步回歸 330
第14章主成分分析 340
14.1 計(jì)算步驟 342
14.2 代碼實(shí)現(xiàn) 345
14.3 應(yīng)用舉例 350
第15章判別分析 359
15.1 距離判別 359
15.1.1 Mahalanobis距離 360
15.1.2 模型訓(xùn)練和預(yù)測(cè) 361
15.2 Fisher判別 364
15.3 Bayes判別 369
15.3.1 樸素Bayes判別 369
15.3.2 模型訓(xùn)練和預(yù)測(cè) 370
15.4 判別算法的綜合模型 377
15.5 應(yīng)用舉例 378
第16章模型評(píng)估曲線 383
16.1 相關(guān)概念 383
16.2 定義 384
16.2.1 ROC曲線 384
16.2.2 上升圖和反饋率―精確率線 386
16.3 計(jì)算實(shí)現(xiàn) 386
參考文獻(xiàn) 391

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)