注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)

白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)

白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)

定 價(jià):¥69.00

作 者: 高揚(yáng),衛(wèi)崢,尹會(huì)生
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 編程語言與程序設(shè)計(jì) 計(jì)算機(jī)?網(wǎng)絡(luò)

ISBN: 9787111538479 出版時(shí)間: 2016-07-01 包裝: 平裝
開本: 16開 頁數(shù): 329 字?jǐn)?shù):  

內(nèi)容簡介

  資深大數(shù)據(jù)專家多年實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié),拒絕晦澀,開啟大數(shù)據(jù)與機(jī)器學(xué)習(xí)妙趣之旅。以降低學(xué)習(xí)曲線和閱讀難度為宗旨,系統(tǒng)講解統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘算法、實(shí)際應(yīng)用案例、數(shù)據(jù)價(jià)值與變現(xiàn),以及高級(jí)拓展技能,并清晰勾勒出大數(shù)據(jù)技術(shù)路線與產(chǎn)業(yè)藍(lán)圖。本書共分18章。用通俗易懂的語言,結(jié)合大量案例與漫畫,不枯燥,實(shí)用、接地氣。第1~5章,這部分是大數(shù)據(jù)入門所需的系統(tǒng)性知識(shí),剖析大數(shù)據(jù)產(chǎn)業(yè)、數(shù)據(jù)與信息算法等的關(guān)系,妙解數(shù)學(xué)基礎(chǔ)(排列組合、概率、統(tǒng)計(jì)與分布),以及指標(biāo)化運(yùn)營及體系構(gòu)建。這部分補(bǔ)足讀者的產(chǎn)業(yè)與相關(guān)概念認(rèn)知,以及所需的數(shù)學(xué)知識(shí)。為下面的數(shù)據(jù)挖掘算法的理解與應(yīng)用夯實(shí)基礎(chǔ)。第6~8章,這部分介紹數(shù)據(jù)挖掘基礎(chǔ)知識(shí)與算法,講解了與數(shù)據(jù)息息相關(guān)的信息論,重點(diǎn)講解了:多維向量空間(向量和維度、矩陣及其計(jì)算、上卷和下鉆);回歸(線性回歸、殘差分析、擬合相關(guān)問題);聚類(K-Means算法、有趣模式、孤立點(diǎn)、層次與密度聚類,聚類的評(píng)估等);分類(樸素貝葉斯、決策樹歸納、隨機(jī)森林、隱馬爾科夫模型、SVM、遺傳算法)。第11~18章,這部分介紹生產(chǎn)應(yīng)用與高級(jí)擴(kuò)展。其中第11~15章介紹生產(chǎn)應(yīng)用實(shí)踐,涵蓋關(guān)聯(lián)分析、用戶畫像、推薦算法、文本挖掘、人工神經(jīng)網(wǎng)絡(luò)。這些也是工業(yè)界和學(xué)術(shù)界研究的熱點(diǎn)。第16章講解了著名的大數(shù)據(jù)框架及其安裝與配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章從速度與穩(wěn)定性維度介紹了大數(shù)據(jù)系統(tǒng)的架構(gòu)與調(diào)優(yōu)。第18章則從數(shù)據(jù)運(yùn)營、評(píng)估、展現(xiàn)與變現(xiàn)場景層面進(jìn)行了解讀。附錄部分給出了大數(shù)據(jù)平臺(tái)運(yùn)行可能需要的軟件和庫,以及群眾如何看待炙手可熱的大數(shù)據(jù)。

作者簡介

  高揚(yáng),金山軟件西山居資深大數(shù)據(jù)架構(gòu)師與大數(shù)據(jù)專家,有多年編程經(jīng)驗(yàn)(多年日本和澳洲工作經(jīng)驗(yàn))和多年大數(shù)據(jù)架構(gòu)設(shè)計(jì)與數(shù)據(jù)分析、處理經(jīng)驗(yàn),目前負(fù)責(zé)西山居的大數(shù)據(jù)產(chǎn)品市場戰(zhàn)略與產(chǎn)品戰(zhàn)略。專注于大數(shù)據(jù)系統(tǒng)架構(gòu)以及變現(xiàn)研究。擅長數(shù)據(jù)挖掘、數(shù)據(jù)建模、關(guān)系型數(shù)據(jù)庫應(yīng)用以及大數(shù)據(jù)框架Hadoop、Spark、Cassandra、Prestodb等的應(yīng)用。負(fù)責(zé)西山居紫霞系統(tǒng)——大數(shù)據(jù)日志處理系統(tǒng)的系統(tǒng)架構(gòu)與設(shè)計(jì)工作。衛(wèi)崢,西山居軟件架構(gòu)師,多年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),精通C/C++、Python、Golang、JavaScript等多門編程語言,近幾年專注于數(shù)據(jù)處理、機(jī)器學(xué)算法的研究、應(yīng)用與服務(wù)研發(fā)。曾在新浪網(wǎng)平臺(tái)架構(gòu)部負(fù)責(zé)音視頻轉(zhuǎn)碼平臺(tái)的架構(gòu)和研發(fā)工作,為新浪微博,新浪微盤,秒拍等提供視頻在線觀看服務(wù)。51CTO講師,個(gè)人出品的教學(xué)視頻:

圖書目錄

第1章大數(shù)據(jù)產(chǎn)業(yè)1
  1.1大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)狀1
  1.2對(duì)大數(shù)據(jù)產(chǎn)業(yè)的理解2
  1.3大數(shù)據(jù)人才3
  1.3.1供需失衡3
  1.3.2人才方向3
  1.3.3環(huán)節(jié)和工具5
  1.3.4門檻障礙6
  1.4小結(jié)8
  第2章步入數(shù)據(jù)之門9
  2.1什么是數(shù)據(jù)9
  2.2什么是信息10
  2.3什么是算法12
  2.4統(tǒng)計(jì)、概率和數(shù)據(jù)挖掘13
  2.5什么是商業(yè)智能13
  2.6小結(jié)14
  第3章排列組合與古典概型15
  3.1排列組合的概念16
  3.1.1公平的決斷——扔硬幣16
  3.1.2非古典概型17
  3.2排列組合的應(yīng)用示例18
  3.2.1雙色球彩票18
  3.2.2購車搖號(hào)20
  3.2.3德州撲克21
  3.3小結(jié)25
  第4章統(tǒng)計(jì)與分布27
  4.1加和值、平均值和標(biāo)準(zhǔn)差27
  4.1.1加和值28
  4.1.2平均值29
  4.1.3標(biāo)準(zhǔn)差30
  4.2加權(quán)均值32
  4.2.1混合物定價(jià)32
  4.2.2決策權(quán)衡34
  4.3眾數(shù)、中位數(shù)35
  4.3.1眾數(shù)36
  4.3.2中位數(shù)37
  4.4歐氏距離37
  4.5曼哈頓距離39
  4.6同比和環(huán)比41
  4.7抽樣43
  4.8高斯分布45
  4.9泊松分布49
  4.10伯努利分布52
  4.11小結(jié)54
  第5章指標(biāo)55
  5.1什么是指標(biāo)55
  5.2指標(biāo)化運(yùn)營58
  5.2.1指標(biāo)的選擇58
  5.2.2指標(biāo)體系的構(gòu)建62
  5.3小結(jié)63
  第6章信息論64
  6.1信息的定義64
  6.2信息量65
  6.2.1信息量的計(jì)算65
  6.2.2信息量的理解66
  6.3香農(nóng)公式68
  6.4熵70
  6.4.1熱力熵70
  6.4.2信息熵72
  6.5小結(jié)75
  第7章多維向量空間76
  7.1向量和維度76
  7.1.1信息冗余77
  7.1.2維度79
  7.2矩陣和矩陣計(jì)算80
  7.3數(shù)據(jù)立方體83
  7.4上卷和下鉆85
  7.5小結(jié)86
  第8章回歸87
  8.1線性回歸87
  8.2擬合88
  8.3殘差分析94
  8.4過擬合99
  8.5欠擬合100
  8.6曲線擬合轉(zhuǎn)化為線性擬合101
  8.7小結(jié)104
  第9章聚類105
  9.1K-Means算法106
  9.2有趣模式109
  9.3孤立點(diǎn)110
  9.4層次聚類110
  9.5密度聚類113
  9.6聚類評(píng)估116
  9.6.1聚類趨勢(shì)117
  9.6.2簇?cái)?shù)確定119
  9.6.3測定聚類質(zhì)量121
  9.7小結(jié)124
  第10章分類125
  10.1樸素貝葉斯126
  10.1.1天氣的預(yù)測128
  10.1.2疾病的預(yù)測130
  10.1.3小結(jié)132
  10.2決策樹歸納133
  10.2.1樣本收集135
  10.2.2信息增益136
  10.2.3連續(xù)型變量137
  10.3隨機(jī)森林140
  10.4隱馬爾可夫模型141
  10.4.1維特比算法144
  10.4.2前向算法151
  10.5支持向量機(jī)SVM154
  10.5.1年齡和好壞154
  10.5.2“下刀”不容易157
  10.5.3距離有多遠(yuǎn)158
  10.5.4N維度空間中的距離159
  10.5.5超平面怎么畫160
  10.5.6分不開怎么辦160
  10.5.7示例163
  10.5.8小結(jié)164
  10.6遺傳算法164
  10.6.1進(jìn)化過程164
  10.6.2算法過程165
  10.6.3背包問題165
  10.6.4極大值問題173
  10.7小結(jié)181
  第11章關(guān)聯(lián)分析183
  11.1頻繁模式和Apriori算法184
  11.1.1頻繁模式184
  11.1.2支持度和置信度185
  11.1.3經(jīng)典的Apriori算法187
  11.1.4求出所有頻繁模式190
  11.2關(guān)聯(lián)分析與相關(guān)性分析192
  11.3稀有模式和負(fù)模式193
  11.4小結(jié)194
  第12章用戶畫像195
  12.1標(biāo)簽195
  12.2畫像的方法196
  12.2.1結(jié)構(gòu)化標(biāo)簽196
  12.2.2非結(jié)構(gòu)化標(biāo)簽198
  12.3利用用戶畫像203
  12.3.1割裂型用戶畫像203
  12.3.2緊密型用戶畫像204
  12.3.3到底“像不像”204
  12.4小結(jié)205
  第13章推薦算法206
  13.1推薦思路206
  13.1.1貝葉斯分類206
  13.1.2利用搜索記錄207
  13.2User-basedCF209
  13.3Item-basedCF211
  13.4優(yōu)化問題215
  13.5小結(jié)217
  第14章文本挖掘218
  14.1文本挖掘的領(lǐng)域218
  14.2文本分類219
  14.2.1Rocchio算法220
  14.2.2樸素貝葉斯算法223
  14.2.3K-近鄰算法225
  14.2.4支持向量機(jī)SVM算法226
  14.3小結(jié)227
  第15章人工神經(jīng)網(wǎng)絡(luò)228
  15.1人的神經(jīng)網(wǎng)絡(luò)228
  15.1.1神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)229
  15.1.2結(jié)構(gòu)模擬230
  15.1.3訓(xùn)練與工作231
  15.2FANN庫簡介233
  15.3常見的神經(jīng)網(wǎng)絡(luò)235
  15.4BP神經(jīng)網(wǎng)絡(luò)235
  15.4.1結(jié)構(gòu)和原理236
  15.4.2訓(xùn)練過程237
  15.4.3過程解釋240
  15.4.4示例240
  15.5玻爾茲曼機(jī)244
  15.5.1退火模型244
  15.5.2玻爾茲曼機(jī)245
  15.6卷積神經(jīng)網(wǎng)絡(luò)247
  15.6.1卷積248
  15.6.2圖像識(shí)別249
  15.7深度學(xué)習(xí)255
  15.8小結(jié)256
  第16章大數(shù)據(jù)框架簡介257
  16.1著名的大數(shù)據(jù)框架257
  16.2Hadoop框架258
  16.2.1MapReduce原理259
  16.2.2安裝Hadoop261
  16.2.3經(jīng)典的WordCount264
  16.3Spark框架269
  16.3.1安裝Spark270
  16.3.2使用Scala計(jì)算WordCount271
  16.4分布式列存儲(chǔ)框架272
  16.5PrestoDB——神奇的CLI273
  16.5.1Presto為什么那么快273
  16.5.2安裝Presto274
  16.6小結(jié)277
  第17章系統(tǒng)架構(gòu)和調(diào)優(yōu)278
  17.1速度——資源的配置278
  17.1.1思路一:邏輯層面的優(yōu)化279
  17.1.2思路二:容器層面的優(yōu)化279
  17.1.3思路三:存儲(chǔ)結(jié)構(gòu)層面的優(yōu)化280
  17.1.4思路四:環(huán)節(jié)層面的優(yōu)化280
  17.1.5資源不足281
  17.2穩(wěn)定——資源的可用282
  17.2.1借助云服務(wù)282
  17.2.2鎖分散282
  17.2.3排隊(duì)283
  17.2.4謹(jǐn)防“雪崩”283
  17.3小結(jié)285
  第18章數(shù)據(jù)解讀與數(shù)據(jù)的價(jià)值286
  18.1運(yùn)營指標(biāo)286
  18.1.1互聯(lián)網(wǎng)類型公司常用指標(biāo)287
  18.1.2注意事項(xiàng)288
  18.2AB測試289
  18.2.1網(wǎng)頁測試290
  18.2.2方案測試290
  18.2.3灰度發(fā)布292
  18.2.4注意事項(xiàng)293
  18.3數(shù)據(jù)可視化295
  18.3.1圖表295
  18.3.2表格299
  18.4多維度——大數(shù)據(jù)的靈魂299
  18.4.1多大算大299
  18.4.2大數(shù)據(jù)網(wǎng)絡(luò)300
  18.4.3去中心化才能活躍301
  18.4.4數(shù)據(jù)會(huì)過剩嗎302
  18.5數(shù)據(jù)變現(xiàn)的場景303
  18.5.1數(shù)據(jù)價(jià)值的衡量的討論303
  18.5.2場景1:征信數(shù)據(jù)307
  18.5.3場景2:宏觀數(shù)據(jù)308
  18.5.4場景3:畫像數(shù)據(jù)309
  18.6小結(jié)310
  附錄AVMwareWorkstation的安裝311
  附錄BCentOS虛擬機(jī)的安裝方法314
  附錄CPython語言簡介318
  附錄DScikit-learn庫簡介323
  附錄EFANNforPython安裝324
  附錄F群眾眼中的大數(shù)據(jù)325
  寫作花絮327
  參考文獻(xiàn)329

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)