精通數(shù)據(jù)科學(xué)：從線性回歸到深度學(xué)習(xí)

定　價(jià)：￥99.00

作　者：	唐亙著
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787115479105	出版時(shí)間：	2018-06-01	包裝：	平裝
開本：	16開	頁數(shù)：	432頁	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書全面講解了數(shù)據(jù)科學(xué)的相關(guān)知識(shí)，從統(tǒng)計(jì)分析學(xué)到機(jī)器學(xué)習(xí)、深度學(xué)習(xí)中用到的算法及模型，借鑒經(jīng)濟(jì)學(xué)視角給出模型的相關(guān)解釋，深入探討模型的可用性，并結(jié)合大量的實(shí)際案例和代碼幫助讀者學(xué)以致用，將具體的應(yīng)用場(chǎng)景和現(xiàn)有的模型相結(jié)合，從而更好地發(fā)現(xiàn)模型的潛在應(yīng)用場(chǎng)景。本書可作為數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師的學(xué)習(xí)用書，也適合對(duì)數(shù)據(jù)科學(xué)有強(qiáng)烈興趣的初學(xué)者使用，同時(shí)也可作為高等院校計(jì)算機(jī)、數(shù)學(xué)及相關(guān)專業(yè)的師生用書和培訓(xùn)學(xué)校的教材。

作者簡(jiǎn)介

　　唐亙，數(shù)據(jù)科學(xué)家，專注于機(jī)器學(xué)習(xí)和大數(shù)據(jù)。曾獲得復(fù)旦大學(xué)的數(shù)學(xué)和計(jì)算機(jī)雙學(xué)士學(xué)位；巴黎綜合理工的金融碩士學(xué)位；法國國立統(tǒng)計(jì)與經(jīng)濟(jì)管理學(xué)校的數(shù)據(jù)科學(xué)碩士學(xué)位。熱愛并積極參與Apache Spark和Scikit-Learn等開源項(xiàng)目。作為講師和技術(shù)顧問，為多家機(jī)構(gòu)（包括惠普、華為、復(fù)旦大學(xué)等）提供百余場(chǎng)技術(shù)培訓(xùn)。此前的工作和研究集中于經(jīng)濟(jì)和量化金融，曾參與經(jīng)濟(jì)合作與發(fā)展組織（OECD）的研究項(xiàng)目并發(fā)表論文，并擔(dān)任英國知名在線出版社Packt的技術(shù)審稿人。

圖書目錄

第 1章數(shù)據(jù)科學(xué)概述 1

1.1　挑戰(zhàn)　2

1.1.1　工程實(shí)現(xiàn)的挑戰(zhàn)　2

1.1.2　模型搭建的挑戰(zhàn)　3

1.2　機(jī)器學(xué)習(xí)　5

1.2.1　機(jī)器學(xué)習(xí)與傳統(tǒng)編程　5

1.2.2　監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)　8

1.3　統(tǒng)計(jì)模型　8

1.4　關(guān)于本書　10

第　2章 Python安裝指南與簡(jiǎn)介：告別空談　12

2.1　Python簡(jiǎn)介　13

2.1.1　什么是Python　15

2.1.2　Python在數(shù)據(jù)科學(xué)中的地位　16

2.1.3　不可能繞過的第三方庫　17

2.2　Python安裝　17

2.2.1　Windows下的安裝　18

2.2.2　Mac下的安裝　21

2.2.3　Linux下的安裝　24

2.3　Python上手實(shí)踐　26

2.3.1　Python shell　26

2.3.2　第一個(gè)Python程序：Word Count　28

2.3.3　Python編程基礎(chǔ)　30

2.3.4　Python的工程結(jié)構(gòu)　34

2.4　本章小結(jié)　35

第3章　數(shù)學(xué)基礎(chǔ)：惱人但又不可或缺的知識(shí)　36

3.1　矩陣和向量空間　37

3.1.1　標(biāo)量、向量與矩陣　37

3.1.2　特殊矩陣　39

3.1.3　矩陣運(yùn)算　39

3.1.4　代碼實(shí)現(xiàn)　42

3.1.5　向量空間　44

3.2　概率：量化隨機(jī)　46

3.2.1　定義概率：事件和概率空間　47

3.2.2　條件概率：信息的價(jià)值　48

3.2.3　隨機(jī)變量：兩種不同的隨機(jī)　50

3.2.4　正態(tài)分布：殊途同歸　52

3.2.5　P-value：自信的猜測(cè)　53

3.3　微積分　55

3.3.1　導(dǎo)數(shù)和積分：位置、速度　55

3.3.2　極限：變化的終點(diǎn)　57

3.3.3　復(fù)合函數(shù)：鏈?zhǔn)椒▌t　58

3.3.4　多元函數(shù)：偏導(dǎo)數(shù)　59

3.3.5　極值與最值：最優(yōu)選擇　59

3.4　本章小結(jié)　61

第4章　線性回歸：模型之母　62

4.1　一個(gè)簡(jiǎn)單的例子　64

4.1.1　從機(jī)器學(xué)習(xí)的角度看這個(gè)問題　66

4.1.2　從統(tǒng)計(jì)學(xué)的角度看這個(gè)問題　69

4.2　上手實(shí)踐：模型實(shí)現(xiàn)　73

4.2.1　機(jī)器學(xué)習(xí)代碼實(shí)現(xiàn)　74

4.2.2　統(tǒng)計(jì)方法代碼實(shí)現(xiàn)　77

4.3　模型陷阱　82

4.3.1　過度擬合：模型越復(fù)雜越好嗎　84

4.3.2　模型幻覺之統(tǒng)計(jì)學(xué)方案：假設(shè)檢驗(yàn)　87

4.3.3　模型幻覺之機(jī)器學(xué)習(xí)方案：懲罰項(xiàng)　89

4.3.4　比較兩種方案　92

4.4　模型持久化　92

4.4.1　模型的生命周期　93

4.4.2　保存模型　93

4.5　本章小結(jié)　96

第5章　邏輯回歸：隱藏因子　97

5.1　二元分類問題：是與否　98

5.1.1　線性回歸：為何失效　98

5.1.2　窗口效應(yīng)：看不見的才是關(guān)鍵　100

5.1.3　邏輯分布：勝者生存　102

5.1.4　參數(shù)估計(jì)之似然函數(shù)：統(tǒng)計(jì)學(xué)角度　104

5.1.5　參數(shù)估計(jì)之損失函數(shù)：機(jī)器學(xué)習(xí)角度　104

5.1.6　參數(shù)估計(jì)之最終預(yù)測(cè)：從概率到選擇　106

5.1.7　空間變換：非線性到線性　106

5.2　上手實(shí)踐：模型實(shí)現(xiàn)　108

5.2.1　初步分析數(shù)據(jù)：直觀印象　108

5.2.2　搭建模型　113

5.2.3　理解模型結(jié)果　116

5.3　評(píng)估模型效果：孰優(yōu)孰劣　118

5.3.1　查準(zhǔn)率與查全率　119

5.3.2　ROC曲線與AUC　123

5.4　多元分類問題：超越是與否　127

5.4.1　多元邏輯回歸：邏輯分布的威力　128

5.4.2　One-vs.-all：從二元到多元　129

5.4.3　模型實(shí)現(xiàn)　130

5.5　非均衡數(shù)據(jù)集　132

5.5.1　準(zhǔn)確度悖論　132

5.5.2　一個(gè)例子　133

5.5.3　解決方法　135

5.6　本章小結(jié)　136

第6章　工程實(shí)現(xiàn)：計(jì)算機(jī)是怎么算的　138

6.1　算法思路：模擬滾動(dòng)　139

6.2　數(shù)值求解：梯度下降法　141

6.3　上手實(shí)踐：代碼實(shí)現(xiàn)　142

6.3.1　TensorFlow基礎(chǔ)　143

6.3.2　定義模型　148

6.3.3　梯度下降　149

6.3.4　分析運(yùn)行細(xì)節(jié)　150

6.4　更優(yōu)化的算法：隨機(jī)梯度下降法　153

6.4.1　算法細(xì)節(jié)　153

6.4.2　代碼實(shí)現(xiàn)　154

6.4.3　兩種算法比較　156

6.5　本章小結(jié)　158

第7章　計(jì)量經(jīng)濟(jì)學(xué)的啟示：他山之石　159

7.1　定量與定性：變量的數(shù)學(xué)運(yùn)算合理嗎　161

7.2　定性變量的處理　162

7.2.1　虛擬變量　162

7.2.2　上手實(shí)踐：代碼實(shí)現(xiàn)　164

7.2.3　從定性變量到定量變量　168

7.3　定量變量的處理　170

7.3.1　定量變量轉(zhuǎn)換為定性變量　171

7.3.2　上手實(shí)踐：代碼實(shí)現(xiàn)　171

7.3.3　基于卡方檢驗(yàn)的方法　173

7.4　顯著性　175

7.5　多重共線性：多變量的煩惱　176

7.5.1　多重共線性效應(yīng)　176

7.5.2　檢測(cè)多重共線性　180

7.5.3　解決方法　185

7.5.4　虛擬變量陷阱　188

7.6　內(nèi)生性：變化來自何處　191

7.6.1　來源　192

7.6.2　內(nèi)生性效應(yīng)　193

7.6.3　工具變量　195

7.6.4　邏輯回歸的內(nèi)生性　198

7.6.5　模型的聯(lián)結(jié)　200

7.7　本章小結(jié)　201

第8章　監(jiān)督式學(xué)習(xí)：目標(biāo)明確　202

8.1　支持向量學(xué)習(xí)機(jī)　203

8.1.1　直觀例子　204

8.1.2　用數(shù)學(xué)理解直觀　205

8.1.3　從幾何直觀到最優(yōu)化問題　207

8.1.4　損失項(xiàng)　209

8.1.5　損失函數(shù)與懲罰項(xiàng)　210

8.1.6　Hard margin 與soft margin比較　211

8.1.7　支持向量學(xué)習(xí)機(jī)與邏輯回歸：隱藏的假設(shè)　213

8.2　核函數(shù)　216

8.2.1　空間變換：從非線性到線性　216

8.2.2　拉格朗日對(duì)偶　218

8.2.3　支持向量　220

8.2.4　核函數(shù)的定義：優(yōu)化運(yùn)算　221

8.2.5　常用的核函數(shù)　222

8.2.6　Scale variant　225

8.3　決策樹　227

8.3.1　決策規(guī)則　227

8.3.2　評(píng)判標(biāo)準(zhǔn)　229

8.3.3　代碼實(shí)現(xiàn)　231

8.3.4　決策樹預(yù)測(cè)算法以及模型的聯(lián)結(jié)　231

8.3.5　剪枝　235

8.4　樹的集成　238

8.4.1　隨機(jī)森林　238

8.4.2　Random forest embedding　239

8.4.3　GBTs之梯度提升　241

8.4.4　GBTs之算法細(xì)節(jié)　242

8.5　本章小結(jié)　244

第9章　生成式模型：量化信息的價(jià)值　246

9.1　貝葉斯框架　248

9.1.1　蒙提霍爾問題　248

9.1.2　條件概率　249

9.1.3　先驗(yàn)概率與后驗(yàn)概率　251

9.1.4　參數(shù)估計(jì)與預(yù)測(cè)公式　251

9.1.5　貝葉斯學(xué)派與頻率學(xué)派　252

9.2　樸素貝葉斯　254

9.2.1　特征提?。何淖值綌?shù)字　254

9.2.2　伯努利模型　256

9.2.3　多項(xiàng)式模型　258

9.2.4　TF-IDF　259

9.2.5　文本分類的代碼實(shí)現(xiàn)　260

9.2.6　模型的聯(lián)結(jié)　265

9.3　判別分析　266

9.3.1　線性判別分析　267

9.3.2　線性判別分析與邏輯回歸比較　269

9.3.3　數(shù)據(jù)降維　270

9.3.4　代碼實(shí)現(xiàn)　273

9.3.5　二次判別分析　275

9.4　隱馬爾可夫模型　276

9.4.1　一個(gè)簡(jiǎn)單的例子　276

9.4.2　馬爾可夫鏈　278

9.4.3　模型架構(gòu)　279

9.4.4　中文分詞：監(jiān)督式學(xué)習(xí)　280

9.4.5　中文分詞之代碼實(shí)現(xiàn)　282

9.4.6　股票市場(chǎng)：非監(jiān)督式學(xué)習(xí)　284

9.4.7　股票市場(chǎng)之代碼實(shí)現(xiàn)　286

9.5　本章小結(jié)　289

第　10章非監(jiān)督式學(xué)習(xí)：聚類與降維　290

10.1　K-means　292

10.1.1　模型原理　292

10.1.2　收斂過程　293

10.1.3　如何選擇聚類個(gè)數(shù)　295

10.1.4　應(yīng)用示例　297

10.2　其他聚類模型　298

10.2.1　混合高斯之模型原理　299

10.2.2　混合高斯之模型實(shí)現(xiàn)　300

10.2.3　譜聚類之聚類結(jié)果　303

10.2.4　譜聚類之模型原理　304

10.2.5　譜聚類之圖片分割　307

10.3　Pipeline　308

10.4　主成分分析　309

10.4.1　模型原理　310

10.4.2　模型實(shí)現(xiàn)　312

10.4.3　核函數(shù)　313

10.4.4　Kernel PCA的數(shù)學(xué)原理　315

10.4.5　應(yīng)用示例　316

10.5　奇異值分解　317

10.5.1　定義　317

10.5.2　截?cái)嗥娈愔捣纸狻?17

10.5.3　潛在語義分析　318

10.5.4　大型推薦系統(tǒng)　320

10.6　本章小結(jié)　323

第　11章分布式機(jī)器學(xué)習(xí)：集體力量　325

11.1　Spark簡(jiǎn)介　327

11.1.1　Spark安裝　328

11.1.2　從MapReduce到Spark　333

11.1.3　運(yùn)行Spark　335

11.1.4　Spark DataFrame　336

11.1.5　Spark的運(yùn)行架構(gòu)　339

11.2　最優(yōu)化問題的分布式解法　341

11.2.1　分布式機(jī)器學(xué)習(xí)的原理　341

11.2.2　一個(gè)簡(jiǎn)單的例子　342

11.3　大數(shù)據(jù)模型的兩個(gè)維度　344

11.3.1　數(shù)據(jù)量維度　344

11.3.2　模型數(shù)量維度　346

11.4　開源工具的另一面　348

11.4.1　一個(gè)簡(jiǎn)單的例子　349

11.4.2　開源工具的阿喀琉斯之踵　351

11.5　本章小結(jié)　351

第　12章神經(jīng)網(wǎng)絡(luò)：模擬人的大腦　353

12.1　神經(jīng)元　355

12.1.1　神經(jīng)元模型　355

12.1.2　Sigmoid神經(jīng)元與二元邏輯回歸　356

12.1.3　Softmax函數(shù)與多元邏輯回歸　358

12.2　神經(jīng)網(wǎng)絡(luò)　360

12.2.1　圖形表示　360

12.2.2　數(shù)學(xué)基礎(chǔ)　361

12.2.3　分類例子　363

12.2.4　代碼實(shí)現(xiàn)　365

12.2.5　模型的聯(lián)結(jié)　369

12.3　反向傳播算法　370

12.3.1　隨機(jī)梯度下降法回顧　370

12.3.2　數(shù)學(xué)推導(dǎo)　371

12.3.3　算法步驟　373

12.4　提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效率　373

12.4.1　學(xué)習(xí)的原理　373

12.4.2　激活函數(shù)的改進(jìn)　375

12.4.3　參數(shù)初始化　378

12.4.4　不穩(wěn)定的梯度　380

12.5　本章小結(jié)　381

第　13章深度學(xué)習(xí)：繼續(xù)探索　383

13.1　利用神經(jīng)網(wǎng)絡(luò)識(shí)別數(shù)字　384

13.1.1　搭建模型　384

13.1.2　防止過擬合之懲罰項(xiàng)　386

13.1.3　防止過擬合之dropout　387

13.1.4　代碼實(shí)現(xiàn)　389

13.2　卷積神經(jīng)網(wǎng)絡(luò)　394

13.2.1　模型結(jié)構(gòu)之卷積層　395

13.2.2　模型結(jié)構(gòu)之池化層　397

13.2.3　模型結(jié)構(gòu)之完整結(jié)構(gòu)　399

13.2.4　代碼實(shí)現(xiàn)　400

13.2.5　結(jié)構(gòu)真的那么重要嗎　405

13.3　其他深度學(xué)習(xí)模型　406

13.3.1　遞歸神經(jīng)網(wǎng)絡(luò)　406

13.3.2　長(zhǎng)短期記憶　407

13.3.3　非監(jiān)督式學(xué)習(xí)　409

13.4　本章小結(jié)　411