1 機器學習 1
1.1 機器學習和人工智能 2
1.2 機器學習和大數據 4
1.3 機器學習和數據挖掘 6
1.4 機器學習分類和應用 7
1.5 機器學習開發(fā)步驟 10
1.5.1 數據挖掘標準流程 10
1.5.2 機器學習開發(fā)步驟 15
本章小結 18
2 Scikit-learn預備知識 20
2.1 NumPy 21
2.1.1 NumPy數組概念 23
2.1.2 NumPy數據類型 24
2.1.3 NumPy數組創(chuàng)建 26
2.1.4 NumPy數組操作 37
2.1.5 NumPy隨機數 51
2.1.6 NumPy輸入輸出 57
2.1.7 NumPy矩陣 58
2.1.8 NumPy線性代數 59
2.1.9 NumPy常數 63
2.2 Pandas 63
2.2.1 Pandas數據結構 64
2.2.2 Pandas頂層函數 114
2.2.3 Pandas應用舉例 115
2.3 SciPy庫 122
2.3.1 SciPy庫基礎知識 123
2.3.2 稀疏矩陣及其處理 124
2.3.3 SciPy庫應用舉例 138
2.4 Matplotlib 144
2.4.1 Matplotlib基礎知識 145
2.4.2 Matplotlib應用舉例 149
本章小結 161
3 Scikit-learn基礎應用 163
3.1 機器學習的算法和模型 164
3.1.1 特征變量和目標變量 165
3.1.2 算法訓練 166
3.1.3 過擬合和欠擬合 174
3.1.4 模型性能度量 175
3.2 模型選擇 180
3.3 Scikit-learn的功能模塊 180
3.4 Scikit-learn 應用 182
3.4.1 安裝Scikit-learn 182
3.4.2 數據導入 183
3.4.3 模型持久化 185
3.4.4 文本數據處理 186
3.4.5 隨機狀態(tài)控制 187
3.4.6 分類型變量處理 187
3.4.7 Pandas數據框處理 188
3.4.8 輸入輸出約定 188
3.5 應用實例 191
本章小結 193
4 Scikit-learn數據變換 195
4.1 概念介紹 196
4.1.1 評估器(estimator) 196
4.1.2 轉換器(transformer) 197
4.1.3 管道(pipeline) 198
4.2 數據預處理 199
4.2.1 數據標準化 201
4.2.2 數據非線性轉換 223
4.2.3 數據歸一化 232
4.2.4 分類型特征變量編碼 237
4.2.5 數據離散化 245
4.2.6 特征組合 251
4.3 缺失值處理 254
4.3.1 單變量插補 255
4.3.2 多變量插補 258
4.3.3 最近鄰插補 262
4.3.4 標記插補缺失值 264
4.4 目標變量預處理 268
4.4.1 多類別分類標簽二值化 268
4.4.2 多標簽分類標簽二值化 273
4.4.3 目標變量標簽編碼 276
本章小結 279
5 Scikit-learn特征抽取和降維 281
5.1 特征抽取 282
5.1.1 字典列表對象向量化 283
5.1.2 特征哈希 286
5.1.3 文本特征抽取 291
5.1.4 圖像特征抽取 316
5.2 特征降維 320
5.2.1 主成分分析 321
5.2.2 特征聚合 326
5.2.3 隨機投影 330
本章小結 340
附錄 342
1. 互操作和框架增強包 343
2. 評估器和任務擴展包 344
3. 統(tǒng)計知識擴展包 347
4. 推薦引擎擴展包 347
5. 特定領域的擴展包 347