第1章Python數(shù)據(jù)分析與可視化概述
1.1從MATLAB到Python
1.2NumPy
1.3Pandas
1.4Matplotlib
1.5SciPy與SymPy
第2章新生數(shù)據(jù)分析與可視化
2.1使用Pandas對數(shù)據(jù)預處理
2.2使用Matplotlib庫畫圖
2.3使用Pandas進行繪圖
第3章Python表格處理分析
3.1背景介紹
3.2前期準備與基本操作
3.2.1基本術語概念說明
3.2.2安裝openpyxl并創(chuàng)建一個工作簿
3.2.3從Excel工作簿中讀取數(shù)據(jù)
3.2.4迭代訪問數(shù)據(jù)
3.2.5插入數(shù)據(jù)
3.3進階內容
3.3.1為Excel表單添加公式
3.3.2為表單添加條件格式
3.3.3為Excel表單添加圖表
3.4數(shù)據(jù)分析實例
3.4.1背景與前期準備
3.4.2使用openpyxl讀取數(shù)據(jù)并轉為DataFrame
3.4.3繪制數(shù)值列直方圖
3.4.4繪制相關性矩陣
3.4.5繪制散布矩陣
3.4.6將可視化結果插入Excel表格
第4章美國加利福尼亞州房價預測的數(shù)據(jù)分析
4.1數(shù)據(jù)的讀入和初步分析
4.1.1數(shù)據(jù)讀入
4.1.2分割測試集與訓練集
4.1.3數(shù)據(jù)的初步分析
4.2數(shù)據(jù)的預處理
4.2.1拆分數(shù)據(jù)
4.2.2空白值的填充
4.2.3數(shù)據(jù)標準化
4.2.4數(shù)據(jù)的流程化處理
4.3模型的構建
4.3.1查看不同模型的表現(xiàn)
4.3.2選擇效果最好的模型進行預測
第5章影評數(shù)據(jù)分析與電影推薦
5.1明確目標與準備數(shù)據(jù)
5.2工具選擇
5.3初步分析
5.3.1用戶角度分析
5.3.2電影角度分析
5.4電影推薦
第6章醫(yī)療花費預測
6.1數(shù)據(jù)讀取
6.2數(shù)據(jù)預處理
6.2.1字符串類型的轉換
6.2.2數(shù)據(jù)的分布和映射
6.3數(shù)據(jù)分析
6.3.1協(xié)方差矩陣和熱力圖
6.3.2DBSCAN聚類算法
6.3.3支持向量機分類算法
6.4線性回歸
6.5結果預測
6.6結果分析
第7章用戶消費行為分析
7.1RFM模型簡介
7.2數(shù)據(jù)讀入
7.3數(shù)據(jù)清洗和預處理
7.3.1數(shù)據(jù)清洗
7.3.2數(shù)據(jù)預處理
7.4RFM統(tǒng)計量計算
7.5RFM歸類
7.6結果保存
7.7可視化結果
第8章用戶流失預警
8.1讀入數(shù)據(jù)
8.2數(shù)據(jù)預處理和自變量標準化
8.3五折交叉驗證
8.4代入三種模型
8.5調整prob閾值,輸出精度評估
第9章在Kaggle上預測房價
9.1讀取數(shù)據(jù)集
9.2預處理數(shù)據(jù)集
9.3訓練模型
9.4k折交叉驗證
9.5模型選擇和調整
9.6在Kaggle上提交預測結果
第10章世界杯
10.1數(shù)據(jù)說明
10.2世界杯觀眾
10.3世界杯冠軍
10.4世界杯參賽隊伍與比賽
10.5世界杯進球
第11章股價預測
11.1使用Tsfresh進行升維和特征工程
11.2程序設計思路
11.3程序設計步驟
11.3.1讀入并分析數(shù)據(jù)
11.3.2移窗
11.3.3升維
11.3.4方差過濾
11.3.5使用AdaBoostRegressor模型進行回歸預測
11.3.6預測結果分析
第12章基于上下文感知的多模態(tài)交通推薦
12.1案例目標
12.2數(shù)據(jù)說明
12.2.1查詢記錄
12.2.2顯示記錄
12.2.3點擊記錄
12.2.4用戶記錄
12.3解決方案
12.3.1導入工具包和數(shù)據(jù)
12.3.2特征導入和數(shù)據(jù)處理
12.3.3模型訓練與結果保存
第13章美國波士頓房價預測
13.1背景介紹
13.2數(shù)據(jù)清洗
13.3數(shù)據(jù)分析
13.4分析結果
第14章機器人最優(yōu)路徑走迷宮
14.1關鍵技術
14.1.1馬爾可夫決策過程
14.1.2Bellman方程
14.2程序設計步驟
14.2.1初始化迷宮地圖
14.2.2計算不同位置的最優(yōu)路徑
第15章基于Kmeans算法的鳶尾花數(shù)據(jù)聚類和可視化
15.1數(shù)據(jù)及工具簡介
15.1.1Iris數(shù)據(jù)集(鳶尾花數(shù)據(jù)集)
15.1.2Tkinter
15.2案例分析
15.2.1模塊引入
15.2.2布局圖形界面
15.2.3讀取數(shù)據(jù)文件
15.2.4聚類
15.2.5聚類結果可視化
15.2.6誤差分析及其可視化
15.2.7使用流程
第16章利用手機的購物評論分析手機特征
16.1數(shù)據(jù)準備
16.2數(shù)據(jù)分析
16.2.1模型介紹
16.2.2算法應用
16.2.3名詞提取
16.2.4情感分析
第17章菜譜分析
17.1數(shù)據(jù)集介紹
17.2數(shù)據(jù)觀察
17.2.1數(shù)據(jù)讀入
17.2.2分布統(tǒng)計
17.3數(shù)據(jù)預處理
17.3.1英文單詞標準化
17.3.2數(shù)據(jù)向量化
17.4模型構建
第18章基于回歸問題和XGBoost模型的房價預測
18.1XGBoost模型介紹
18.2技術方案
18.2.1數(shù)據(jù)分析
18.2.2XGBoost模型參數(shù)
18.2.3調參過程
18.3完整代碼及結果展示
第19章基于VGG19和TensorBoard的圖像分類和數(shù)據(jù)可視化
19.1背景概念介紹
19.1.1VGG19模型
19.1.2TensorBoard
19.1.3CIFAR10數(shù)據(jù)集
19.2網絡搭建與TensorBoard可視化實戰(zhàn)
19.2.1網絡搭建
19.2.2準備數(shù)據(jù)并構建網絡實例
19.2.3TensorBoard訓練過程可視化
第20章基于Elasticsearch實現(xiàn)附近小區(qū)信息搜索
20.1Elasticsearch的簡介與安裝
20.1.1Elasticsearch的簡介
20.1.2Elasticsearch的安裝
20.2數(shù)據(jù)準備
20.2.1網頁分析與信息提取
20.2.2獲取經緯度
20.2.3數(shù)據(jù)格式轉換
20.3Python實現(xiàn)Elasticsearch基礎操作
20.3.1創(chuàng)建索引和插入數(shù)據(jù)
20.3.2查詢數(shù)據(jù)和數(shù)據(jù)類型
20.3.3刪除相關操作
20.3.4檢索功能
20.4房價地理位置坐標搜索實現(xiàn)
第21章汽車貸款違約的數(shù)據(jù)分析
21.1數(shù)據(jù)樣本分析
21.1.1數(shù)據(jù)樣本概述
21.1.2變量類型分析
21.1.3Python代碼實踐
21.2數(shù)據(jù)的預處理
21.2.1目標變量探索
21.2.2X變量初步探索
21.2.3連續(xù)變量的缺失值處理
21.2.4分類變量的缺失值處理
21.3數(shù)據(jù)分析的模型建立與評估
21.3.1數(shù)據(jù)的預處理與訓練集劃分
21.3.2采用回歸模型進行數(shù)據(jù)分析
21.3.3采用決策樹進行數(shù)據(jù)分析
21.3.4采用隨機森林優(yōu)化決策樹模型
第22章基于Spark的搜索引擎日志用戶行為分析
22.1功能需求
22.1.1搜索引擎用戶行為分析的意義
22.1.2搜索引擎日志概述
22.2系統(tǒng)架構
22.2.1用戶搜索流程
22.2.2系統(tǒng)架構設計
22.3功能實現(xiàn)
22.3.1Spark本地運行環(huán)境搭建
22.3.2搜索引擎日志數(shù)據(jù)獲取
22.3.3分析指標
22.3.4Spark任務提交
第23章科比職業(yè)生涯進球分析
23.1預處理
23.2分析科比的命中率
23.3分析科比的投籃習慣
附錄APyTorch環(huán)境搭建
A.1Linux平臺下PyTorch環(huán)境搭建
A.2Windows平臺下PyTorch環(huán)境搭建
參考文獻