注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計Python網絡數據爬取及分析從入門到精通(分析篇)

Python網絡數據爬取及分析從入門到精通(分析篇)

Python網絡數據爬取及分析從入門到精通(分析篇)

定 價:¥59.80

作 者: 楊秀璋,顏娜 著
出版社: 北京航空航天大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787512427136 出版時間: 2018-06-01 包裝: 平裝
開本: 小全開 頁數: 字數:  

內容簡介

  Python網絡數據爬取及分析從入門到精通(分析篇) 本書采用通俗易懂的語言、豐富多彩的實例,詳細介紹了使用Python語言進行網絡數據分析的知識,主要內容包括Python數據分析常用庫、可視化分析、回歸分析、聚類分析、分類分析、關聯規(guī)則挖掘分析、數據預處理及文本聚類、詞云熱點與主題分布分析、復雜網絡與基于數據庫技術的分析等。 書中所有知識點都結合了具體的實例進行介紹,涉及的實例都給出了詳細分析流程,程序代碼都給出了具體的注釋,采用圖文結合的形式講解,讓讀者能更加輕松地領會Python網絡數據分析的精髓,快速提高自己的開發(fā)能力。 本書既可作為Python開發(fā)入門者的自學用書,也可作為高等院校數據分析、數據挖掘、機器學習、大數據等相關專業(yè)的教學參考書或實驗指導書,還可供Python數據分析人員查閱、參考。

作者簡介

  楊秀璋,畢業(yè)于北京理工大學軟件學院,長期從事Web數據挖掘、Python數據分析、網絡數據爬取工作及研究。他現任教于貴州財經大學信息學院,主講“數據挖掘與分析”“大數據技術及應用”課程,并從事大數據分析、數據挖掘、知識圖譜等領域的項目研究與開發(fā);有多年的Python編程、數據分析及知識圖譜研究經驗,實戰(zhàn)經驗較為豐富。 此外,他還積極分享編程知識和開源代碼編寫經驗,先后在CSDN、博客園、阿里云棲社區(qū)撰寫博客,僅在CSDN就分享了300多篇原創(chuàng)文章,開設了11個專欄,累計閱讀量超過250萬人次。

圖書目錄

第1章 網絡數據分析概述…………………………………………………………… 1
1.1 數據分析 ……………………………………………………………………… 1
1.2 相關技術 ……………………………………………………………………… 3
1.3 Anaconda開發(fā)環(huán)境…………………………………………………………… 5
1.4 常用數據集 …………………………………………………………………… 9
1.4.1 Sklearn數據集…………………………………………………………… 9
1.4.2 UCI數據集 …………………………………………………………… 10
1.4.3 自定義爬蟲數據集……………………………………………………… 11
1.4.4 其他數據集……………………………………………………………… 12
1.5 本章小結……………………………………………………………………… 13
參考文獻 …………………………………………………………………………… 14
第2章 Python數據分析常用庫 …………………………………………………… 15
2.1 常用庫………………………………………………………………………… 15
2.2 NumPy ……………………………………………………………………… 17
2.2.1 Array用法 ……………………………………………………………… 17
2.2.2 二維數組操作…………………………………………………………… 19
2.3 Pandas ……………………………………………………………………… 21
2.3.1 讀/寫文件 ……………………………………………………………… 22
2.3.2 Series…………………………………………………………………… 24
2.3.3 DataFrame……………………………………………………………… 26
2.4 Matplotlib …………………………………………………………………… 26
2.4.1 基礎用法………………………………………………………………… 27
2.4.2 繪圖簡單示例…………………………………………………………… 28
2.5 Sklearn ……………………………………………………………………… 31
2.6 本章小結……………………………………………………………………… 32
參考文獻 …………………………………………………………………………… 32
第3章 Python可視化分析 ………………………………………………………… 33
3.1 Matplotlib可視化分析 ……………………………………………………… 33
3.1.1 繪制曲線圖……………………………………………………………… 33
3.1.2 繪制散點圖……………………………………………………………… 37
3.1.3 繪制柱狀圖……………………………………………………………… 40
3.1.4 繪制餅狀圖……………………………………………………………… 42
3.1.5 繪制3D圖形 …………………………………………………………… 43
3.2 Pandas讀取文件可視化分析 ……………………………………………… 45
3.2.1 繪制折線對比圖………………………………………………………… 45
3.2.2 繪制柱狀圖和直方圖…………………………………………………… 48
3.2.3 繪制箱圖………………………………………………………………… 51
3.3 ECharts可視化技術初識 …………………………………………………… 53
3.4 本章小結……………………………………………………………………… 57
參考文獻 …………………………………………………………………………… 57
第4章 Python回歸分析 …………………………………………………………… 58
4.1 回 歸………………………………………………………………………… 58
4.1.1 什么是回歸……………………………………………………………… 58
4.1.2 線性回歸………………………………………………………………… 59
4.2 線性回歸分析………………………………………………………………… 60
4.2.1 LinearRegression ……………………………………………………… 61
4.2.2 線性回歸預測糖尿病…………………………………………………… 63
4.3 多項式回歸分析……………………………………………………………… 68
4.3.1 基礎概念………………………………………………………………… 68
4.3.2 PolynomialFeatures …………………………………………………… 69
4.3.3 多項式回歸預測成本和利潤…………………………………………… 70
4.4 邏輯回歸分析………………………………………………………………… 73
4.4.1 LogisticRegression …………………………………………………… 75
4.4.2 鳶尾花數據集回歸分析實例…………………………………………… 75
4.5 本章小結……………………………………………………………………… 83
參考文獻 …………………………………………………………………………… 83
第5章 Python聚類分析 …………………………………………………………… 85
5.1 聚 類………………………………………………………………………… 85
5.1.1 算法模型………………………………………………………………… 85
5.1.2 常見聚類算法…………………………………………………………… 86
5.1.3 性能評估………………………………………………………………… 88
5.2 K-Means …………………………………………………………………… 90
5.2.1 算法描述………………………………………………………………… 90
5.2.2 用K-Means分析籃球數據 …………………………………………… 96
5.2.3 K-Means聚類優(yōu)化 …………………………………………………… 99
5.2.4 設置類簇中心 ………………………………………………………… 103
5.3 BIRCH ……………………………………………………………………… 105
5.3.1 算法描述 ……………………………………………………………… 105
5.3.2 用BIRCH 分析氧化物數據 ………………………………………… 106
5.4 降維處理 …………………………………………………………………… 110
5.4.1 PCA降維 ……………………………………………………………… 111
5.4.2 Sklearn PCA降維 …………………………………………………… 111
5.4.3 PCA降維實例 ………………………………………………………… 113
5.5 本章小結 …………………………………………………………………… 117
參考文獻…………………………………………………………………………… 118
第6章 Python分類分析 ………………………………………………………… 119
6.1 分 類 ……………………………………………………………………… 119
6.1.1 分類模型 ……………………………………………………………… 119
6.1.2 常見分類算法 ………………………………………………………… 120
6.1.3 回歸、聚類和分類的區(qū)別……………………………………………… 122
6.1.4 性能評估 ……………………………………………………………… 123
6.2 決策樹 ……………………………………………………………………… 123
6.2.1 算法實例描述 ………………………………………………………… 123
6.2.2 DTC算法 ……………………………………………………………… 125
6.2.3 用決策樹分析鳶尾花 ………………………………………………… 126
6.2.4 數據集劃分及分類評估 ……………………………………………… 128
6.2.5 區(qū)域劃分對比 ………………………………………………………… 132
6.3 KNN分類算法 …………………………………………………………… 136
6.3.1 算法實例描述 ………………………………………………………… 136
6.3.2 KNeighborsClassifier………………………………………………… 138
6.3.3 用KNN分類算法分析紅酒類型 …………………………………… 139
6.4 SVM 分類算法……………………………………………………………… 147
6.4.1 SVM 分類算法的基礎知識…………………………………………… 147
6.4.2 用SVM 分類算法分析紅酒數據 …………………………………… 148
6.4.3 用優(yōu)化SVM 分類算法分析紅酒數據集 …………………………… 151
6.5 本章小結 …………………………………………………………………… 154
參考文獻…………………………………………………………………………… 154
第7章 Python關聯規(guī)則挖掘分析 ……………………………………………… 156
7.1 基本概念 …………………………………………………………………… 156
7.1.1 關聯規(guī)則 ……………………………………………………………… 156
7.1.2 置信度與支持度 ……………………………………………………… 157
7.1.3 頻繁項集 ……………………………………………………………… 158
7.2 Apriori算法………………………………………………………………… 159
7.3 Apriori算法的實現………………………………………………………… 163
7.4 本章小結 …………………………………………………………………… 167
參考文獻…………………………………………………………………………… 167
第8章 Python數據預處理及文本聚類 ………………………………………… 168
8.1 數據預處理概述 …………………………………………………………… 168
8.2 中文分詞 …………………………………………………………………… 170
8.2.1 中文分詞技術 ………………………………………………………… 170
8.2.2 Jieba中文分詞工具…………………………………………………… 171
8.3 數據清洗 …………………………………………………………………… 175
8.3.1 概 述 ………………………………………………………………… 175
8.3.2 中文語料清洗 ………………………………………………………… 176
8.4 特征提取及向量空間模型 ………………………………………………… 179
8.4.1 特征規(guī)約 ……………………………………………………………… 179
8.4.2 向量空間模型 ………………………………………………………… 181
8.4.3 余弦相似度計算 ……………………………………………………… 182
8.5 權重計算 …………………………………………………………………… 184
8.5.1 常用權重計算方法 …………………………………………………… 184
8.5.2 TF-IDF ……………………………………………………………… 185
8.5.3 用Sklearn計算TF-IDF …………………………………………… 186
8.6 文本聚類 …………………………………………………………………… 188
8.7 本章小結 …………………………………………………………………… 192
參考文獻…………………………………………………………………………… 192
第9章 Python詞云熱點與主題分布分析 ……………………………………… 193
9.1 詞 云 ……………………………………………………………………… 193
9.2 WordCloud的安裝及基本用法 …………………………………………… 194
9.2.1 WordCloud的安裝 …………………………………………………… 194
9.2.2 WordCloud的基本用法 ……………………………………………… 195
9.3 LDA ………………………………………………………………………… 203
9.3.1 LDA的安裝過程……………………………………………………… 203
9.3.2 LDA的基本用法及實例……………………………………………… 204
9.4 本章小結 …………………………………………………………………… 214
參考文獻…………………………………………………………………………… 214
第10章 復雜網絡與基于數據庫技術的分析 …………………………………… 215
10.1 復雜網絡…………………………………………………………………… 215
10.1.1 復雜網絡和知識圖譜………………………………………………… 215
10.1.2 NetworkX …………………………………………………………… 217
10.1.3 用復雜網絡分析學生關系網………………………………………… 219
10.2 基于數據庫技術的數據分析……………………………………………… 224
10.2.1 數據準備……………………………………………………………… 224
10.2.2 基于數據庫技術的可視化分析……………………………………… 225
10.2.3 基于數據庫技術的可視化對比……………………………………… 232
10.3 基于數據庫技術的博客行為分析………………………………………… 234
10.3.1 冪率分布……………………………………………………………… 234
10.3.2 用冪率分布分析博客數據集………………………………………… 235
10.4 本章小結…………………………………………………………………… 245
參考文獻…………………………………………………………………………… 245
本套后記……………………………………………………………………………… 246
致 謝………………………………………………………………………………… 248

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號