定 價(jià):¥69.00
作 者: | 黃永祥 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302503286 | 出版時(shí)間: | 2018-08-01 | 包裝: | |
開本: | 頁數(shù): | 字?jǐn)?shù): |
目 錄
壹章?理解網(wǎng)絡(luò)爬蟲 1
1.1 爬蟲的定義 1
1.2 爬蟲的類型 2
1.3 爬蟲的原理 3
1.4 爬蟲的搜索策略 5
1.5 反爬蟲技術(shù)及解決方案 6
1.6 本章小結(jié) 8
2章?爬蟲開發(fā)基礎(chǔ) 9
2.1 HTTP與HTTPS 9
2.2 請(qǐng)求頭 11
2.3 Cookies 13
2.4 HTML 14
2.5 16
2.6 JSON 18
2.7 Ajax 19
2.8 本章小結(jié) 20
3章?Chrome分析網(wǎng)站 21
3.1 Chrome開發(fā)工具 21
3.2 Elements標(biāo)簽 22
3.3 Network標(biāo)簽 23
3.4 分析QQ音樂 27
3.5 本章小結(jié) 29
4章?Fiddler抓包工具 30
4.1 Fiddler介紹 30
4.2 Fiddler安裝配置 31
4.3 Fiddler抓取手機(jī)應(yīng)用 33
4.4 Toolbar工具欄 36
4.5 Web Session列表 37
4.6 View選項(xiàng)視圖 40
4.7 Quickexec命令行 41
4.8 本章小結(jié) 42
5章?Urllib數(shù)據(jù)抓取 43
5.1 Urllib簡(jiǎn)介 43
5.2 發(fā)送請(qǐng)求 44
5.3 復(fù)雜的請(qǐng)求 46
5.4 代理IP 47
5.5 使用Cookies 48
5.6 證書驗(yàn)證 50
5.7 數(shù)據(jù)處理 51
5.8 本章小結(jié) 52
6章?Requests數(shù)據(jù)抓取 54
6.1 Requests簡(jiǎn)介及安裝 54
6.2 請(qǐng)求方式 55
6.3 復(fù)雜的請(qǐng)求方式 57
6.4 下載與上傳 60
6.5 本章小結(jié) 63
7章?驗(yàn)證碼識(shí)別 64
7.1 驗(yàn)證碼類型 64
7.2 OCR技術(shù) 66
7.3 三方平臺(tái) 69
7.4 本章小結(jié) 72
8章?數(shù)據(jù)清洗 74
8.1 字符串操作 74
8.2 正則表達(dá)式 78
8.3 Beautiful Soup介紹及安裝 84
8.4 Beautiful Soup的使用 86
8.5 本章小結(jié) 90
9章?文檔數(shù)據(jù)存儲(chǔ) 92
9.1 CSV數(shù)據(jù)寫入和讀取 92
9.2 Excel數(shù)據(jù)寫入和讀取 94
9.3 Word數(shù)據(jù)寫入和讀取 99
9.4 本章小結(jié) 101
壹0章?ORM框架 104
10.1 SQLAlchemy介紹 104
10.2 安裝SQLAlchemy 105
10.3 連接數(shù)據(jù)庫 106
10.4 創(chuàng)建數(shù)據(jù)表 108
10.5 添加數(shù)據(jù) 111
10.6 更新數(shù)據(jù) 112
10.7 查詢數(shù)據(jù) 114
10.8 本章小結(jié) 116
壹1章?MongoDB數(shù)據(jù)庫操作 118
11.1 MongoDB介紹 118
11.2 安裝及使用 120
11.2.1 MongoDB 120
11.2.2 MongoDB可視化工具 121
11.2.3 PyMongo 123
11.3 連接數(shù)據(jù)庫 123
11.4 添加文檔 125
11.5 更新文檔 126
11.6 查詢文檔 127
11.7 本章小結(jié) 130
壹2章?項(xiàng)目實(shí)戰(zhàn):爬取淘寶商品信息 131
12.1 分析說明 131
12.2 功能實(shí)現(xiàn) 134
12.3 數(shù)據(jù)存儲(chǔ) 136
12.4 本章小結(jié) 138
壹3章?項(xiàng)目實(shí)戰(zhàn):分布式爬蟲——QQ音樂 139
13.1 分析說明 139
13.2 歌曲下載 140
13.3 歌手和歌曲信息 145
13.4 分類歌手列表 148
13.5 全站歌手列表 150
13.6 數(shù)據(jù)存儲(chǔ) 152
13.7 分布式概念 154
13.7.1 GIL是什么 154
13.7.2 為什么會(huì)有GIL 154
13.8 并發(fā)庫concurrent.futures 155
13.9 分布式爬蟲 157
13.10 本章小結(jié) 159
壹4章?項(xiàng)目實(shí)戰(zhàn):爬蟲軟件—— 淘寶商品信息 161
14.1 分析說明 161
14.2 GUI庫介紹 162
14.3 PyQt5安裝及環(huán)境搭建 162
14.4 軟件界面開發(fā) 165
14.5 MVC——視圖 169
14.6 MVC——控制器 171
14.7 MVC——模型 172
14.8 擴(kuò)展思路 173
14.9 本章小結(jié) 174
壹5章?項(xiàng)目實(shí)戰(zhàn):12306搶票 176
15.1 分析說明 176
15.2 驗(yàn)證碼驗(yàn)證 177
15.3 用戶登錄與驗(yàn)證 181
15.4 查詢車次 187
15.5 預(yù)訂車票 193
15.6 提交訂單 196
15.7 生成訂單 204
15.8 本章小結(jié) 209
壹6章?項(xiàng)目實(shí)戰(zhàn):玩轉(zhuǎn)微博 219
16.1 分析說明 219
16.2 用戶登錄 220
16.3 用戶登錄(帶驗(yàn)證碼) 232
16.4 關(guān)鍵字搜索熱門微博 240
16.5 發(fā)布微博 247
16.6 關(guān)注用戶 253
16.7 點(diǎn)贊和轉(zhuǎn)發(fā)評(píng)論 257
16.8 本章小結(jié) 263
壹7章?Scrapy爬蟲框架 265
17.1 爬蟲框架 265
17.2 Scrapy的運(yùn)行機(jī)制 267
17.3 安裝Scrapy 268
17.4 爬蟲開發(fā)快速入門 270
17.5 Spiders介紹 277
17.6 Spider的編寫 278
17.7 Items的編寫 282
17.8 Item Pipeline的編寫 284
17.9 Selectors的編寫 288
17.10 文件下載 291
17.11 本章小結(jié) 296
壹8章?項(xiàng)目實(shí)戰(zhàn):Scrapy爬取QQ音樂 298
18.1 分析說明 298
18.2 創(chuàng)建項(xiàng)目 299
18.3 編寫setting 300
18.4 編寫Items 301
18.5 編寫Item Pipelines 302
18.6 編寫Spider 305
18.7 本章小結(jié) 310