注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)玩轉(zhuǎn)Python網(wǎng)絡(luò)爬蟲

玩轉(zhuǎn)Python網(wǎng)絡(luò)爬蟲

玩轉(zhuǎn)Python網(wǎng)絡(luò)爬蟲

定 價(jià):¥69.00

作 者: 黃永祥
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302503286 出版時(shí)間: 2018-08-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書站在初學(xué)者的角度,從原理到實(shí)踐,循序漸進(jìn)地講述了使用Python開發(fā)網(wǎng)絡(luò)爬蟲的核心技術(shù)。全書從邏輯上可分為基礎(chǔ)篇、實(shí)戰(zhàn)篇和爬蟲框架篇三部分?;A(chǔ)篇主要介紹了編寫網(wǎng)絡(luò)爬蟲所需的基礎(chǔ)知識(shí),分別是網(wǎng)站分析、數(shù)據(jù)抓取、數(shù)據(jù)清洗和數(shù)據(jù)入庫。網(wǎng)站分析講述如何使用Chrome和Fiddler抓包工具對(duì)網(wǎng)絡(luò)做全面分析;數(shù)據(jù)抓取介紹了Python爬蟲模塊Urllib和Requests的基礎(chǔ)知識(shí);數(shù)據(jù)清洗主要介紹字符串操作、正則和Beautiful Soup的使用;數(shù)據(jù)入庫分別講述了MySQL和MongoDB的操作,通過ORM框架SQLAlchemy實(shí)現(xiàn)數(shù)據(jù)持久化,實(shí)現(xiàn)企業(yè)級(jí)開發(fā)。實(shí)戰(zhàn)篇深入講解了分布式爬蟲、爬蟲軟件開發(fā)與應(yīng)用、12306搶票程序和微博爬取,所舉示例均來自于開發(fā)實(shí)踐,可幫助讀者快速提升技能,開發(fā)實(shí)際項(xiàng)目。框架篇主要講述Scrapy的基礎(chǔ)知識(shí),并通過爬取QQ音樂為實(shí)例,讓讀者深層次了解Scrapy的使用。 本書內(nèi)容豐富,注重實(shí)戰(zhàn),適用于從零開始學(xué)習(xí)網(wǎng)絡(luò)爬蟲的初學(xué)者,或者是已經(jīng)有一些網(wǎng)絡(luò)爬蟲編寫經(jīng)驗(yàn),但希望更加全面、深入理解Python爬蟲的開發(fā)人員。

作者簡(jiǎn)介

  黃永祥

圖書目錄

目    錄

壹章?理解網(wǎng)絡(luò)爬蟲 1

1.1  爬蟲的定義 1

1.2  爬蟲的類型 2

1.3  爬蟲的原理 3

1.4  爬蟲的搜索策略 5

1.5  反爬蟲技術(shù)及解決方案 6

1.6  本章小結(jié) 8

2章?爬蟲開發(fā)基礎(chǔ) 9

2.1  HTTP與HTTPS 9

2.2  請(qǐng)求頭 11

2.3  Cookies 13

2.4  HTML 14

2.5   16

2.6  JSON 18

2.7  Ajax 19

2.8  本章小結(jié) 20

3章?Chrome分析網(wǎng)站 21

3.1  Chrome開發(fā)工具 21

3.2  Elements標(biāo)簽 22

3.3  Network標(biāo)簽 23

3.4  分析QQ音樂 27

3.5  本章小結(jié) 29

4章?Fiddler抓包工具 30

4.1  Fiddler介紹 30

4.2  Fiddler安裝配置 31

4.3  Fiddler抓取手機(jī)應(yīng)用 33

4.4  Toolbar工具欄 36

4.5  Web Session列表 37

4.6  View選項(xiàng)視圖 40

4.7  Quickexec命令行 41

4.8  本章小結(jié) 42

5章?Urllib數(shù)據(jù)抓取 43

5.1  Urllib簡(jiǎn)介 43

5.2  發(fā)送請(qǐng)求 44

5.3  復(fù)雜的請(qǐng)求 46

5.4  代理IP 47

5.5  使用Cookies 48

5.6  證書驗(yàn)證 50

5.7  數(shù)據(jù)處理 51

5.8  本章小結(jié) 52

6章?Requests數(shù)據(jù)抓取 54

6.1  Requests簡(jiǎn)介及安裝 54

6.2  請(qǐng)求方式 55

6.3  復(fù)雜的請(qǐng)求方式 57

6.4  下載與上傳 60

6.5  本章小結(jié) 63

7章?驗(yàn)證碼識(shí)別 64

7.1  驗(yàn)證碼類型 64

7.2  OCR技術(shù) 66

7.3  三方平臺(tái) 69

7.4  本章小結(jié) 72

8章?數(shù)據(jù)清洗 74

8.1  字符串操作 74

8.2  正則表達(dá)式 78

8.3  Beautiful Soup介紹及安裝 84

8.4  Beautiful Soup的使用 86

8.5  本章小結(jié) 90

9章?文檔數(shù)據(jù)存儲(chǔ) 92

9.1  CSV數(shù)據(jù)寫入和讀取 92

9.2  Excel數(shù)據(jù)寫入和讀取 94

9.3  Word數(shù)據(jù)寫入和讀取 99

9.4  本章小結(jié) 101

壹0章?ORM框架 104

10.1  SQLAlchemy介紹 104

10.2  安裝SQLAlchemy 105

10.3  連接數(shù)據(jù)庫 106

10.4  創(chuàng)建數(shù)據(jù)表 108

10.5  添加數(shù)據(jù) 111

10.6  更新數(shù)據(jù) 112

10.7  查詢數(shù)據(jù) 114

10.8  本章小結(jié) 116

壹1章?MongoDB數(shù)據(jù)庫操作 118

11.1  MongoDB介紹 118

11.2  安裝及使用 120

11.2.1  MongoDB 120

11.2.2  MongoDB可視化工具 121

11.2.3  PyMongo 123

11.3  連接數(shù)據(jù)庫 123

11.4  添加文檔 125

11.5  更新文檔 126

11.6  查詢文檔 127

11.7  本章小結(jié) 130

壹2章?項(xiàng)目實(shí)戰(zhàn):爬取淘寶商品信息 131

12.1  分析說明 131

12.2  功能實(shí)現(xiàn) 134

12.3  數(shù)據(jù)存儲(chǔ) 136

12.4  本章小結(jié) 138

壹3章?項(xiàng)目實(shí)戰(zhàn):分布式爬蟲——QQ音樂 139

13.1  分析說明 139

13.2  歌曲下載 140

13.3  歌手和歌曲信息 145

13.4  分類歌手列表 148

13.5  全站歌手列表 150

13.6  數(shù)據(jù)存儲(chǔ) 152

13.7  分布式概念 154

13.7.1  GIL是什么 154

13.7.2  為什么會(huì)有GIL 154

13.8  并發(fā)庫concurrent.futures 155

13.9  分布式爬蟲 157

13.10  本章小結(jié) 159

壹4章?項(xiàng)目實(shí)戰(zhàn):爬蟲軟件—— 淘寶商品信息 161

14.1  分析說明 161

14.2  GUI庫介紹 162

14.3  PyQt5安裝及環(huán)境搭建 162

14.4  軟件界面開發(fā) 165

14.5  MVC——視圖 169

14.6  MVC——控制器 171

14.7  MVC——模型 172

14.8  擴(kuò)展思路 173

14.9  本章小結(jié) 174

壹5章?項(xiàng)目實(shí)戰(zhàn):12306搶票 176

15.1  分析說明 176

15.2  驗(yàn)證碼驗(yàn)證 177

15.3  用戶登錄與驗(yàn)證 181

15.4  查詢車次 187

15.5  預(yù)訂車票 193

15.6  提交訂單 196

15.7  生成訂單 204

15.8  本章小結(jié) 209

壹6章?項(xiàng)目實(shí)戰(zhàn):玩轉(zhuǎn)微博 219

16.1  分析說明 219

16.2  用戶登錄 220

16.3  用戶登錄(帶驗(yàn)證碼) 232

16.4  關(guān)鍵字搜索熱門微博 240

16.5  發(fā)布微博 247

16.6  關(guān)注用戶 253

16.7  點(diǎn)贊和轉(zhuǎn)發(fā)評(píng)論 257

16.8  本章小結(jié) 263

壹7章?Scrapy爬蟲框架 265

17.1  爬蟲框架 265

17.2  Scrapy的運(yùn)行機(jī)制 267

17.3  安裝Scrapy 268

17.4  爬蟲開發(fā)快速入門 270

17.5  Spiders介紹 277

17.6  Spider的編寫 278

17.7  Items的編寫 282

17.8  Item Pipeline的編寫 284

17.9  Selectors的編寫 288

17.10  文件下載 291

17.11  本章小結(jié) 296

壹8章?項(xiàng)目實(shí)戰(zhàn):Scrapy爬取QQ音樂 298

18.1  分析說明 298

18.2  創(chuàng)建項(xiàng)目 299

18.3  編寫setting 300

18.4  編寫Items 301

18.5  編寫Item Pipelines 302

18.6  編寫Spider 305

18.7  本章小結(jié) 310 


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)