從零開始學Scrapy網(wǎng)絡(luò)爬蟲（視頻教學版）

定　價：￥99.00

作　者：	張濤著
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787111634744	出版時間：	2019-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	283	字數(shù)：

內(nèi)容簡介

　　本書從零開始，循序漸進地介紹了目前*流行的網(wǎng)絡(luò)爬蟲框架Scrapy。本書共13章。其中第1~4章為基礎(chǔ)篇，介紹了Python基礎(chǔ)、網(wǎng)絡(luò)爬蟲基礎(chǔ)、Scrapy框架及基本的爬蟲功能。第5~10章為進階篇，介紹了如何將爬蟲數(shù)據(jù)存儲于MySQL、MongoDB和Redis數(shù)據(jù)庫中；如何實現(xiàn)異步的Ajax數(shù)據(jù)的爬取；如何使用Selenium和Splash實現(xiàn)動態(tài)網(wǎng)站的爬??；如何實現(xiàn)模擬登錄功能；如何突破反爬蟲技術(shù)，以及如何實現(xiàn)文件和圖片的下載。第11~13章為高級篇，介紹了使用Scrapy-Redis實現(xiàn)分布式爬蟲；使用Scrapyd和Docker部署分布式爬蟲；使用Gerapy管理分布式爬蟲，并實現(xiàn)了一個搶票軟件的綜合項目。本書適合爬蟲初學者、爬蟲愛好者及高校相關(guān)學生，也適合數(shù)據(jù)爬蟲工程師作為參考讀物，同時也適合各大院校和培訓機構(gòu)作為教材使用。

作者簡介

　　張濤畢業(yè)于中國科學技術(shù)大學，獲碩士學位。目前在科大訊飛從事人工智能教育培訓與研究。加入科大訊飛之前，曾經(jīng)在知名日資企業(yè)任職研發(fā)經(jīng)理，負責日本大型證券系統(tǒng)的設(shè)計與開發(fā)。有7年大學課程改革與教學經(jīng)驗，主要研究方向為Python網(wǎng)絡(luò)爬蟲、數(shù)據(jù)分析和機器學習。

圖書目錄

前言
第1篇基礎(chǔ)篇
第1章 Python基礎(chǔ)2
1.1 Python簡介2
1.1.1 Python簡史2
1.1.2 搭建Python環(huán)境3
1.1.3 安裝PyCharm集成開發(fā)環(huán)境6
1.2 Python基本語法7
1.2.1 基本數(shù)據(jù)類型和運算7
1.2.2 運算符和表達式8
1.2.3 條件判斷語句9
1.2.4 循環(huán)語句10
1.2.5 字符串12
1.3 Python內(nèi)置數(shù)據(jù)結(jié)構(gòu)14
1.3.1 列表15
1.3.2 字典16
1.3.3 元組17
1.3.4 遍歷對象集合17
1.4 Python模塊化設(shè)計18
1.4.1 函數(shù)18
1.4.2 迭代器（iterator）20
1.4.3 生成器（Generator）20
1.4.4 類和對象22
1.4.5 文件與異常23
1.5 本章小結(jié)25
第2章網(wǎng)絡(luò)爬蟲基礎(chǔ)26
2.1 HTTP基本原理26
2.1.1 URL介紹27
2.1.2 HTTP和HTTPS協(xié)議27
2.1.3 HTTP請求（Request）27
2.1.4 HTTP響應(yīng)（Response）30
2.2 網(wǎng)頁基礎(chǔ)32
2.2.1 HTML文檔33
2.2.2 網(wǎng)頁的結(jié)構(gòu)33
2.2.3 節(jié)點樹及節(jié)點之間的關(guān)系34
2.3 使用XPath提取網(wǎng)頁信息36
2.3.1 XPath介紹36
2.3.2 XPath常用路徑表達式36
2.3.3 XPath帶謂語的路徑表達式39
2.4 本章小結(jié)40
第3章 Scrapy框架介紹41
3.1 網(wǎng)絡(luò)爬蟲原理41
3.1.1 爬蟲執(zhí)行的流程41
3.2 Scrapy框架結(jié)構(gòu)及執(zhí)行流程42
3.2.1 Scrapy框架結(jié)構(gòu)42
3.2.2 Scrapy執(zhí)行流程44
3.3 Scrapy安裝44
3.3.1 使用pip安裝Scrapy44
3.3.2 常見安裝錯誤45
3.3.3 驗證安裝46
3.4 第一個網(wǎng)絡(luò)爬蟲46
3.4.1 需求分析46
3.4.2 創(chuàng)建項目47
3.4.3 分析頁面48
3.4.4 實現(xiàn)Spider爬蟲功能49
3.4.5 運行爬蟲50
3.4.6 常見問題51
3.5 本章小結(jié)52
第4章 Scrapy網(wǎng)絡(luò)爬蟲基礎(chǔ)53
4.1 使用Spider提取數(shù)據(jù)53
4.1.1 Spider組件介紹53
4.1.2 重寫start_requests()方法55
4.1.3 Request對象57
4.1.4 使用選擇器提取數(shù)據(jù)58
4.1.5 Response對象與XPath59
4.1.6 Response對象與CSS61
4.1.7 進一步了解Response對象62
4.1.8 多頁數(shù)據(jù)的爬取63
4.2 使用Item封裝數(shù)據(jù)64
4.2.1 定義Item和Field65
4.2.2 使用ItemLoader填充容器66
4.3 使用Pipeline處理數(shù)據(jù)69
4.3.1 Item Pipeline介紹70
4.3.2 編寫自己的Item Pipeline70
4.3.3 啟用Item Pipeline71
4.3.4 多個Item Pipeline71
4.3.5 保存為其他類型文件72
4.4 項目案例：爬取鏈家網(wǎng)二手房信息75
4.4.1 項目需求75
4.4.2 技術(shù)分析76
4.4.3 代碼實現(xiàn)及解析77
4.5 本章小結(jié)85
第2篇進階篇
第5章數(shù)據(jù)庫存儲88
5.1 MySQL數(shù)據(jù)庫88
5.1.1 關(guān)系型數(shù)據(jù)庫概述88
5.1.2 下載和安裝MySQL數(shù)據(jù)庫88
5.1.3 數(shù)據(jù)庫管理工具Navicat92
5.1.4 Python訪問MySQL數(shù)據(jù)庫94
5.1.5 項目案例97
5.2 MongoDB數(shù)據(jù)庫100
5.2.1 NoSQL概述100
5.2.2 MongoDB介紹100
5.2.3 MongoDB的下載和安裝101
5.2.4 Python訪問MongoDB數(shù)據(jù)庫102
5.2.5 項目案例108
5.3 Redis數(shù)據(jù)庫111
5.3.1 Redis的下載和安裝111
5.3.2 Python訪問Redis113
5.3.3 項目案例118
5.4 本章小結(jié)121
第6章 JavaScript與AJAX數(shù)據(jù)爬取122
6.1 JavaScript簡介122
6.2 項目案例：爬取QQ音樂榜單歌曲122
6.2.1 項目需求122
6.2.2 技術(shù)分析123
6.2.3 代碼實現(xiàn)及解析126
6.2.4 更常見的動態(tài)網(wǎng)頁128
6.3 AJAX簡介129
6.4 項目案例：爬取豆瓣電影信息130
6.4.1 項目需求130
6.4.2 技術(shù)分析130
6.4.3 代碼實現(xiàn)及解析133
6.5 本章小結(jié)135
第7章動態(tài)渲染頁面的爬取136
7.1 Selenium實現(xiàn)動態(tài)頁面爬取136
7.1.1 Selenium安裝136
7.1.2 Selenium簡單實現(xiàn)137
7.1.3 Selenium語法138
7.2 項目案例：爬取今日頭條熱點新聞145
7.2.1 項目需求145
7.2.2 技術(shù)分析145
7.2.3 代碼實現(xiàn)及解析147
7.3 Splash實現(xiàn)動態(tài)頁面爬取151
7.3.1 Splash介紹151
7.3.2 Splash環(huán)境搭建152
7.3.3 Splash模塊介紹156
7.4 項目案例：爬取一號店中的iPhone手機信息162
7.4.1 項目需求162
7.4.2 技術(shù)分析163
7.4.3 代碼實現(xiàn)及解析165
7.5 本章小結(jié)168
第8章模擬登錄169
8.1 模擬登錄解析169
8.1.1 登錄過程解析169
8.1.2 模擬登錄的實現(xiàn)171
8.2 驗證碼識別174
8.2.1 使用OCR識別驗證碼174
8.2.2 處理復雜驗證碼176
8.2.3 五花八門的驗證碼177
8.3 Cookie自動登錄177
8.3.1 Cookie介紹178
8.3.2 獲取Cookie的庫—browsercookie179
8.4 項目案例：爬取起點中文網(wǎng)某用戶的書架信息180
8.4.1 項目需求180
8.4.2 技術(shù)分析180
8.4.3 代碼實現(xiàn)及解析182
8.5 本章小結(jié)184
第9章突破反爬蟲技術(shù)185
9.1 反爬蟲技術(shù)及突破措施185
9.2 偽裝成不同的瀏覽器187
9.2.1 UserAgentMiddleware中間件介紹187
9.2.2 實現(xiàn)偽裝成隨機瀏覽器188
9.2.3 更簡單的方法191
9.3 使用HTTP代理服務(wù)器192
9.3.1 HTTP代理服務(wù)器192
9.3.2 獲取免費代理193
9.3.3 實現(xiàn)隨機代理199
9.4 本章小結(jié)202
第10章文件和圖片下載203
10.1 文件下載203
10.1.1 FilesPipeline執(zhí)行流程203
10.2 項目案例：爬取seaborn案例源文件204
10.2.1 項目需求20