注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)從零開始學(xué)Scrapy網(wǎng)絡(luò)爬蟲(視頻教學(xué)版)

從零開始學(xué)Scrapy網(wǎng)絡(luò)爬蟲(視頻教學(xué)版)

從零開始學(xué)Scrapy網(wǎng)絡(luò)爬蟲(視頻教學(xué)版)

定 價:¥99.00

作 者: 張濤 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111634744 出版時間: 2019-09-01 包裝: 平裝
開本: 16開 頁數(shù): 283 字?jǐn)?shù):  

內(nèi)容簡介

  本書從零開始,循序漸進(jìn)地介紹了目前*流行的網(wǎng)絡(luò)爬蟲框架Scrapy。本書共13章。其中第1~4章為基礎(chǔ)篇,介紹了Python基礎(chǔ)、網(wǎng)絡(luò)爬蟲基礎(chǔ)、Scrapy框架及基本的爬蟲功能。第5~10章為進(jìn)階篇,介紹了如何將爬蟲數(shù)據(jù)存儲于MySQL、MongoDB和Redis數(shù)據(jù)庫中;如何實(shí)現(xiàn)異步的Ajax數(shù)據(jù)的爬?。蝗绾问褂肧elenium和Splash實(shí)現(xiàn)動態(tài)網(wǎng)站的爬?。蝗绾螌?shí)現(xiàn)模擬登錄功能;如何突破反爬蟲技術(shù),以及如何實(shí)現(xiàn)文件和圖片的下載。第11~13章為高級篇,介紹了使用Scrapy-Redis實(shí)現(xiàn)分布式爬蟲;使用Scrapyd和Docker部署分布式爬蟲;使用Gerapy管理分布式爬蟲,并實(shí)現(xiàn)了一個搶票軟件的綜合項(xiàng)目。 本書適合爬蟲初學(xué)者、爬蟲愛好者及高校相關(guān)學(xué)生,也適合數(shù)據(jù)爬蟲工程師作為參考讀物,同時也適合各大院校和培訓(xùn)機(jī)構(gòu)作為教材使用。

作者簡介

  張濤畢業(yè)于中國科學(xué)技術(shù)大學(xué),獲碩士學(xué)位。目前在科大訊飛從事人工智能教育培訓(xùn)與研究。加入科大訊飛之前,曾經(jīng)在知名日資企業(yè)任職研發(fā)經(jīng)理,負(fù)責(zé)日本大型證券系統(tǒng)的設(shè)計(jì)與開發(fā)。有7年大學(xué)課程改革與教學(xué)經(jīng)驗(yàn),主要研究方向?yàn)镻ython網(wǎng)絡(luò)爬蟲、數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。

圖書目錄

前言
第1篇 基礎(chǔ)篇
第1章 Python基礎(chǔ)2
1.1 Python簡介2
1.1.1 Python簡史2
1.1.2 搭建Python環(huán)境3
1.1.3 安裝PyCharm集成開發(fā)環(huán)境6
1.2 Python基本語法7
1.2.1 基本數(shù)據(jù)類型和運(yùn)算7
1.2.2 運(yùn)算符和表達(dá)式8
1.2.3 條件判斷語句9
1.2.4 循環(huán)語句10
1.2.5 字符串12
1.3 Python內(nèi)置數(shù)據(jù)結(jié)構(gòu)14
1.3.1 列表15
1.3.2 字典16
1.3.3 元組17
1.3.4 遍歷對象集合17
1.4 Python模塊化設(shè)計(jì)18
1.4.1 函數(shù)18
1.4.2 迭代器(iterator)20
1.4.3 生成器(Generator)20
1.4.4 類和對象22
1.4.5 文件與異常23
1.5 本章小結(jié)25
第2章 網(wǎng)絡(luò)爬蟲基礎(chǔ)26
2.1 HTTP基本原理26
2.1.1 URL介紹27
2.1.2 HTTP和HTTPS協(xié)議27
2.1.3 HTTP請求(Request)27
2.1.4 HTTP響應(yīng)(Response)30
2.2 網(wǎng)頁基礎(chǔ)32
2.2.1 HTML文檔33
2.2.2 網(wǎng)頁的結(jié)構(gòu)33
2.2.3 節(jié)點(diǎn)樹及節(jié)點(diǎn)之間的關(guān)系34
2.3 使用XPath提取網(wǎng)頁信息36
2.3.1 XPath介紹36
2.3.2 XPath常用路徑表達(dá)式36
2.3.3 XPath帶謂語的路徑表達(dá)式39
2.4 本章小結(jié)40
第3章 Scrapy框架介紹41
3.1 網(wǎng)絡(luò)爬蟲原理41
3.1.1 爬蟲執(zhí)行的流程41
3.2 Scrapy框架結(jié)構(gòu)及執(zhí)行流程42
3.2.1 Scrapy框架結(jié)構(gòu)42
3.2.2 Scrapy執(zhí)行流程44
3.3 Scrapy安裝44
3.3.1 使用pip安裝Scrapy44
3.3.2 常見安裝錯誤45
3.3.3 驗(yàn)證安裝46
3.4 第一個網(wǎng)絡(luò)爬蟲46
3.4.1 需求分析46
3.4.2 創(chuàng)建項(xiàng)目47
3.4.3 分析頁面48
3.4.4 實(shí)現(xiàn)Spider爬蟲功能49
3.4.5 運(yùn)行爬蟲50
3.4.6 常見問題51
3.5 本章小結(jié)52
第4章 Scrapy網(wǎng)絡(luò)爬蟲基礎(chǔ)53
4.1 使用Spider提取數(shù)據(jù)53
4.1.1 Spider組件介紹53
4.1.2 重寫start_requests()方法55
4.1.3 Request對象57
4.1.4 使用選擇器提取數(shù)據(jù)58
4.1.5 Response對象與XPath59
4.1.6 Response對象與CSS61
4.1.7 進(jìn)一步了解Response對象62
4.1.8 多頁數(shù)據(jù)的爬取63
4.2 使用Item封裝數(shù)據(jù)64
4.2.1 定義Item和Field65
4.2.2 使用ItemLoader填充容器66
4.3 使用Pipeline處理數(shù)據(jù)69
4.3.1 Item Pipeline介紹70
4.3.2 編寫自己的Item Pipeline70
4.3.3 啟用Item Pipeline71
4.3.4 多個Item Pipeline71
4.3.5 保存為其他類型文件72
4.4 項(xiàng)目案例:爬取鏈家網(wǎng)二手房信息75
4.4.1 項(xiàng)目需求75
4.4.2 技術(shù)分析76
4.4.3 代碼實(shí)現(xiàn)及解析77
4.5 本章小結(jié)85
第2篇 進(jìn)階篇
第5章 數(shù)據(jù)庫存儲88
5.1 MySQL數(shù)據(jù)庫88
5.1.1 關(guān)系型數(shù)據(jù)庫概述88
5.1.2 下載和安裝MySQL數(shù)據(jù)庫88
5.1.3 數(shù)據(jù)庫管理工具Navicat92
5.1.4 Python訪問MySQL數(shù)據(jù)庫94
5.1.5 項(xiàng)目案例97
5.2 MongoDB數(shù)據(jù)庫100
5.2.1 NoSQL概述100
5.2.2 MongoDB介紹100
5.2.3 MongoDB的下載和安裝101
5.2.4 Python訪問MongoDB數(shù)據(jù)庫102
5.2.5 項(xiàng)目案例108
5.3 Redis數(shù)據(jù)庫111
5.3.1 Redis的下載和安裝111
5.3.2 Python訪問Redis113
5.3.3 項(xiàng)目案例118
5.4 本章小結(jié)121
第6章 JavaScript與AJAX數(shù)據(jù)爬取122
6.1 JavaScript簡介122
6.2 項(xiàng)目案例:爬取QQ音樂榜單歌曲122
6.2.1 項(xiàng)目需求122
6.2.2 技術(shù)分析123
6.2.3 代碼實(shí)現(xiàn)及解析126
6.2.4 更常見的動態(tài)網(wǎng)頁128
6.3 AJAX簡介129
6.4 項(xiàng)目案例:爬取豆瓣電影信息130
6.4.1 項(xiàng)目需求130
6.4.2 技術(shù)分析130
6.4.3 代碼實(shí)現(xiàn)及解析133
6.5 本章小結(jié)135
第7章 動態(tài)渲染頁面的爬取136
7.1 Selenium實(shí)現(xiàn)動態(tài)頁面爬取136
7.1.1 Selenium安裝136
7.1.2 Selenium簡單實(shí)現(xiàn)137
7.1.3 Selenium語法138
7.2 項(xiàng)目案例:爬取今日頭條熱點(diǎn)新聞145
7.2.1 項(xiàng)目需求145
7.2.2 技術(shù)分析145
7.2.3 代碼實(shí)現(xiàn)及解析147
7.3 Splash實(shí)現(xiàn)動態(tài)頁面爬取151
7.3.1 Splash介紹151
7.3.2 Splash環(huán)境搭建152
7.3.3 Splash模塊介紹156
7.4 項(xiàng)目案例:爬取一號店中的iPhone手機(jī)信息162
7.4.1 項(xiàng)目需求162
7.4.2 技術(shù)分析163
7.4.3 代碼實(shí)現(xiàn)及解析165
7.5 本章小結(jié)168
第8章 模擬登錄169
8.1 模擬登錄解析169
8.1.1 登錄過程解析169
8.1.2 模擬登錄的實(shí)現(xiàn)171
8.2 驗(yàn)證碼識別174
8.2.1 使用OCR識別驗(yàn)證碼174
8.2.2 處理復(fù)雜驗(yàn)證碼176
8.2.3 五花八門的驗(yàn)證碼177
8.3 Cookie自動登錄177
8.3.1 Cookie介紹178
8.3.2 獲取Cookie的庫—browsercookie179
8.4 項(xiàng)目案例:爬取起點(diǎn)中文網(wǎng)某用戶的書架信息180
8.4.1 項(xiàng)目需求180
8.4.2 技術(shù)分析180
8.4.3 代碼實(shí)現(xiàn)及解析182
8.5 本章小結(jié)184
第9章 突破反爬蟲技術(shù)185
9.1 反爬蟲技術(shù)及突破措施185
9.2 偽裝成不同的瀏覽器187
9.2.1 UserAgentMiddleware中間件介紹187
9.2.2 實(shí)現(xiàn)偽裝成隨機(jī)瀏覽器188
9.2.3 更簡單的方法191
9.3 使用HTTP代理服務(wù)器192
9.3.1 HTTP代理服務(wù)器192
9.3.2 獲取免費(fèi)代理193
9.3.3 實(shí)現(xiàn)隨機(jī)代理199
9.4 本章小結(jié)202
第10章 文件和圖片下載203
10.1 文件下載203
10.1.1 FilesPipeline執(zhí)行流程203
10.2 項(xiàng)目案例:爬取seaborn案例源文件204
10.2.1 項(xiàng)目需求20

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號