注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計精通Python爬蟲框架Scrapy

精通Python爬蟲框架Scrapy

精通Python爬蟲框架Scrapy

定 價:¥59.00

作 者: [美] 迪米特里奧斯 考奇斯-勞卡斯(Dimitrios Kouzis-Loukas) 著;李斌 譯
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787115474209 出版時間: 2018-02-01 包裝: 平裝
開本: 16開 頁數(shù): 239 字?jǐn)?shù):  

內(nèi)容簡介

  Scrapy是使用Python開發(fā)的一個快速、高層次的屏幕抓取和Web抓取框架,用于抓Web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。《精通Python爬蟲框架Scrapy》以Scrapy 1.0版本為基礎(chǔ),講解了Scrapy的基礎(chǔ)知識,以及如何使用Python和三方API提取、整理數(shù)據(jù),以滿足自己的需求。本書共11章,其內(nèi)容涵蓋了Scrapy基礎(chǔ)知識,理解HTML和XPath,安裝Scrapy并爬取一個網(wǎng)站,使用爬蟲填充數(shù)據(jù)庫并輸出到移動應(yīng)用中,爬蟲的強大功能,將爬蟲部署到Scrapinghub云服務(wù)器,Scrapy的配置與管理,Scrapy編程,管道秘訣,理解Scrapy性能,使用Scrapyd與實時分析進(jìn)行分布式爬取。本書附錄還提供了各種軟件的安裝與故障排除等內(nèi)容。本書適合軟件開發(fā)人員、數(shù)據(jù)科學(xué)家,以及對自然語言處理和機器學(xué)習(xí)感興趣的人閱讀。

作者簡介

  Dimitrios Kouzis-Loukas作為一位軟件開發(fā)人員,已經(jīng)擁有超過15年的經(jīng)驗。同時,他還使用自己掌握的知識和技能,向廣大讀者講授如何編寫軟件。他學(xué)習(xí)并掌握了多門學(xué)科,包括數(shù)學(xué)、物理學(xué)以及微電子學(xué)。他對這些學(xué)科的透徹理解,提高了自身的標(biāo)準(zhǔn),而不只是“實用的解決方案”。他知道真正的解決方案應(yīng)當(dāng)是像物理學(xué)規(guī)律一樣確定,像ECC內(nèi)存一樣健壯,像數(shù)學(xué)一樣通用。Dimitrios目前正在使用新的數(shù)據(jù)中心技術(shù)開發(fā)低延遲、高可用的分布式系統(tǒng)。他是語言無關(guān)論者,不過對Python、C++和Java略有偏好。他對開源軟硬件有著堅定的信念,他希望他的貢獻(xiàn)能夠造福于各個社區(qū)和全人類。關(guān)于譯者李斌,畢業(yè)于北京科技大學(xué)計算機科學(xué)與技術(shù)專業(yè),獲得碩士學(xué)位。曾任職于阿里巴巴,當(dāng)前供職于凡普金科,負(fù)責(zé)應(yīng)用安全工作。熱愛Python編程和Web安全,希望以更加智能和自動化的方式提升網(wǎng)絡(luò)安全。

圖書目錄

第 1章 Scrapy簡介 1
1.1 初識Scrapy 1
1.2 喜歡Scrapy的更多理由 2
1.3 關(guān)于本書:目標(biāo)和用途 3
1.4 掌握自動化數(shù)據(jù)爬取的重要性 4
1.4.1 開發(fā)健壯且高質(zhì)量的應(yīng)用,并提供合理規(guī)劃 4
1.4.2 快速開發(fā)高質(zhì)量可行產(chǎn)品 5
1.4.3 Google不會使用表單,爬取才能擴大規(guī)模 6
1.4.4 發(fā)現(xiàn)并融入你的生態(tài)系統(tǒng) 7
1.5 在充滿爬蟲的世界里做一個好公民 7
1.6 Scrapy不是什么 8
1.7 本章小結(jié) 9
第 2章 理解HTML和XPath 10
2.1 HTML、DOM樹表示以及XPath 10
2.1.1 URL 11
2.1.2 HTML文檔 11
2.1.3 樹表示法 13
2.1.4 你會在屏幕上看到什么 14
2.2 使用XPath選擇HTML元素 15
2.2.1 有用的XPath表達(dá)式 16
2.2.2 使用Chrome獲取XPath表達(dá)式 19
2.2.3 常見任務(wù)示例 20
2.2.4 預(yù)見變化 21
2.3 本章小結(jié) 22
第3章 爬蟲基礎(chǔ) 23
3.1 安裝Scrapy 24
3.1.1 MacOS 24
3.1.2 Windows 25
3.1.3 Linux 25
3.1.4 新源碼安裝 26
3.1.5 升級Scrapy 26
3.1.6 Vagrant:本書中運行示例的官方方式 27
3.2 UR2IM——基本抓取流程 28
3.2.1 URL 29
3.2.2 請求和響應(yīng) 31
3.2.3 Item 31
3.3 一個Scrapy項目 37
3.3.1 聲明item 38
3.3.2 編寫爬蟲 40
3.3.3 填充item 43
3.3.4 保存文件 45
3.3.5 清理——item裝載器與管理字段 47
3.3.6 創(chuàng)建contract 50
3.4 抽取更多的URL 53
3.4.1 使用爬蟲實現(xiàn)雙向爬取 56
3.4.2 使用CrawlSpider實現(xiàn)雙向爬取 59
3.5 本章小結(jié) 61
第4章 從Scrapy到移動應(yīng)用 62
4.1 選擇手機應(yīng)用框架 62
4.2 創(chuàng)建數(shù)據(jù)庫和集合 63
4.3 使用Scrapy填充數(shù)據(jù)庫 65
4.4 創(chuàng)建手機應(yīng)用 68
4.4.1 創(chuàng)建數(shù)據(jù)庫訪問服務(wù) 69
4.4.2 創(chuàng)建用戶界面 69
4.4.3 將數(shù)據(jù)映射到用戶界面 70
4.4.4 數(shù)據(jù)庫字段與用戶界面控件間映射 71
4.4.5 測試、分享及導(dǎo)出你的手機應(yīng)用 72
4.5 本章小結(jié) 73
第5章 迅速的爬蟲技巧 75
5.1 需要登錄的爬蟲 75
5.2 使用JSON API和AJAX頁面的爬蟲 81
5.3 30倍速的房產(chǎn)爬蟲 85
5.4 基于Excel文件爬取的爬蟲 90
5.5 本章小結(jié) 93
第6章 部署到Scrapinghub 94
6.1 注冊、登錄及創(chuàng)建項目 94
6.2 部署爬蟲與計劃運行 96
6.3 訪問item 99
6.4 計劃定時爬取 100
6.5 本章小結(jié) 101
第7章 配置與管理 102
7.1 使用Scrapy設(shè)置 102
7.2 基本設(shè)置 103
7.2.1 分析 104
7.2.2 性能 107
7.2.3 提前終止爬取 108
7.2.4 HTTP緩存和離線運行 108
7.2.5 爬取風(fēng)格 109
7.2.6 feed 110
7.2.7 媒體下載 111
7.2.8 Amazon Web服務(wù) 113
7.2.9 使用代理和爬蟲 113
7.3 進(jìn)階設(shè)置 114
7.3.1 項目相關(guān)設(shè)置 115
7.3.2 Scrapy擴展設(shè)置 116
7.3.3 下載調(diào)優(yōu) 116
7.3.4 自動限速擴展設(shè)置 117
7.3.5 內(nèi)存使用擴展設(shè)置 117
7.3.6 日志和調(diào)試 117
7.4 本章小結(jié) 118
第8章 Scrapy編程 119
8.1 Scrapy是一個Twisted應(yīng)用 119
8.1.1 延遲和延遲鏈 122
8.1.2 理解Twisted和非阻塞I/O——一個Python故事 125
8.2 Scrapy架構(gòu)概述 132
8.3 示例1:非常簡單的管道 135
8.4 信號 136
8.5 示例2:測量吞吐量和延時的擴展 138
8.6 中間件延伸 141
8.7 本章小結(jié) 144
第9章 管道秘訣 145
9.1 使用REST API 146
9.1.1 使用treq 146
9.1.2 用于寫入Elasticsearch的管道 146
9.1.3 使用Google Geocoding API實現(xiàn)地理編碼的管道 149
9.1.4 在Elasticsearch中啟用地理編碼索引 156
9.2 與標(biāo)準(zhǔn)Python客戶端建立數(shù)據(jù)庫接口 157
9.3 使用Twisted專用客戶端建立服務(wù)接口 161
9.4 為CPU密集型、阻塞或遺留功能建立接口 166
9.4.1 處理CPU密集型或阻塞操作的管道 166
9.4.2 使用二進(jìn)制或腳本的管道 168
9.5 本章小結(jié) 172
第 10章 理解Scrapy性能 173
10.1 Scrapy引擎——一種直觀方式 173
10.1.1 級聯(lián)隊列系統(tǒng) 175
10.1.2 定義瓶頸 176
10.1.3 Scrapy性能模型 176
10.2 使用telnet獲得組件利用率 178
10.3 基準(zhǔn)系統(tǒng) 180
10.4 標(biāo)準(zhǔn)性能模型 182
10.5 解決性能問題 185
10.5.1 案例 #1:CPU飽和 185
10.5.2 案例 #2:代碼阻塞 187
10.5.3 案例 #3:下載器中的“垃圾” 188
10.5.4 案例 #4:大量響應(yīng)或超長響應(yīng)造成的溢出 191
10.5.5 案例 #5:有限/過度item并發(fā)造成的溢出 193
10.5.6 案例 #6:下載器未充分利用 194
10.6 故障排除流程 197
10.7 本章小結(jié) 198
第 11章 使用Scrapyd與實時分析進(jìn)行分布式爬取 199
11.1 房產(chǎn)的標(biāo)題是如何影響價格的 200
11.2 Scrapyd 200
11.3 分布式系統(tǒng)概述 203
11.4 爬蟲和中間件的變化 205
11.4.1 索引頁分片爬取 205
11.4.2 分批爬取URL 207
11.4.3 從設(shè)置中獲取初始URL 211
11.4.4 在Scrapyd服務(wù)器中部署項目 213
11.5 創(chuàng)建自定義監(jiān)控命令 215
11.6 使用Apache Spark流計算偏移量 216
11.7 運行分布式爬取 218
11.8 系統(tǒng)性能 220
11.9 關(guān)鍵要點 221
11.10 本章小結(jié) 221
附錄A 軟件的安裝與故障排除 222

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號