注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)零基礎(chǔ)學(xué)Python網(wǎng)絡(luò)爬蟲案例實(shí)戰(zhàn)全流程詳解(高級進(jìn)階篇)

零基礎(chǔ)學(xué)Python網(wǎng)絡(luò)爬蟲案例實(shí)戰(zhàn)全流程詳解(高級進(jìn)階篇)

零基礎(chǔ)學(xué)Python網(wǎng)絡(luò)爬蟲案例實(shí)戰(zhàn)全流程詳解(高級進(jìn)階篇)

定 價:¥89.80

作 者: 王宇韜,吳子湛,史靖涵
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111684749 出版時間: 2021-06-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  網(wǎng)絡(luò)爬蟲是當(dāng)今獲取數(shù)據(jù)不可或缺的重要手段。本書講解了Python爬蟲的進(jìn)階理論與技術(shù),幫助讀者提升實(shí)戰(zhàn)水平。 全書共7章。第1~3章為常見反爬機(jī)制的應(yīng)對手段,主要內(nèi)容包括Cookie模擬登錄、多種類型的驗(yàn)證碼識別、Ajax動態(tài)請求破解。第4章為手機(jī)App內(nèi)容爬取。第5章和第6章為Scrapy爬蟲框架應(yīng)用。第7章為爬蟲云服務(wù)器部署。 本書適合有一定Python網(wǎng)絡(luò)爬蟲編程基礎(chǔ)的學(xué)生或相關(guān)從業(yè)人員,以及想要在Python網(wǎng)絡(luò)爬蟲開發(fā)、不同類型的反爬機(jī)制應(yīng)對、爬蟲框架開發(fā)、爬蟲云端部署等方面進(jìn)階提高的讀者。

作者簡介

  王宇韜(CFA、FRM、AQF)華能貴誠信托金融科技實(shí)驗(yàn)室發(fā)起人,賓夕法尼亞大學(xué)碩士,上海交通大學(xué)學(xué)士,曾在劍橋大學(xué)交流學(xué)習(xí),兩年內(nèi)通過CFA 3級、FRM 2級、AQF。在華能貴誠信托自主研發(fā)了輿情監(jiān)控系統(tǒng)、資金雷達(dá)、流程自動化AI系統(tǒng)、機(jī)器視頻面試系統(tǒng)等;專注于科技在金融領(lǐng)域的應(yīng)用,編著有《Python金融大數(shù)據(jù)挖掘與分析全流程詳解》和《Python大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)商業(yè)案例實(shí)戰(zhàn)》。 吳子湛畢業(yè)于合肥工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,就職于南京市秦淮區(qū)大數(shù)據(jù)中心,擁有多年IT研發(fā)經(jīng)驗(yàn),擅長大數(shù)據(jù)分析與挖掘。 史靖涵北京郵電大學(xué)計(jì)算機(jī)專業(yè)學(xué)士,帝國理工大學(xué)和加州大學(xué)伯克利分校計(jì)算機(jī)專業(yè)碩士,擅長分布式爬蟲與數(shù)據(jù)挖掘。

圖書目錄

前言
本書學(xué)習(xí)資源
第1章 Cookie模擬登錄
1.1 Cookie模擬登錄的原理 11
1.1.1 客戶端與服務(wù)端 11
1.1.2 HTTP的無狀態(tài)性 12
1.1.3 Cookie的含義與作用 13
1.1.4 Session的含義與作用 16
1.1.5 Cookie與Session的交互 17
1.2 案例實(shí)戰(zhàn)1:模擬登錄淘寶并爬取數(shù)據(jù) 20
1.2.1 獲取Cookie模擬登錄淘寶 20
1.2.2 爬取淘寶商品數(shù)據(jù) 25
1.3 案例實(shí)戰(zhàn)2:模擬登錄新浪微博并爬取數(shù)據(jù) 29
1.3.1 獲取Cookie模擬登錄新浪微博 30
1.3.2 爬取新浪微博熱搜榜信息 34
★ 課后習(xí)題 38
第2章 驗(yàn)證碼反爬的應(yīng)對
2.1 圖像驗(yàn)證碼 39
2.1.1 超級鷹平臺注冊 40
2.1.2 超級鷹Python接口的使用 41
2.1.3 案例實(shí)戰(zhàn):英文驗(yàn)證碼和中文驗(yàn)證碼識別 46
2.2 計(jì)算題驗(yàn)證碼 51
2.3 滑塊驗(yàn)證碼 54
2.4 滑動拼圖驗(yàn)證碼 57
2.4.1 初級版滑動拼圖驗(yàn)證碼 59
2.4.2 高級版滑動拼圖驗(yàn)證碼 63
2.5 點(diǎn)選驗(yàn)證碼 68
2.5.1 本地網(wǎng)頁識別 69
2.5.2 bilibili點(diǎn)選驗(yàn)證碼識別初探 75
2.5.3 bilibili點(diǎn)選驗(yàn)證碼識別升級:無限嘗試版 80
★ 課后習(xí)題 85
第3章 Ajax動態(tài)請求破解
3.1 Ajax簡介 86
3.1.1 不同的網(wǎng)頁翻頁方式的對比 86
3.1.2 Ajax的基本概念與工作原理 88
3.2 案例實(shí)戰(zhàn)1:爬取開源中國博客頻道 89
3.2.1 分析Ajax請求 89
3.2.2 爬取單頁博客 92
3.2.3 爬取多頁博客 96
3.3 案例實(shí)戰(zhàn)2:爬取新浪微博 98
3.3.1 模擬登錄新浪微博 100
3.3.2 分析單個微博頁面 101
3.3.3 破解Ajax請求爬取多頁 103
★ 課后習(xí)題 108
第4章 手機(jī)App內(nèi)容爬取
4.1 相關(guān)軟件安裝 109
4.1.1 安裝夜神模擬器 110
4.1.2 安裝Node.js 111
4.1.3 安裝JDK 113
4.1.4 安裝Android Studio 117
4.1.5 安裝Appium 118
4.1.6 安裝Appium-Python-Client庫 118
4.2 手機(jī)模擬操作初步嘗試 119
4.2.1 用Android Studio連接夜神模擬器 119
4.2.2 用Python連接微信App 121
4.3 Appium基本操作與進(jìn)階操作 123
4.3.1 Appium基本操作 123
4.3.2 Appium進(jìn)階操作 126
4.4 案例實(shí)戰(zhàn):爬取微信朋友圈內(nèi)容 132
4.4.1 獲取微信朋友圈頁面源代碼 133
4.4.2 提取微信朋友圈內(nèi)容 135
4.5 多開模擬器打開多個微信 138
4.5.1 多開模擬器 138
4.5.2 用Appium連接多個模擬器 139
★ 課后習(xí)題 143
第5章 Scrapy爬蟲框架
5.1 Scrapy框架基礎(chǔ) 144
5.1.1 Scrapy的安裝方法 144
5.1.2 Scrapy的整體架構(gòu) 146
5.1.3 Scrapy的常用指令 148
5.2 案例實(shí)戰(zhàn)1:百度新聞爬取 156
5.2.1 Robots協(xié)議破解 157
5.2.2 User-Agent設(shè)置 158
5.2.3 百度新聞標(biāo)題爬取 159
5.3 案例實(shí)戰(zhàn)2:新浪新聞爬取 160
5.3.1 實(shí)體文件設(shè)置 161
5.3.2 新浪新聞爬?。号廊∫粭l新聞 162
5.3.3 新浪新聞爬取:爬取多條新聞 166
5.3.4 新浪新聞爬?。荷晌谋疚募蟾?167
5.4 案例實(shí)戰(zhàn)3:豆瓣電影海報圖片爬取 170
5.4.1 用常規(guī)方法爬取 170
5.4.2 用Scrapy爬取 171
5.5 知識拓展:Python類的相關(guān)知識 176
5.5.1 類和對象的概念 176
5.5.2 類名、屬性和方法 176
5.5.3 類的進(jìn)階知識 179
★ 課后習(xí)題 182
第6章 Scrapy應(yīng)對反爬
6.1 中間件技術(shù)概述 183
6.1.1 下載器中間件 184
6.1.2 爬蟲中間件 184
6.2 Scrapy IP代理:爬取搜狗圖片 185
6.2.1 用Requests庫批量下載圖片 186
6.2.2 用Scrapy框架批量下載圖片 198
6.3 Scrapy Cookie:模擬登錄淘寶 202
6.3.1 在中間件文件中添加Cookie 202
6.3.2 編寫并運(yùn)行爬蟲文件:爬取淘寶網(wǎng)頁 204
6.4 Scrapy Selenium庫:爬取財經(jīng)新聞 206
6.4.1 在中間件文件中添加Selenium庫 207
6.4.2 編寫并運(yùn)行爬蟲文件:爬取新聞信息 209
★ 課后習(xí)題 214
第7章 爬蟲云服務(wù)器部署
7.1 HTML網(wǎng)頁制作進(jìn)階 215
7.1.1 表格 217
7.1.2 列表 218
7.1.3 樣式設(shè)計(jì) 220
7.1.4 背景設(shè)置 228
7.2 Flask Web編程基礎(chǔ) 232
7.2.1 Flask入門 232
7.2.2 用render_template()函數(shù)渲染頁面 237
7.2.3 用Flask連接數(shù)據(jù)庫 242
7.3 Flask Web編程實(shí)戰(zhàn) 247
7.3.1 展示單家公司的數(shù)據(jù) 247
7.3.2 展示多家公司的數(shù)據(jù) 252
7.3.3 展示輿情評分 255
7.3.4 只展示當(dāng)天新聞 257
7.3.5 只展示負(fù)面新聞 258
7.4 云服務(wù)器的購買和登錄 261
7.5 程序云端部署及網(wǎng)站搭建 265
7.5.1 搭建程序的運(yùn)行環(huán)境 265
7.5.2 程序24小時運(yùn)行及Flask項(xiàng)目部署 266
7.5.3 域名申請和使用 267
★ 課后習(xí)題 270

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號