注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python3網(wǎng)絡(luò)爬蟲(chóng)寶典

Python3網(wǎng)絡(luò)爬蟲(chóng)寶典

Python3網(wǎng)絡(luò)爬蟲(chóng)寶典

定 價(jià):¥79.00

作 者: 韋世東 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121394065 出版時(shí)間: 2020-09-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 272 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)從實(shí)際的爬蟲(chóng)業(yè)務(wù)需求延伸到知識(shí)點(diǎn)和具體實(shí)現(xiàn),并詳細(xì)介紹了其中的原理。首先帶領(lǐng)讀者領(lǐng)略爬蟲(chóng)程序的構(gòu)成和完整鏈條,學(xué)習(xí)自動(dòng)化工具的應(yīng)用場(chǎng)景和基本使用;接著介紹了增量爬取的分類和具體實(shí)現(xiàn)、基于Redis 的分布式爬蟲(chóng)實(shí)現(xiàn)和基于RabbitMQ 的分布式爬蟲(chóng)實(shí)現(xiàn),通過(guò)閱讀論文和源碼剖析詳細(xì)介紹了高準(zhǔn)確率的網(wǎng)頁(yè)正文自動(dòng)化提取方法;然后通過(guò)源碼調(diào)試了解到與Python 項(xiàng)目的部署和調(diào)度相關(guān)的知識(shí),進(jìn)而動(dòng)手實(shí)踐,編寫(xiě)了一款具備權(quán)限控制、Python 通用項(xiàng)目部署、定時(shí)調(diào)度、異常監(jiān)控和釘釘機(jī)器人消息通知的爬蟲(chóng)項(xiàng)目管理平臺(tái);最后通過(guò)解讀分布式調(diào)度平臺(tái)的核心架構(gòu),幫助大家了解分布式架構(gòu)中最為重要的節(jié)點(diǎn)通信、文件同步等知識(shí)。本書(shū)適合爬蟲(chóng)工程師、爬蟲(chóng)技術(shù)愛(ài)好者和Python 開(kāi)發(fā)者閱讀,也適合爬蟲(chóng)團(tuán)隊(duì)管理者、高校教師和培訓(xùn)機(jī)構(gòu)的講師閱讀。

作者簡(jiǎn)介

  韋世東, 資深爬蟲(chóng)工程師、2019 華為云·云享專家、掘金社區(qū)優(yōu)秀作者、GitChat 認(rèn)證作者、夜幕團(tuán)隊(duì)(Night Team)成員、《Python3 反爬蟲(chóng)原理與繞過(guò)實(shí)戰(zhàn)》作者,對(duì)反爬蟲(chóng)和逆向有研究,精通爬蟲(chóng)架構(gòu)設(shè)計(jì)和工程鏈路實(shí)踐,搭建過(guò)日流量?jī)|級(jí)的爬蟲(chóng)架構(gòu)。

圖書(shū)目錄

目錄
第1 章 爬蟲(chóng)程序的構(gòu)成和完整鏈條 ........................................................................ 1
1.1 一個(gè)簡(jiǎn)單的爬蟲(chóng)程序 ................................................................................ 1
1.2 爬蟲(chóng)的完整鏈條 ........................................................................................ 3
1.3 爬取下來(lái)的數(shù)據(jù)被用在什么地方 ............................................................ 7
1.4 爬蟲(chóng)工程師常用的庫(kù) .............................................................................. 11
1.4.1 網(wǎng)絡(luò)請(qǐng)求庫(kù) .................................................................................. 11
1.4.2 網(wǎng)頁(yè)文本解析............................................................................... 19
1.5 數(shù)據(jù)存儲(chǔ) .................................................................................................. 30
1.5.1 將數(shù)據(jù)存入MySQL 數(shù)據(jù)庫(kù) ........................................................ 31
1.5.2 將數(shù)據(jù)存入MongoDB 數(shù)據(jù)庫(kù) .................................................... 34
1.5.3 將數(shù)據(jù)存入Redis 數(shù)據(jù)庫(kù) ............................................................ 36
1.5.4 Excel 文件的讀寫(xiě) ........................................................................ 38
1.6 小試牛刀——出版社新聞資訊爬蟲(chóng) ....................................................... 42
實(shí)踐題 ............................................................................................................... 46
本章小結(jié) ........................................................................................................... 47
第2 章 自動(dòng)化工具的使用 ...................................................................................... 48
2.1 網(wǎng)頁(yè)渲染工具 .......................................................................................... 48
2.1.1 WebDriver 是什么 ........................................................................ 51
2.1.2 Selenium 的介紹和基本使用 ....................................................... 52
2.1.3 Pyppeteer 的介紹和基本使用 ...................................................... 59
2.1.4 Splash 知識(shí)擴(kuò)展 ........................................................................... 61
本節(jié)小結(jié) .................................................................................................. 62
2.2 App 自動(dòng)化工具 ...................................................................................... 62
2.2.1 Android 調(diào)試橋 ............................................................................ 62
2.2.2 Airtest Project 與Poco ................................................................. 64
VIII Python3 網(wǎng)絡(luò)爬蟲(chóng)寶典
2.2.3 爬取App 中的圖片 ...................................................................... 75
2.2.4 控制多臺(tái)設(shè)備............................................................................... 78
本節(jié)小結(jié) .................................................................................................. 79
實(shí)踐題 ............................................................................................................... 79
本章小結(jié) ........................................................................................................... 79
第3 章 增量爬取的原理與實(shí)現(xiàn) .............................................................................. 80
3.1 增量爬取的分類和實(shí)現(xiàn)原理 .................................................................. 81
3.1.1 增量爬取的分類 ........................................................................... 81
3.1.2 增量爬取的實(shí)現(xiàn)原理 ................................................................... 83
本節(jié)小結(jié) .................................................................................................. 88
3.2 增量池的復(fù)雜度和效率 .......................................................................... 88
3.2.1 增量池的時(shí)間復(fù)雜度 ................................................................... 88
3.2.2 增量池的空間復(fù)雜度 ................................................................... 95
本節(jié)小結(jié) ................................................................................................ 103
3.3 Redis 的數(shù)據(jù)持久化 .............................................................................. 103
3.3.1 持久化方式的分類和特點(diǎn) ......................................................... 103
3.3.2 RDB 持久化的實(shí)踐 ................................................................... 106
3.3.3 AOF 持久化的實(shí)踐 .................................................................... 112
3.3.4 Redis 密碼持久化 ...................................................................... 115
本節(jié)小結(jié) ................................................................................................ 115
實(shí)踐題 ............................................................................................................. 115
本章小結(jié) ......................................................................................................... 116
第4 章 分布式爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn) ........................................................................ 117
4.1 分布式爬蟲(chóng)的原理和分類 .................................................................... 117
4.1.1 分布式爬蟲(chóng)的原理 ..................................................................... 117
4.1.2 分布式爬蟲(chóng)的分類 ..................................................................... 120
4.1.3 共享隊(duì)列的選擇 ......................................................................... 122
本節(jié)小結(jié) ................................................................................................ 125
4.2 分布式爬蟲(chóng)庫(kù)Scrapy-Redis .................................................................. 126
4.2.1 Scrapy-Redis 的介紹和基本使用 .............................................. 127
4.2.2 去重器、調(diào)度器和隊(duì)列的源碼解析 ......................................... 129
目錄 IX
本節(jié)小結(jié) ................................................................................................ 134
4.3 基于Redis 的分布式爬蟲(chóng) ..................................................................... 134
4.3.1 對(duì)等分布式爬蟲(chóng)的實(shí)現(xiàn) ............................................................. 135
4.3.2 主從分布式爬蟲(chóng)的實(shí)現(xiàn) ............................................................. 139
本節(jié)小結(jié) ................................................................................................ 141
4.4 基于RabbitMQ 的分布式爬蟲(chóng) ............................................................. 141
4.4.1 RabbitMQ 的安裝和基本操作 ................................................... 142
4.4.2 分布式爬蟲(chóng)的具體實(shí)現(xiàn) ............................................................. 146
本節(jié)小結(jié) ................................................................................................ 152
實(shí)踐題 ............................................................................................................. 152
本章小結(jié) ......................................................................................................... 152
第5 章 網(wǎng)頁(yè)正文自動(dòng)化提取方法 ........................................................................ 153
5.1 Python Readability ................................................................................. 155
5.2 基于文本及符號(hào)密度的網(wǎng)頁(yè)正文提取方法 ......................................... 158
5.3 GeneralNewsExtractor ............................................................................ 162
5.3.1 GeneralNewsExtractor 的安裝和使用 ....................................... 162
5.3.2 GeneralNewsExtractor 的源碼解讀 ........................................... 165
本節(jié)小結(jié) ................................................................................................ 175
本章小結(jié) ............................................................

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)