注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(爬取篇)

Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(爬取篇)

Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(爬取篇)

定 價(jià):¥59.80

作 者: 楊秀璋,顏娜 著
出版社: 北京航空航天大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787512427129 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 小全開 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(爬取篇) 本書采用通俗易懂的語(yǔ)言、豐富多彩的實(shí)例,詳細(xì)介紹了使用Python語(yǔ)言進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)爬取的知識(shí),主要內(nèi)容包括Python語(yǔ)法、正則表達(dá)式、BeautifulSoup技術(shù)、Selenium技術(shù)、Scrapy框架、數(shù)據(jù)庫(kù)存儲(chǔ)等,同時(shí)詳細(xì)介紹了爬取網(wǎng)站和博客內(nèi)容、電影數(shù)據(jù)信息、招聘信息、在線百科知識(shí)、微博內(nèi)容、農(nóng)產(chǎn)品信息等實(shí)例。 書中所有知識(shí)點(diǎn)都結(jié)合經(jīng)典實(shí)例進(jìn)行介紹,涉及的實(shí)例都給出了詳細(xì)的分析流程,程序代碼都給出了具體的注釋,同時(shí)采用圖文結(jié)合的形式講解,讓讀者能更加輕松地領(lǐng)會(huì)Python網(wǎng)絡(luò)數(shù)據(jù)爬蟲的精髓,并快速提高自己的開發(fā)能力。 本書即可作為Python開發(fā)入門者的自學(xué)用書,也可作為高等院校數(shù)據(jù)爬取、數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)等相關(guān)專業(yè)的教學(xué)參考書或?qū)嶒?yàn)指導(dǎo)書,還可供Python開發(fā)人員查閱、參考。

作者簡(jiǎn)介

  楊秀璋,畢業(yè)于北京理工大學(xué)軟件學(xué)院,長(zhǎng)期從事Web數(shù)據(jù)挖掘、Python數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)爬取工作及研究。他現(xiàn)任教于貴州財(cái)經(jīng)大學(xué)信息學(xué)院,主講“數(shù)據(jù)挖掘與分析”“大數(shù)據(jù)技術(shù)及應(yīng)用”課程,并從事大數(shù)據(jù)分析、數(shù)據(jù)挖掘、知識(shí)圖譜等領(lǐng)域的項(xiàng)目研究與開發(fā);有多年的Python編程、數(shù)據(jù)分析及知識(shí)圖譜研究經(jīng)驗(yàn),實(shí)戰(zhàn)經(jīng)驗(yàn)較為豐富。 此外,他還積極分享編程知識(shí)和開源代碼編寫經(jīng)驗(yàn),先后在CSDN、博客園、阿里云棲社區(qū)撰寫博客,僅在CSDN就分享了300多篇原創(chuàng)文章,開設(shè)了11個(gè)專欄,累計(jì)閱讀量超過250萬(wàn)人次。

圖書目錄

第1章 網(wǎng)絡(luò)數(shù)據(jù)爬取概述…………………………………………………………… 1
1.1 網(wǎng)絡(luò)爬蟲 ……………………………………………………………………… 1
1.2 相關(guān)技術(shù) ……………………………………………………………………… 3
1.2.1 HTTP …………………………………………………………………… 3
1.2.2 HTML…………………………………………………………………… 3
1.2.3 Python …………………………………………………………………… 5
1.3 本章小結(jié) ……………………………………………………………………… 5
參考文獻(xiàn)……………………………………………………………………………… 5
第2章 Python知識(shí)初學(xué) …………………………………………………………… 6
2.1 Python簡(jiǎn)介 …………………………………………………………………… 6
2.2 基礎(chǔ)語(yǔ)法……………………………………………………………………… 11
2.2.1 縮進(jìn)與注釋……………………………………………………………… 11
2.2.2 變量與常量……………………………………………………………… 12
2.2.3 輸入與輸出……………………………………………………………… 14
2.2.4 賦值與表達(dá)式…………………………………………………………… 16
2.3 數(shù)據(jù)類型……………………………………………………………………… 16
2.3.1 數(shù)字類型………………………………………………………………… 16
2.3.2 字符串類型……………………………………………………………… 17
2.3.3 列表類型………………………………………………………………… 17
2.3.4 元組類型………………………………………………………………… 19
2.3.5 字典類型………………………………………………………………… 19
2.4 條件語(yǔ)句……………………………………………………………………… 19
2.4.1 單分支…………………………………………………………………… 20
2.4.2 二分支…………………………………………………………………… 20
2.4.3 多分支…………………………………………………………………… 21
2.5 循環(huán)語(yǔ)句……………………………………………………………………… 22
2.5.1 while循環(huán) ……………………………………………………………… 22
2.5.2 for循環(huán) ………………………………………………………………… 24
2.5.3 break和continue語(yǔ)句 ………………………………………………… 24
2.6 函 數(shù)………………………………………………………………………… 25
2.6.1 自定義函數(shù)……………………………………………………………… 26
2.6.2 常見內(nèi)部庫(kù)函數(shù)………………………………………………………… 27
2.6.3 第三方庫(kù)函數(shù)…………………………………………………………… 29
2.7 字符串操作…………………………………………………………………… 30
2.8 文件操作……………………………………………………………………… 32
2.8.1 打開文件………………………………………………………………… 32
2.8.2 讀/寫文件 ……………………………………………………………… 32
2.8.3 關(guān)閉文件………………………………………………………………… 33
2.8.4 循環(huán)遍歷文件…………………………………………………………… 34
2.9 面向?qū)ο蟆?34
2.10 本章小結(jié) …………………………………………………………………… 36
參考文獻(xiàn) …………………………………………………………………………… 36
第3章 正則表達(dá)式爬蟲之牛刀小試 ……………………………………………… 37
3.1 正則表達(dá)式…………………………………………………………………… 37
3.2 Python網(wǎng)絡(luò)數(shù)據(jù)爬取的常用模塊 ………………………………………… 39
3.2.1 urllib模塊 ……………………………………………………………… 39
3.2.2 urlparse模塊 …………………………………………………………… 42
3.2.3 requests模塊 …………………………………………………………… 44
3.3 正則表達(dá)式爬取網(wǎng)絡(luò)數(shù)據(jù)的常見方法……………………………………… 45
3.3.1 爬取標(biāo)簽間的內(nèi)容……………………………………………………… 45
3.3.2 爬取標(biāo)簽中的參數(shù)……………………………………………………… 49
3.3.3 字符串處理及替換……………………………………………………… 50
3.4 個(gè)人博客爬取實(shí)例…………………………………………………………… 52
3.4.1 分析過程………………………………………………………………… 52
3.4.2 代碼實(shí)現(xiàn)………………………………………………………………… 57
3.5 本章小結(jié)……………………………………………………………………… 59
參考文獻(xiàn) …………………………………………………………………………… 59
第4章 BeautifulSoup技術(shù) ………………………………………………………… 60
4.1 安裝BeautifulSoup ………………………………………………………… 60
4.1.1 Python 2.7安裝BeautifulSoup ……………………………………… 60
4.1.2 pip安裝擴(kuò)展庫(kù) ………………………………………………………… 63
4.2 快速開始BeautifulSoup解析 ……………………………………………… 67
4.2.1 BeautifulSoup解析 HTML …………………………………………… 68
4.2.2 簡(jiǎn)單獲取網(wǎng)頁(yè)標(biāo)簽信息………………………………………………… 71
4.2.3 定位標(biāo)簽并獲取內(nèi)容…………………………………………………… 72
4.3 深入了解BeautifulSoup …………………………………………………… 73
4.3.1 BeautifulSoup對(duì)象 …………………………………………………… 74
4.3.2 遍歷文檔樹……………………………………………………………… 79
4.3.3 搜索文檔樹……………………………………………………………… 82
4.4 BeautifulSoup簡(jiǎn)單爬取個(gè)人博客網(wǎng)站 …………………………………… 84
4.5 本章小結(jié)……………………………………………………………………… 87
參考文獻(xiàn) …………………………………………………………………………… 87
第5章 BeautifulSoup爬取電影信息 ……………………………………………… 88
5.1 分析網(wǎng)頁(yè)DOM 樹結(jié)構(gòu)……………………………………………………… 88
5.1.1 分析網(wǎng)頁(yè)結(jié)構(gòu)及簡(jiǎn)單爬取……………………………………………… 88
5.1.2 定位節(jié)點(diǎn)及網(wǎng)頁(yè)翻頁(yè)分析……………………………………………… 91
5.2 爬取豆瓣電影信息…………………………………………………………… 94
5.3 鏈接跳轉(zhuǎn)分析及詳情頁(yè)面爬取……………………………………………… 98
5.4 本章小結(jié) …………………………………………………………………… 104
參考文獻(xiàn)…………………………………………………………………………… 104
第6章 Python數(shù)據(jù)庫(kù)知識(shí) ……………………………………………………… 105
6.1 MySQL數(shù)據(jù)庫(kù) …………………………………………………………… 105
6.1.1 MySQL的安裝與配置 ……………………………………………… 105
6.1.2 SQL基礎(chǔ)語(yǔ)句詳解 …………………………………………………… 112
6.2 Python操作 MySQL數(shù)據(jù)庫(kù) ……………………………………………… 119
6.2.1 安裝 MySQL擴(kuò)展庫(kù) ………………………………………………… 119
6.2.2 程序接口DB-API …………………………………………………… 121
6.2.3 Python調(diào)用 MySQLdb擴(kuò)展庫(kù) ……………………………………… 122
6.3 Python操作SQLite 3數(shù)__________據(jù)庫(kù) …………………………………………… 126
6.4 本章小結(jié) …………………………………………………………………… 129
參考文獻(xiàn)…………………………………………………………………………… 129
第7章 基于數(shù)據(jù)庫(kù)存儲(chǔ)的BeautifulSoup招聘爬蟲 …………………………… 130
7.1 知識(shí)圖譜和智聯(lián)招聘 ……………………………………………………… 130
7.2 BeautifulSoup爬取招聘信息 ……………………………………………… 132
7.2.1 分析網(wǎng)頁(yè)超鏈接及跳轉(zhuǎn)處理 ………………………………………… 132
7.2.2 DOM 樹節(jié)點(diǎn)分析及網(wǎng)頁(yè)爬取 ……………………………………… 135
7.3 Navicat for MySQL工具操作數(shù)據(jù)庫(kù) …………………………………… 137
7.3.1 連接數(shù)據(jù)庫(kù) …………………………………………………………… 137
7.3.2 創(chuàng)建數(shù)據(jù)庫(kù) …………………………………………………………… 139
7.3.3 創(chuàng)建表 ………………………………………………………………… 141
7.3.4 數(shù)據(jù)庫(kù)增刪改查操作 ………………………………………………… 143
7.4 MySQL數(shù)據(jù)庫(kù)存儲(chǔ)招聘信息 …………………………………………… 146
7.4.1 MySQL操作數(shù)據(jù)庫(kù) ………………………………………………… 146
7.4.2 代碼實(shí)現(xiàn) ……………………………………………………………… 148
7.5 本章小結(jié) …………………………………………………………………… 153
參考文獻(xiàn)…………………………………………………………………………… 153
第8章 Selenium技術(shù)……………………………………………………………… 154
8.1 初識(shí)Selenium ……………………………………………………………… 154
8.1.1 安裝Selenium ………………………………………………………… 155
8.1.2 安裝瀏覽器驅(qū)動(dòng) ……………………………………………………… 156
8.1.3 PhantomJS …………………………………………………………… 158
8.2 快速開始Selenium解析…………………………………………………… 159
8.3 定位元素 …………………………………………………………………… 162
8.3.1 通過id屬性定位元素 ………………………………………………… 163
8.3.2 通過name屬性定位元素 …………………………………………… 165
8.3.3 通過XPath路徑定位元素 …………………………………………… 166
8.3.4 通過起鏈接文本定位元素 …………………………………………… 168
8.3.5 通過標(biāo)簽名定位元素 ………………………………………………… 169
8.3.6 通過類屬性名定位元素 ……………………………………………… 170
8.3.7 通過CSS選擇器定位元素 …………………………………………… 170
8.4 常用方法和屬性 …………………………………………………………… 170
8.4.1 操作元素的方法 ……………………………………………………… 170
8.4.2 WebElement常用屬性 ……………………………………………… 174
8.5 鍵盤和鼠標(biāo)自動(dòng)化操作 …………………………………………………… 175
8.5.1 鍵盤操作 ……………………………………………………………… 175
8.5.2 鼠標(biāo)操作 ……………………………………………………………… 177
8.6 導(dǎo)航控制 …………………………………………………………………… 178
8.6.1 下拉菜單交互操作 …………………………………………………… 178
8.6.2 Window和Frame間對(duì)話框的移動(dòng) ………………………………… 179
8.7 本章小結(jié) …………………………………………………………………… 180
參考文獻(xiàn)…………………………………………………………………………… 180
第9章 Selenium爬取在線百科知識(shí)……………………………………………… 181
9.1 三大在線百科 ……………………………………………………………… 181
9.1.1 維基百科 ……………………………………………………………… 181
9.1.2 百度百科 ……………………………………………………………… 183
9.1.3 互動(dòng)百科 ……………………………………………………………… 184
9.2 Selenium爬取維基百科 …………………………………………………… 185
9.2.1 網(wǎng)頁(yè)分析 ……………………………………………………………… 185
9.2.2 代碼實(shí)現(xiàn) ……………………………………………………………… 190
9.3 Selenium爬取百度百科 …………………………………………………… 190
9.3.1 網(wǎng)頁(yè)分析 ……………………………………………………………… 190
9.3.2 代碼實(shí)現(xiàn) ……………………………………………………………… 195
9.4 Selenium爬取互動(dòng)百科 …………………………………………………… 198
9.4.1 網(wǎng)頁(yè)分析 ……………………………………………………………… 198
9.4.2 代碼實(shí)現(xiàn) ……………………………………………………………… 200
9.5 本章小結(jié) …………………………………………………………………… 202
參考文獻(xiàn)…………………………………………………………………………… 203
第10章 基于數(shù)據(jù)庫(kù)存儲(chǔ)的Selenium博客爬蟲 …………………………………… 204
10.1 博客網(wǎng)站…………………………………………………………………… 204
10.2 Selenium爬取博客信息 ………………………………………………… 206
10.2.1 Forbidden錯(cuò)誤 ……………………………………………………… 206
10.2.2 分析博客網(wǎng)站翻頁(yè)方法……………………………………………… 208
10.2.3 DOM 樹節(jié)點(diǎn)分析及網(wǎng)頁(yè)爬取 ……………………………………… 210
10.3 MySQL數(shù)據(jù)庫(kù)存儲(chǔ)博客信息 …………………………………………… 212
10.3.1 Navicat for MySQL創(chuàng)建表 ………………………………………… 213
10.3.2 Python操作 MySQL數(shù)據(jù)庫(kù) ……………………………………… 214
10.3.3 代碼實(shí)現(xiàn)……………………………………………………………… 216
10.4 本章小結(jié)…………………………………………………………………… 222
第11章 基于登錄分析的Selenium微博爬蟲 ……………………………………… 223
11.1 登錄驗(yàn)證…………………………………………………………………… 223
11.2 初識(shí)微博爬蟲……………………………………………………………… 226
11.2.1 微 博………………………………………………………………… 226
11.2.2 登錄入口……………………………………………………………… 227
11.2.3 微博自動(dòng)登錄………………………………………………………… 229
11.3 爬取微博熱門信息………………………………………………………… 232
11.3.1 搜索所需的微博主題………………………………………………… 232
11.3.2 爬取微博內(nèi)容………………………………………………………… 235
11.4 本章小結(jié)…………………………………………………………………… 242
參考文獻(xiàn)…………………………………………………………………………… 242
第12章 基于圖片抓取的Selenium爬蟲 ………………………………………… 243
12.1 圖片爬蟲框架……………………………………………………………… 243
12.2 圖片網(wǎng)站分析……………………………………………………………… 245
12.2.1 圖片爬取方法………………………………………………………… 245
12.2.2 全景網(wǎng)爬取分析……………………………………………………… 246
12.3 代碼實(shí)現(xiàn)…………………………………………………………………… 250
12.4 本章小結(jié)…………………………………………………………………… 254
第13章 Scrapy技術(shù)爬取網(wǎng)絡(luò)數(shù)據(jù) ……………………………………………… 255
13.1 安裝Scrapy ……………………………………………………………… 255
13.2 快速了解Scrapy ………………………………………………………… 256
13.2.1 Scrapy基礎(chǔ)知識(shí) …………………………………………………… 257
13.2.2 Scrapy組成詳解及簡(jiǎn)單示例 ……………………………………… 259
13.3 Scrapy爬取貴州農(nóng)產(chǎn)品數(shù)據(jù)集 ………………………………………… 270
13.4 本章小結(jié)…………………………………………………………………… 285
參考文獻(xiàn)…………………………………………………………………………… 285
套書后記……………………………………………………………………………… 286
致 謝………………………………………………………………………………… 288

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)