注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python網(wǎng)絡(luò)爬蟲技術(shù)手冊(cè):基礎(chǔ)·實(shí)戰(zhàn)·強(qiáng)化

Python網(wǎng)絡(luò)爬蟲技術(shù)手冊(cè):基礎(chǔ)·實(shí)戰(zhàn)·強(qiáng)化

Python網(wǎng)絡(luò)爬蟲技術(shù)手冊(cè):基礎(chǔ)·實(shí)戰(zhàn)·強(qiáng)化

定 價(jià):¥128.00

作 者: 明日科技 著
出版社: 化學(xué)工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787122400093 出版時(shí)間: 2022-02-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 378 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《Python網(wǎng)絡(luò)爬蟲技術(shù)手冊(cè):基礎(chǔ)·實(shí)戰(zhàn)·強(qiáng)化》是“計(jì)算機(jī)科學(xué)與技術(shù)手冊(cè)系列”圖書之一,該系列圖書內(nèi)容全面,以理論聯(lián)系實(shí)際、能學(xué)到并做到為宗旨,以技術(shù)為核心,以案例為輔助,引領(lǐng)讀者全面學(xué)習(xí)基礎(chǔ)技術(shù)、代碼編寫方法和具體應(yīng)用項(xiàng)目,旨在為想要進(jìn)入相應(yīng)領(lǐng)域或者已經(jīng)在該領(lǐng)域深耕多年的技術(shù)人員提供新而全的技術(shù)性內(nèi)容及案例。 本書是一本側(cè)重編程基礎(chǔ)+實(shí)踐的Python爬蟲圖書,從基礎(chǔ)、實(shí)戰(zhàn)、強(qiáng)化三個(gè)層次循序漸進(jìn)地介紹了網(wǎng)絡(luò)爬蟲入門必備知識(shí):基礎(chǔ)篇主要講解網(wǎng)絡(luò)爬蟲的基礎(chǔ)內(nèi)容;實(shí)戰(zhàn)篇主要講解目前應(yīng)用最廣的各類數(shù)據(jù)庫(kù)爬蟲相關(guān)技術(shù)和案例;強(qiáng)化篇結(jié)合數(shù)據(jù)庫(kù)、數(shù)據(jù)分析、可視化等進(jìn)行大型項(xiàng)目綜合實(shí)戰(zhàn)練習(xí)。本書內(nèi)容充實(shí),給讀者提供了較為豐富全面的技術(shù)支持和案例強(qiáng)化,通過(guò)各種示例將學(xué)習(xí)與應(yīng)用相結(jié)合,打造輕松學(xué)習(xí)、零壓力學(xué)習(xí)的環(huán)境,通過(guò)案例對(duì)所學(xué)知識(shí)進(jìn)行綜合應(yīng)用,通過(guò)開發(fā)實(shí)際項(xiàng)目將網(wǎng)絡(luò)爬蟲的各項(xiàng)技能應(yīng)用到實(shí)際工作中,幫助讀者實(shí)現(xiàn)學(xué)以致用,快速掌握網(wǎng)絡(luò)爬蟲的各項(xiàng)技能。 本書提供豐富的資源,包含109個(gè)實(shí)例、13個(gè)實(shí)戰(zhàn)案例、2個(gè)應(yīng)用強(qiáng)化項(xiàng)目,力求為讀者打造一本基礎(chǔ)+實(shí)戰(zhàn)+強(qiáng)化一體化的、精彩的Python網(wǎng)絡(luò)爬蟲圖書。 本書不僅適合初學(xué)者、數(shù)據(jù)采集相關(guān)技術(shù)人員、對(duì)數(shù)據(jù)感興趣的人員,而且適合從事其他崗位想掌握一定的數(shù)據(jù)采集能力的職場(chǎng)人員閱讀參考。

作者簡(jiǎn)介

暫缺《Python網(wǎng)絡(luò)爬蟲技術(shù)手冊(cè):基礎(chǔ)·實(shí)戰(zhàn)·強(qiáng)化》作者簡(jiǎn)介

圖書目錄

第1篇 基礎(chǔ)篇
第1章 爬蟲基礎(chǔ)
1.1 什么是網(wǎng)絡(luò)爬蟲 2
1.2 網(wǎng)絡(luò)爬蟲的分類 3
1.3 網(wǎng)絡(luò)爬蟲的原理 3
1.4 HTTP基本原理 3
1.4.1 什么是URL 3
1.4.2 HTTP協(xié)議 4
1.4.3 HTTP與Web服務(wù)器 4
1.4.4 瀏覽器中的請(qǐng)求和響應(yīng) 5
1.5 網(wǎng)頁(yè)的基本結(jié)構(gòu) 6
1.5.1 了解HTML 6
1.5.2 了解CSS 6
1.5.3 了解JavaScript 8

第2章 搭建網(wǎng)絡(luò)爬蟲開發(fā)環(huán)境
2.1 Anaconda的安裝 10
2.2 下載與安裝PyCharm 13
2.3 配置PyCharm 16
2.4 測(cè)試PyCharm 18

第3章 網(wǎng)絡(luò)請(qǐng)求urllib模塊
3.1 了解urllib 20
3.2 發(fā)送網(wǎng)絡(luò)請(qǐng)求 20
3.2.1 發(fā)送GET請(qǐng)求 21
實(shí)例3.1 演示常用的方法與屬性 21
3.2.2 發(fā)送POST請(qǐng)求 22
實(shí)例3.2 發(fā)送POST請(qǐng)求 22
3.2.3 請(qǐng)求超時(shí) 22
實(shí)例3.3 處理網(wǎng)絡(luò)超時(shí) 23
3.2.4 設(shè)置請(qǐng)求頭 23
實(shí)例3.4 設(shè)置請(qǐng)求頭 24
3.2.5 獲取與設(shè)置Cookie 25
實(shí)例3.5 模擬登錄 25
實(shí)例3.6 獲取Cookie 27
實(shí)例3.7 保存Cookie文件 27
實(shí)例3.8 獲取登錄后頁(yè)面中的信息 28
3.2.6 代理IP的設(shè)置 29
實(shí)例3.9 設(shè)置代理IP 29
3.3 處理請(qǐng)求異常 29
實(shí)例3.10 處理URLError異常 29
實(shí)例3.11 使用HTTPError類捕獲異常 30
實(shí)例3.12 雙重異常的捕獲 31
3.4 解析URL 31
3.4.1 URL的拆分(urlparse、urlsplit) 31
實(shí)例3.13 使用urlparse()方法拆分URL 32
實(shí)例3.14 使用urlsplit()方法拆分URL 32
3.4.2 URL的組合(urlunparse、urlunsplit) 33
實(shí)例3.15 使用urlunparse()方法組合URL 33
實(shí)例3.16 使用urlunsplit()方法組合URL 34
3.4.3 URL的連接(urljoin) 34
實(shí)例3.17 使用urljoin()方法連接URL 34
3.4.4 URL的編碼與解碼(urlencode、quote、unquote) 35
實(shí)例3.18 使用urlencode()方法編碼請(qǐng)求參數(shù) 35
實(shí)例3.19 使用quote()方法編碼字符串參數(shù) 35
實(shí)例3.20 使用unquote()方法解碼請(qǐng)求參數(shù) 36
3.4.5 URL的參數(shù)轉(zhuǎn)換 36
實(shí)例3.21 使用parse_qs()方法將參數(shù)轉(zhuǎn)換為字典類型 36
實(shí)例3.22 使用parse_qsl()方法將參數(shù)轉(zhuǎn)換為元組所組成的列表 36
3.5 綜合案例——爬取“百度熱搜” 37
3.5.1 分析數(shù)據(jù) 37
3.5.2 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲 37
3.6 實(shí)戰(zhàn)練習(xí) 39

第4章 網(wǎng)絡(luò)請(qǐng)求urllib3模塊
4.1 了解urllib3 40
4.2 發(fā)送網(wǎng)絡(luò)請(qǐng)求 41
4.2.1 發(fā)送GET請(qǐng)求 41
實(shí)例4.1 發(fā)送GET請(qǐng)求 41
實(shí)例4.2 發(fā)送多個(gè)請(qǐng)求 41
4.2.2 發(fā)送POST請(qǐng)求 42
實(shí)例4.3 發(fā)送POST請(qǐng)求 42
4.2.3 重試請(qǐng)求 43
實(shí)例4.4 重試請(qǐng)求 43
4.2.4 獲得響應(yīng)內(nèi)容 43
實(shí)例4.5 獲取響應(yīng)頭信息 43
實(shí)例4.6 處理服務(wù)器返回的JSON信息 44
實(shí)例4.7 處理服務(wù)器返回二進(jìn)制數(shù)據(jù) 44
4.2.5 設(shè)置請(qǐng)求頭 45
實(shí)例4.8 設(shè)置請(qǐng)求頭 45
4.2.6 設(shè)置超時(shí) 46
實(shí)例4.9 設(shè)置超時(shí) 46
4.2.7 設(shè)置代理IP 47
實(shí)例4.10 設(shè)置代理IP 47
4.3 上傳文件 47
實(shí)例4.11 上傳文本文件 47
實(shí)例4.12 上傳圖片文件 48
4.4 綜合案例——爬取必應(yīng)壁紙 48
4.4.1 分析數(shù)據(jù) 48
4.4.2 實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲 49
4.5 實(shí)戰(zhàn)練習(xí) 51

第5章 網(wǎng)絡(luò)請(qǐng)求requests模塊
5.1 基本請(qǐng)求方式 52
5.1.1 發(fā)送GET請(qǐng)求 53
實(shí)例5.1 發(fā)送GET請(qǐng)求不帶參數(shù) 53
5.1.2 設(shè)置編碼 53
實(shí)例5.2 獲取網(wǎng)頁(yè)源碼 53
5.1.3 二進(jìn)制數(shù)據(jù)的爬取 54
實(shí)例5.3 下載百度logo圖片 54
5.1.4 發(fā)送GET(帶參數(shù))請(qǐng)求 54
5.1.5 發(fā)送POST請(qǐng)求 55
實(shí)例5.4 發(fā)送POST請(qǐng)求 55
5.2 高級(jí)請(qǐng)求方式 56
5.2.1 設(shè)置請(qǐng)求頭 56
實(shí)例5.5 設(shè)置請(qǐng)求頭 56
5.2.2 Cookie的驗(yàn)證 57
實(shí)例5.6 模擬豆瓣登錄 57
5.2.3 會(huì)話請(qǐng)求 58
實(shí)例5.7 會(huì)話請(qǐng)求 58
5.2.4 驗(yàn)證請(qǐng)求 58
實(shí)例5.8 驗(yàn)證請(qǐng)求 59
5.2.5 網(wǎng)絡(luò)超時(shí)與異常 59
實(shí)例5.9 網(wǎng)絡(luò)超時(shí)與異常 59
實(shí)例5.10 判斷網(wǎng)絡(luò)異常 60
5.2.6 文件上傳 60
實(shí)例5.11 上傳圖片文件 60
5.2.7 代理的應(yīng)用 61
實(shí)例5.12 使用代理IP發(fā)送請(qǐng)求 61
5.3 綜合案例——爬取糗事百科(視頻) 62
5.3.1 分析數(shù)據(jù) 62
5.3.2 實(shí)現(xiàn)爬蟲 63
5.4 實(shí)戰(zhàn)練習(xí) 64

第6章 requests模塊的兩大擴(kuò)展
6.1 安裝requests-cache模塊 65
6.2 爬蟲緩存的應(yīng)用 66
6.3 多功能requests-html模塊 68
6.3.1 發(fā)送網(wǎng)絡(luò)請(qǐng)求 68
6.3.2 提取數(shù)據(jù) 70
實(shí)例6.1 爬取即時(shí)新聞 70
6.3.3 獲取動(dòng)態(tài)渲染的數(shù)據(jù) 73
實(shí)例6.2 獲取動(dòng)態(tài)渲染的數(shù)據(jù) 73
6.4 綜合案例——爬取百度天氣 75
6.4.1 分析數(shù)據(jù) 75
6.4.2 實(shí)現(xiàn)爬蟲 76
6.5 實(shí)戰(zhàn)練習(xí) 77

第7章 正則表達(dá)式解析
7.1 通過(guò)search()匹配字符串 78
7.1.1 匹配指定開頭的字符串 79
實(shí)例7.1 搜索第一個(gè)以“mr_”開頭的字符串 79
7.1.2 可選匹配字符串中的內(nèi)容 79
實(shí)例7.2 可選匹配字符串中的內(nèi)容 79
7.1.3 使用“\\b”匹配字符串的邊界 80
實(shí)例7.3 使用“\\b”匹配字符串的邊界 80
7.2 通過(guò)findall()匹配字符串 80
7.2.1 匹配所有以指定字符開頭的字符串 81
實(shí)例7.4 匹配所有以“mr_”開頭的字符串 81
7.2.2 貪婪匹配法 81
實(shí)例7.5 使用“.*”實(shí)現(xiàn)貪婪匹配字符串 81
7.2.3 非貪婪匹配法 82
實(shí)例7.6 使用“.*?”實(shí)現(xiàn)非貪婪匹配字符串 82
7.3 處理字符串 83
7.3.1 使用sub()方法替換字符串 83
實(shí)例7.7 使用sub()方法替換字符串 83
7.3.2 使用split()方法分割字符串 84
實(shí)例7.8 使用split()方法分割字符串 84
7.4 綜合案例——爬取QQ音樂(lè)熱歌榜 85
7.4.1 分析數(shù)據(jù) 85
7.4.2 實(shí)現(xiàn)爬蟲 85
7.5 實(shí)戰(zhàn)練習(xí) 86

第8章 lxml解析模塊
8.1 了解XPath 87
8.2 XPath的基本操作 88
8.2.1 HTML的解析 88
實(shí)例8.1 解析本地的HTML文件 88
實(shí)例8.2 解析字符串類型的HTML代碼 88
實(shí)例8.3 解析服務(wù)器返回的HTML代碼 89
8.2.2 獲取所有標(biāo)簽 90
實(shí)例8.4 獲取HTML代碼的所有標(biāo)簽 90
8.2.3 獲取子標(biāo)簽 91
實(shí)例8.5 獲取一個(gè)標(biāo)簽中的子標(biāo)簽 91
實(shí)例8.6 獲取子孫標(biāo)簽 92
8.2.4 獲取父標(biāo)簽 92
實(shí)例8.7 獲取一個(gè)標(biāo)簽的父標(biāo)簽 92
8.2.5 獲取文本 93
實(shí)例8.8 獲取HTML代碼中的文本 93
8.2.6 屬性匹配 94
實(shí)例8.9 使用“[@...]”實(shí)現(xiàn)標(biāo)簽屬性的匹配 94
實(shí)例8.10 屬性多值匹配 94
實(shí)例8.11 一個(gè)標(biāo)簽中多個(gè)屬性的匹配 95
8.2.7 獲取屬性值 96
實(shí)例8.12 獲取屬性所對(duì)應(yīng)的值 96
實(shí)例8.13 使用索引按序獲取屬性對(duì)應(yīng)的值 97
8.2.8 使用標(biāo)簽軸獲取標(biāo)簽內(nèi)容 98
實(shí)例8.14 使用標(biāo)簽軸的方式獲取標(biāo)簽內(nèi)容 98
8.3 綜合案例——爬取豆瓣新書速遞 99
8.3.1 分析數(shù)據(jù) 99
8.3.2 實(shí)現(xiàn)爬蟲 99
8.4 實(shí)戰(zhàn)練習(xí) 100

第9章 BeautifulSoup解析模塊
9.1 BeautifulSoup的基礎(chǔ)應(yīng)用 101
9.1.1 安裝BeautifulSoup 101
9.1.2 解析器的區(qū)別 102
9.1.3 解析HTML 103
實(shí)例9.1 解析HTML代碼 103
9.2 獲取標(biāo)簽內(nèi)容 103
9.2.1 獲取標(biāo)簽對(duì)應(yīng)的代碼 104
實(shí)例9.2 獲取標(biāo)簽對(duì)應(yīng)的代碼 104
9.2.2 獲取標(biāo)簽屬性 105
實(shí)例9.3 獲取標(biāo)簽屬性 105
9.2.3 獲取標(biāo)簽內(nèi)的文本 106
9.2.4 嵌套獲取標(biāo)簽內(nèi)容 106
實(shí)例9.4 嵌套獲取標(biāo)簽內(nèi)容 106
9.2.5 關(guān)聯(lián)獲取 107
實(shí)例9.5 獲取子標(biāo)簽 107
實(shí)例9.6 獲取子孫標(biāo)簽 108
實(shí)例9.7 獲取父標(biāo)簽 109
實(shí)例9.8 獲取兄弟標(biāo)簽 109
9.3 利用方法獲取內(nèi)容 111
9.3.1 find_all()方法 111
實(shí)例9.9 find_all(name)通過(guò)標(biāo)簽名稱獲取內(nèi)容 111
實(shí)例9.10 find_all(attrs)通過(guò)指定屬性獲取內(nèi)容 112
實(shí)例9.11 find_all(text)獲取標(biāo)簽中的文本 112
9.3.2 find()方法 113
實(shí)例9.12 獲取第一個(gè)匹配的標(biāo)簽內(nèi)容 113
9.3.3 其他方法 114
9.4 CSS選擇器 114
實(shí)例9.13 使用CSS選擇器獲取標(biāo)簽內(nèi)容 115
9.5 綜合案例——爬取百度貼吧(熱議榜) 116
9.5.1 分析數(shù)據(jù) 116
9.5.2 實(shí)現(xiàn)爬蟲 116
9.6 實(shí)戰(zhàn)練習(xí) 117

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)