定 價:¥89.00
作 者: | 李曉東 著 |
出版社: | 清華大學出版社 |
叢編項: | 清華開發(fā)者書庫 |
標 簽: | 暫缺 |
ISBN: | 9787302562283 | 出版時間: | 2020-12-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數(shù): | 376 | 字數(shù): |
第1章爬蟲網(wǎng)絡概述
1.1HTTP基本原理
1.1.1URL和URL
1.1.2超文本
1.1.3HTTP和HTTPS
1.1.4HTTP請求過程
1.1.5請求
1.1.6響應
1.2網(wǎng)頁基礎(chǔ)
1.2.1網(wǎng)頁的組成
1.2.2節(jié)點樹及節(jié)點間的關(guān)系
1.2.3選擇器
1.3網(wǎng)絡爬蟲合法性
1.3.1Robots協(xié)議
1.3.2網(wǎng)絡爬蟲的約束
1.4網(wǎng)絡爬蟲技術(shù)
1.4.1網(wǎng)絡爬蟲的概述
1.4.2網(wǎng)絡爬蟲原理
1.4.3網(wǎng)絡爬蟲系統(tǒng)的工作原理
1.4.4Python爬蟲的架構(gòu)
1.4.5爬蟲對互聯(lián)網(wǎng)進行劃分
1.5爬取策略
1.6爬蟲網(wǎng)絡更新策略
1.7會話和Cookie
1.7.1靜態(tài)網(wǎng)頁和動態(tài)網(wǎng)頁
1.7.2無狀態(tài)HTTP
1.7.3常見誤區(qū)
1.8代理的基本原理
1.8.1基本原理
1.8.2代理的作用
1.8.3爬蟲代理
1.8.4代理分類
1.8.5常見代理設(shè)置
1.9習題
第2章Python平臺及Web前端
2.1Python軟件概述
2.2Python的安裝
2.2.1在Linux系統(tǒng)中搭建Python環(huán)境
2.2.2在Windows系統(tǒng)中搭建Python環(huán)境
2.2.3使用pip安裝第三方庫
2.3Python的入門
2.3.1基本命令
2.3.2數(shù)據(jù)類型
2.4條件語句與循環(huán)語句
2.4.1條件語句
2.4.2循環(huán)語句
2.5面向?qū)ο缶幊?/p>
2.5.1面向?qū)ο蠹夹g(shù)簡介
2.5.2類定義
2.5.3類對象
2.5.4類的方法
2.5.5繼承
2.6第一個爬蟲實例
2.7Web前端
2.8習題
第3章靜態(tài)網(wǎng)頁爬取
3.1Requests的安裝
3.2獲取響應內(nèi)容
3.3JSON數(shù)據(jù)庫
3.3.1JSON的使用
3.3.2爬取抽屜網(wǎng)信息
3.4傳遞URL參數(shù)
3.5獲取響應內(nèi)容
3.6獲取網(wǎng)頁編碼
3.7定制請求頭
3.8發(fā)送POST請求
3.9設(shè)置超時
3.10代理訪問
3.11自定義請求頭部
3.12Requests爬蟲實踐
3.12.1狀態(tài)碼521網(wǎng)頁的爬取
3.12.2TOP250電影數(shù)據(jù)
3.13習題
第4章動態(tài)網(wǎng)頁爬取
4.1動態(tài)爬取淘寶網(wǎng)實例
4.2什么是Ajax
4.2.1Ajax分析
4.2.2Ajax結(jié)果提取
4.2.3Ajax爬取今日頭條街拍美圖
4.3解析真實地址爬取
4.4selenium爬取動態(tài)網(wǎng)頁
4.4.1安裝selenium
4.4.2爬取百度表情包
4.5爬取去哪兒網(wǎng)
4.6習題
第5章解析網(wǎng)頁
5.1獲取豆瓣電影
5.2正則表達式解析網(wǎng)頁
5.2.1字符串匹配
5.2.2起始位置匹配字符串
5.2.3所有子串匹配
5.2.4Requests爬取貓眼電影排行
5.3BeautifulSoup解析網(wǎng)頁
5.4PyQuery解析庫
5.4.1使用PyQuery
5.4.2PyQuery爬取煎蛋網(wǎng)商品圖片
5.5lxml解析網(wǎng)頁
5.5.1使用lxml
5.5.2文件讀取
5.5.3XPath使用
5.5.4爬取LOL百度貼吧圖片
5.6爬取二手房網(wǎng)站數(shù)據(jù)
5.7習題
第6章并發(fā)與Web
6.1并發(fā)和并行、同步和異步、阻塞與非阻塞
6.1.1并發(fā)和并行
6.1.2同步與異步
6.1.3阻塞與非阻塞
6.2線程
6.2.1線程模塊
6.2.2使用Threading模塊創(chuàng)建線程
6.2.3線程同步
6.2.4線程池在Web編程的應用
6.3隊列
6.4進程
6.4.1進程與線程的歷史
6.4.2進程與線程之間的關(guān)系
6.4.3進程與進程池
6.5協(xié)程
6.5.1協(xié)程的生成器的基本行為
6.5.2協(xié)程的4個狀態(tài)
6.5.3終止協(xié)程和異常處理
6.5.4顯式地將異常發(fā)給協(xié)程
6.5.5yield from獲取協(xié)程的返回值
6.5.6協(xié)程案例分析
6.6分布式進程案例分析
6.7網(wǎng)絡編程
6.7.1TCP編程
6.7.2UDP編程
6.8習題
第7章Python數(shù)據(jù)庫存儲
7.1幾種保存方法
7.1.1Open函數(shù)保存
7.1.2pandas包保存
7.1.3CSV模塊保存
7.1.4numpy包保存
7.2JSON文件存儲
7.2.1對象和數(shù)組
7.2.2讀取JSON
7.2.3讀JSON文件
7.2.4輸出JSON
7.3存儲到MongoDB數(shù)據(jù)庫
7.3.1MongoDB的特點
7.3.2下載安裝MongoDB
7.3.3配置 MongoDB 服務
7.3.4創(chuàng)建數(shù)據(jù)庫
7.4爬取虎撲論壇帖子
7.5習題
第8章Python反爬蟲
8.1為什么會被反爬蟲
8.2反爬蟲的方式有哪些
8.2.1不返回網(wǎng)頁
8.2.2返回數(shù)據(jù)非目標網(wǎng)頁
8.2.3獲取數(shù)據(jù)變難
8.3怎樣“反反爬蟲”
8.3.1修改請求頭
8.3.2修改爬蟲訪問周期
8.3.3使用代理
8.4習題
第9章Python中文亂碼問題
9.1什么是字符編碼
9.2Python的字符編碼
9.3解決中文編碼問題
9.4網(wǎng)頁使用gzip壓縮
9.5Python讀寫文件中出現(xiàn)亂碼
9.6Matplotlib中文亂碼問題
9.7習題
第10章Python登錄與驗證碼
10.1登錄表單
10.1.1處理登錄表單
10.1.2處理Cookie
10.1.3完整的登錄代碼
10.2驗證碼處理
10.2.1如何使用驗證碼驗證
10.2.2人工方法處理驗證碼
10.2.3OCR處理驗證碼
10.3極驗滑動驗證碼的識別案例
10.4點觸驗證碼的識別案例
10.5習題
第11章Python采集服務器
11.1使用服務器采集原因
11.1.1大規(guī)模爬蟲的需要
11.1.2防止IP地址被封殺
11.2動態(tài)IP撥號服務器
11.2.1購買撥號服務器
11.2.2登錄服務器
11.2.3Python更換IP
11.2.4爬蟲與更換IP功能結(jié)合
11.3Tor代理服務器
11.3.1安裝Tor
11.3.2使用Tor
11.3.3實現(xiàn)自動投票
11.4習題
第12章Python基礎(chǔ)爬蟲
12.1架構(gòu)及流程
12.2URL管理器
12.3HTML下載器
12.4HTML解析器
12.5數(shù)據(jù)存儲器
12.6爬蟲調(diào)度器實現(xiàn)
12.7習題
第13章Python的App爬取
13.1Charles爬取
13.2Appium爬取
13.2.1Appium安裝
13.2.2Appium的基本使用
13.3API爬取
13.4Appium爬取微信朋友圈
13.5習題
第14章Python分布式爬蟲
14.1主從模式
14.1.1URL管理器
14.1.2數(shù)據(jù)存儲器
14.1.3控制調(diào)度器
14.2爬蟲節(jié)點
14.2.1HTML下載器
14.2.2HTML解析器
14.2.3爬蟲調(diào)度器
14.3Redis
14.3.1Redis的安裝
14.3.2Redis的配置
14.3.3數(shù)據(jù)類型
14.4Python與Redis
14.4.1連接方式
14.4.2連接池
14.4.3Redis的基本操作
14.4.4管道
14.4.5發(fā)布和訂閱
14.5操作RabbitMQ
14.5.1安裝Erlang
14.5.2安裝RabbitMQ
14.6習題
第15章爬蟲的綜合實戰(zhàn)
15.1Email提醒
15.2爬取mp3資源信息
15.3創(chuàng)建云起書院爬蟲
15.4使用代理爬取微信公眾號文章
參考文獻