注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)計算機科學理論與基礎(chǔ)知識網(wǎng)絡(luò)爬蟲案例教程(Python·微課視頻版)

網(wǎng)絡(luò)爬蟲案例教程(Python·微課視頻版)

網(wǎng)絡(luò)爬蟲案例教程(Python·微課視頻版)

定 價:¥59.00

作 者: 韓瑩,袁靜 編
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302619635 出版時間: 2022-12-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  本書主要以純案例驅(qū)動的形式,分別使用和結(jié)合使用requests庫、selenium庫,從互聯(lián)網(wǎng)上收集數(shù)據(jù)。主要內(nèi)容包括收集靜態(tài)網(wǎng)頁數(shù)據(jù),網(wǎng)頁解析,JSON數(shù)據(jù),JSON解析,多級翻頁,cookie和session,驗證登錄,多線程,數(shù)據(jù)的存儲,收集到的數(shù)據(jù)包括靜態(tài)網(wǎng)頁數(shù)據(jù)、json、圖片、音頻、視頻等數(shù)據(jù),并對獲取的數(shù)據(jù)進行清洗。適合Python初學者,也適合研究Python的廣大科研人員、學者、工程技術(shù)人員。本教材采用純的案例,和簡單的注釋,其他一些先修的知識是在其他課程有開設(shè)。

作者簡介

  韓瑩,防災(zāi)科技學院教師,講授“數(shù)據(jù)科學與大數(shù)據(jù)”課程,本教材采用純的案例,和簡單的注釋,其他一些先修的知識是在其他課程有開設(shè)。

圖書目錄

第1章緒論
1.1網(wǎng)絡(luò)爬蟲的基本概念
1.2網(wǎng)絡(luò)爬蟲的基本流程
1.2.1發(fā)起請求
1.2.2獲取響應(yīng)內(nèi)容
1.2.3解析內(nèi)容
1.2.4持久化保存數(shù)據(jù)
1.3網(wǎng)絡(luò)爬蟲的合法性問題
1.4反爬蟲技術(shù)
1.4.1Useragent控制訪問
1.4.2IP限制訪問
1.4.3設(shè)置請求間隔
1.4.4通過參數(shù)加密和JavaScript腳本
1.4.5通過robots.txt來限制爬蟲
1.5網(wǎng)絡(luò)爬蟲的預(yù)備知識
1.5.1統(tǒng)一資源定位器
1.5.2超文本傳輸協(xié)議
1.5.3超文本標記語言
1.6開發(fā)語言和開發(fā)環(huán)境
1.6.1開發(fā)語言
1.6.2第三方請求庫
1.6.3開發(fā)工具
第2章Requests庫
2.1安裝Requests庫
2.2Requests庫發(fā)送請求
2.3查看響應(yīng)內(nèi)容
2.3.1查看響應(yīng)狀態(tài)碼
2.3.2查看響應(yīng)的文本信息
2.3.3解決亂碼問題
2.3.4二進制碼響應(yīng)內(nèi)容
2.3.5JSON響應(yīng)內(nèi)容
2.4定制請求頭部Headers
2.5Chrome瀏覽器開發(fā)者工具面板
2.5.1打開開發(fā)者工具面板
2.5.2Elements面板
2.5.3Network面板
2.6GET請求單個網(wǎng)頁的爬取案例
2.6.1不帶參數(shù)的GET請求
2.6.2攜帶參數(shù)的GET請求
第3章JSON數(shù)據(jù)爬取
3.1Ajax
3.1.1Ajax技術(shù)
3.1.2分析數(shù)據(jù)來源
3.2JSON
3.2.1JSON語法規(guī)則
3.2.2訪問JSON數(shù)據(jù)
3.2.3JSON文件讀寫操作
3.2.4JSON數(shù)據(jù)校驗和格式化
3.3Ajax異步動態(tài)加載的數(shù)據(jù)爬蟲
3.3.1帶參數(shù)的POST請求爬蟲
3.3.2多個網(wǎng)頁多鏈接GET請求爬蟲綜合案例
3.4POST請求的兩種參數(shù)格式
3.4.1Form Data類型
3.4.2Request Payload類型
第4章XPath解析及網(wǎng)頁數(shù)據(jù)爬取
4.1XPath簡介及安裝
4.2XPath節(jié)點
4.2.1基本值節(jié)點
4.2.2節(jié)點關(guān)系
4.3XPath語法
4.3.1選取節(jié)點語法
4.3.2謂語
4.3.3選取未知節(jié)點
4.3.4選取若干路徑
4.3.5初步使用XPath案例
4.4XPath表達式
4.4.1定位XPath搜索框
4.4.2在網(wǎng)頁上寫XPath表達式
4.5爬取HTML文檔數(shù)據(jù)案例
4.6爬取多頁HTML文檔數(shù)據(jù)案例
4.6.1翻頁在參數(shù)里
4.6.2翻頁在URL中
4.7圖片爬蟲案例
4.7.1單張圖片爬取
4.7.2多頁多幅圖片爬蟲案例
4.7.3多類多頁多圖爬蟲案例
第5章IP代理
5.1IP代理的作用
5.2IP代理使用方法
5.3搭建IP池
5.3.1獲取單頁IP
5.3.2獲取多頁IP
5.3.3檢測IP有效性 
5.3.4建立IP池
5.4付費IP代理使用
第6章Selenium庫
6.1Selenium安裝及環(huán)境配置
6.1.1Selenium安裝
6.1.2環(huán)境配置
6.1.3環(huán)境測試
6.2Selenium簡單使用及配置
6.2.1打開網(wǎng)頁
6.2.2規(guī)避偽裝機制
6.2.3常見的配置項
6.3Selenium的元素定位操作
6.3.1查看頁面元素
6.3.2通過ID定位元素
6.3.3通過name定位元素
6.3.4通過class定位元素
6.3.5通過tag定位元素
6.3.6通過link定位元素
6.3.7通過partial_link定位元素
6.3.8通過XPath定位元素
6.3.9通過CSS定位元素
6.3.10通過By定位元素
6.4Selenium等待機制
6.4.1固定等待
6.4.2隱式等待
6.4.3顯式等待WebDriverWait
6.5Selenium控制瀏覽器
6.5.1瀏覽器的常見操作
6.5.2不同窗口之間切換
6.5.3鼠標事件
6.5.4鍵盤事件
6.5.5定位Frame/IFrame
6.5.6頁面下拉
6.5.7窗口截圖
6.5.8文件上傳
6.6Selenium爬蟲案例
6.6.1單頁爬取案例
6.6.2多頁爬取案例
第7章Requests與Selenium結(jié)合使用
7.1Selenium模擬登錄
7.1.1Selenium程序模擬登錄
7.1.2手動輸入數(shù)據(jù)模擬登錄
7.2Cookie與Session機制
7.2.1Cookie機制
7.2.2Session機制
7.3Requests、Cookie、Selenium結(jié)合使用
7.4Selenium和Requests結(jié)合下載音樂
7.4.1單首音樂下載
7.4.2多首音樂下載
第8章異步爬蟲
8.1基本概念
8.2串行下載多個視頻
8.3使用線程池下載多個視頻
8.3.1Multiprocessing
8.3.2Threading
8.4使用協(xié)程下載多個視頻
第9章正則表達式
9.1正則函數(shù)
9.1.1re.match函數(shù)
9.1.2re.search函數(shù)
9.1.3re.sub函數(shù)
9.1.4re.compile函數(shù)
9.1.5re.findall函數(shù)
9.1.6re.finditer函數(shù)
9.1.7re.split函數(shù)
9.2正則表達式模式及實例
9.3正則表達式實例
9.3.1匹配字符串
9.3.2匹配字符組
9.3.3區(qū)間匹配
9.3.4特殊字符匹配
9.3.5取反
9.3.6快捷匹配數(shù)字和字符
9.3.7匹配空白字符
9.3.8單詞邊界
9.3.9快捷方式取反
9.3.10開始和結(jié)束
9.3.11匹配任意字符
9.3.12可選字符
9.3.13重復(fù)
9.3.14重復(fù)區(qū)間
9.3.15開閉區(qū)間
9.4正則表達式進階
9.4.1分組
9.4.2或者條件
9.4.3分組的回溯引用
9.4.4斷言
第10章數(shù)據(jù)清洗
10.1數(shù)據(jù)分析流程
10.2數(shù)據(jù)清洗的概念及流程
10.3數(shù)據(jù)清洗常用方法
10.3.1讀取數(shù)據(jù)
10.3.2初步探索數(shù)據(jù)
10.3.3簡單處理數(shù)據(jù)
10.3.4重復(fù)值處理
10.3.5異常值處理
10.3.6處理缺失值
10.3.7爬取數(shù)據(jù)
10.3.8增加特征值
10.3.9格式與內(nèi)容清洗
10.3.10數(shù)據(jù)持久化保存
第11章綜合爬蟲案例
11.1數(shù)據(jù)爬取
11.1.1單線程爬取“前程無憂”
11.1.2多線程爬取“英才網(wǎng)”
11.1.3多線程爬取“前程無憂”
11.2簡單數(shù)據(jù)清洗
11.2.1導(dǎo)入庫
11.2.2初識數(shù)據(jù)
11.2.3簡單數(shù)據(jù)處理
11.2.4處理重復(fù)值
11.2.5處理空值
11.2.6字段內(nèi)容清洗
11.2.7提取并增加特征值
11.2.8處理異常值
11.2.9數(shù)據(jù)保存
參考文獻
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號