Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

定　價(jià)：￥79.80

作　者：	呂云翔，張揚(yáng)
出版社：	清華大學(xué)出版社
叢編項(xiàng)：	清華科技大講堂
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787302515920	出版時(shí)間：	2019-04-01	包裝：	平裝
開本：	16開	頁數(shù)：	391	字?jǐn)?shù)：

內(nèi)容簡介

　　本書介紹如何利用Python進(jìn)行網(wǎng)絡(luò)爬蟲程序的開發(fā)，從Python語言的基本特性入手，詳細(xì)介紹了Python爬蟲開發(fā)的相關(guān)知識，涉及HTTP、HTML、JavaScript、正則表達(dá)式、自然語言處理、數(shù)據(jù)科學(xué)等內(nèi)容。全書共分為14章，包括Python基礎(chǔ)知識、網(wǎng)站分析、網(wǎng)頁解析、Python文件的讀寫、Python與數(shù)據(jù)庫、AJAX技術(shù)、模擬登錄、文本與數(shù)據(jù)分析、網(wǎng)站測試、Scrapy爬蟲框架、爬蟲性能等多個(gè)主題，內(nèi)容覆蓋網(wǎng)絡(luò)抓取與爬蟲編程中的主要知識和技術(shù)，在重視理論基礎(chǔ)的前提下從實(shí)用性和豐富度出發(fā)，結(jié)合實(shí)例演示了編寫爬蟲程序的核心流程。本書適合Python語言初學(xué)者、網(wǎng)絡(luò)爬蟲技術(shù)愛好者、數(shù)據(jù)分析從業(yè)人員以及高等院校計(jì)算機(jī)科學(xué)、軟件工程等相關(guān)專業(yè)的師生閱讀。

作者簡介

暫缺《Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)》作者簡介

圖書目錄

基礎(chǔ)篇

第1章Python與網(wǎng)絡(luò)爬蟲

1.1Python語言

1.1.1什么是Python

1.1.2Python的應(yīng)用現(xiàn)狀

1.2Python的安裝與開發(fā)環(huán)境配置

1.2.1在Windows上安裝

1.2.2在Ubuntu和Mac OS上安裝

1.2.3PyCharm的使用

1.2.4Jupyter Notebook

1.3Python的基本語法

1.3.1數(shù)據(jù)類型

1.3.2邏輯語句

1.3.3Python中的函數(shù)與類

1.3.4如何學(xué)習(xí)Python

1.4互聯(lián)網(wǎng)、HTTP與HTML

1.4.1互聯(lián)網(wǎng)與HTTP協(xié)議

1.4.2HTML

1.5HelloSpider

1.5.1第一個(gè)爬蟲程序

1.5.2對爬蟲程序的思考

1.6調(diào)研網(wǎng)站

1.6.1網(wǎng)站的robots.txt與Sitemap

1.6.2查看網(wǎng)站所用的技術(shù)

1.6.3查看網(wǎng)站所有者的信息

1.6.4使用開發(fā)者工具檢查網(wǎng)頁

1.7本章小結(jié)

第2章數(shù)據(jù)的采集

2.1從抓取開始

2.2正則表達(dá)式

2.2.1初識正則表達(dá)式

2.2.2正則表達(dá)式的簡單使用

2.3BeautifulSoup

2.3.1BeautifulSoup的安裝與特點(diǎn)

2.3.2BeautifulSoup的基本使用

2.4XPath與lxml

2.4.1XPath

2.4.2lxml與XPath的使用

2.5遍歷頁面

2.5.1抓取下一個(gè)頁面

2.5.2完成爬蟲程序

2.6使用API

2.6.1API簡介

2.6.2API使用示例

2.7本章小結(jié)

第3章文件與數(shù)據(jù)的存儲

3.1Python中的文件

3.1.1基本的文件讀寫

3.1.2序列化

3.2字符串

3.3Python與圖片

3.3.1PIL與Pillow

3.3.2Python與OpenCV簡介

3.4CSV文件

3.4.1CSV簡介

3.4.2CSV的讀寫

3.5使用數(shù)據(jù)庫

3.5.1使用MySQL

3.5.2使用SQLite3

3.5.3使用SQLAlchemy

3.5.4使用Redis

3.6其他類型的文檔

3.7本章小結(jié)

進(jìn)階篇

第4章JavaScript與動態(tài)內(nèi)容

4.1JavaScript與AJAX技術(shù)

4.1.1JavaScript語言

4.1.2AJAX

4.2抓取AJAX數(shù)據(jù)

4.2.1分析數(shù)據(jù)

4.2.2提取數(shù)據(jù)

4.3抓取動態(tài)內(nèi)容

4.3.1動態(tài)渲染頁面

4.3.2使用Selenium

4.3.3PyV8與Splash

4.4本章小結(jié)

第5章表單與模擬登錄

5.1表單

5.1.1表單與POST

5.1.2發(fā)送表單數(shù)據(jù)

5.2Cookie

5.2.1什么是Cookie

5.2.2在Python中使用Cookie

5.3模擬登錄網(wǎng)站

5.3.1分析網(wǎng)站

5.3.2通過Cookie模擬登錄

5.4驗(yàn)證碼

5.4.1圖片驗(yàn)證碼

5.4.2滑動驗(yàn)證

5.5本章小結(jié)

第6章數(shù)據(jù)的進(jìn)一步處理

6.1Python與文本分析

6.1.1什么是文本分析

6.1.2jieba與SnowNLP

6.1.3NLTK

6.1.4文本的分類與聚類

6.2數(shù)據(jù)處理與科學(xué)計(jì)算

6.2.1從MATLAB到Python

6.2.2NumPy

6.2.3Pandas

6.2.4Matplotlib

6.2.5SciPy與SymPy

6.3本章小結(jié)

高級篇

第7章更靈活和更多樣的爬蟲

7.1更靈活的爬蟲——以微信數(shù)據(jù)的抓取為例

7.1.1用Selenium抓取Web微信信息

7.1.2基于Python的微信API工具

7.2更多樣的爬蟲

7.2.1PyQuery

7.2.2在線爬蟲應(yīng)用平臺

7.2.3使用urllib

7.3對爬蟲的部署和管理

7.3.1配置遠(yuǎn)程主機(jī)

7.3.2編寫本地爬蟲

7.3.3部署爬蟲

7.3.4查看運(yùn)行結(jié)果

7.3.5使用爬蟲管理框架

7.4本章小結(jié)

第8章瀏覽器模擬與網(wǎng)站測試

8.1關(guān)于測試

8.1.1什么是測試

8.1.2什么是TDD

8.2Python的單元測試

8.2.1使用unittest

8.2.2其他方法

8.3使用Python爬蟲測試網(wǎng)站

8.4使用Selenium測試

8.4.1Selenium測試常用的網(wǎng)站交互

8.4.2結(jié)合Selenium進(jìn)行單元測試

8.5本章小結(jié)

第9章更強(qiáng)大的爬蟲

9.1爬蟲框架

9.1.1Scrapy是什么

9.1.2Scrapy的安裝與入門

9.1.3編寫Scrapy爬蟲

9.1.4其他爬蟲框架

9.2網(wǎng)站反爬蟲

9.2.1反爬蟲的策略

9.2.2偽裝headers

9.2.3使用代理

9.2.4訪問頻率

9.3多進(jìn)程與分布式

9.3.1多進(jìn)程編程與爬蟲抓取

9.3.2分布式爬蟲

9.4本章小結(jié)

實(shí)踐篇

第10章爬蟲實(shí)踐：下載網(wǎng)頁中的小說和購物評論

10.1下載網(wǎng)絡(luò)小說

10.1.1分析網(wǎng)頁

10.1.2編寫爬蟲

10.1.3運(yùn)行并查看TXT文件

10.2下載購物評論

10.2.1查看網(wǎng)絡(luò)數(shù)據(jù)

10.2.2編寫爬蟲

10.2.3數(shù)據(jù)下載結(jié)果與爬蟲分析

10.3本章小結(jié)

第11章爬蟲實(shí)踐：保存感興趣的圖片

11.1豆瓣網(wǎng)站分析與爬蟲設(shè)計(jì)

11.1.1從需求出發(fā)

11.1.2處理登錄問題

11.2編寫爬蟲程序

11.2.1爬蟲腳本

11.2.2程序分析

11.3運(yùn)行并查看結(jié)果

11.4本章小結(jié)

第12章爬蟲實(shí)踐：網(wǎng)上影評分析

12.1需求分析與爬蟲設(shè)計(jì)

12.1.1網(wǎng)頁分析

12.1.2函數(shù)設(shè)計(jì)

12.2編寫爬蟲

12.2.1編寫程序

12.2.2可能的改進(jìn)

12.3本章小結(jié)

第13章爬蟲實(shí)踐：使用爬蟲下載網(wǎng)頁

13.1設(shè)計(jì)抓取程序

13.2運(yùn)行程序

13.3展示網(wǎng)頁

第14章爬蟲實(shí)踐：使用爬蟲框架

14.1Gain框架

14.2使用Gain做簡單抓取

14.3PySpider框架

14.4使用PySpider進(jìn)行抓取

附錄A

A.1Python中的一些重要概念

A.1.1*args與**kwargs的使用

A.1.2global關(guān)鍵詞

A.1.3enumerate枚舉

A.1.4迭代器與生成器

A.2Python中的常用模塊

A.2.1collections

A.2.2arrow

A.2.3timeit

A.2.4pickle

A.2.5os

A.2.6sys

A.2.7itertools

A.2.8functools

A.2.9threading、queue與multiprocessing

A.3requests庫

A.3.1requests基礎(chǔ)

A.3.2更多用法

A.4正則表達(dá)式

A.4.1什么是正則表達(dá)式

A.4.2正則表達(dá)式的基礎(chǔ)語法

參考文獻(xiàn)

Python網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

從建筑寫生到城市設(shè)計(jì)：徒手表達(dá)…

畫中聽樂 2024年日歷

BIM建模與實(shí)時(shí)渲染技術(shù)

建筑速寫

建筑設(shè)計(jì)基礎(chǔ)

上海鐵路客站地區(qū)站城融合設(shè)計(jì)指…

建筑裝飾制圖

布光錄

建筑設(shè)計(jì)入門教程（第2版）

加納特碼新集裝箱碼頭工程項(xiàng)目技…