定 價(jià):¥79.80
作 者: | 呂云翔,張揚(yáng) |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | 清華科技大講堂 |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302515920 | 出版時(shí)間: | 2019-04-01 | 包裝: | 平裝 |
開本: | 16開 | 頁(yè)數(shù): | 391 | 字?jǐn)?shù): |
目錄
基礎(chǔ)篇
第1章Python與網(wǎng)絡(luò)爬蟲
1.1Python語(yǔ)言
1.1.1什么是Python
1.1.2Python的應(yīng)用現(xiàn)狀
1.2Python的安裝與開發(fā)環(huán)境配置
1.2.1在Windows上安裝
1.2.2在Ubuntu和Mac OS上安裝
1.2.3PyCharm的使用
1.2.4Jupyter Notebook
1.3Python的基本語(yǔ)法
1.3.1數(shù)據(jù)類型
1.3.2邏輯語(yǔ)句
1.3.3Python中的函數(shù)與類
1.3.4如何學(xué)習(xí)Python
1.4互聯(lián)網(wǎng)、HTTP與HTML
1.4.1互聯(lián)網(wǎng)與HTTP協(xié)議
1.4.2HTML
1.5HelloSpider
1.5.1第一個(gè)爬蟲程序
1.5.2對(duì)爬蟲程序的思考
1.6調(diào)研網(wǎng)站
1.6.1網(wǎng)站的robots.txt與Sitemap
1.6.2查看網(wǎng)站所用的技術(shù)
1.6.3查看網(wǎng)站所有者的信息
1.6.4使用開發(fā)者工具檢查網(wǎng)頁(yè)
1.7本章小結(jié)
第2章數(shù)據(jù)的采集
2.1從抓取開始
2.2正則表達(dá)式
2.2.1初識(shí)正則表達(dá)式
2.2.2正則表達(dá)式的簡(jiǎn)單使用
2.3BeautifulSoup
2.3.1BeautifulSoup的安裝與特點(diǎn)
2.3.2BeautifulSoup的基本使用
2.4XPath與lxml
2.4.1XPath
2.4.2lxml與XPath的使用
2.5遍歷頁(yè)面
2.5.1抓取下一個(gè)頁(yè)面
2.5.2完成爬蟲程序
2.6使用API
2.6.1API簡(jiǎn)介
2.6.2API使用示例
2.7本章小結(jié)
第3章文件與數(shù)據(jù)的存儲(chǔ)
3.1Python中的文件
3.1.1基本的文件讀寫
3.1.2序列化
3.2字符串
3.3Python與圖片
3.3.1PIL與Pillow
3.3.2Python與OpenCV簡(jiǎn)介
3.4CSV文件
3.4.1CSV簡(jiǎn)介
3.4.2CSV的讀寫
3.5使用數(shù)據(jù)庫(kù)
3.5.1使用MySQL
3.5.2使用SQLite3
3.5.3使用SQLAlchemy
3.5.4使用Redis
3.6其他類型的文檔
3.7本章小結(jié)
進(jìn)階篇
第4章JavaScript與動(dòng)態(tài)內(nèi)容
4.1JavaScript與AJAX技術(shù)
4.1.1JavaScript語(yǔ)言
4.1.2AJAX
4.2抓取AJAX數(shù)據(jù)
4.2.1分析數(shù)據(jù)
4.2.2提取數(shù)據(jù)
4.3抓取動(dòng)態(tài)內(nèi)容
4.3.1動(dòng)態(tài)渲染頁(yè)面
4.3.2使用Selenium
4.3.3PyV8與Splash
4.4本章小結(jié)
第5章表單與模擬登錄
5.1表單
5.1.1表單與POST
5.1.2發(fā)送表單數(shù)據(jù)
5.2Cookie
5.2.1什么是Cookie
5.2.2在Python中使用Cookie
5.3模擬登錄網(wǎng)站
5.3.1分析網(wǎng)站
5.3.2通過(guò)Cookie模擬登錄
5.4驗(yàn)證碼
5.4.1圖片驗(yàn)證碼
5.4.2滑動(dòng)驗(yàn)證
5.5本章小結(jié)
第6章數(shù)據(jù)的進(jìn)一步處理
6.1Python與文本分析
6.1.1什么是文本分析
6.1.2jieba與SnowNLP
6.1.3NLTK
6.1.4文本的分類與聚類
6.2數(shù)據(jù)處理與科學(xué)計(jì)算
6.2.1從MATLAB到Python
6.2.2NumPy
6.2.3Pandas
6.2.4Matplotlib
6.2.5SciPy與SymPy
6.3本章小結(jié)
高級(jí)篇
第7章更靈活和更多樣的爬蟲
7.1更靈活的爬蟲——以微信數(shù)據(jù)的抓取為例
7.1.1用Selenium抓取Web微信信息
7.1.2基于Python的微信API工具
7.2更多樣的爬蟲
7.2.1PyQuery
7.2.2在線爬蟲應(yīng)用平臺(tái)
7.2.3使用urllib
7.3對(duì)爬蟲的部署和管理
7.3.1配置遠(yuǎn)程主機(jī)
7.3.2編寫本地爬蟲
7.3.3部署爬蟲
7.3.4查看運(yùn)行結(jié)果
7.3.5使用爬蟲管理框架
7.4本章小結(jié)
第8章瀏覽器模擬與網(wǎng)站測(cè)試
8.1關(guān)于測(cè)試
8.1.1什么是測(cè)試
8.1.2什么是TDD
8.2Python的單元測(cè)試
8.2.1使用unittest
8.2.2其他方法
8.3使用Python爬蟲測(cè)試網(wǎng)站
8.4使用Selenium測(cè)試
8.4.1Selenium測(cè)試常用的網(wǎng)站交互
8.4.2結(jié)合Selenium進(jìn)行單元測(cè)試
8.5本章小結(jié)
第9章更強(qiáng)大的爬蟲
9.1爬蟲框架
9.1.1Scrapy是什么
9.1.2Scrapy的安裝與入門
9.1.3編寫Scrapy爬蟲
9.1.4其他爬蟲框架
9.2網(wǎng)站反爬蟲
9.2.1反爬蟲的策略
9.2.2偽裝headers
9.2.3使用代理
9.2.4訪問(wèn)頻率
9.3多進(jìn)程與分布式
9.3.1多進(jìn)程編程與爬蟲抓取
9.3.2分布式爬蟲
9.4本章小結(jié)
實(shí)踐篇
第10章爬蟲實(shí)踐: 下載網(wǎng)頁(yè)中的小說(shuō)和購(gòu)物評(píng)論
10.1下載網(wǎng)絡(luò)小說(shuō)
10.1.1分析網(wǎng)頁(yè)
10.1.2編寫爬蟲
10.1.3運(yùn)行并查看TXT文件
10.2下載購(gòu)物評(píng)論
10.2.1查看網(wǎng)絡(luò)數(shù)據(jù)
10.2.2編寫爬蟲
10.2.3數(shù)據(jù)下載結(jié)果與爬蟲分析
10.3本章小結(jié)
第11章爬蟲實(shí)踐: 保存感興趣的圖片
11.1豆瓣網(wǎng)站分析與爬蟲設(shè)計(jì)
11.1.1從需求出發(fā)
11.1.2處理登錄問(wèn)題
11.2編寫爬蟲程序
11.2.1爬蟲腳本
11.2.2程序分析
11.3運(yùn)行并查看結(jié)果
11.4本章小結(jié)
第12章爬蟲實(shí)踐: 網(wǎng)上影評(píng)分析
12.1需求分析與爬蟲設(shè)計(jì)
12.1.1網(wǎng)頁(yè)分析
12.1.2函數(shù)設(shè)計(jì)
12.2編寫爬蟲
12.2.1編寫程序
12.2.2可能的改進(jìn)
12.3本章小結(jié)
第13章爬蟲實(shí)踐: 使用爬蟲下載網(wǎng)頁(yè)
13.1設(shè)計(jì)抓取程序
13.2運(yùn)行程序
13.3展示網(wǎng)頁(yè)
第14章爬蟲實(shí)踐: 使用爬蟲框架
14.1Gain框架
14.2使用Gain做簡(jiǎn)單抓取
14.3PySpider框架
14.4使用PySpider進(jìn)行抓取
附錄A
A.1Python中的一些重要概念
A.1.1*args與**kwargs的使用
A.1.2global關(guān)鍵詞
A.1.3enumerate枚舉
A.1.4迭代器與生成器
A.2Python中的常用模塊
A.2.1collections
A.2.2arrow
A.2.3timeit
A.2.4pickle
A.2.5os
A.2.6sys
A.2.7itertools
A.2.8functools
A.2.9threading、queue與multiprocessing
A.3requests庫(kù)
A.3.1requests基礎(chǔ)
A.3.2更多用法
A.4正則表達(dá)式
A.4.1什么是正則表達(dá)式
A.4.2正則表達(dá)式的基礎(chǔ)語(yǔ)法
參考文獻(xiàn)