注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)網(wǎng)絡(luò)與數(shù)據(jù)通信Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)

Python 3爬蟲、數(shù)據(jù)清洗與可視化實戰(zhàn)

定 價:¥49.00

作 者: 零一,韓要賓,黃園園 著
出版社: 電子工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787121333590 出版時間: 2018-03-01 包裝: 平裝
開本: 16開 頁數(shù): 212 字?jǐn)?shù):  

內(nèi)容簡介

  本書是一本通過實戰(zhàn)教初學(xué)者學(xué)習(xí)采集數(shù)據(jù)、清洗和組織數(shù)據(jù)進行分析及可視化的 Python 讀物。書中案例均經(jīng)過實戰(zhàn)檢驗,筆者在實踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性,作為一名數(shù)據(jù)行業(yè)的“碼農(nóng)”,數(shù)據(jù)就是沃土,沒有數(shù)據(jù),我們將無田可耕。 本書共分 11 章, 6 個核心主題:其一是 Python 基礎(chǔ)入門,包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù);其二是 Python 爬蟲的構(gòu)建,包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設(shè)計、代碼優(yōu)化、效率優(yōu)化、容錯處理、 反防爬蟲、 表單交互和模擬頁面點擊; 其三是 Python 數(shù)據(jù)庫應(yīng)用, 包括 MongoDB、 MySQL 在 Python中的連接與應(yīng)用;其四是數(shù)據(jù)清洗和組織,包括 NumPy 數(shù)組知識、 pandas 數(shù)據(jù)的讀寫、分組變形、缺失值異常值處理、時序數(shù)據(jù)處理和正則表達式的使用;其五是綜合應(yīng)用案例,幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程;最后是數(shù)據(jù)可視化,包括 Matplotlib 和 Pyecharts 兩個庫的使用,涉及餅圖、柱形圖、線圖、詞云圖、地圖等圖形,幫助讀者進入可視化的殿堂。 本書以實戰(zhàn)為主,適合 Python 初學(xué)者及高等院校的相關(guān)專業(yè)學(xué)生,也適合 Python 培訓(xùn)機構(gòu)作為實驗教材使用。

作者簡介

  零一 原名陳海城, 零一數(shù)據(jù)學(xué)院創(chuàng)始人, 電商數(shù)據(jù)專家,數(shù)據(jù)分析師,開發(fā)工程師。 從事培訓(xùn)教育、數(shù)據(jù)分析和人工智能行業(yè)。黃園園,具有十年軟件開發(fā)經(jīng)驗,全棧工程師,六西格瑪黑帶,精通Python和機器學(xué)習(xí)算法,具有豐富的分布式爬蟲開發(fā)經(jīng)驗;曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業(yè)研發(fā)部工作,參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā),曾任杭州沐垚科技CTO。韓要賓,杭州沐垚科技有限公司 COO,CDA數(shù)據(jù)分析研究院資深講師;5年電商從業(yè)經(jīng)驗,4年數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗;專注于數(shù)據(jù)分析與挖掘、機器學(xué)習(xí)、深度學(xué)習(xí),服務(wù)客戶包括蘇寧易購、迪卡儂、百草味、浙江師范大學(xué)等。

圖書目錄

第 1 章 Python 基礎(chǔ) /1
1.1 安裝 Python 環(huán)境 /1
1.1.1 Python 3.6.2 安裝與配置 /1
1.1.2 使用 IDE 工具——PyCharm /4
1.1.3 使用 IDE 工具——Anaconda / 4
1.2 Python 操作入門/6
1.2.1 編寫第一個 Python 代碼/6
1.2.2 Python 基本操作/9
1.2.3 變量/10
1.3 Python 數(shù)據(jù)類型/10
1.3.1 數(shù)字/10
1.3.2 字符串/11
1.3.3 列表/13
1.3.4 元組/14
1.3.5 集合/15
1.3.6 字典/15
1.4 Python 語句與函數(shù)/16
1.4.1 條件語句/16
1.4.2 循環(huán)語句/16
1.4.3 函數(shù)/17
第 2 章 寫一個簡單的爬蟲/18
2.1 關(guān)于爬蟲的合法性/18
2.2 了解網(wǎng)頁/20
2.2.1 認(rèn)識網(wǎng)頁結(jié)構(gòu)/ 21
2.2.2 寫一個簡單的 HTML/21
2.3 使用 requests 庫請求網(wǎng)站/23
2.3.1 安裝 requests 庫/23
2.3.2 爬蟲的基本原理/25
2.3.3 使用 GET 方式抓取數(shù)據(jù)/26
2.3.4 使用 POST 方式抓取數(shù)據(jù)/27
2.4 使用 Beautiful Soup 解析網(wǎng)頁/30
2.5 清洗和組織數(shù)據(jù)/34
2.6 爬蟲攻防戰(zhàn)/35


第 3 章 用 API 爬取天氣預(yù)報數(shù)據(jù)/38
3.1 注冊免費 API 和閱讀技術(shù)文檔/38
3.2 獲取 API 數(shù)據(jù)/40
3.3 存儲數(shù)據(jù)到 MongoDB /45
3.3.1 下載并安裝 MongoDB/ 45
3.3.2 在 PyCharm 中安裝 Mongo Plugin/ 46
3.3.3 將數(shù)據(jù)存入 MongoDB/49
3.4 MongoDB 數(shù)據(jù)庫查詢/52


第 4 章 大型爬蟲案例:抓取某電商網(wǎng)站的商品數(shù)據(jù)/55
4.1 觀察頁面特征和解析數(shù)據(jù)/55
4.2 工作流程分析/64
4.3 構(gòu)建類目樹/65
4.4 獲取產(chǎn)品列表/ 68
4.5 代碼優(yōu)化/70
4.6 爬蟲效率優(yōu)化/74
4.7 容錯處理/77


第 5 章 Scrapy 爬蟲/78
5.1 Scrapy 簡介/78
5.2 Scrapy 安裝/79
5.3 案例:用 Scrapy 抓取股票行情/ 80


第 6 章 Selenium 爬蟲/88
6.1 Selenium 簡介/88
6.2 案例:用 Selenium 抓取電商網(wǎng)站數(shù)據(jù)/90

第 7 章 數(shù)據(jù)庫連接和查詢/100
7.1 使用 PyMySQL/100
7.1.1 連接數(shù)據(jù)庫/100
7.1.2 案例:某電商網(wǎng)站女裝行業(yè) TOP100 銷量數(shù)據(jù)/102
7.2 使用 SQLAlchemy/104
7.2.1 SQLAlchemy 基本介紹/104
7.2.2 SQLAlchemy 基本語法/105
7.3 MongoDB/107
7.3.1 MongoDB 基本語法/107
7.3.2 案例:在某電商網(wǎng)站搜索“連衣裙”的商品數(shù)據(jù)/107


第 8 章 NumPy/109
8.1 NumPy 簡介/109
8.2 一維數(shù)組/110
8.2.1 數(shù)組與列表的異同/110
8.2.2 數(shù)組的創(chuàng)建/111
8.3 多維數(shù)組/111
8.3.1 多維數(shù)組的高效性能/112
8.3.2 多維數(shù)組的索引與切片/113
8.3.3 多維數(shù)組的屬性/113
8.4 數(shù)組的運算/115


第 9 章 pandas 數(shù)據(jù)清洗/117
9.1 數(shù)據(jù)讀寫、選擇、整理和描述/117
9.1.1 從 CSV 中讀取數(shù)據(jù)/119
9.1.2 向 CSV 寫入數(shù)據(jù)/120
9.1.3 數(shù)據(jù)選擇/120
9.1.4 數(shù)據(jù)整理/122
9.1.5 數(shù)據(jù)描述/123
9.2 數(shù)據(jù)分組、分割、合并和變形/124
9.2.1 數(shù)據(jù)分組/124
9.2.2 數(shù)據(jù)分割/127
9.2.3 數(shù)據(jù)合并/128
9.2.4 數(shù)據(jù)變形/134
9.2.5 案例:旅游數(shù)據(jù)的分析與變形/136
9.3 缺失值、異常值和重復(fù)值處理/140
9.3.1 缺失值處理/140
9.3.2 檢測和過濾異常值/144
9.3.3 移除重復(fù)數(shù)據(jù)/147
9.3.4 案例:旅游數(shù)據(jù)的值檢查與處理/149
9.4 時序數(shù)據(jù)處理/152
9.4.1 日期/時間數(shù)據(jù)轉(zhuǎn)換/152
9.4.2 時序數(shù)據(jù)基礎(chǔ)操作/153
9.4.3 案例:天氣數(shù)據(jù)分析與處理/155
9.5 數(shù)據(jù)類型轉(zhuǎn)換/158
9.6 正則表達式/ 160
9.6.1 元字符與限定符/161
9.6.2 案例:用正則表達式提取網(wǎng)頁文本信息/162


第 10 章 綜合應(yīng)用實例/164
10.1 按性價比給用戶推薦旅游產(chǎn)品/164
10.1.1 數(shù)據(jù)采集/165
10.1.2 數(shù)據(jù)清洗、建模/169
10.2 通過熱力圖分析為用戶提供出行建議/172
10.2.1 某旅游網(wǎng)站熱門景點爬蟲代碼(qunaer_sights.py)/175
10.2.2 提取 CSV 文件中經(jīng)緯度和銷量信息/178
10.2.3 創(chuàng)建景點門票銷量熱力地圖 HTML 文件/179


第 11 章 數(shù)據(jù)可視化/182
11.1 matplotlib/183
11.1.1 畫出各省份平均價格、各省份平均成交量柱狀圖/183
11.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖/184
11.1.3 畫出價格與成交量的散點圖/185
11.2 pyecharts/186
11.2.1 Echarts 簡介/186
11.2.2 pyecharts 簡介/187
11.2.3 初識 pyecharts,玫瑰相送/187
11.2.4 pyecharts 基本語法/188
11.2.5 基于商業(yè)分析的 pyecharts 圖表繪制/190
11.2.6 使用 pyecharts 繪制其他圖表/199
11.2.7 pyecharts 和 Jupyter/203

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號