注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python 3爬蟲、數(shù)據(jù)清洗與可視化實(shí)戰(zhàn)(第2版)

Python 3爬蟲、數(shù)據(jù)清洗與可視化實(shí)戰(zhàn)(第2版)

Python 3爬蟲、數(shù)據(jù)清洗與可視化實(shí)戰(zhàn)(第2版)

定 價(jià):¥69.00

作 者: 零一 韓要賓 黃園園 著 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787121391187 出版時(shí)間: 2020-07-01 包裝: 平裝
開本: 16開 頁數(shù): 260 字?jǐn)?shù):  

內(nèi)容簡介

  本書是一本通過實(shí)戰(zhàn)教初學(xué)者學(xué)習(xí)爬取數(shù)據(jù)、清洗和組織數(shù)據(jù)進(jìn)行分析和可視化的Python 讀物。書中案例均經(jīng)過實(shí)戰(zhàn)檢驗(yàn),筆者在實(shí)踐過程中深感采集數(shù)據(jù)、清洗和組織數(shù)據(jù)的重要性,作為 一名數(shù)據(jù)行業(yè)的“碼農(nóng)”,數(shù)據(jù)就是沃土,沒有數(shù)據(jù),我們將無田可耕。 本書共13 章,包括6 個(gè)核心主題,其一是Python 基礎(chǔ)入門,包括環(huán)境配置、基本操作、數(shù)據(jù)類型、語句和函數(shù);其二是Python 爬蟲的構(gòu)建,包括網(wǎng)頁結(jié)構(gòu)解析、爬蟲流程設(shè)計(jì)、代碼優(yōu)化、爬蟲效率優(yōu)化、無線端的數(shù)據(jù)采集、容錯(cuò)處理、反防爬蟲、表單交互和模擬頁面點(diǎn)擊;其三是Python數(shù)據(jù)庫應(yīng)用,包括MongoDB、MySQL 在Python 中的連接與應(yīng)用;其四是數(shù)據(jù)清洗和組織,包括NumPy 數(shù)組知識,以及pandas 數(shù)據(jù)的讀寫、分組、變形,缺失值、異常值和重復(fù)值處理,時(shí)序數(shù)據(jù)處理和正則表達(dá)式的使用等;其五是綜合應(yīng)用實(shí)例,幫助讀者貫穿爬蟲、數(shù)據(jù)清洗與組織的過程;最后是數(shù)據(jù)可視化,包括matplotlib 和pyecharts 兩個(gè)庫的使用,涉及餅圖、柱形圖、線圖、詞云圖等圖形,幫助讀者進(jìn)入可視化的殿堂。 本書以實(shí)戰(zhàn)為主,適合Python 初學(xué)者及高等院校相關(guān)專業(yè)的學(xué)生閱讀,也適合Python 培訓(xùn)機(jī)構(gòu)作為實(shí)驗(yàn)教材。

作者簡介

  零一 原名陳海城,慕研數(shù)據(jù)分析師事務(wù)所創(chuàng)始人,電商數(shù)據(jù)專家,數(shù)據(jù)分析師,開發(fā)工程師;從事教育培訓(xùn)、數(shù)據(jù)分析和人工智能行業(yè),專注于電商企業(yè)的數(shù)據(jù)化服務(wù)。韓要賓 CDA數(shù)據(jù)分析研究院資深講師;5年電商從業(yè)經(jīng)驗(yàn),4年數(shù)據(jù)挖掘?qū)崙?zhàn)經(jīng)驗(yàn);專注于數(shù)據(jù)分析與挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí),服務(wù)客戶包括蘇寧易購、迪卡儂、百草味、浙江師范大學(xué)等。黃園園 具有10年軟件開發(fā)經(jīng)驗(yàn),全棧工程師,六西格瑪黑帶,精通Python和機(jī)器學(xué)習(xí)算法,具有豐富的分布式爬蟲開發(fā)經(jīng)驗(yàn);曾在蘇州三星電子電腦(SESC)、新加坡電信(NCS)、希捷科技(Seagate Technology)等世界知名企業(yè)研發(fā)部工作,參與過花旗銀行在線支付系統(tǒng)、銀行賬單自動化審核系統(tǒng)等大型軟件開發(fā),曾任杭州沐垚科技有限公司CTO。

圖書目錄

第1 章 Python 語言基礎(chǔ) 1
1.1 安裝Python 環(huán)境 1
1.1.1 Python 3.6.2 安裝與配置 1
1.1.2 使用IDE 工具——PyCharm 4
1.1.3 使用IDE 工具——Anaconda 4
1.2 Python 操作入門 5
1.2.1 編寫第一個(gè)Python 代碼 5
1.2.2 Python 基本操作 . 8
1.2.3 變量 . 10
1.3 Python 數(shù)據(jù)類型 . 10
1.3.1 數(shù)字 . 10
1.3.2 字符串 11
1.3.3 列表 . 14
1.3.4 元組 . 15
1.3.5 集合 . 15
1.3.6 字典 . 15
1.4 Python 語句與函數(shù) 16
1.4.1 條件語句 16
1.4.2 循環(huán)語句 16
1.4.3 函數(shù) . 17
1.5 習(xí)題 18

第2 章 數(shù)據(jù)采集的基本知識 . 25
2.1 關(guān)于爬蟲的合法性 25
2.2 了解網(wǎng)頁 . 27
2.2.1 認(rèn)識網(wǎng)頁結(jié)構(gòu) 28
2.2.2 寫一個(gè)簡單的HTML 28
2.3 使用requests 庫請求網(wǎng)站 . 30
2.3.1 安裝requests 庫 30
2.3.2 爬蟲的基本原理 32
2.3.3 使用GET 方式抓取數(shù)據(jù) . 33
2.3.4 使用POST 方式抓取數(shù)據(jù) .. 34
2.4 使用Beautiful Soup 解析網(wǎng)頁 37
2.5 清洗和組織數(shù)據(jù) . 41
2.6 爬蟲攻防戰(zhàn) 42
2.7 關(guān)于什么時(shí)候存儲數(shù)據(jù) . 45
2.8 習(xí)題 45

第3 章 用API 爬取天氣預(yù)報(bào)數(shù)據(jù) . 48
3.1 注冊免費(fèi)API 和閱讀技術(shù)文檔 . 48
3.2 獲取API 數(shù)據(jù) 50
3.3 存儲數(shù)據(jù)到MongoDB 55
3.3.1 下載并安裝MongoDB . 55
3.3.2 在PyCharm 中安裝Mongo Plugin . 56
3.3.3 將數(shù)據(jù)存入MongoDB 中 59
3.4 MongoDB 數(shù)據(jù)庫查詢 61
3.5 習(xí)題 64

第4 章 大型爬蟲案例:抓取某電商網(wǎng)站的商品數(shù)據(jù) . 65
4.1 觀察頁面特征和解析數(shù)據(jù). 65
4.2 工作流程分析 74
4.3 構(gòu)建類目樹 75
4.4 獲取景點(diǎn)產(chǎn)品列表 78
4.5 代碼優(yōu)化 . 80
4.6 爬蟲效率優(yōu)化 .. 84
4.7 容錯(cuò)處理 . 87
4.8 習(xí)題 87

第5 章 采集手機(jī)App 數(shù)據(jù) . 89
5.1 模擬器及抓包環(huán)境配置 . 89
5.2 App 數(shù)據(jù)抓包 .. 93
5.3 手機(jī)App 數(shù)據(jù)的采集 95
5.4 習(xí)題 96

第6 章 Scrapy 爬蟲 . 98
6.1 Scrapy 簡介 98
6.2 安裝Scrapy 99
6.3 案例:用Scrapy 抓取股票行情 . 100
6.4 習(xí)題 . 108

第7 章 Selenium 爬蟲 109
7.1 Selenium 簡介 109
7.2 安裝Selenium 111
7.3 Selenium 定位及操作元素 . 111
7.4 案例:用Selenium 抓取某電商網(wǎng)站數(shù)據(jù) . 114
7.5 習(xí)題 . 122

第8 章 爬蟲案例集錦 124
8.1 采集外賣平臺數(shù)據(jù) . 124
8.1.1 采集目標(biāo) 124
8.1.2 采集代碼 126
8.2 采集內(nèi)容平臺數(shù)據(jù) . 127
8.2.1 采集目標(biāo) 127
8.2.2 采集代碼 129
8.3 采集招聘平臺數(shù)據(jù) . 130
8.3.1 采集目標(biāo) 130
8.3.2 采集代碼 132
8.4 采集知識付費(fèi)平臺數(shù)據(jù) .. 133
8.4.1 采集目標(biāo) 133
8.4.2 采集代碼 136

第9 章 數(shù)據(jù)庫連接和查詢 137
9.1 使用PyMySQL . 137
9.1.1 連接數(shù)據(jù)庫 .. 137
9.1.2 案例:某電商網(wǎng)站女裝行業(yè)TOP100 銷量數(shù)據(jù) 139
9.2 使用SQLAlchemy .. 141
9.2.1 SQLAlchemy 基本介紹 . 141
9.2.2 SQLAlchemy 基本語法 . 142
9.3 MongoDB . 144
9.3.1 MongoDB 基本語法 144
9.3.2 案例:在某電商網(wǎng)站搜索“連衣裙”的商品數(shù)據(jù) 145
9.4 習(xí)題 . 146

第10 章 NumPy 數(shù)組操作 148
10.1 NumPy 簡介 148
10.2 一維數(shù)組 149
10.2.1 數(shù)組與列表的異同 149
10.2.2 數(shù)組的創(chuàng)建 150
10.3 多維數(shù)組 151
10.3.1 多維數(shù)組的高效性能 151
10.3.2 多維數(shù)組的索引與切片 152
10.3.3 多維數(shù)組的屬性和方法 153
10.4 數(shù)組的運(yùn)算 .. 154
10.5 習(xí)題 155

第11 章 pandas 數(shù)據(jù)清洗 158
11.1 數(shù)據(jù)讀寫、選擇、整理和描述 . 158
11.1.1 從CSV 中讀取數(shù)據(jù) 160
11.1.2 向CSV 中寫入數(shù)據(jù) 161
11.1.3 數(shù)據(jù)選擇 . 161
11.1.4 數(shù)據(jù)整理 . 163
11.1.5 數(shù)據(jù)描述 . 164
11.2 數(shù)據(jù)分組、分割、合并和變形 . 165
11.2.1 數(shù)據(jù)分組 . 165
11.2.2 數(shù)據(jù)分割 . 168
11.2.3 數(shù)據(jù)合并 . 169
11.2.4 數(shù)據(jù)變形 . 175
11.2.5 案例:旅游數(shù)據(jù)的分析與變形 177
11.3 缺失值、異常值和重復(fù)值處理 . 181
11.3.1 缺失值處理 181
11.3.2 檢測和過濾異常值 184
11.3.3 移除重復(fù)值 187
11.3.4 案例:旅游數(shù)據(jù)值的檢查與處理 . 189
11.4 時(shí)序數(shù)據(jù)處理 . 192
11.4.1 日期/時(shí)間數(shù)據(jù)轉(zhuǎn)換 192
11.4.2 時(shí)序數(shù)據(jù)基礎(chǔ)操作 193
11.4.3 案例:天氣預(yù)報(bào)數(shù)據(jù)分析與處理 . 195
11.5 數(shù)據(jù)類型轉(zhuǎn)換 . 199
11.6 正則表達(dá)式 201
11.6.1 元字符與限定符 . 201
11.6.2 案例:用正則表達(dá)式提取網(wǎng)頁文本信息 . 202
11.7 習(xí)題 203

第12 章 綜合應(yīng)用實(shí)例 206
12.1 按性價(jià)比給用戶推薦旅游產(chǎn)品 . 206
12.1.1 數(shù)據(jù)采集 . 207
12.1.2 數(shù)據(jù)清洗、建模 . 211
12.2 通過熱力圖分析為用戶提供出行建議 . 213
12.2.1 某旅游網(wǎng)站熱門景點(diǎn)爬蟲代碼 .. 217
12.2.2 提取CSV 文件中經(jīng)緯度和銷量信息 . 220
12.2.3 創(chuàng)建景點(diǎn)門票銷量熱力圖HTML 文件 221

第13 章 數(shù)據(jù)可視化 . 224
13.1 應(yīng)用matplotlib 畫圖 225
13.1.1 畫出各省份平均價(jià)格、各省份平均成交量柱狀圖 225
13.1.2 畫出各省份平均成交量折線圖、柱狀圖、箱形圖和餅圖 227
13.1.3 畫出價(jià)格與成交量的散點(diǎn)圖 228
13.2 應(yīng)用pyecharts 畫圖 228
13.2.1 Echarts 簡介 228
13.2.2 pyecharts 簡介 229
13.2.3 初識pyecharts,玫瑰相送 229
13.2.4 pyecharts 基本語法 230
13.2.5 基于商業(yè)分析的pyecharts 圖表繪制 . 232
13.2.6 使用pyecharts 繪制其他圖表 . 242
13.2.7 pyecharts 和Jupyter 245
13.3 習(xí)題 246

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號