定 價(jià):¥69.80
作 者: | 葛繼科,張曉琴,陳祖琴 |
出版社: | 人民郵電出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787115614353 | 出版時(shí)間: | 2023-07-01 | 包裝: | 平裝 |
開(kāi)本: | 128開(kāi) | 頁(yè)數(shù): | 字?jǐn)?shù): |
【章名目錄】
第 1章 大數(shù)據(jù)概述
第2章 Python程序設(shè)計(jì)
第3章 大數(shù)據(jù)采集
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
第6章 Python數(shù)據(jù)預(yù)處理
第7章 數(shù)據(jù)可視化技術(shù)
【詳細(xì)目錄】
第 1章 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)時(shí)代 1
1.2 大數(shù)據(jù)的相關(guān)概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的發(fā)展歷程 3
1.2.3 大數(shù)據(jù)的特征 5
1.2.4 大數(shù)據(jù)的作用 6
1.2.5 大數(shù)據(jù)的應(yīng)用領(lǐng)域 7
1.2.6 大數(shù)據(jù)的關(guān)鍵技術(shù) 8
1.3 大數(shù)據(jù)系統(tǒng)簡(jiǎn)介 9
1.3.1 Hadoop生態(tài)系統(tǒng) 9
1.3.2 Spark生態(tài)系統(tǒng) 12
1.4 大數(shù)據(jù)思維 15
1.4.1 傳統(tǒng)思維方式 15
1.4.2 大數(shù)據(jù)思維方式 16
1.5 大數(shù)據(jù)倫理 17
1.5.1 大數(shù)據(jù)倫理的由來(lái) 17
1.5.2 大數(shù)據(jù)的倫理問(wèn)題 18
1.5.3 大數(shù)據(jù)的倫理原則 21
1.6 大數(shù)據(jù)安全 22
1.6.1 數(shù)據(jù)全生命周期安全 22
1.6.2 大數(shù)據(jù)安全防護(hù)技術(shù) 23
1.7 本章小結(jié) 24
1.8 習(xí)題 24
第2章 Python程序設(shè)計(jì)
2.1 Python的安裝與運(yùn)行 25
2.1.1 Python的特點(diǎn) 25
2.1.2 Python的下載與安裝 26
2.1.3 Python程序的運(yùn)行 27
2.1.4 第三方軟件包的安裝 29
2.1.5 Python編程規(guī)范 31
2.2 數(shù)據(jù)類型與運(yùn)算符 33
2.2.1 數(shù)字和字符串 33
2.2.2 列表和元組 38
2.2.3 字典和集合 42
2.2.4 運(yùn)算符 44
2.3 程序控制結(jié)構(gòu) 47
2.3.1 程序流程圖 47
2.3.2 順序結(jié)構(gòu) 48
2.3.3 選擇結(jié)構(gòu) 49
2.3.4 循環(huán)結(jié)構(gòu) 51
2.4 函數(shù)與模塊 54
2.4.1 函數(shù)的使用 54
2.4.2 函數(shù)的參數(shù)傳遞 55
2.4.3 全局變量與局部變量 57
2.4.4 匿名函數(shù) 58
2.4.5 模塊 59
2.5 文件 60
2.5.1 文件的打開(kāi)與關(guān)閉 60
2.5.2 文件的讀取與寫入 62
2.5.3 文件的定位 63
2.6 本章小結(jié) 63
2.7 習(xí)題 64
第3章 大數(shù)據(jù)采集
3.1 大數(shù)據(jù)采集概述 65
3.1.1 大數(shù)據(jù)采集的概念 65
3.1.2 大數(shù)據(jù)采集的數(shù)據(jù)源 66
3.1.3 大數(shù)據(jù)采集方法 67
3.1.4 大數(shù)據(jù)采集平臺(tái) 69
3.2 網(wǎng)絡(luò)爬蟲(chóng)技術(shù) 71
3.2.1 網(wǎng)絡(luò)爬蟲(chóng)概述 72
3.2.2 常用網(wǎng)絡(luò)爬蟲(chóng)方法 72
3.2.3 網(wǎng)頁(yè)數(shù)據(jù)采集的實(shí)現(xiàn) 75
3.2.4 常用網(wǎng)絡(luò)爬蟲(chóng)工具 78
3.2.5 電影評(píng)論爬取 82
3.3 數(shù)據(jù)抽取技術(shù) 85
3.3.1 數(shù)據(jù)抽取概述 85
3.3.2 Kettle簡(jiǎn)介與其安裝 86
3.3.3 文本數(shù)據(jù)抽取 87
3.3.4 網(wǎng)頁(yè)數(shù)據(jù)抽取 89
3.4 案例:網(wǎng)絡(luò)租房信息采集 91
3.4.1 網(wǎng)絡(luò)爬蟲(chóng)采集數(shù)據(jù) 91
3.4.2 抽取租房信息 94
3.5 本章小結(jié) 96
3.6 習(xí)題 96
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
4.1 數(shù)據(jù)預(yù)處理概述 97
4.1.1 數(shù)據(jù)質(zhì)量 97
4.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 99
4.2 數(shù)據(jù)清洗 99
4.2.1 缺失值處理方法 99
4.2.2 噪聲數(shù)據(jù)處理方法 101
4.2.3 冗余數(shù)據(jù)處理方法 105
4.2.4 數(shù)據(jù)格式與內(nèi)容處理方法 106
4.3 數(shù)據(jù)集成 106
4.3.1 實(shí)體識(shí)別問(wèn)題 106
4.3.2 冗余問(wèn)題 107
4.3.3 數(shù)據(jù)值沖突的檢測(cè)與處理 109
4.4 數(shù)據(jù)變換 110
4.4.1 數(shù)據(jù)規(guī)范化 110
4.4.2 通過(guò)離散化變換數(shù)據(jù) 112
4.5 數(shù)據(jù)歸約 113
4.5.1 過(guò)濾法 114
4.5.2 包裝法 115
4.5.3 嵌入法 116
4.6 數(shù)據(jù)脫敏 117
4.6.1 數(shù)據(jù)脫敏類型 117
4.6.2 數(shù)據(jù)脫敏方法 118
4.7 案例:汽車行駛工況數(shù)據(jù)預(yù)處理 119
4.7.1 案例背景 119
4.7.2 數(shù)據(jù)描述 119
4.7.3 數(shù)據(jù)預(yù)處理 120
4.8 本章小結(jié) 124
4.9 習(xí)題 125
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
5.1 Excel數(shù)據(jù)獲取 126
5.1.1 獲取文本數(shù)據(jù) 126
5.1.2 獲取網(wǎng)站數(shù)據(jù) 128
5.1.3 獲取數(shù)據(jù)庫(kù)中的數(shù)據(jù) 130
5.2 Excel數(shù)據(jù)清洗與轉(zhuǎn)換 132
5.2.1 常用數(shù)據(jù)分析函數(shù) 132
5.2.2 刪除重復(fù)行 136
5.2.3 文本查找與替換 137
5.2.4 字符串截取 139
5.2.5 數(shù)據(jù)的轉(zhuǎn)置 140
5.2.6 數(shù)據(jù)的查詢和引用 140
5.2.7 字母與數(shù)字的轉(zhuǎn)換 142
5.3 Excel數(shù)據(jù)抽取與合并 143
5.3.1 值的抽取 144
5.3.2 數(shù)據(jù)合并 146
5.3.3 字段合并 147
5.4 案例:房?jī)r(jià)行情的對(duì)比分析 148
5.4.1 數(shù)據(jù)獲取 148
5.4.2 數(shù)據(jù)預(yù)處理與分析 149
5.5 本章小結(jié) 151
5.6 習(xí)題 151
第6章 Python數(shù)據(jù)預(yù)處理
6.1 Python數(shù)據(jù)預(yù)處理基礎(chǔ) 153
6.1.1 科學(xué)計(jì)算庫(kù)NumPy 153
6.1.2 數(shù)據(jù)分析庫(kù)pandas 160
6.2 數(shù)據(jù)的分組、分割、合并和變形 168
6.2.1 數(shù)據(jù)分組 168
6.2.2 數(shù)據(jù)分割 171
6.2.3 數(shù)據(jù)合并 172
6.2.4 數(shù)據(jù)變形 175
6.3 缺失值、異常值和重復(fù)值處理 177
6.3.1 缺失值處理 177
6.3.2 異常值處理 181
6.3.3 重復(fù)值處理 185
6.4 時(shí)間序列數(shù)據(jù)處理 185
6.4.1 時(shí)間序列的基本操作 186
6.4.2 固定頻率的時(shí)間序列 187
6.4.3 時(shí)間周期及其計(jì)算 188
6.5 文本數(shù)據(jù)分析 189
6.5.1 字符串處理方法 189
6.5.2 文本數(shù)據(jù)分析工具 191
6.5.3 正則表達(dá)式 194
6.5.4 文本預(yù)處理 196
6.6 案例:IMDb5000電影數(shù)據(jù)預(yù)處理 199
6.6.1 數(shù)據(jù)分析及代碼實(shí)現(xiàn) 199
6.6.2 完整代碼 201
6.7 本章小結(jié) 203
6.8 習(xí)題 203
第7章 數(shù)據(jù)可視化技術(shù)
7.1 數(shù)據(jù)可視化概述 205
7.1.1 數(shù)據(jù)可視化的定義 205
7.1.2 數(shù)據(jù)可視化的發(fā)展歷程 206
7.1.3 數(shù)據(jù)可視化的作用 211
7.2 數(shù)據(jù)可視化的理論基礎(chǔ) 212
7.2.1 數(shù)據(jù)可視化的流程 212
7.2.2 數(shù)據(jù)可視化的設(shè)計(jì)要素 213
7.2.3 數(shù)據(jù)可視化的基礎(chǔ)圖表 216
7.2.4 數(shù)據(jù)可視化的常見(jiàn)工具 219
7.3 Python數(shù)據(jù)可視化方法 221
7.3.1 Matplotlib繪制基礎(chǔ)圖表 221
7.3.2 seaborn繪制統(tǒng)計(jì)圖 229
7.3.3 wordcloud繪制詞云圖 254
7.3.4 NetworkX繪制網(wǎng)絡(luò)圖 257
7.3.5 案例:重慶公開(kāi)庭審數(shù)據(jù)可視化 260
7.4 pyecharts數(shù)據(jù)可視化方法 265
7.4.1 pyecharts簡(jiǎn)介 265
7.4.2 pyecharts應(yīng)用 266
7.4.3 案例:2020年?yáng)|京奧運(yùn)會(huì)獎(jiǎng)牌看板 267
7.5 本章小結(jié) 278
7.6 習(xí)題 279
參考文獻(xiàn) 280