注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書教育/教材/教輔教材研究生/本科/專科教材大數(shù)據(jù)采集、預(yù)處理與可視化(微課版)

大數(shù)據(jù)采集、預(yù)處理與可視化(微課版)

大數(shù)據(jù)采集、預(yù)處理與可視化(微課版)

定 價(jià):¥69.80

作 者: 葛繼科,張曉琴,陳祖琴
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787115614353 出版時(shí)間: 2023-07-01 包裝: 平裝
開(kāi)本: 128開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  為了適應(yīng)數(shù)字經(jīng)濟(jì)時(shí)代的新發(fā)展趨勢(shì),培養(yǎng)新時(shí)代大數(shù)據(jù)專業(yè)人才,編者通過(guò)總結(jié)多年的教學(xué)經(jīng)驗(yàn),借鑒國(guó)內(nèi)外相關(guān)領(lǐng)域的教學(xué)優(yōu)勢(shì),詳細(xì)剖析大數(shù)據(jù)采集、預(yù)處理與可視化的基礎(chǔ)理論、關(guān)鍵技術(shù)、相關(guān)工具和應(yīng)用案例,進(jìn)而編成本書。本書是集理論與實(shí)踐于一體的應(yīng)用型教材。全書共7章,包括大數(shù)據(jù)概述、Python程序設(shè)計(jì)、大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理技術(shù)、Excel數(shù)據(jù)獲取與預(yù)處理、Python數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化技術(shù)。本書在編寫中著重介紹基本原理,同時(shí)突出工程應(yīng)用,并以清晰、容易理解的方式展現(xiàn)大數(shù)據(jù)采集、預(yù)處理與可視化的基礎(chǔ)知識(shí)、基本任務(wù)、常用方法、實(shí)用場(chǎng)景和主要流程,力圖做到基本概念準(zhǔn)確、闡述條理清晰、主體內(nèi)容精練、重點(diǎn)難點(diǎn)突出、理論聯(lián)系實(shí)際。此外,本書還將反映相關(guān)領(lǐng)域新技術(shù)的發(fā)展情況。本書可作為計(jì)算機(jī)、人工智能、大數(shù)據(jù)、電子商務(wù)、電氣、電子、統(tǒng)計(jì)學(xué)、會(huì)計(jì)學(xué)等相關(guān)專業(yè)的大數(shù)據(jù)技術(shù)類課程的教材,也可供相關(guān)領(lǐng)域的科技人員參考使用,還可作為數(shù)據(jù)分析及應(yīng)用類認(rèn)證培訓(xùn)課程用書。

作者簡(jiǎn)介

  葛繼科:西南大學(xué)博士,加拿大麥吉爾大學(xué)博士后出站,重慶科技學(xué)院教授,碩士研究生導(dǎo)師。主要從事人工智能、大數(shù)據(jù)應(yīng)用、網(wǎng)絡(luò)安全等方面的教學(xué)與研究工作。主講課程包括:大數(shù)據(jù)平臺(tái)與應(yīng)用、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)采集與優(yōu)化、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、網(wǎng)絡(luò)安全技術(shù)等。主持省部級(jí)教學(xué)質(zhì)量工程項(xiàng)目1項(xiàng),主持省部級(jí)教改重點(diǎn)項(xiàng)目2項(xiàng)、一般項(xiàng)目1項(xiàng)、產(chǎn)學(xué)合作育人項(xiàng)目9項(xiàng)、校級(jí)教改項(xiàng)目4項(xiàng),發(fā)表教改論文8篇。獲省部級(jí)教學(xué)成果二等獎(jiǎng)1項(xiàng)、校級(jí)教學(xué)成果二等獎(jiǎng)2項(xiàng)。主持省部級(jí)科研項(xiàng)目7項(xiàng),參與國(guó)家級(jí)科研項(xiàng)目3項(xiàng)、省部級(jí)5項(xiàng);發(fā)表學(xué)術(shù)論文30余篇,其中SCI收錄4篇、EI收錄20篇、中文核心3篇,授權(quán)發(fā)明專利6項(xiàng)。出版教學(xué)著作《計(jì)算機(jī)網(wǎng)絡(luò)安全技術(shù)應(yīng)用探究》1部,主編《油田大數(shù)據(jù)應(yīng)用技術(shù)》(石油工業(yè)出版社,2021年)、《量子人工智能引論》(西南師范大學(xué)出版社,2021年)等學(xué)術(shù)著作。

圖書目錄

【章名目錄】
第 1章 大數(shù)據(jù)概述
第2章 Python程序設(shè)計(jì)
第3章 大數(shù)據(jù)采集
第4章 大數(shù)據(jù)預(yù)處理技術(shù)
第5章 Excel數(shù)據(jù)獲取與預(yù)處理
第6章 Python數(shù)據(jù)預(yù)處理
第7章 數(shù)據(jù)可視化技術(shù)

【詳細(xì)目錄】
第 1章 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)時(shí)代 1
1.2 大數(shù)據(jù)的相關(guān)概念及特征 2
1.2.1 大數(shù)據(jù)的概念 2
1.2.2 大數(shù)據(jù)的發(fā)展歷程 3
1.2.3 大數(shù)據(jù)的特征 5
1.2.4 大數(shù)據(jù)的作用 6
1.2.5 大數(shù)據(jù)的應(yīng)用領(lǐng)域 7
1.2.6 大數(shù)據(jù)的關(guān)鍵技術(shù) 8
1.3 大數(shù)據(jù)系統(tǒng)簡(jiǎn)介 9
1.3.1 Hadoop生態(tài)系統(tǒng) 9
1.3.2 Spark生態(tài)系統(tǒng) 12
1.4 大數(shù)據(jù)思維 15
1.4.1 傳統(tǒng)思維方式 15
1.4.2 大數(shù)據(jù)思維方式 16
1.5 大數(shù)據(jù)倫理 17
1.5.1 大數(shù)據(jù)倫理的由來(lái) 17
1.5.2 大數(shù)據(jù)的倫理問(wèn)題 18
1.5.3 大數(shù)據(jù)的倫理原則 21
1.6 大數(shù)據(jù)安全 22
1.6.1 數(shù)據(jù)全生命周期安全 22
1.6.2 大數(shù)據(jù)安全防護(hù)技術(shù) 23
1.7 本章小結(jié) 24
1.8 習(xí)題 24

第2章 Python程序設(shè)計(jì)
2.1 Python的安裝與運(yùn)行 25
2.1.1 Python的特點(diǎn) 25
2.1.2 Python的下載與安裝 26
2.1.3 Python程序的運(yùn)行 27
2.1.4 第三方軟件包的安裝 29
2.1.5 Python編程規(guī)范 31
2.2 數(shù)據(jù)類型與運(yùn)算符 33
2.2.1 數(shù)字和字符串 33
2.2.2 列表和元組 38
2.2.3 字典和集合 42
2.2.4 運(yùn)算符 44
2.3 程序控制結(jié)構(gòu) 47
2.3.1 程序流程圖 47
2.3.2 順序結(jié)構(gòu) 48
2.3.3 選擇結(jié)構(gòu) 49
2.3.4 循環(huán)結(jié)構(gòu) 51
2.4 函數(shù)與模塊 54
2.4.1 函數(shù)的使用 54
2.4.2 函數(shù)的參數(shù)傳遞 55
2.4.3 全局變量與局部變量 57
2.4.4 匿名函數(shù) 58
2.4.5 模塊 59
2.5 文件 60
2.5.1 文件的打開(kāi)與關(guān)閉 60
2.5.2 文件的讀取與寫入 62
2.5.3 文件的定位 63
2.6 本章小結(jié) 63
2.7 習(xí)題 64

第3章 大數(shù)據(jù)采集
3.1 大數(shù)據(jù)采集概述 65
3.1.1 大數(shù)據(jù)采集的概念 65
3.1.2 大數(shù)據(jù)采集的數(shù)據(jù)源 66
3.1.3 大數(shù)據(jù)采集方法 67
3.1.4 大數(shù)據(jù)采集平臺(tái) 69
3.2 網(wǎng)絡(luò)爬蟲(chóng)技術(shù) 71
3.2.1 網(wǎng)絡(luò)爬蟲(chóng)概述 72
3.2.2 常用網(wǎng)絡(luò)爬蟲(chóng)方法 72
3.2.3 網(wǎng)頁(yè)數(shù)據(jù)采集的實(shí)現(xiàn) 75
3.2.4 常用網(wǎng)絡(luò)爬蟲(chóng)工具 78
3.2.5 電影評(píng)論爬取 82
3.3 數(shù)據(jù)抽取技術(shù) 85
3.3.1 數(shù)據(jù)抽取概述 85
3.3.2 Kettle簡(jiǎn)介與其安裝 86
3.3.3 文本數(shù)據(jù)抽取 87
3.3.4 網(wǎng)頁(yè)數(shù)據(jù)抽取 89
3.4 案例:網(wǎng)絡(luò)租房信息采集 91
3.4.1 網(wǎng)絡(luò)爬蟲(chóng)采集數(shù)據(jù) 91
3.4.2 抽取租房信息 94
3.5 本章小結(jié) 96
3.6 習(xí)題 96

第4章 大數(shù)據(jù)預(yù)處理技術(shù)
4.1 數(shù)據(jù)預(yù)處理概述 97
4.1.1 數(shù)據(jù)質(zhì)量 97
4.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù) 99
4.2 數(shù)據(jù)清洗 99
4.2.1 缺失值處理方法 99
4.2.2 噪聲數(shù)據(jù)處理方法 101
4.2.3 冗余數(shù)據(jù)處理方法 105
4.2.4 數(shù)據(jù)格式與內(nèi)容處理方法 106
4.3 數(shù)據(jù)集成 106
4.3.1 實(shí)體識(shí)別問(wèn)題 106
4.3.2 冗余問(wèn)題 107
4.3.3 數(shù)據(jù)值沖突的檢測(cè)與處理 109
4.4 數(shù)據(jù)變換 110
4.4.1 數(shù)據(jù)規(guī)范化 110
4.4.2 通過(guò)離散化變換數(shù)據(jù) 112
4.5 數(shù)據(jù)歸約 113
4.5.1 過(guò)濾法 114
4.5.2 包裝法 115
4.5.3 嵌入法 116
4.6 數(shù)據(jù)脫敏 117
4.6.1 數(shù)據(jù)脫敏類型 117
4.6.2 數(shù)據(jù)脫敏方法 118
4.7 案例:汽車行駛工況數(shù)據(jù)預(yù)處理 119
4.7.1 案例背景 119
4.7.2 數(shù)據(jù)描述 119
4.7.3 數(shù)據(jù)預(yù)處理 120
4.8 本章小結(jié) 124
4.9 習(xí)題 125

第5章 Excel數(shù)據(jù)獲取與預(yù)處理
5.1 Excel數(shù)據(jù)獲取 126
5.1.1 獲取文本數(shù)據(jù) 126
5.1.2 獲取網(wǎng)站數(shù)據(jù) 128
5.1.3 獲取數(shù)據(jù)庫(kù)中的數(shù)據(jù) 130
5.2 Excel數(shù)據(jù)清洗與轉(zhuǎn)換 132
5.2.1 常用數(shù)據(jù)分析函數(shù) 132
5.2.2 刪除重復(fù)行 136
5.2.3 文本查找與替換 137
5.2.4 字符串截取 139
5.2.5 數(shù)據(jù)的轉(zhuǎn)置 140
5.2.6 數(shù)據(jù)的查詢和引用 140
5.2.7 字母與數(shù)字的轉(zhuǎn)換 142
5.3 Excel數(shù)據(jù)抽取與合并 143
5.3.1 值的抽取 144
5.3.2 數(shù)據(jù)合并 146
5.3.3 字段合并 147
5.4 案例:房?jī)r(jià)行情的對(duì)比分析 148
5.4.1 數(shù)據(jù)獲取 148
5.4.2 數(shù)據(jù)預(yù)處理與分析 149
5.5 本章小結(jié) 151
5.6 習(xí)題 151

第6章 Python數(shù)據(jù)預(yù)處理
6.1 Python數(shù)據(jù)預(yù)處理基礎(chǔ) 153
6.1.1 科學(xué)計(jì)算庫(kù)NumPy 153
6.1.2 數(shù)據(jù)分析庫(kù)pandas 160
6.2 數(shù)據(jù)的分組、分割、合并和變形 168
6.2.1 數(shù)據(jù)分組 168
6.2.2 數(shù)據(jù)分割 171
6.2.3 數(shù)據(jù)合并 172
6.2.4 數(shù)據(jù)變形 175
6.3 缺失值、異常值和重復(fù)值處理 177
6.3.1 缺失值處理 177
6.3.2 異常值處理 181
6.3.3 重復(fù)值處理 185
6.4 時(shí)間序列數(shù)據(jù)處理 185
6.4.1 時(shí)間序列的基本操作 186
6.4.2 固定頻率的時(shí)間序列 187
6.4.3 時(shí)間周期及其計(jì)算 188
6.5 文本數(shù)據(jù)分析 189
6.5.1 字符串處理方法 189
6.5.2 文本數(shù)據(jù)分析工具 191
6.5.3 正則表達(dá)式 194
6.5.4 文本預(yù)處理 196
6.6 案例:IMDb5000電影數(shù)據(jù)預(yù)處理 199
6.6.1 數(shù)據(jù)分析及代碼實(shí)現(xiàn) 199
6.6.2 完整代碼 201
6.7 本章小結(jié) 203
6.8 習(xí)題 203

第7章 數(shù)據(jù)可視化技術(shù)
7.1 數(shù)據(jù)可視化概述 205
7.1.1 數(shù)據(jù)可視化的定義 205
7.1.2 數(shù)據(jù)可視化的發(fā)展歷程 206
7.1.3 數(shù)據(jù)可視化的作用 211
7.2 數(shù)據(jù)可視化的理論基礎(chǔ) 212
7.2.1 數(shù)據(jù)可視化的流程 212
7.2.2 數(shù)據(jù)可視化的設(shè)計(jì)要素 213
7.2.3 數(shù)據(jù)可視化的基礎(chǔ)圖表 216
7.2.4 數(shù)據(jù)可視化的常見(jiàn)工具 219
7.3 Python數(shù)據(jù)可視化方法 221
7.3.1 Matplotlib繪制基礎(chǔ)圖表 221
7.3.2 seaborn繪制統(tǒng)計(jì)圖 229
7.3.3 wordcloud繪制詞云圖 254
7.3.4 NetworkX繪制網(wǎng)絡(luò)圖 257
7.3.5 案例:重慶公開(kāi)庭審數(shù)據(jù)可視化 260
7.4 pyecharts數(shù)據(jù)可視化方法 265
7.4.1 pyecharts簡(jiǎn)介 265
7.4.2 pyecharts應(yīng)用 266
7.4.3 案例:2020年?yáng)|京奧運(yùn)會(huì)獎(jiǎng)牌看板 267
7.5 本章小結(jié) 278
7.6 習(xí)題 279

參考文獻(xiàn) 280

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)