注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡家庭與辦公軟件數(shù)據清洗

數(shù)據清洗

數(shù)據清洗

定 價:¥58.00

作 者: 劉鵬,張燕,李法平,陳瀟瀟 著
出版社: 清華大學出版社
叢編項: 大數(shù)據應用人才培養(yǎng)系列教材
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302493273 出版時間: 2018-06-01 包裝: 平裝
開本: 16 頁數(shù): 238 字數(shù):  

內容簡介

  數(shù)據清洗是大數(shù)據領域不可缺少的環(huán)節(jié),用來發(fā)現(xiàn)并糾正數(shù)據中可能存在的錯誤,針對數(shù)據審查過程中發(fā)現(xiàn)的錯誤值、缺失值、異常值、可疑數(shù)據,選用適當方法進行“清理”,使“臟”數(shù)據變?yōu)椤案蓛簟睌?shù)據。 本書共分為8章:第1章主要介紹數(shù)據清洗的概念、任務和流程,數(shù)據標準化概念及數(shù)據倉庫技術等;第2章主要介紹Windows和類UNIX操作系統(tǒng)下的數(shù)據常規(guī)格式、數(shù)據編碼及數(shù)據類型轉換等;第3章介紹ETL概念、數(shù)據清洗的技術路線、ETL工具及ETL子系統(tǒng)等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據抽取、數(shù)據庫數(shù)據抽取及增量數(shù)據抽取等;第6章介紹數(shù)據清洗步驟、數(shù)據檢驗、數(shù)據錯誤處理、數(shù)據質量評估及數(shù)據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數(shù)據采集,利用JavaScript技術進行行為日志數(shù)據采集等;第8章介紹RDBMS的數(shù)據清洗方法和數(shù)據脫敏處理技術等。 本書系統(tǒng)地講解了數(shù)據清洗理論和實際應用,適用于高職高專院校和應用型本科的大數(shù)據課程教學,也適用于希望了解數(shù)據清洗的廣大讀者。

作者簡介

  李法平- 副教授/系統(tǒng)分析師,碩士,重慶電子工程職業(yè)學院軟件學院移動應用開發(fā)教研室主任,主要從事高職軟件類專業(yè)教學研究、教育信息化系統(tǒng)和企業(yè)信息化系統(tǒng)等應用技術研究。

圖書目錄

第1章 數(shù)據清洗概述 1
1.1 數(shù)據清洗簡介 1
1.1.1 數(shù)據科學過程 1
1.1.2 數(shù)據清洗定義 2
1.1.3 數(shù)據清洗任務 3
1.1.4 數(shù)據清洗流程 4
1.1.5 數(shù)據清洗環(huán)境 5
1.1.6 數(shù)據清洗實例說明 6
1.2 數(shù)據標準化 7
1.2.1 數(shù)據標準化概念 7
1.2.2 數(shù)據標準化常用方法 8
1.3 數(shù)據倉庫簡介 9
1.3.1 數(shù)據倉庫定義 9
1.3.2 數(shù)據倉庫組成要素 10
1.3.3 數(shù)據倉庫分類 11
1.3.4 數(shù)據倉庫相關技術 12
1.3.5 常用工具簡介 13
1.4 習題 14
第2章 數(shù)據格式與編碼 16
2.1 文件文本格式 16
2.1.1 常見文本格式 17
2.1.2 xls及xlsx文件格式 18
2.1.3 JSON文本格式 19
2.1.4 HTML和XML文本格式 19
2.2 數(shù)據編碼 20
2.2.1 數(shù)據類型 21
2.2.2 數(shù)據類型間轉換 25
2.2.3 字符編碼 26
2.2.4 空值和亂碼 28
2.3 數(shù)據轉換 28
2.3.1 電子表格轉換 29
2.3.2 RDBMS數(shù)據轉換 30
2.4 習題 30
第3章 基本技術方法 31
3.1 ETL入門 31
3.1.1 ETL解決方案 31
3.1.2 ETL基本構成 33
3.1.3 ETL技術選型 35
3.2 技術路線 35
3.2.1 文本清洗路線 35
3.2.2 RDBMS清洗路線 36
3.2.3 Web內容清洗路線 36
3.3 ETL工具 37
3.3.1 ETL功能 37
3.3.2 開源ETL工具 38
3.4 ETL子系統(tǒng) 39
3.4.1 抽取 39
3.4.2 清洗和更正數(shù)據 39
3.4.3 數(shù)據發(fā)布 40
3.4.4 管理ETL 41
3.5 習題 41
第4章 數(shù)據清洗常用工具及基本操作 42
4.1 Microsoft Excel數(shù)據清洗基本操作 42
4.1.1 Excel數(shù)據清洗概述 42
4.1.2 Excel數(shù)據清洗 53
4.2 Kettle簡介及基本操作 57
4.2.1 Kettle軟件概述 57
4.2.2 Kettle基本操作 60
4.2.3 Kettle數(shù)據清洗實例操作 64
4.3 OpenRefine簡介及基本操作 68
4.3.1 OpenRefine軟件概述 69
4.3.2 OpenRefine基本操作 70
4.3.3 OpenRefine數(shù)據清洗實例操作 73
4.4 DataWrangler簡介及基本操作 80
4.4.1 DataWrangler軟件概述 80
4.4.2 DataWrangler基本操作 81
4.4.3 DataWrangler數(shù)據清洗實例操作 82
4.5 Hawk簡介及基本操作 86
4.5.1 Hawk軟件概述 86
4.5.2 Hawk基本操作 88
4.5.3 Hawk數(shù)據清洗實例操作 91
4.6 上機練習與實訓 98
4.7 習題 103
第5章 數(shù)據抽取 104
5.1 文本文件抽取 104
5.1.1 制表符文本抽取 107
5.1.2 CSV文件抽取 111
5.2 Web數(shù)據抽取 114
5.2.1 HTML文件抽取 114
5.2.2 JSON數(shù)據抽取 116
5.2.3 XML數(shù)據抽取 120
5.3 數(shù)據庫數(shù)據抽取 123
5.3.1 數(shù)據導入導出 123
5.3.2 ETL工具抽取 124
5.3.3 SQL到NoSQL抽取 127
5.4 上機練習與實訓 135
5.5 習題 143
第6章 數(shù)據轉換與加載 144
6.1 數(shù)據清洗轉換 144
6.1.1 數(shù)據清洗 145
6.1.2 數(shù)據檢驗 151
6.1.3 錯誤處理 156
6.2 數(shù)據質量評估 161
6.2.1 數(shù)據評估指標 161
6.2.2 審計數(shù)據 163
6.3 數(shù)據加載 164
6.3.1 數(shù)據加載的概念 164
6.3.2 數(shù)據加載的方式 164
6.3.3 批量數(shù)據加載 165
6.3.4 數(shù)據加載異常處理 165
6.4 上機練習與實訓 166
6.5 習題 173
第7章 采集Web數(shù)據實例 175
7.1 網頁結構 175
7.1.1 DOM模型 175
7.1.2 正則表達式 178
7.2 網絡爬蟲 181
7.2.1 網絡爬蟲簡介 181
7.2.2 網絡爬蟲異常處理 189
7.3 行為日志采集 190
7.3.1 用戶實時行為數(shù)據采集 190
7.3.2 用戶實時行為數(shù)據分析 193
7.4 上機練習與實訓 195
7.5 習題 198
第8章 清洗RDBMS數(shù)據實例 199
8.1 準備工作 199
8.1.1 準備待清洗的數(shù)據集 200
8.1.2 搭建操作環(huán)境 200
8.1.3 數(shù)據導入MySQL 201
8.2 數(shù)據庫數(shù)據清洗 205
8.2.1 缺失值清洗 205
8.2.2 格式內容清洗 209
8.2.3 邏輯錯誤清洗 214
8.2.4 非需求數(shù)據清洗 217
8.3 數(shù)據脫敏處理 218
8.4 習題 222
參考文獻 223
附錄A 大數(shù)據和人工智能實驗環(huán)境 224
附錄B Hadoop環(huán)境要求 234
附錄C 名詞解釋 236

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號