定 價(jià):¥49.80
作 者: | 黑馬程序員 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | 大數(shù)據(jù)技術(shù)與應(yīng)用叢書(shū) |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302550877 | 出版時(shí)間: | 2020-04-01 | 包裝: | 平裝 |
開(kāi)本: | 16開(kāi) | 頁(yè)數(shù): | 394 | 字?jǐn)?shù): |
第1章 數(shù)據(jù)清洗概述
1.1 數(shù)據(jù)清洗的背景
1.1.1 數(shù)據(jù)質(zhì)量概述
1.1.2 數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)
1.1.3 數(shù)據(jù)質(zhì)量的問(wèn)題分類
1.2 數(shù)據(jù)清洗的定義
1.3 數(shù)據(jù)清洗的原理
1.4 數(shù)據(jù)清洗的基本流程
1.5 數(shù)據(jù)清洗的策略
1.6 常見(jiàn)的數(shù)據(jù)清洗方法
1.7 本章小結(jié)
1.8 本章習(xí)題
第2章 初識(shí)ETL
2.1 基于ETL的數(shù)據(jù)清洗
2.1.1 ETL的概念
2.1.2 ETL的體系結(jié)構(gòu)
2.2 ETL關(guān)鍵技術(shù)
2.2.1 數(shù)據(jù)的抽取
2.2.2 數(shù)據(jù)的清洗轉(zhuǎn)換
2.2.3 數(shù)據(jù)的加載
2.3 ETL常見(jiàn)工具介紹
2.4 本章小結(jié)
2.5 本章習(xí)題
第3章 Kettle工具的基本使用
3.1 Kettle簡(jiǎn)介
3.1.1 Kettle概述
3.1.2 Kettle的設(shè)計(jì)原則203.2 Kettle的下載安裝
3.3 Kettle的基本概念
3.3.1 轉(zhuǎn)換
3.3.2 作業(yè)
3.4 Kettle的基本功能
3.4.1 轉(zhuǎn)換管理
3.4.2 作業(yè)管理
3.4.3 數(shù)據(jù)庫(kù)連接
3.5 本章小結(jié)
3.6 本章習(xí)題
第4章 數(shù)據(jù)抽取
4.1 抽取文本數(shù)據(jù)
4.1.1 TSV文件的抽取
4.1.2 CSV文件的抽取
4.2 抽取Web數(shù)據(jù)
4.2.1 HTML網(wǎng)頁(yè)的數(shù)據(jù)抽取
4.2.2 XML文件的數(shù)據(jù)抽取
4.2.3 JSON文件的數(shù)據(jù)抽取
4.3 抽取數(shù)據(jù)庫(kù)數(shù)據(jù)
4.3.1 抽取關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)
4.3.2 抽取非關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)
4.4 本章小結(jié)
4.5 本章習(xí)題
第5章 數(shù)據(jù)的清洗與檢驗(yàn)
5.1 數(shù)據(jù)去重
5.1.1 完全去重
5.1.2 不完全去重
5.2 缺失值處理
5.2.1 缺失值清洗策略
5.2.2 去除缺失值
5.2.3 填充缺失值
5.3 異常值
5.3.1 出現(xiàn)異常值的原因
5.3.2 檢測(cè)異常值
5.3.3 刪除包含異常值的記錄
……
第6章 數(shù)據(jù)轉(zhuǎn)換
第7章 數(shù)據(jù)加載
第8章 綜合案例——構(gòu)建DVD租賃商店數(shù)據(jù)倉(cāng)庫(kù)