數(shù)據清洗是大數(shù)據領域不可缺少的環(huán)節(jié),用來發(fā)現(xiàn)并糾正數(shù)據中可能存在的錯誤,針對數(shù)據審查過程中發(fā)現(xiàn)的錯誤值、缺失值、異常值、可疑數(shù)據,選用適當方法進行“清理”,使“臟”數(shù)據變?yōu)椤案蓛簟睌?shù)據。 本書共分為8章:第1章主要介紹數(shù)據清洗的概念、任務和流程,數(shù)據標準化概念及數(shù)據倉庫技術等;第2章主要介紹Windows和類UNIX操作系統(tǒng)下的數(shù)據常規(guī)格式、數(shù)據編碼及數(shù)據類型轉換等;第3章介紹ETL概念、數(shù)據清洗的技術路線、ETL工具及ETL子系統(tǒng)等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數(shù)據抽取、數(shù)據庫數(shù)據抽取及增量數(shù)據抽取等;第6章介紹數(shù)據清洗步驟、數(shù)據檢驗、數(shù)據錯誤處理、數(shù)據質量評估及數(shù)據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數(shù)據采集,利用JavaScript技術進行行為日志數(shù)據采集等;第8章介紹RDBMS的數(shù)據清洗方法和數(shù)據脫敏處理技術等。 本書系統(tǒng)地講解了數(shù)據清洗理論和實際應用,適用于高職高專院校和應用型本科的大數(shù)據課程教學,也適用于希望了解數(shù)據清洗的廣大讀者。