注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)清洗

數(shù)據(jù)清洗

數(shù)據(jù)清洗

定 價:¥49.90

作 者: 黃源,涂旭東,羅少甫 著
出版社: 機械工業(yè)出版社
叢編項: 高等職業(yè)教育系列教材
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111657156 出版時間: 2020-07-01 包裝: 平裝
開本: 16開 頁數(shù): 236 字數(shù):  

內(nèi)容簡介

  《數(shù)據(jù)清洗》主要介紹數(shù)據(jù)清洗技術的基本概念與應用。全書共有8章,分別講述了數(shù)據(jù)清洗基礎、數(shù)據(jù)清洗方法、文件類型、數(shù)據(jù)采集與抽取、Excel數(shù)據(jù)清洗與轉(zhuǎn)換、ETL數(shù)據(jù)清洗與轉(zhuǎn)換、Python數(shù)據(jù)清洗、R語言數(shù)據(jù)清洗?!稊?shù)據(jù)清洗》將理論與實踐操作相結合,通過大量的案例幫助讀者快速了解和應用大數(shù)據(jù)清洗的相關技術。針對書中重要的、核心的知識點,提供了較多的練習,幫助讀者達到熟練應用的目的?!稊?shù)據(jù)清洗》可作為高職高專院校大數(shù)據(jù)技術與應用、軟件技術、信息管理、計算機網(wǎng)絡等專業(yè)的專業(yè)課教材,也可作為大數(shù)據(jù)愛好者的參考書。

作者簡介

  黃源,重慶航天職業(yè)技術學院副教授,參加工作以來,一直從事計算機課程的教學與科研,公開發(fā)表科研,教改論文多篇,并于2013年獲得副教授職稱。積極參加學校的精品課程建設與微課改革,出版專著3部,以前參編的北大出版社《網(wǎng)頁設計教程與實訓》曾獲教材一等獎。

圖書目錄

目 錄

前言
第1章 數(shù)據(jù)清洗基礎
11 數(shù)據(jù)清洗概述
111 數(shù)據(jù)清洗的定義
112 數(shù)據(jù)清洗的對象
113 數(shù)據(jù)清洗的原理
114 數(shù)據(jù)清洗的評估
115 數(shù)據(jù)清洗的框架模型
116 數(shù)據(jù)清洗研究與應用展望
117 數(shù)據(jù)清洗的行業(yè)發(fā)展
12 數(shù)據(jù)標準化
121 數(shù)據(jù)標準化簡介
122 數(shù)據(jù)標準化方法
123 數(shù)據(jù)標準化的實例
13 數(shù)據(jù)清洗的常用工具
14 實訓1 安裝和運行Kettle
15 實訓2 安裝和運行OpenRefine
16 實訓3 安裝和運行Python 3
17 小結
習題1
第2章 數(shù)據(jù)清洗方法
21 數(shù)據(jù)質(zhì)量
211 數(shù)據(jù)質(zhì)量的定義
212 數(shù)據(jù)質(zhì)量中的常見術語
22 數(shù)據(jù)預處理
221 數(shù)據(jù)預處理簡介
222 數(shù)據(jù)預處理方法
23 數(shù)據(jù)清洗方法
231 數(shù)據(jù)缺失值的處理方法
232 噪聲數(shù)據(jù)的處理方法
233 冗余數(shù)據(jù)的處理方法
234 數(shù)據(jù)格式與內(nèi)容的處理方法
24 數(shù)據(jù)清洗中的統(tǒng)計學基礎
25 實訓1 找出離群點
26 實訓2 找出統(tǒng)計對象
27 實訓3 找出數(shù)據(jù)清洗的步驟
28 實訓4 找出異常數(shù)據(jù)
29 小結
習題2
第3章 文件類型
31 文件格式
311 文件格式概述
312 Windows中常見的文件格式
32 數(shù)據(jù)類型與字符編碼
321 數(shù)據(jù)類型概述
322 字符編碼
323 用Python讀取文件
324 數(shù)據(jù)轉(zhuǎn)換
33 數(shù)據(jù)轉(zhuǎn)換的實現(xiàn)
331 用Python生成與讀取CSV文件
332 用Python讀取與轉(zhuǎn)換JSON文件
34 實訓1 將XML文件轉(zhuǎn)換為JSON文件
35 實訓2 將JSON文件轉(zhuǎn)換為CSV文件
36 小結
習題3
第4章 數(shù)據(jù)采集與抽取
41 數(shù)據(jù)采集概述
411 了解數(shù)據(jù)采集
412 日志數(shù)據(jù)采集與處理的常見方法
413 數(shù)據(jù)采集平臺
414 數(shù)據(jù)采集工具
42 網(wǎng)頁數(shù)據(jù)采集與實現(xiàn)
421 網(wǎng)絡爬蟲概述
422 網(wǎng)頁數(shù)據(jù)采集的實現(xiàn)
43 數(shù)據(jù)抽取
431 數(shù)據(jù)抽取概述
432 文本數(shù)據(jù)抽取
433 網(wǎng)頁數(shù)據(jù)抽取
44 實訓1 使用Kettle抽取本地XML文件
45 實訓2 使用Kettle抽取CSV數(shù)據(jù)并輸出為文本文件
46 小結
習題4
第5章 Excel數(shù)據(jù)清洗與轉(zhuǎn)換
51 Excel數(shù)據(jù)清洗概述
511 Excel簡介
512 Excel數(shù)據(jù)清洗與轉(zhuǎn)換方法
52 Excel數(shù)據(jù)清洗與轉(zhuǎn)換的實現(xiàn)
521 常用數(shù)據(jù)分析函數(shù)介紹
522 刪除重復行
523 文本查找和替換
524 數(shù)據(jù)替換
525 字符串截取
526 字母大小寫轉(zhuǎn)換
527 刪除空格和非打印字符
528 數(shù)字和數(shù)字符號的轉(zhuǎn)換
529 日期和時間處理
5210 合并和拆分列
5211 數(shù)據(jù)的轉(zhuǎn)置
5212 數(shù)據(jù)查詢和引用
53 實訓1 清洗簡單數(shù)據(jù)
54 實訓2 清洗復雜數(shù)據(jù)
55 小結
習題5
第6章 ETL數(shù)據(jù)清洗與轉(zhuǎn)換
61 數(shù)據(jù)倉庫與ETL
611 數(shù)據(jù)倉庫
612 ETL概述
62 Kettle數(shù)據(jù)清洗與轉(zhuǎn)換基礎
621 Kettle數(shù)據(jù)清洗
622 Kettle數(shù)據(jù)轉(zhuǎn)換
63 Kettle數(shù)據(jù)倉庫高級應用
64 實訓1 在Kettle中識別流的最后一行并寫入日志
65 實訓2 在Kettle中用正則表達式清洗數(shù)據(jù)
66 實訓3 使用Kettle過濾數(shù)據(jù)表
67 實訓4 使用Kettle生成隨機數(shù)并相加
68 小結
習題6
第7章 Python數(shù)據(jù)清洗
71 Python數(shù)據(jù)清洗基礎
711 Python語言基礎
712 Python數(shù)據(jù)清洗所用庫
72 數(shù)據(jù)讀寫、選擇、整理和描述
721 從CSV文件讀取數(shù)據(jù)
722 寫入數(shù)據(jù)到CSV文件
723 數(shù)據(jù)整理和描述
73 數(shù)據(jù)分組、分割、合并和變形
731 數(shù)據(jù)分組
732 數(shù)據(jù)分割
733 數(shù)據(jù)合并
734 數(shù)據(jù)變形
74 缺失值、異常值和重復值處理
741 缺失值處理
742 異常值檢測和過濾
743 移除重復數(shù)據(jù)
75 時間序列處理
751 Python的日期與時間工具
752 Pandas時間序列數(shù)據(jù)結構
76 字符串處理
761 Python字符串方法列表
762 Python正則表達式
763 Pandas的字符串方法
77 實訓1 清洗企業(yè)員工信息
78 實訓2 清洗在校生飲酒消費數(shù)據(jù)
79 小結
習題7
第8章 R語言數(shù)據(jù)清洗
81 R語言簡介
82 R語言基礎
821 R語言運算符號
822 R語言數(shù)據(jù)類型
83 R語言datatable數(shù)據(jù)包
831 datatable數(shù)據(jù)包介紹
832 創(chuàng)建datatable對象

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號