定 價(jià):¥68.00
作 者: | (荷蘭)馬克·范德魯,埃德溫·德榮格 |
出版社: | 清華大學(xué)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 暫缺 |
ISBN: | 9787302526629 | 出版時(shí)間: | 2019-06-01 | 包裝: | 平裝 |
開本: | 16 | 頁(yè)數(shù): | 284 | 字?jǐn)?shù): |
目 錄
第1章 數(shù)據(jù)清洗 1
1.1 統(tǒng)計(jì)價(jià)值鏈 1
1.1.1 原始數(shù)據(jù) 2
1.1.2 輸入數(shù)據(jù) 2
1.1.3 有效數(shù)據(jù) 3
1.1.4 統(tǒng)計(jì)數(shù)據(jù) 3
1.1.5 輸出 3
1.2 《R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用》使用的表示法和約定 3
第2章 R語(yǔ)言簡(jiǎn)介 5
2.1 命令行中的R語(yǔ)言 5
2.2 向量 7
2.2.1 向量計(jì)算 9
2.2.2 數(shù)組和矩陣 10
2.3 數(shù)據(jù)幀 11
2.3.1 公式-數(shù)據(jù)接口 12
2.3.2 選擇行和列,布爾運(yùn)算符 13
2.3.3 使用索引進(jìn)行選擇 13
2.3.4 數(shù)據(jù)幀操縱:dplyr軟件包 15
2.4 特殊值 16
2.5 在R中導(dǎo)入和導(dǎo)出數(shù)據(jù) 19
2.5.1 R中的文件路徑 20
2.5.2 軟件包提供的格式 20
2.5.3 從數(shù)據(jù)庫(kù)讀取數(shù)據(jù) 21
2.5.4 處理R外部的數(shù)據(jù) 21
2.6 函數(shù) 22
2.6.1 使用函數(shù) 22
2.6.2 編寫函數(shù) 23
2.7 《R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用》中使用的軟件包 24
第3章 數(shù)據(jù)的技術(shù)表示 27
3.1 數(shù)值數(shù)據(jù) 28
3.1.1 整數(shù) 28
3.1.2 R中的整數(shù) 30
3.1.3 實(shí)數(shù) 31
3.1.4 雙精度數(shù) 31
3.1.5 機(jī)器精度的概念 33
3.1.6 處理浮點(diǎn)數(shù)的不良結(jié)果 34
3.1.7 處理不良結(jié)果 35
3.1.8 R中的數(shù)值數(shù)據(jù) 37
3.2 文本數(shù)據(jù) 38
3.2.1 術(shù)語(yǔ)和編碼 38
3.2.2 Unicode 39
3.2.3 一些常見的編碼方案 40
3.2.4 R中的文本數(shù)據(jù):character類的對(duì)象 43
3.2.5 R中的編碼方案 45
3.2.6 使用非本地編碼方案進(jìn)行數(shù)據(jù)的讀取和寫入 46
3.2.7 檢測(cè)編碼方案 48
3.2.8 排序規(guī)則和排序 49
3.3 時(shí)間和日期 51
3.3.1 TAI、UTC以及POSIX從Epcoch開始的秒數(shù) 51
3.3.2 時(shí)間和日期表示法 52
3.3.3 R中的時(shí)間和日期存儲(chǔ) 54
3.3.4 R中的時(shí)間和日期轉(zhuǎn)換 55
3.3.5 閏日、時(shí)區(qū)和夏令時(shí) 57
3.4 區(qū)域設(shè)置注意事項(xiàng) 58
第4章 數(shù)據(jù)結(jié)構(gòu) 61
4.1 簡(jiǎn)介 61
4.2 表格數(shù)據(jù) 61
4.2.1 data.frame對(duì)象 62
4.2.2 數(shù)據(jù)庫(kù) 62
4.2.3 dplyr 64
4.3 矩陣數(shù)據(jù) 65
4.4 時(shí)間序列 66
4.5 圖表數(shù)據(jù) 68
4.6 Web數(shù)據(jù) 70
4.6.1 網(wǎng)頁(yè)爬取 70
4.6.2 Web API 70
4.7 其他數(shù)據(jù) 73
4.8 整理表格數(shù)據(jù) 73
4.8.1 每列變量 75
4.8.2 單個(gè)觀測(cè)值存儲(chǔ)在多個(gè)表中 75
第5章 清洗文本數(shù)據(jù) 77
5.1 字符規(guī)范化 78
5.1.1 編碼轉(zhuǎn)換和Unicode規(guī)范化 78
5.1.2 字符轉(zhuǎn)換和音譯 80
5.2 使用正則表達(dá)式進(jìn)行模式匹配 82
5.2.1 基本正則表達(dá)式 82
5.2.2 實(shí)用的正則表達(dá)式 85
5.2.3 在R中生成正則表達(dá)式 93
5.3 R中的常見字符串處理任務(wù) 94
5.4 近似文本匹配 99
5.4.1 字符串指標(biāo) 101
5.4.2 R中的字符串指標(biāo)和近似文本匹配 110
第6章 數(shù)據(jù)驗(yàn)證 121
6.1 簡(jiǎn)介 121
6.2 初識(shí)validate軟件包 122
6.2.1 使用check_that快速檢查 122
6.2.2 基本工作流程:validator和confront 124
6.2.3 validate和DSL背景簡(jiǎn)介 126
6.3 定義數(shù)據(jù)驗(yàn)證 127
6.3.1 數(shù)據(jù)驗(yàn)證的正式定義 128
6.3.2 驗(yàn)證函數(shù)的運(yùn)算 130
6.3.3 驗(yàn)證和缺失值 132
6.3.4 驗(yàn)證函數(shù)的結(jié)構(gòu) 133
6.3.5 界定validate中的驗(yàn)證規(guī)則 134
6.4 數(shù)據(jù)驗(yàn)證函數(shù)的形式類型 135
6.4.1 深入了解測(cè)量 135
6.4.2 驗(yàn)證規(guī)則的分類 137
6.5 使用validate軟件包驗(yàn)證數(shù)據(jù) 139
6.5.1 控制臺(tái)和validator對(duì)象中的驗(yàn)證規(guī)則 139
6.5.2 在管道中驗(yàn)證 141
6.5.3 拋出錯(cuò)誤或警告 141
6.5.4 測(cè)試線性方程式的公差 142
6.5.5 設(shè)置和重置選項(xiàng) 143
6.5.6 從文件導(dǎo)入驗(yàn)證規(guī)則/將驗(yàn)證規(guī)則導(dǎo)出到文件 144
6.5.7 檢查變量類型和元數(shù)據(jù) 146
6.5.8 檢查值范圍和代碼列表 147
6.5.9 檢查記錄中一致性規(guī)則 148
6.5.10 檢查跨記錄驗(yàn)證規(guī)則 150
6.5.11 檢查函數(shù)依賴 151
6.5.12 跨數(shù)據(jù)集驗(yàn)證 152
6.5.13 宏、變量組、鍵 153
6.5.14 分析輸出:validation對(duì)象 154
6.5.15 輸出維度和輸出選擇 156
第7章 在數(shù)據(jù)記錄中定位錯(cuò)誤 159
7.1 錯(cuò)誤定位 159
7.2 使用R進(jìn)行錯(cuò)誤定位 162
7.3 以MIP問題的形式進(jìn)行錯(cuò)誤定位 164
7.3.1 錯(cuò)誤定位和混合整數(shù)規(guī)劃 165
7.3.2 線性限制 166
7.3.3 分類限制 167
7.3.4 混合類型限制 169
7.4 數(shù)值穩(wěn)定性問題 171
7.4.1 解決MIP問題 172
7.4.2 縮放數(shù)值記錄 174
7.4.3 設(shè)置數(shù)值閾值 174
7.5 實(shí)際問題 176
7.5.1 設(shè)置可靠性權(quán)重 176
7.5.2 簡(jiǎn)化條件驗(yàn)證規(guī)則 177
7.6 結(jié)論 181
第8章 規(guī)則集的維護(hù)和簡(jiǎn)化 185
8.1 驗(yàn)證規(guī)則的質(zhì)量 185
8.1.1 完備性 185
8.1.2 多余的規(guī)則和不可行性 186
8.2 以邏輯語(yǔ)言表述規(guī)則 186
8.3 規(guī)則集問題 188
8.3.1 不可行規(guī)則集 188
8.3.2 固定值 190
8.3.3 冗余規(guī)則 191
8.3.4 非松弛子句 191
8.3.5 非約束子句 191
8.4 檢測(cè)和簡(jiǎn)化過(guò)程 192
8.4.1 混合整數(shù)規(guī)劃 193
8.4.2 檢測(cè)可行性 193
8.4.3 查找導(dǎo)致不可行的規(guī)則 193
8.4.4 檢測(cè)沖突規(guī)則 194
8.4.5 檢測(cè)部分不可行性 194
8.4.6 檢測(cè)固定值 194
8.4.7 檢測(cè)非松弛子句 195
8.4.8 檢測(cè)非約束子句 195
8.4.9 檢測(cè)冗余規(guī)則 195
8.5 結(jié)論 196
第9章 基于領(lǐng)域知識(shí)模型的方法 197
9.1 使用數(shù)據(jù)修改規(guī)則進(jìn)行校正 197
9.1.1 修改函數(shù) 198
9.1.2 針對(duì)數(shù)值數(shù)據(jù)的一類修改函數(shù) 202
9.2 使用dcmodify進(jìn)行基于規(guī)則的校正 206
9.2.1 從文件中讀取規(guī)則 207
9.2.2 修改規(guī)則語(yǔ)法 208
9.2.3 缺失值 209
9.2.4 順序執(zhí)行和與順序無(wú)關(guān)的執(zhí)行 209
9.2.5 選項(xiàng)設(shè)置管理 210
9.3 演繹校正 210
9.3.1 校正數(shù)值數(shù)據(jù)中的鍵入錯(cuò)誤 211
9.3.2 使用線性限制進(jìn)行演繹插補(bǔ) 214
第10章 插補(bǔ)和調(diào)整 221
10.1 缺失數(shù)據(jù) 221
10.1.1 缺失數(shù)據(jù)機(jī)制 221
10.1.2 使用R可視化和測(cè)試缺失數(shù)據(jù)中的模式 222
10.2 基于模型的插補(bǔ) 226
10.3 R中基于模型的插補(bǔ) 228
10.3.1 使用simputation指定插補(bǔ)方法 228
10.3.2 基于線性回歸的插補(bǔ) 229
10.3.3 M估計(jì) 231
10.3.4 Lasso回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸 233
10.3.5 分類和回歸樹 233
10.3.6 隨機(jī)森林 236
10.4 使用R進(jìn)行賦值元素插補(bǔ) 237
10.4.1 隨機(jī)和順序熱卡插補(bǔ) 238
10.4.2 k最近鄰和預(yù)測(cè)均值匹配 239
10.5 simputation軟件包中的其他方法 240
10.6 基于EM算法的插補(bǔ) 241
10.6.1 EM算法 242
10.6.2 假定多變量正態(tài)分布情況下的EM插補(bǔ) 244
10.7 插補(bǔ)下的抽樣方差 245
10.8 多重插補(bǔ) 246
10.8.1 基于EM算法的多重插補(bǔ) 249
10.8.2 Amelia軟件包 249
10.8.3 基于鏈?zhǔn)椒匠痰亩嘧兞坎逖a(bǔ) 253
10.8.4 使用mice軟件包進(jìn)行插補(bǔ) 254
10.9 用于估計(jì)插補(bǔ)方差的分析方法 257
10.10 選擇插補(bǔ)方法 257
10.11 約束值調(diào)整 260
10.11.1 形式化描述 260
10.11.2 對(duì)插補(bǔ)數(shù)據(jù)的應(yīng)用 263
10.11.3 使用rspa軟件包調(diào)整插補(bǔ)值 263
第11章 示例:一個(gè)小型數(shù)據(jù)清洗系統(tǒng) 265
11.1 設(shè)置 266
11.1.1 確定性方法 267
11.1.2 錯(cuò)誤定位 268
11.1.3 插補(bǔ) 269
11.1.4 調(diào)整插補(bǔ)數(shù)據(jù) 271
11.2 監(jiān)控?cái)?shù)據(jù)更改 273
11.2.1 數(shù)據(jù)差異(Daff) 273
11.2.2 匯總單元格更改 275
11.2.3 按照驗(yàn)證規(guī)則匯總更改 276
11.2.4 使用lumberjack自動(dòng)跟蹤數(shù)據(jù)更改 278
11.3 集成和自動(dòng)化 282
11.3.1 使用RScript 282
11.3.2 docopt軟件包 283
11.3.3 自動(dòng)化數(shù)據(jù)清洗 283