注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)設(shè)計(jì)/管理R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用

R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用

R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用

定 價(jià):¥68.00

作 者: (荷蘭)馬克·范德魯,埃德溫·德榮格
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書可以去


ISBN: 9787302526629 出版時(shí)間: 2019-06-01 包裝: 平裝
開本: 16 頁(yè)數(shù): 284 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  ■重點(diǎn)關(guān)注數(shù)據(jù)清洗方法的自動(dòng)化,既包括理論知識(shí),也包括使用R語(yǔ)言編寫的應(yīng)用。 ■使讀者能夠設(shè)計(jì)數(shù)據(jù)清洗過(guò)程,用于進(jìn)行一次性分析或者設(shè)置生產(chǎn)系統(tǒng)以便定期進(jìn)行數(shù)據(jù)清洗。 ■探索各種統(tǒng)計(jì)技術(shù),以便解決諸如不完整、矛盾和離群等方面的問題,更好地進(jìn)行數(shù)據(jù)清洗組件的集成和質(zhì)量監(jiān)控。 ■圖書配套網(wǎng)站提供特征數(shù)據(jù)和R范例代碼。

作者簡(jiǎn)介

暫缺《R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用》作者簡(jiǎn)介

圖書目錄

目    錄

 

第1章  數(shù)據(jù)清洗   1

1.1  統(tǒng)計(jì)價(jià)值鏈   1

1.1.1  原始數(shù)據(jù)   2

1.1.2  輸入數(shù)據(jù)   2

1.1.3  有效數(shù)據(jù)   3

1.1.4  統(tǒng)計(jì)數(shù)據(jù)   3

1.1.5  輸出   3

1.2  《R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用》使用的表示法和約定   3

第2章  R語(yǔ)言簡(jiǎn)介   5

2.1  命令行中的R語(yǔ)言   5

2.2  向量   7

2.2.1  向量計(jì)算   9

2.2.2  數(shù)組和矩陣   10

2.3  數(shù)據(jù)幀   11

2.3.1  公式-數(shù)據(jù)接口   12

2.3.2  選擇行和列,布爾運(yùn)算符   13

2.3.3  使用索引進(jìn)行選擇   13

2.3.4  數(shù)據(jù)幀操縱:dplyr軟件包   15

2.4  特殊值   16

2.5  在R中導(dǎo)入和導(dǎo)出數(shù)據(jù)   19

2.5.1  R中的文件路徑   20

2.5.2  軟件包提供的格式   20

2.5.3  從數(shù)據(jù)庫(kù)讀取數(shù)據(jù)   21

2.5.4  處理R外部的數(shù)據(jù)   21

2.6  函數(shù)   22

2.6.1  使用函數(shù)   22

2.6.2  編寫函數(shù)   23

2.7  《R統(tǒng)計(jì)數(shù)據(jù)清洗及應(yīng)用》中使用的軟件包   24

第3章  數(shù)據(jù)的技術(shù)表示   27

3.1  數(shù)值數(shù)據(jù)   28

3.1.1  整數(shù)   28

3.1.2  R中的整數(shù)   30

3.1.3  實(shí)數(shù)   31

3.1.4  雙精度數(shù)   31

3.1.5  機(jī)器精度的概念   33

3.1.6  處理浮點(diǎn)數(shù)的不良結(jié)果   34

3.1.7  處理不良結(jié)果   35

3.1.8  R中的數(shù)值數(shù)據(jù)   37

3.2  文本數(shù)據(jù)   38

3.2.1  術(shù)語(yǔ)和編碼   38

3.2.2  Unicode   39

3.2.3  一些常見的編碼方案   40

3.2.4  R中的文本數(shù)據(jù):character類的對(duì)象   43

3.2.5  R中的編碼方案   45

3.2.6  使用非本地編碼方案進(jìn)行數(shù)據(jù)的讀取和寫入   46

3.2.7  檢測(cè)編碼方案   48

3.2.8  排序規(guī)則和排序   49

3.3  時(shí)間和日期   51

3.3.1  TAI、UTC以及POSIX從Epcoch開始的秒數(shù)   51

3.3.2  時(shí)間和日期表示法   52

3.3.3  R中的時(shí)間和日期存儲(chǔ)   54

3.3.4  R中的時(shí)間和日期轉(zhuǎn)換   55

3.3.5  閏日、時(shí)區(qū)和夏令時(shí)   57

3.4  區(qū)域設(shè)置注意事項(xiàng)   58

第4章  數(shù)據(jù)結(jié)構(gòu)   61

4.1  簡(jiǎn)介   61

4.2  表格數(shù)據(jù)   61

4.2.1  data.frame對(duì)象   62

4.2.2  數(shù)據(jù)庫(kù)   62

4.2.3  dplyr   64

4.3  矩陣數(shù)據(jù)   65

4.4  時(shí)間序列   66

4.5  圖表數(shù)據(jù)   68

4.6  Web數(shù)據(jù)   70

4.6.1  網(wǎng)頁(yè)爬取   70

4.6.2  Web API   70

4.7  其他數(shù)據(jù)   73

4.8  整理表格數(shù)據(jù)   73

4.8.1  每列變量   75

4.8.2  單個(gè)觀測(cè)值存儲(chǔ)在多個(gè)表中   75

第5章  清洗文本數(shù)據(jù)   77

5.1  字符規(guī)范化   78

5.1.1  編碼轉(zhuǎn)換和Unicode規(guī)范化   78

5.1.2  字符轉(zhuǎn)換和音譯   80

5.2  使用正則表達(dá)式進(jìn)行模式匹配   82

5.2.1  基本正則表達(dá)式   82

5.2.2  實(shí)用的正則表達(dá)式   85

5.2.3  在R中生成正則表達(dá)式   93

5.3  R中的常見字符串處理任務(wù)   94

5.4  近似文本匹配   99

5.4.1  字符串指標(biāo)   101

5.4.2  R中的字符串指標(biāo)和近似文本匹配   110

第6章  數(shù)據(jù)驗(yàn)證   121

6.1  簡(jiǎn)介   121

6.2  初識(shí)validate軟件包   122

6.2.1  使用check_that快速檢查   122

6.2.2  基本工作流程:validator和confront   124

6.2.3  validate和DSL背景簡(jiǎn)介   126

6.3  定義數(shù)據(jù)驗(yàn)證   127

6.3.1  數(shù)據(jù)驗(yàn)證的正式定義   128

6.3.2  驗(yàn)證函數(shù)的運(yùn)算   130

6.3.3  驗(yàn)證和缺失值   132

6.3.4  驗(yàn)證函數(shù)的結(jié)構(gòu)   133

6.3.5  界定validate中的驗(yàn)證規(guī)則   134

6.4  數(shù)據(jù)驗(yàn)證函數(shù)的形式類型   135

6.4.1  深入了解測(cè)量   135

6.4.2  驗(yàn)證規(guī)則的分類   137

6.5  使用validate軟件包驗(yàn)證數(shù)據(jù)   139

6.5.1  控制臺(tái)和validator對(duì)象中的驗(yàn)證規(guī)則   139

6.5.2  在管道中驗(yàn)證   141

6.5.3  拋出錯(cuò)誤或警告   141

6.5.4  測(cè)試線性方程式的公差   142

6.5.5  設(shè)置和重置選項(xiàng)   143

6.5.6  從文件導(dǎo)入驗(yàn)證規(guī)則/將驗(yàn)證規(guī)則導(dǎo)出到文件   144

6.5.7  檢查變量類型和元數(shù)據(jù)   146

6.5.8  檢查值范圍和代碼列表   147

6.5.9  檢查記錄中一致性規(guī)則   148

6.5.10  檢查跨記錄驗(yàn)證規(guī)則   150

6.5.11  檢查函數(shù)依賴   151

6.5.12  跨數(shù)據(jù)集驗(yàn)證   152

6.5.13  宏、變量組、鍵   153

6.5.14  分析輸出:validation對(duì)象   154

6.5.15  輸出維度和輸出選擇   156

第7章  在數(shù)據(jù)記錄中定位錯(cuò)誤   159

7.1  錯(cuò)誤定位   159

7.2  使用R進(jìn)行錯(cuò)誤定位   162

7.3  以MIP問題的形式進(jìn)行錯(cuò)誤定位   164

7.3.1  錯(cuò)誤定位和混合整數(shù)規(guī)劃   165

7.3.2  線性限制   166

7.3.3  分類限制   167

7.3.4  混合類型限制   169

7.4  數(shù)值穩(wěn)定性問題   171

7.4.1  解決MIP問題   172

7.4.2  縮放數(shù)值記錄   174

7.4.3  設(shè)置數(shù)值閾值   174

7.5  實(shí)際問題   176

7.5.1  設(shè)置可靠性權(quán)重   176

7.5.2  簡(jiǎn)化條件驗(yàn)證規(guī)則   177

7.6  結(jié)論   181

第8章  規(guī)則集的維護(hù)和簡(jiǎn)化   185

8.1  驗(yàn)證規(guī)則的質(zhì)量   185

8.1.1  完備性   185

8.1.2  多余的規(guī)則和不可行性   186

8.2  以邏輯語(yǔ)言表述規(guī)則   186

8.3  規(guī)則集問題   188

8.3.1  不可行規(guī)則集   188

8.3.2  固定值   190

8.3.3  冗余規(guī)則   191

8.3.4  非松弛子句   191

8.3.5  非約束子句   191

8.4  檢測(cè)和簡(jiǎn)化過(guò)程   192

8.4.1  混合整數(shù)規(guī)劃   193

8.4.2  檢測(cè)可行性   193

8.4.3  查找導(dǎo)致不可行的規(guī)則   193

8.4.4  檢測(cè)沖突規(guī)則   194

8.4.5  檢測(cè)部分不可行性   194

8.4.6  檢測(cè)固定值   194

8.4.7  檢測(cè)非松弛子句   195

8.4.8  檢測(cè)非約束子句   195

8.4.9  檢測(cè)冗余規(guī)則   195

8.5  結(jié)論   196

第9章  基于領(lǐng)域知識(shí)模型的方法   197

9.1  使用數(shù)據(jù)修改規(guī)則進(jìn)行校正   197

9.1.1  修改函數(shù)   198

9.1.2  針對(duì)數(shù)值數(shù)據(jù)的一類修改函數(shù)   202

9.2  使用dcmodify進(jìn)行基于規(guī)則的校正   206

9.2.1  從文件中讀取規(guī)則   207

9.2.2  修改規(guī)則語(yǔ)法   208

9.2.3  缺失值   209

9.2.4  順序執(zhí)行和與順序無(wú)關(guān)的執(zhí)行   209

9.2.5  選項(xiàng)設(shè)置管理   210

9.3  演繹校正   210

9.3.1  校正數(shù)值數(shù)據(jù)中的鍵入錯(cuò)誤   211

9.3.2  使用線性限制進(jìn)行演繹插補(bǔ)   214

第10章  插補(bǔ)和調(diào)整   221

10.1  缺失數(shù)據(jù)   221

10.1.1  缺失數(shù)據(jù)機(jī)制   221

10.1.2  使用R可視化和測(cè)試缺失數(shù)據(jù)中的模式   222

10.2  基于模型的插補(bǔ)   226

10.3  R中基于模型的插補(bǔ)   228

10.3.1  使用simputation指定插補(bǔ)方法   228

10.3.2  基于線性回歸的插補(bǔ)   229

10.3.3  M估計(jì)   231

10.3.4  Lasso回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸   233

10.3.5  分類和回歸樹   233

10.3.6  隨機(jī)森林   236

10.4  使用R進(jìn)行賦值元素插補(bǔ)   237

10.4.1  隨機(jī)和順序熱卡插補(bǔ)   238

10.4.2  k最近鄰和預(yù)測(cè)均值匹配   239

10.5  simputation軟件包中的其他方法   240

10.6  基于EM算法的插補(bǔ)   241

10.6.1  EM算法   242

10.6.2  假定多變量正態(tài)分布情況下的EM插補(bǔ)   244

10.7  插補(bǔ)下的抽樣方差   245

10.8  多重插補(bǔ)   246

10.8.1  基于EM算法的多重插補(bǔ)   249

10.8.2  Amelia軟件包   249

10.8.3  基于鏈?zhǔn)椒匠痰亩嘧兞坎逖a(bǔ)   253

10.8.4  使用mice軟件包進(jìn)行插補(bǔ)   254

10.9  用于估計(jì)插補(bǔ)方差的分析方法   257

10.10  選擇插補(bǔ)方法   257

10.11  約束值調(diào)整   260

10.11.1  形式化描述   260

10.11.2  對(duì)插補(bǔ)數(shù)據(jù)的應(yīng)用   263

10.11.3  使用rspa軟件包調(diào)整插補(bǔ)值   263

第11章  示例:一個(gè)小型數(shù)據(jù)清洗系統(tǒng)   265

11.1  設(shè)置   266

11.1.1  確定性方法   267

11.1.2  錯(cuò)誤定位   268

11.1.3  插補(bǔ)   269

11.1.4  調(diào)整插補(bǔ)數(shù)據(jù)   271

11.2  監(jiān)控?cái)?shù)據(jù)更改   273

11.2.1  數(shù)據(jù)差異(Daff)   273

11.2.2  匯總單元格更改   275

11.2.3  按照驗(yàn)證規(guī)則匯總更改   276

11.2.4  使用lumberjack自動(dòng)跟蹤數(shù)據(jù)更改   278

11.3  集成和自動(dòng)化   282

11.3.1  使用RScript   282

11.3.2  docopt軟件包   283

11.3.3  自動(dòng)化數(shù)據(jù)清洗   283


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)