注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動(dòng)化技術(shù)、計(jì)算技術(shù)數(shù)據(jù)整理實(shí)踐指南

數(shù)據(jù)整理實(shí)踐指南

數(shù)據(jù)整理實(shí)踐指南

定 價(jià):¥49.00

作 者: [美] 麥卡倫(Q. Ethan McCallum) 著;魏秀麗,李妹芳 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù)

購(gòu)買這本書可以去


ISBN: 9787115411020 出版時(shí)間: 2016-03-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 209 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  隨著數(shù)據(jù)科學(xué)的熱門,數(shù)據(jù)的優(yōu)化、整理以及如何處理不良數(shù)據(jù)成為人們關(guān)注的重點(diǎn)。本書通過(guò)處理不良數(shù)據(jù),進(jìn)行數(shù)據(jù)清理的案例,向讀者展示了處理數(shù)據(jù)的方法。本書共有19章,從6部分向讀者展示了使用和清理不良數(shù)據(jù)背后的理論和實(shí)踐。第1部分是Grubby的動(dòng)手實(shí)踐指南,它向讀者介紹了駕馭、提取數(shù)據(jù)的方法,如何處理文本數(shù)據(jù)中的數(shù)據(jù)以及Web開發(fā)中碰到的數(shù)據(jù)問題。第2部分是讓人充滿意外的數(shù)據(jù),它向讀者介紹了數(shù)據(jù)也會(huì)“撒謊”。第3部分是方法,它向讀者介紹了處理不良數(shù)據(jù)的一些方法。第4部分是數(shù)據(jù)存儲(chǔ)和基礎(chǔ)設(shè)施,它向讀者介紹了如何存儲(chǔ)數(shù)據(jù)。第5部分是數(shù)據(jù)的商業(yè)化,它向讀者介紹了如何避免數(shù)據(jù)處理的一些誤差。第6部分是數(shù)據(jù)策略,它向讀者介紹了如何追蹤數(shù)據(jù)、評(píng)估數(shù)據(jù)質(zhì)量以及構(gòu)建數(shù)據(jù)質(zhì)量相關(guān)平臺(tái)等。本書適合數(shù)據(jù)科學(xué)家、數(shù)據(jù)處理和整理相關(guān)開發(fā)人員閱讀。也適合想要進(jìn)入數(shù)據(jù)處理領(lǐng)域的讀者閱讀。

作者簡(jiǎn)介

  Q.Ethan McCallum,是一位顧問、作家,也是一名科技愛好者。他幫助很多公司在數(shù)據(jù)和技術(shù)方面做出明智的決策,他為The O’Relly Network 和Java.net撰寫文章,并且為《C/C++Users Journal》《Doctor Dobb’s Journal》和《Linux Magazine》撰稿。

圖書目錄

第1章 從頭說(shuō)起:什么是噪音數(shù)據(jù)\t1
第2章 是我的問題還是數(shù)據(jù)的問題\t4
2.1 理解數(shù)據(jù)結(jié)構(gòu)\t5
2.2 校驗(yàn)\t8
2.2.1 字段校驗(yàn)\t8
2.2.2 值校驗(yàn)\t9
2.2.3 簡(jiǎn)單統(tǒng)計(jì)的物理解釋\t10
2.3 可視化\t11
2.3.1 關(guān)鍵詞競(jìng)價(jià)排名示例\t13
2.3.2 搜索來(lái)源示例\t18
2.3.3 推薦分析\t19
2.3.4 時(shí)間序列數(shù)據(jù)\t22
2.4 小結(jié)\t27
第3章 數(shù)據(jù)是給人看的不是給機(jī)器看的\t28
3.1 數(shù)據(jù)\t28
3.1.1 問題:數(shù)據(jù)是給人看的\t29
3.1.2 對(duì)數(shù)據(jù)的安排\t29
3.1.3 數(shù)據(jù)分散在多個(gè)文件中\(zhòng)t32
3.2 解決方案:編寫代碼\t34
3.2.1 從糟糕的數(shù)據(jù)格式中讀取數(shù)據(jù)\t34
3.2.2 從多個(gè)文件中讀取數(shù)據(jù)\t36
3.3 附言\t42
3.4 其他格式\t43
3.5 小結(jié)\t45
第4章 純文本中潛在的噪音數(shù)據(jù)\t46
4.1 使用哪種純文本編碼?\t46
4.2 猜測(cè)文本編碼格式\t50
4.3 對(duì)文本規(guī)范化處理\t53
4.4 問題:在純文本中摻入了特定應(yīng)用字符\t55
4.5 通過(guò)Python處理文本\t59
4.6 實(shí)踐練習(xí)題\t60
第5章 重組Web數(shù)據(jù)\t62
5.1 你能獲得數(shù)據(jù)嗎\t63
5.1.1 一般工作流程示例\t64
5.1.2 Robots 協(xié)議\t65
5.1.3 識(shí)別數(shù)據(jù)組織模式\t66
5.1.4 存儲(chǔ)離線版本\t68
5.1.5 網(wǎng)頁(yè)抓取信息\t69
5.2 真正的困難\t73
5.2.1 下載原始內(nèi)容\t73
5.2.2 表單、對(duì)話框和新建窗口\t73
5.2.3 Flash\t74
5.3 不利情況的解決辦法\t75
5.4 小結(jié)\t75
第6章 檢測(cè)撒謊者以及相互矛盾網(wǎng)上評(píng)論的困惑\t76
6.1 Weotta公司\t76
6.2 獲得評(píng)論\t77
6.3 情感分類\t77
6.4 極化語(yǔ)言\t78
6.5 創(chuàng)建語(yǔ)料庫(kù)\t80
6.6 訓(xùn)練分類器\t81
6.7 分類器驗(yàn)證\t82
6.8 用數(shù)據(jù)設(shè)計(jì)\t84
6.9 經(jīng)驗(yàn)教訓(xùn)\t84
6.10 小結(jié)\t85
6.11 信息資源\t86
第7章 請(qǐng)?jiān)胍魯?shù)據(jù)站出來(lái)\t87
7.1 實(shí)例1:在制造業(yè)中減少缺陷\t87
7.2 實(shí)例2:誰(shuí)打來(lái)的電話\t90
7.3 實(shí)例3:當(dāng)“典型的”不等于“平均的”\t92
7.4 經(jīng)驗(yàn)總結(jié)\t95
7.5 到工廠參觀能成為試驗(yàn)的一部分嗎\t96
第8章 血、汗和尿\t97
8.1 書呆子戲劇性工作交換\t97
8.2 化學(xué)家如何整理數(shù)字\t98
8.3 數(shù)據(jù)庫(kù)都是我們的\t99
8.4 仔細(xì)檢查\t102
8.5 生命短暫的漂亮代碼庫(kù)\t103
8.6 改變化學(xué)家(和其他電子表單濫用者)\t104
8.7 傳遞線(tl)和數(shù)據(jù)記錄器(dr)\t105
第9章 當(dāng)數(shù)據(jù)與現(xiàn)實(shí)不匹配\t107
9.1 到底是誰(shuí)的報(bào)價(jià)機(jī)\t108
9.2 股票分割、股利和調(diào)整\t110
9.3 糟糕的現(xiàn)實(shí)\t112
9.4 小結(jié)\t114
第10章 偏差和誤差的來(lái)源\t115
10.1 估算上的偏差:一般性的問題\t117
10.2 報(bào)告上的誤差:一般性的問題\t118
10.3 其他偏差來(lái)源\t121
10.3.1 頂層編碼/底部編碼\t121
10.3.2 Seam偏差\t122
10.3.3 代理報(bào)告\t123
10.3.4 樣本選擇\t123
10.4 結(jié)論\t124
參考文獻(xiàn)\t124
第11章 不要把完美和正確對(duì)立起來(lái):噪音數(shù)據(jù)真是噪音嗎\t128
11.1 回憶學(xué)校生活\t128
11.2 向著專業(yè)領(lǐng)域前進(jìn)\t129
11.2.1 政府工作\t130
11.2.2 政府?dāng)?shù)據(jù)非常真實(shí)\t131
11.3 應(yīng)用實(shí)例—服務(wù)電話\t132
11.4 繼續(xù)前進(jìn)\t133
11.5 經(jīng)驗(yàn)與未來(lái)展望\t134
第12章 數(shù)據(jù)庫(kù)攻擊:什么時(shí)候使用文件\t135
12.1 歷史\t135
12.2 建立我的工具箱\t136
12.3 數(shù)據(jù)存儲(chǔ)—我的路障\t136
12.4 將文件作為數(shù)據(jù)存儲(chǔ)器\t137
12.4.1 簡(jiǎn)單的文件\t138
12.4.2 文件處理一切\(zhòng)t138
12.4.3 文件可包含任何數(shù)據(jù)形式\t138
12.4.4 局部數(shù)據(jù)破壞\t139
12.4.5 文件擁有很棒的工具\(yùn)t139
12.4.6 沒有安裝稅\t139
12.5 文件的概念\t140
12.5.1 編碼\t140
12.5.2 文本文件\t140
12.5.3 二進(jìn)制數(shù)據(jù)\t140
12.5.4 內(nèi)存映射文件\t140
12.5.5 文件格式\t140
12.5.6 分隔符\t142
12.6 文件支持的網(wǎng)絡(luò)框架\t143
12.6.1 動(dòng)機(jī)\t143
12.6.2 實(shí)現(xiàn)\t145
12.7 反饋\t145
第13章 臥庫(kù)表,隱網(wǎng)絡(luò)\t146
13.1 成本分配模型\t147
13.2 組合展開微妙的作用\t150
13.3 隱藏網(wǎng)絡(luò)的浮現(xiàn)\t151
13.4 存儲(chǔ)圖表\t151
13.5 利用Gremlin遍歷圖表\t152
13.6 在網(wǎng)絡(luò)屬性里尋找價(jià)值\t154
13.7 從多重?cái)?shù)據(jù)模型角度考慮并使用正確的工具\(yùn)t155
13.8 致謝\t155
第14章 云計(jì)算神話\t156
14.1 關(guān)于云的介紹\t156
14.2 何謂“云”\t156
14.3 云和大數(shù)據(jù)\t157
14.4 Fred的故事\t157
14.4.1 起初一切都好\t157
14.4.2 基礎(chǔ)結(jié)構(gòu)全部放在云端\t158
14.4.3 隨著規(guī)模增長(zhǎng),最初的擴(kuò)展很輕松\t158
14.4.4 麻煩出現(xiàn)了\t158
14.4.5 需要提高性能\t158
14.4.6 關(guān)鍵要提高RAID 10性能\t158
14.4.7 重要的局部運(yùn)行中斷引發(fā)長(zhǎng)期停機(jī)\t159
14.4.8 有代價(jià)的RAID 10\t159
14.4.9 數(shù)據(jù)規(guī)模增大\t160
14.4.10 地理冗余成為首選\t160
14.4.11 水平擴(kuò)展并不像想像得那么簡(jiǎn)單\t160
14.4.12 成本顯著增長(zhǎng)\t160
14.5 Fred的荒唐事\t161
14.5.1 神話1:云是所有基礎(chǔ)設(shè)施組件的解決方案\t161
該神話與Fred故事的聯(lián)系\t161
14.5.2 神話2:云可以節(jié)約成本\t161
該神話與Fred的故事的聯(lián)系\t162
14.5.3 神話3:通過(guò)RAID可以將cloud 10的性能提高至可接受的水平\t163
該神話與Fred故事的聯(lián)系\t163
14.5.4 神話4:云計(jì)算使水平擴(kuò)展輕松\t163
該神話與Fred故事的聯(lián)系\t164
14.6 結(jié)論和推薦\t164
第15章 數(shù)據(jù)科學(xué)的陰暗面\t165
15.1 避開這些陷阱\t165
15.1.1 對(duì)數(shù)據(jù)一無(wú)所知\t166
15.1.2 應(yīng)該只為數(shù)據(jù)科學(xué)家提供一種工具來(lái)解決所有問題\t167
15.1.3 應(yīng)該為了分析而分析\t169
15.1.4 應(yīng)該學(xué)會(huì)分享\t169
15.1.5 應(yīng)該期望數(shù)據(jù)科學(xué)家無(wú)所不能\t170
15.2 數(shù)據(jù)學(xué)家在機(jī)構(gòu)中的位置\t170
15.3 最后的想法\t171
第16章 如何雇傭機(jī)器學(xué)習(xí)專家\t172
16.1 確定問題\t172
16.2 模型測(cè)試\t173
16.3 創(chuàng)建訓(xùn)練集\t174
16.4 選擇特征\t175
16.5 數(shù)據(jù)編碼\t176
16.6 訓(xùn)練集、測(cè)試集和解決方案集\t176
16.7 問題描述\t177
16.8 回答問題\t178
16.9 整合解決方案\t178
16.10 小結(jié)\t179
第17章 數(shù)據(jù)的可追蹤性\t180
17.1 原因\t180
17.2 個(gè)人經(jīng)驗(yàn)\t181
17.2.1 快照\(chéng)t181
17.2.2 保存數(shù)據(jù)源\t181
17.2.3 衡量數(shù)據(jù)源\t182
17.2.4 逆向恢復(fù)數(shù)據(jù)\t182
17.2.5 分階段處理數(shù)據(jù)并保持各階段的獨(dú)立性\t182
17.2.6 識(shí)別根源\t183
17.2.7 尋找要完善的區(qū)域\t183
17.3 不變性:從函數(shù)程序設(shè)計(jì)借來(lái)的理念\t183
17.4 案例\t184
17.4.1 網(wǎng)絡(luò)爬蟲\t184
17.4.2 改變\t185
17.4.3 聚類\t185
17.4.4 普及度\t185
17.5 小結(jié)\t186
第18章 社交媒體:是可抹去的印記嗎\t187
18.1 社交媒體:到底是誰(shuí)的數(shù)據(jù)\t188
18.2 管控\t188
18.3 商業(yè)重組\t190
18.4 對(duì)溝通和表達(dá)的期望\t190
18.5 新的最終用戶期望的技術(shù)含義\t192
18.6 這個(gè)行業(yè)是做什么的\t194
18.6.1 驗(yàn)證API\t195
18.6.2 更新通知API\t195
18.7 最終用戶做什么\t195
18.8 我們?cè)鯓右黄鸸ぷ鱘t196
第19章 揭秘?cái)?shù)據(jù)質(zhì)量分析:了解什么時(shí)候數(shù)據(jù)足夠優(yōu)質(zhì)\t197
19.1 框架介紹:數(shù)據(jù)質(zhì)量分析的4個(gè)C\t198
19.1.1 完整性\t199
19.1.2 一致性\t201
19.1.3 準(zhǔn)確性\t203
19.1.4 可解釋性\t205
19.2 結(jié)論\t208

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)