注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫敏捷數(shù)據(jù)科學:用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用

敏捷數(shù)據(jù)科學:用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用

敏捷數(shù)據(jù)科學:用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用

定 價:¥49.00

作 者: (美)Russell Jurney 著; 馮文中,朱洪波 譯
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121236198 出版時間: 2014-07-01 包裝: 平裝
開本: 16開 頁數(shù): 184 字數(shù):  

內(nèi)容簡介

  《敏捷數(shù)據(jù)科學:用Hadoop創(chuàng)建數(shù)據(jù)分析應(yīng)用》面向大數(shù)據(jù)挖掘,以敏捷視角呈現(xiàn)高效構(gòu)建數(shù)據(jù)模型的全程實踐和思路。在一組以一個真實電子郵箱數(shù)據(jù)挖掘為例的數(shù)據(jù)- 價值金字塔進階模式中,你將學到:一整套實用工具及其方法論,可快速實現(xiàn)在Hadoop 上構(gòu)建數(shù)據(jù)分析應(yīng)用;用Python、Apache Pig D3.js等輕量級工具創(chuàng)建用于探索數(shù)據(jù)的敏捷環(huán)境;一種可根據(jù)數(shù)據(jù)中信息快速切換,進行不同類型數(shù)據(jù)分析的迭代式開發(fā)方法。

作者簡介

  Russell Jurney,在美國和墨西哥的賭場開始他的數(shù)據(jù)分析生涯。他開發(fā)了一個web應(yīng)用來分析老虎機的性能。在經(jīng)歷了創(chuàng)業(yè)、交互式媒體和新聞業(yè)以后,他到了硅谷,在Ning和LinkedIn開始構(gòu)建可擴展的數(shù)據(jù)分析應(yīng)用。他現(xiàn)在和妻子Kate以及兩只愛犬住在加利福尼亞州帕西菲卡市的海邊。

圖書目錄

前言xi
第1部分起步
第1章理論
敏捷大數(shù)據(jù)
BigWords定義
敏捷大數(shù)據(jù)團隊
認識機遇和問題
敏捷大數(shù)據(jù)流程
代碼檢查和結(jié)對編程
敏捷的場所:開發(fā)的效率
協(xié)作空間
私人空間
個人空間
用大幅打印件明確表達想法
第2章數(shù)據(jù)
電子郵件
處理原始數(shù)據(jù)
原始的電子郵件
viii|目錄
結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)
SQL
NoSQL
序列化
從演變的模式中抽取和展示特征
數(shù)據(jù)流水線
數(shù)據(jù)透視
社交網(wǎng)絡(luò)
時間序列
自然語言
概率
小結(jié)
第3章敏捷開發(fā)工具
可擴展性=簡潔
敏捷大數(shù)據(jù)處理
設(shè)置運行Python的虛擬環(huán)境
使用Avro對事件進行序列化
在Python中使用Avro
收集數(shù)據(jù)
使用Pig處理數(shù)據(jù)
安裝Pig
使用MongoDB發(fā)布數(shù)據(jù)
安裝MongoDB
安裝MongoDB的Java驅(qū)動程序
安裝mongo-hadoop
用Pig向MongoDB推送數(shù)據(jù)
使用ElasticSearch搜索數(shù)據(jù)
安裝
使用Wonderdog整合ElasticSearch和Pig
對工作流程的反思
輕量級的Web應(yīng)用
Python和Flask
目錄|ix
展示數(shù)據(jù)
安裝Bootstrap
啟用Bootstrap
使用d3js和nvd3js可視化數(shù)據(jù)
小結(jié)
第4章在云端
引言
GitHub
dotCloud
dotCloudEcho服務(wù)
Python工作者服務(wù)
AmazonWebServices
SimpleStorageService
ElasticMapReduce
MongoDB即服務(wù)
輔助工具(Instrumentation)
GoogleAnalytics
MortarData
第2部分登上金字塔
第5章收集和展示數(shù)據(jù)
整合軟件棧
收集并序列化收件箱
處理和發(fā)布郵件數(shù)據(jù)
在瀏覽器中顯示郵件
用Flask和pymongo處理郵件數(shù)據(jù)
使用Jinja2渲染HTML5頁面
敏捷檢查點
生成電子郵件清單
用MongoDB顯示郵件
對數(shù)據(jù)展示的分析
x|目錄
搜索郵件
使用Pig,ElasticSearch和Wonderdog構(gòu)建索引
在網(wǎng)頁中搜索郵件數(shù)據(jù)
結(jié)論
第6章使用圖表可視化數(shù)據(jù)
優(yōu)秀的圖表
抽取實體:郵件地址
抽取郵件
對時間進行可視化
結(jié)論
第7章利用報表探索數(shù)據(jù)
為數(shù)據(jù)添加聯(lián)系
用TF-IDF從郵件中提取關(guān)鍵字
小結(jié)
第8章預(yù)測
預(yù)測電子郵件的回復(fù)率
個性化
小結(jié)
第9章驅(qū)動行動
好郵件的屬性
使用樸素貝葉斯方法進行更好的預(yù)測
P(Reply|From∩To)
P(Reply|Token)
實時預(yù)測
記錄事件日志
小結(jié)
索引

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號