注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫ODPS權(quán)威指南:阿里大數(shù)據(jù)平臺(tái)應(yīng)用開發(fā)實(shí)踐

ODPS權(quán)威指南:阿里大數(shù)據(jù)平臺(tái)應(yīng)用開發(fā)實(shí)踐

ODPS權(quán)威指南:阿里大數(shù)據(jù)平臺(tái)應(yīng)用開發(fā)實(shí)踐

定 價(jià):¥69.00

作 者: 李妹芳 著
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787115372413 出版時(shí)間: 2014-12-01 包裝: 平裝
開本: 16開 頁數(shù): 320 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  ODPS(Open Data Processing Service)是阿里巴巴自主研發(fā)的海量數(shù)據(jù)處理和分析的服務(wù)平臺(tái),主要應(yīng)用于數(shù)據(jù)分析、海量數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和商業(yè)智能等領(lǐng)域。目前,ODPS不僅在阿里內(nèi)部得到廣泛應(yīng)用,享有很好的口碑,正逐步走向第三方開放市場(chǎng)?!禣DPS權(quán)威指南:阿里大數(shù)據(jù)平臺(tái)應(yīng)用開發(fā)實(shí)踐》是學(xué)習(xí)和掌握ODPS的權(quán)威指南,作者來自阿里ODPS團(tuán)隊(duì)。全書共13章,主要內(nèi)容包括:ODPS入門、整體架構(gòu)、數(shù)據(jù)通道、MapReduce編程、SQL查詢分析、安全,以及基于真實(shí)數(shù)據(jù)的各種場(chǎng)景分析實(shí)戰(zhàn)。本書基于很多范例解析,通過在各種應(yīng)用場(chǎng)景下的示例來說明如何通過ODPS完成各種需求,以期引導(dǎo)讀者從零開始輕松掌握和使用ODPS。同時(shí),本書不局限于示例分析,也致力于提供更多關(guān)于大數(shù)據(jù)處理的編程思想和經(jīng)驗(yàn)分享。書中所有示例代碼都可以在作者提供的網(wǎng)站上免費(fèi)下載。本書適合想要了解和使用ODPS的讀者閱讀學(xué)習(xí),對(duì)于從事大數(shù)據(jù)存儲(chǔ)和應(yīng)用以及分布式計(jì)算的專業(yè)人士來說,也是很好的參考資料。

作者簡(jiǎn)介

  李妹芳,阿里數(shù)據(jù)平臺(tái)事業(yè)部工程師,曾譯有《Linux系統(tǒng)編程》、《數(shù)據(jù)之美》、《數(shù)據(jù)可視化之美》等書

圖書目錄

前言
第1章 ODPS概述
1.1 引言
1.2 初識(shí)ODPS
1.2.1 背景和挑戰(zhàn)
1.2.2 為什么做ODPS
1.2.3 ODPS是什么
1.2.4 ODPS做什么
1.3 基本概念
1.3.1 賬號(hào)(Account)
1.3.2 項(xiàng)目空間(Project)
1.3.3 表(Table)
1.3.4 分區(qū)(Partition)
1.3.5 任務(wù)(Task)、作業(yè)(Job)和作業(yè)實(shí)例(Instance)
1.3.6 資源(Resource)
1.4 應(yīng)用開發(fā)模式
1.4.1 RESTful API
1.4.2 ODPS SDK
1.4.3 ODPS CLT
1.4.4 管理控制臺(tái)
1.4.5 IDE
1.5 一些典型場(chǎng)景
1.5.1 阿里金融數(shù)據(jù)倉庫
1.5.2 CNZZ數(shù)據(jù)倉庫
1.5.3 支付寶賬號(hào)影響力圈
1.5.4 阿里金融水文衍生算法
1.5.5 阿里媽媽廣告CTR預(yù)估
1.6 現(xiàn)狀和前景
1.7 小結(jié)
第2章 ODPS入門
2.1 準(zhǔn)備工作
2.1.1 創(chuàng)建云賬號(hào)
2.1.2 開通ODPS服務(wù)
2.2 使用管理控制臺(tái)
2.3 配置ODPS客戶端
2.3.1 下載和配置CLT
2.3.2 準(zhǔn)備dual表
2.3.3 CLT運(yùn)行模式
2.3.4 下載和配置dship
2.3.5 通過dship上傳下載數(shù)據(jù)
2.4 網(wǎng)站日志分析實(shí)例
2.4.1 場(chǎng)景和數(shù)據(jù)說明
2.4.2 需求分析
2.4.3 數(shù)據(jù)準(zhǔn)備
2.4.4 創(chuàng)建表并添加分區(qū)
2.4.5 數(shù)據(jù)解析和導(dǎo)入
2.4.6 數(shù)據(jù)加工
2.4.7 數(shù)據(jù)分析
2.4.8 自動(dòng)化運(yùn)行
2.4.9 應(yīng)用數(shù)據(jù)集市
2.4.10 結(jié)果導(dǎo)出
2.4.11 結(jié)果展現(xiàn)
2.4.12 刪除數(shù)據(jù)
2.5 小結(jié)
第3章 收集海量數(shù)據(jù)
3.1 DSHIP工具
3.2 收集WEB日志
3.2.1 場(chǎng)景和需求說明
3.2.2 問題分析和設(shè)計(jì)
3.2.3 實(shí)現(xiàn)說明
3.2.4 進(jìn)一步探討
3.2.5 為什么這么難
3.3 MYSQL數(shù)據(jù)同步到ODPS
3.3.1 場(chǎng)景和需求說明
3.3.2 問題分析和實(shí)現(xiàn)
3.3.3 進(jìn)一步探討
3.4 下載結(jié)果表
3.5 小結(jié)
第4章 使用SQL處理海量數(shù)據(jù)
4.1 ODPS SQL是什么
4.2 入門示例
4.2.1 場(chǎng)景說明
4.2.2 簡(jiǎn)單的DDL操作
4.2.3 生成數(shù)據(jù)
4.2.4 單表查詢
4.2.5 多表連接JOIN
4.2.6 高級(jí)查詢
4.2.7 多表關(guān)聯(lián)UNION ALL
4.2.8 多路輸出(MULTI-INSERT)
4.3 網(wǎng)站日志分析
4.3.1 準(zhǔn)備數(shù)據(jù)和表
4.3.2 維度表
4.3.3 訪問路徑分析
4.3.4 TopK查詢
4.3.5 IP黑名單
4.4 天貓品牌預(yù)測(cè)
4.4.1 主題說明和前期準(zhǔn)備
4.4.2 理解數(shù)據(jù)
4.4.3 兩個(gè)簡(jiǎn)單的實(shí)踐
4.4.4 問題分析和算法設(shè)計(jì)
4.4.5 生成特征
4.4.6 抽取正負(fù)樣本
4.4.7 生成模型
4.4.8 驗(yàn)證模型
4.4.9 預(yù)測(cè)結(jié)果
4.4.10 進(jìn)一步探討
4.5 小結(jié)
第5章 SQL進(jìn)階
5.1 UDF是什么
5.2 入門示例
5.3 實(shí)際應(yīng)用案例
5.3.1 URL解碼
5.3.2 簡(jiǎn)單的LBS應(yīng)用
5.3.3 網(wǎng)站訪問日志UserAgent解析
5.4 SQL實(shí)現(xiàn)原理
5.4.1 詞法分析
5.4.2 語法分析
5.4.3 邏輯分析
5.4.4 物理分析
5.5 SQL調(diào)優(yōu)
5.5.1 數(shù)據(jù)傾斜
5.5.2 一些優(yōu)化建議
5.5.3 一些注意事項(xiàng)
5.6 小結(jié)
第6章 通過TUNNEL遷移數(shù)據(jù)
6.1 ODPS TUNNEL 是什么
6.2 入門示例
6.2.1 下載和配置
6.2.2 準(zhǔn)備數(shù)據(jù)
6.2.3 上傳數(shù)據(jù)
6.2.4 下載數(shù)據(jù)
6.3 TUNNEL原理
6.3.1 數(shù)據(jù)如何傳輸
6.3.2 客戶端和服務(wù)端如何交互
6.3.3 如何實(shí)現(xiàn)高并發(fā)
6.4 從HADOOP遷移到ODPS
6.4.1 問題分析
6.4.2 客戶端實(shí)現(xiàn)和分析
6.4.3 Mapper實(shí)現(xiàn)和分析
6.4.4 編譯和運(yùn)行
6.4.5 進(jìn)一步探討
6.5 一些注意點(diǎn)
6.6 小結(jié)
第7章 使用MAPREDUCE處理數(shù)據(jù)
7.1 MAPREDUCE編程模型
7.2 MAPREDUCE應(yīng)用場(chǎng)景
7.3 初識(shí)ODPS MAPREDUCE
7.4 入門示例
7.4.1 準(zhǔn)備工作
7.4.2 問題分析
7.4.3 代碼實(shí)現(xiàn)和分析
7.4.4 運(yùn)行和輸出分析
7.4.5 擴(kuò)展:使用Combiner?
7.5 TOPK查詢
7.5.1 場(chǎng)景和數(shù)據(jù)說明
7.5.2 問題分析
7.5.3 具體實(shí)現(xiàn)分析
7.5.4 運(yùn)行和結(jié)果輸出
7.5.5 擴(kuò)展:忽略Stop Words
7.5.6 擴(kuò)展:數(shù)據(jù)和任務(wù)統(tǒng)計(jì)
7.5.7 擴(kuò)展: MR2模型
7.6 SQL和MAPREDUCE,用哪個(gè)?
7.7 小結(jié)
第8章 MAPREDUCE進(jìn)階
8.1 再談SHUFFLE & SORT
8.2 好友推薦
8.2.1 場(chǎng)景和數(shù)據(jù)說明
8.2.2 問題定義和分析
8.2.3 代碼實(shí)現(xiàn)
8.3 LBS應(yīng)用探討:周邊定位
8.3.1 場(chǎng)景和數(shù)據(jù)說明
8.3.2 問題定義和分析
8.3.3 代碼實(shí)現(xiàn)和分析
8.3.4 運(yùn)行和測(cè)試
8.4 MAPREDUCE調(diào)試
8.4.1 帶bug的代碼
8.4.2 通過本地模式調(diào)試
8.4.3 通過Counter調(diào)試
8.4.4 通過log調(diào)試
8.5 一些注意點(diǎn)
8.6 小結(jié)
第9章 機(jī)器學(xué)習(xí)算法
9.1 初識(shí)ODPS算法
9.2 入門示例
9.2.1 通過CLT統(tǒng)計(jì)分析
9.2.2 通過XLab統(tǒng)計(jì)分析
9.3 幾個(gè)經(jīng)典的算法
9.3.1 邏輯回歸
9.3.2 隨機(jī)森林
9.4 天貓品牌預(yù)測(cè)
9.4.1 邏輯回歸
9.4.2 隨機(jī)森林
9.4.3 腳本實(shí)現(xiàn)和自動(dòng)化
9.4.4 進(jìn)一步探討
9.5 小結(jié)
第10章 使用SDK訪問ODPS服務(wù)
10.1 主要的PACKAGE和接口
10.1.1 主要的Package
10.1.2 核心接口
10.2 入門示例
10.3 基于ECLIPSE插件開發(fā)
10.4 小結(jié)
第11章 ODPS賬號(hào)、資源和數(shù)據(jù)管理
11.1 權(quán)限管理
11.1.1 賬號(hào)授權(quán)
11.1.2 角色(Role)授權(quán)
11.1.3 ACL授權(quán)特點(diǎn)
11.1.4 簡(jiǎn)單的Policy授權(quán)
11.1.5 Role Policy
11.1.6 ACL授權(quán)和Policy授權(quán)小結(jié)
11.2 資源管理
11.2.1 Project內(nèi)的資源管理
11.2.2 跨Project的資源共享
11.3 數(shù)據(jù)管理
11.3.1 表生命周期
11.3.2 數(shù)據(jù)歸并(Merge)
11.3.3 數(shù)據(jù)保護(hù)(Project Protection)
11.4 小結(jié)
第12章 深入了解ODPS
12.1 體系架構(gòu)
12.1.1 客戶端
12.1.2 接入層
12.1.3 邏輯層
12.1.4 存儲(chǔ)/計(jì)算層
12.2 執(zhí)行流程
12.2.1 提交作業(yè)
12.2.2 運(yùn)行作業(yè)
12.2.3 查詢作業(yè)狀態(tài)
12.2.4 執(zhí)行邏輯圖
12.3 底層數(shù)據(jù)存儲(chǔ)
12.3.1 CFILE是什么
12.3.2 CFILE邏輯結(jié)構(gòu)
12.4 內(nèi)聚式框架
12.4.1 元數(shù)據(jù)
12.4.2 運(yùn)維管理
12.4.3 多控制集群和多計(jì)算集群
12.5 跨集群復(fù)制
12.5.1 數(shù)據(jù)遷移
12.5.2 跨集群同步
12.6 小結(jié)
第13章 探索ODPS之美
13.1 R語言數(shù)據(jù)探索
13.1.1 安裝和配置
13.1.2 一些基本操作
13.1.3 分析建模
13.2 實(shí)時(shí)流計(jì)算
13.3 圖計(jì)算模型
13.4 準(zhǔn)實(shí)時(shí)SQL
13.5 機(jī)器學(xué)習(xí)平臺(tái)
附錄一 ODPS消息認(rèn)證機(jī)制
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)