目錄
第1章緒論
1.1分布式計算概念
1.1.1定義
1.1.2優(yōu)缺點
1.1.3經典的分布式計算項目
1.2分布式計算模式
1.2.1單機計算
1.2.2并行計算
1.2.3網絡計算
1.2.4對等計算
1.2.5集群計算
1.2.6網格計算
1.2.7云計算
1.2.8霧計算
1.2.9邊緣計算
1.2.10大數(shù)據(jù)計算
1.3CAP定理
1.3.1CAP定理歷史
1.3.2CAP定理應用
1.3.3CAP問題的實例
習題
第2章分布式計算編程基礎
2.1進程間通信
2.1.1進程間通信概念
2.1.2IPC原型與示例
2.2Socket編程
2.2.1Socket概述
2.2.2流式Socket編程
2.3RMI編程
2.3.1RMI概述
2.3.2RMI基本分布式應用
2.4P2P編程
習題
第3章云計算原理與技術
3.1云計算概述
3.1.1云計算起源
3.1.2云計算的概念與定義
3.1.3云計算與分布式計算
3.1.4云計算分類
3.2云計算關鍵技術
3.2.1體系結構
3.2.2數(shù)據(jù)存儲
3.2.3計算模型
3.2.4資源調度
3.2.5虛擬化
3.3Google云計算原理
3.3.1GFS
3.3.2MapReduce
3.3.3BigTable
3.3.4Dremel
3.4亞馬遜云服務
3.4.1亞馬遜云平臺存儲架構
3.4.2EC2、S3、SimpleDB等組件
3.5基于亞馬遜云的大數(shù)據(jù)分析案例
3.5.1亞馬遜云平臺存儲架構
3.5.2亞馬遜云的Web服務器日志大數(shù)據(jù)分析案例
3.6阿里云
3.6.1飛天開放平臺架構
3.6.2開放云計算服務ECS
3.6.3開放存儲服務OSS和CDN
3.6.4開放結構化數(shù)據(jù)服務OTS
3.6.5關系型數(shù)據(jù)庫(RDS)
3.6.6開放數(shù)據(jù)處理服務(ODPS)
習題
第4章云計算編程實踐
4.1CloudSim體系結構和API介紹
4.1.1CloudSim體系結構
4.1.2CloudSim 3.0 API介紹
4.2CloudSim環(huán)境搭建和使用方法
4.2.1環(huán)境配置
4.2.2運行樣例程序
4.3CloudSim擴展編程
4.3.1調度策略的擴展
4.3.2仿真核心代碼
4.3.3平臺重編譯
4.4CloudSim的編程實踐
4.4.1CloudSim任務調度編程
4.4.2CloudSim網絡編程
4.4.3CloudSim能耗編程
4.5MultiRECloudSim
4.5.1MultiRECloudSim體系結構和原理
4.5.2MultiRECloudSim的API
4.5.3MultiRECloudSim的使用方法
4.6云環(huán)境任務調度編程實踐
4.6.1云計算的資源管理
4.6.2云任務調度模擬實驗
習題
第5章云存儲技術
5.1存儲基礎知識
5.1.1存儲組網形態(tài)
5.1.2RAID
5.1.3磁盤熱備
5.1.4快照
5.1.5數(shù)據(jù)分級存儲概念
5.2云存儲概念與技術原理
5.2.1分布式存儲
5.2.2存儲虛擬化
5.3對象存儲技術
5.3.1對象存儲架構
5.3.2傳統(tǒng)塊存儲與對象存儲
5.3.3對象
5.3.4對象存儲系統(tǒng)組成
5.4存儲技術趨勢
5.4.1存儲虛擬化
5.4.2固態(tài)硬盤
5.4.3重復數(shù)據(jù)刪除
5.4.4語義化檢索
5.4.5存儲智能化
5.4.6混合存儲系統(tǒng)
習題
第6章大數(shù)據(jù)技術原理與平臺
6.1大數(shù)據(jù)概述
6.1.1大數(shù)據(jù)產生的背景
6.1.2大數(shù)據(jù)的定義
6.1.3大數(shù)據(jù)的4V特征
6.2大數(shù)據(jù)存儲平臺
6.2.1HDFS
6.2.2HBase
6.2.3Cassandra
6.2.4Redis
6.2.5MongoDB
6.3大數(shù)據(jù)計算模式
6.3.1MapReduce
6.3.2Spark
6.3.3流式計算
6.4典型大數(shù)據(jù)分析管理平臺
6.4.1Cloudera Impala
6.4.2Hortonworks Data Platform
6.4.3HadoopDB
6.5大數(shù)據(jù)并行計算編程實踐
6.5.1基于MAPREDUCE程序實例(HDFS)
6.5.2基于MAPREDUCE程序實例(HBase)
6.5.3基于Spark的程序實例
6.5.4基于Impala的查詢實踐
6.6大數(shù)據(jù)研究與發(fā)展方向
6.6.1數(shù)據(jù)的不確定性與數(shù)據(jù)質量
6.6.2跨領域的數(shù)據(jù)處理方法的可移植性
6.6.3數(shù)據(jù)處理的時效性保證——內存計算
6.6.4對于流式數(shù)據(jù)的實時處理
6.6.5大數(shù)據(jù)應用
6.6.6大數(shù)據(jù)發(fā)展趨勢
習題
第7章實時醫(yī)療大數(shù)據(jù)分析案例
7.1案例背景與需求概述
7.1.1背景介紹
7.1.2基本需求
7.2設計方案
7.2.1ETL
7.2.2非格式化存儲
7.2.3流處理
7.2.4訓練模型與結果預測
7.3環(huán)境準備
7.3.1節(jié)點規(guī)劃
7.3.2軟件選型
7.4實現(xiàn)方法
7.4.1使用Kettle/Sqoop等ETL工具,將數(shù)據(jù)導入HDFS
7.4.2基于Spark Streaming開發(fā)Kafka連接器組件
7.4.3基于Spark MLlib開發(fā)數(shù)據(jù)挖掘組件
7.5不足與擴展
習題
第8章保險大數(shù)據(jù)分析案例
8.1案例背景與需求概述
8.1.1背景介紹
8.1.2基本需求
8.2設計方案
8.2.1基于GraphX的并行家譜挖掘算法
8.2.2基于分片技術的隨機森林算法
8.2.3基于內存計算的FPGrowth關聯(lián)規(guī)則挖掘算法
8.3環(huán)境準備
8.4實現(xiàn)方法
8.4.1基于GraphX的并行家譜挖掘
8.4.2基于分片技術的隨機森林模型用戶推薦
8.4.3基于FPGrowth關聯(lián)規(guī)則挖掘算法的回歸檢驗
8.4.4結果可視化
8.5不足與擴展
習題
第9章基于Spark聚類算法的網絡流量異常檢測
9.1基本需求與數(shù)據(jù)說明
9.1.1基本需求
9.1.2數(shù)據(jù)說明
9.2設計方案
9.2.1聚類問題描述
9.2.2系統(tǒng)整體架構和算法設計
9.2.3數(shù)據(jù)預處理
9.2.4聚類算法
9.2.5聚類質量評估算法
9.2.6檢測算法
9.3實現(xiàn)方法和程序設計
9.3.1搭建Spark集群實驗平臺
9.3.2程序運行說明
9.3.3數(shù)據(jù)預處理
9.3.4基于R的數(shù)據(jù)分析和可視化
9.3.5聚類算法
9.3.6聚類質量評估
9.3.7異常檢測
9.4結果展示
9.4.1Spark平臺說明與作業(yè)提交演示
9.4.2聚類算法及其質量評估
9.4.3有效性分析
9.4.4示例說明
9.5展望
習題
第10章基于Hadoop的宏基因組序列比對計算
10.1相關背景介紹與基本需求
10.1.1相關背景
10.1.2基本需求
10.2設計方案
10.2.1串行程序分析
10.2.2并行程序設計
10.3實現(xiàn)方法
10.3.1自定義Hadoop Streaming Inputformat
10.3.2修改SOAPaligner程序的輸入文件函數(shù)
10.4環(huán)境建立和實驗數(shù)據(jù)說明
10.4.1案例環(huán)境
10.4.2實驗數(shù)據(jù)
10.5結果展示
10.5.1測試方法
10.5.2測試結果和分析
習題
第11章基于細胞反應大數(shù)據(jù)的生物效應評估計算
11.1相關背景介紹與基本需求
11.1.1相關背景
11.1.2基本需求
11.2設計方案
11.2.1基本思路
11.2.2設計框架
11.3環(huán)境建立和實驗數(shù)據(jù)說明
11.3.1案例環(huán)境
11.3.2實驗數(shù)據(jù)
11.4實現(xiàn)方法
11.4.1算法分析
11.4.2基因譜兩兩比對——富集積分矩陣并行化計算
11.4.3基因譜聚類分析——KMedoids算法并行化
11.5結果展示
11.5.1基因譜兩兩比對——計算富集積分矩陣實驗分析
11.5.2基因譜聚類實驗分析
習題
第12章基于Spark的海量宏基因組聚類問題分析計算
12.1相關背景介紹與基本需求
12.1.1相關背景
12.1.2基本需求
12.2問題分析與設計方案
12.2.1問題分析
12.2.2設計方案
12.3實現(xiàn)方法
12.3.1基于Spark的相似基因對問題的實現(xiàn)
12.3.2利用LSH加速相似基因對算法
12.3.3基因圖的生成
12.3.4圖的基本性質分析
12.3.5基因圖聚類
12.4環(huán)境建立和實驗數(shù)據(jù)說明
12.4.1案例環(huán)境
12.4.2實驗數(shù)據(jù)
12.5結果展示
12.5.1LSH方法精確度分析
12.5.2可擴展性分析和加速效果分析
12.5.3基因圖頂點的度分布和連通性分析
12.5.4基因圖聚類結果分析
12.5.5總結
習題
參考文獻