注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件Hadoop + Spark 大數(shù)據(jù)巨量分析與機器學習整合開發(fā)實戰(zhàn)

Hadoop + Spark 大數(shù)據(jù)巨量分析與機器學習整合開發(fā)實戰(zhàn)

Hadoop + Spark 大數(shù)據(jù)巨量分析與機器學習整合開發(fā)實戰(zhàn)

定 價:¥79.00

作 者: 林大貴 著
出版社: 清華大學出版社
叢編項:
標 簽: 計算機/網(wǎng)絡 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

購買這本書可以去


ISBN: 9787302453758 出版時間: 2017-01-01 包裝: 平裝
開本: 16開 頁數(shù): 425 字數(shù):  

內容簡介

  《Hadoop + Spark 大數(shù)據(jù)巨量分析與機器學習整合開發(fā)實戰(zhàn)》從淺顯易懂的“大數(shù)據(jù)和機器學習”原理介紹和說明入手,講述大數(shù)據(jù)和機器學習的基本概念,如:分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數(shù)據(jù)可視化應用。為降低讀者學習大數(shù)據(jù)技術的門檻,書中提供了豐富的上機實踐操作和范例程序詳解,展示了如何在單臺Windows系統(tǒng)上通過Virtual Box虛擬機安裝多臺Linux虛擬機,如何建立Hadoop集群,再建立Spark開發(fā)環(huán)境。書中介紹搭建的上機實踐平臺并不限制于單臺實體計算機。對于有條件的公司和學校,參照書中介紹的搭建過程,同樣可以將實踐平臺搭建在多臺實體計算機上,以便更加接近于大數(shù)據(jù)和機器學習真實的運行環(huán)境?!禜adoop + Spark 大數(shù)據(jù)巨量分析與機器學習整合開發(fā)實戰(zhàn)》非常適合于學習大數(shù)據(jù)基礎知識的初學者閱讀,*適合正在學習大數(shù)據(jù)理論和技術的人員作為上機實踐用的教材。

作者簡介

  林大貴,作者從事IT產業(yè)多年,包括系統(tǒng)設計、網(wǎng)站開發(fā)等諸多領域,具備豐富實戰(zhàn)開發(fā)經驗,多版多部具有影響力的作品。

圖書目錄

第1章 大數(shù)據(jù)與機器學習
1.1 大數(shù)據(jù)定義
1.2 Hadoop簡介
1.3 Hadoop HDFS分布式文件系統(tǒng)
1.4 Hadoop MapReduce的介紹
1.5 Spark的介紹
1.6 機器學習的介紹
第2章 VirtualBox虛擬機軟件的安裝
2.1 VirtualBox的下載和安裝
2.2 設置VirtualBox語言版本
2.3 設置VirtualBox存儲文件夾
2.4 在VirtualBox創(chuàng)建虛擬機
第3章 Ubuntu Linux操作系統(tǒng)的安裝
3.1 下載安裝Ubuntu的光盤文件
3.2 在Virtual設置Ubuntu虛擬光盤文件
3.3 開始安裝Ubuntu
3.4 啟動Ubuntu
3.5 安裝增強功能
3.6 設置默認輸入法
3.7 設置“終端”程序
3.8 設置“終端”程序為白底黑字
3.9 設置共享剪貼板
第4章 Hadoop Single Node Cluster的安裝
4.1 安裝JDK
4.2 設置SSH無密碼登錄
4.3 下載安裝Hadoop
4.4 設置Hadoop環(huán)境變量
4.5 修改Hadoop配置設置文件
4.6 創(chuàng)建并格式化HDFS目錄
4.7 啟動Hadoop
4.8 打開Hadoop ResourceManager Web界面
4.9 NameNode HDFS Web界面
第5章 Hadoop Multi Node Cluster的安裝
5.1 把Single Node Cluster復制到data1
5.2 設置VirtualBox網(wǎng)卡
5.3 設置data1服務器
5.4 復制data1服務器到data2、data3、master
5.5 設置data2、data3服務器
5.6 設置master服務器
5.7 master連接到data1、data2、data3創(chuàng)建HDFS目錄
5.8 創(chuàng)建并格式化NameNode HDFS目錄
5.9 啟動Hadoop Multi Node Cluster
5.10 打開Hadoop ResourceManager Web界面
5.11 打開NameNode Web界面
第6章 Hadoop HDFS命令
6.1 啟動Hadoop Multi-Node Cluster
6.2 創(chuàng)建與查看HDFS目錄
6.3 從本地計算機復制文件到HDFS
6.4 將HDFS上的文件復制到本地計算機
6.5 復制與刪除HDFS文件
6.6 在Hadoop HDFS Web用戶界面瀏覽HDFS
第7章 Hadoop MapReduce
7.1 介紹wordCount.Java
7.2 編輯wordCount.Java
7.3 編譯wordCount.Java
7.4 創(chuàng)建測試文本文件
7.5 運行wordCount.Java
7.6 查看運行結果
7.7 Hadoop MapReduce的缺點
第8章 Spark的安裝與介紹
8.1 Spark的Cluster模式架構圖
8.2 Scala的介紹與安裝
8.3 安裝Spark
8.4 啟動spark-shell交互界面
8.5 設置spark-shell顯示信息
8.6 啟動Hadoop
8.7 本地運行spark-shell程序
8.8 在Hadoop YARN運行spark-shell
8.9 構建Spark Standalone Cluster執(zhí)行環(huán)境
8.10 在Spark Standalone運行spark-shell
第9章 Spark RDD
9.1 RDD的特性
9.2 基本RDD“轉換”運算
9.3 多個RDD“轉換”運算
9.4 基本“動作”運算
9.5 RDD Key-Value 基本“轉換”運算
9.6 多個RDD Key-Value“轉換”運算
9.7 Key-Value“動作”運算
9.8 Broadcast廣播變量
9.9 accumulator累加器
9.10 RDD Persistence持久化
9.11 使用Spark創(chuàng)建WordCount
9.12 Spark WordCount詳細解說
第10章 Spark的集成開發(fā)環(huán)境
10.1 下載與安裝eclipse Scala IDE
10.2 下載項目所需要的Library
10.3 啟動eclipse
10.4 創(chuàng)建新的Spark項目
10.5 設置項目鏈接庫
10.6 新建scala程序
10.7 創(chuàng)建WordCount測試文本文件
10.8 創(chuàng)建WordCount.scala
10.9 編譯WordCount.scala程序
10.10 運行WordCount.scala程序
10.11 導出jar文件
10.12 spark-submit的詳細介紹
10.13 在本地local模式運行WordCount程序
10.14 在Hadoop yarn-client運行WordCount程序
10.15 在Spark Standalone Cluster上運行WordCount程序
10.16 本書范例程序的安裝說明
第11章 創(chuàng)建推薦引擎
11.1 推薦算法介紹
11.2 “推薦引擎”大數(shù)據(jù)分析使用場景
11.3 ALS推薦算法的介紹
11.4 ml-100k推薦數(shù)據(jù)的下載與介紹
11.5 使用spark-shell導入ml-100k數(shù)據(jù)
11.6 查看導入的數(shù)據(jù)
11.7 使用ALS.train進行訓練
11.8 使用模型進行推薦
11.9 顯示推薦的電影名稱
11.10 創(chuàng)建Recommend項目
11.11 Recommend.scala程序代碼
11.12 創(chuàng)建PrepareData()數(shù)據(jù)準備
11.13 recommend()推薦程序代碼
11.14 運行Recommend.scala
11.15 創(chuàng)建AlsEvaluation.scala調校推薦引擎參數(shù)
11.16 創(chuàng)建PrepareData()數(shù)據(jù)準備
11.17 進行訓練評估
11.18 運行AlsEvaluation
11.19 修改Recommend.scala為佳參數(shù)組合
第12章 StumbleUpon數(shù)據(jù)集
12.1 StumbleUpon數(shù)據(jù)集簡介
12.2 下載StumbleUpon數(shù)據(jù)
12.3 用LibreOffice Calc 電子表格查看train.tsv
12.4 二元分類算法
第13章 決策樹二元分類
13.1 決策樹的介紹
13.2 創(chuàng)建Classification項目
13.3 開始輸入RunDecisionTreeBinary.scala程序
13.4 數(shù)據(jù)準備階段
13.5 訓練評估階段
13.6 預測階段
13.7 運行RunDecisionTreeBinary.scala
13.6 修改RunDecisionTreeBinary調校訓練參數(shù)
13.7 運行RunDecisionTreeBinary進行參數(shù)調校
13.8 運行RunDecisionTreeBinary不進行參數(shù)調校
第14章 邏輯回歸二元分類
14.1 邏輯回歸分析介紹
14.2 RunLogisticRegression WithSGDBinary.scala程序說明
14.3 運行RunLogisticRegression WithSGDBinary.scala進行參數(shù)調校
14.4 運行RunLogisticRegression WithSGDBinary.scala不進行參數(shù)調校
第15章 支持向量機SVM二元分類
15.1 支持向量機SVM算法的基本概念
15.2 RunSVMWithSGDBinary.scala 程序說明
15.3 運行SVMWithSGD.scala進行參數(shù)調校
15.4 運行SVMWithSGD.scala不進行參數(shù)調校
第16章 樸素貝葉斯二元分類
16.1 樸素貝葉斯分析原理的介紹
16.2 RunNaiveBayesBinary.scala程序說明
16.3 運行NaiveBayes.scala進行參數(shù)調校
16.4 運行NaiveBayes.scala不進行參數(shù)調校
第17章 決策樹多元分類
17.1 “森林覆蓋植被”大數(shù)據(jù)問題分析場景
17.2 UCI Covertype數(shù)據(jù)集介紹
17.3 下載與查看數(shù)據(jù)
17.4 創(chuàng)建RunDecisionTreeMulti.scala
17.5 修改RunDecisionTreeMulti.scala程序
17.6 運行RunDecisionTreeMulti.scala進行參數(shù)調校
17.7 運行RunDecisionTreeMulti.scala不進行參數(shù)調校
第18章 決策樹回歸分析
18.1 Bike Sharing大數(shù)據(jù)問題分析
18.2 Bike Sharing數(shù)據(jù)集
18.3 下載與查看數(shù)據(jù)
18.4 創(chuàng)建RunDecisionTreeRegression.scala
18.5 修改RunDecisionTreeRegression.scala
18.6 運行RunDecisionTreeRegression. scala進行參數(shù)調校
18.7 運行RunDecisionTreeRegression. scala不進行參數(shù)調校
第19章 使用Apache Zeppelin 數(shù)據(jù)可視化
19.1 Apache Zeppelin簡介
19.2 安裝Apache Zeppelin
19.3 啟動Apache Zeppelin
19.4 創(chuàng)建新的Notebook
19.5 使用Zeppelin運行Shell 命令
19.6 創(chuàng)建臨時表UserTable
19.7 使用Zeppelin運行年齡統(tǒng)計Spark SQL
19.8 使用Zeppelin運行性別統(tǒng)計Spark SQL
19.9 按照職業(yè)統(tǒng)計
19.10 Spark SQL加入文本框輸入?yún)?shù)
19.11 加入選項參數(shù)
19.12 同時顯示多個統(tǒng)計字段
19.13 設置工具欄
19.14 設置段落標題
19.15 設置Paragraph段落的寬度
19.16 設置顯示模式

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號