注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫大數據導論

大數據導論

大數據導論

定 價:¥69.00

作 者: 于俊偉,母亞雙,閆秋玲
出版社: 北京大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787301333341 出版時間: 2023-01-01 包裝: 平裝
開本: 16開 頁數: 字數:  

內容簡介

  本書圍繞新工科背景下大數據人才培養(yǎng)需求編寫,系統(tǒng)介紹了大數據采集與預處理、大數據存儲與管理、大數據處理與分析、大數據可視化處理流程;重點分析了科大訊飛大數據平臺在政務、交通、金融和用戶畫像等實際場景中的應用,還介紹了大數據實驗環(huán)境的詳細搭建步驟;最后介紹了大數據治理中法律政策、行業(yè)標準建設的最新進展,分析了大數據可能帶來的倫理風險和應對策略。本書將大數據基礎理論與實際案例結合,輔以編程實踐和有針對性的課后習題,可作為高等院校相關專業(yè)的導論課教材,也可作為大數據相關從業(yè)人員技術參考書。

作者簡介

  于俊偉,博士,河南工業(yè)大學碩士生導師,從事計算機視覺、機器學習和數據科學等方面的研究與教學工作,主持和參與國家自然科學基金、河南省重點研發(fā)與推廣專項等項目7項,發(fā)表學術論文10余篇,翻譯及編著數據科學方面圖書5部。母亞雙,博士,河南工業(yè)大學碩士生導師,從事機器學習、大數據分析與處理等方向的研究與教學工作,主持和參與國家自然科學基金、河南省科技攻關等項目6項,發(fā)表學術論文12篇,申請國家發(fā)明專利2項。閆秋玲,女,博士,主要從事機器學習、大數據分析等方向的研究與教學工作,主持河南省科技攻關項目、河南省教育廳項目、大學生創(chuàng)新創(chuàng)業(yè)訓練項目等教科研項目多項,發(fā)表學術論文7篇,獲得國家發(fā)明專利1項,主編教材1部,翻譯著作2部。

圖書目錄

第 1 章  大數據概述  1
1.1 大數據的產生及其特征  2
1.1.1 大數據的產生  2
1.1.2 大數據的特征  2
1.2 大數據發(fā)展  5
1.2.1 大數據發(fā)展歷程  5
1.2.2 國外大數據戰(zhàn)略  6
1.2.3 中國大數據戰(zhàn)略與政策  7
1.2.4 大數據立法和標準  8
1.3 大數據思維  9
1.3.1 大數據的價值  9
1.3.2 大數據的思維變革  10
1.4 大數據應用  12
1.4.1 大數據應用層次  12
1.4.2 大數據應用領域  13
1.5 大數據技術與工具  15
1.5.1 大數據處理流程  15
1.5.2 大數據行業(yè)全景圖  15
1.5.3 大數據分析平臺  17
1.5.4 大數據編程語言  18
1.6 本章小結  20
1.7 習題  20
第 2 章  大數據采集與預處理  21
2.1 概述  22
2.2 大數據的來源  23
2.3 大數據的采集方法  24
2.3.1 數據庫采集  25
2.3.2 系統(tǒng)日志采集  25
2.3.3 網絡數據采集  25
2.3.4 其他數據采集  26
2.4 大數據預處理方法  27
2.4.1 數據清洗  27
2.4.2 數據集成  30
2.4.3 數據變換  30
2.5 大數據采集與預處理工具  32
2.5.1 網絡爬蟲 Scrapy  32
2.5.2 流數據采集 Kafka  36
2.5.3 ETL 工具 Kettle  38
2.6 本章小結  43
2.7 習題  44
第 3 章  大數據存儲與管理技術  45
3.1 大數據存儲與管理技術概述  46
3.2 分布式文件系統(tǒng)  46
3.2.1 HDFS  47
3.2.2 Ceph  53
3.2.3 GlusterFS  55
3.3 NoSQL 數據庫  57
3.3.1 鍵值數據庫  58
3.3.2 列族數據庫  59
3.3.3 文檔數據庫  62
3.3.4 圖數據庫  62
3.4 大數據查詢系統(tǒng)  63
3.4.1 大數據查詢系統(tǒng)概述  63
3.4.2 Dremel  64
3.5 數據倉庫  65
3.5.1 數據倉庫的特點  65
3.5.2 關系型數據倉庫體系結構  67
3.5.3 數據倉庫 Hive  68
3.5.4 數據倉庫 Impala  70
3.6 本章小結  72
3.7 習題  72
第 4 章  大數據處理與分析系統(tǒng)  73
4.1 概述  74
4.2 谷歌大數據處理系統(tǒng)  74
4.2.1 GFS 74
4.2.2 MapReduce  76
4.2.3 BigTable  76
4.3 分布式計算框架 Hadoop MapReduce  77
4.3.1 Hadoop MapReduce 概述  77
4.3.2 Hadoop MapReduce 應用舉例  79
4.4 快速計算框架 Spark  83
4.4.1 Spark 簡介  83
4.4.2 Spark 運行架構  86
4.4.3 Spark 的部署方式  86
4.4.4 Spark 的數據抽象 RDD  87
4.4.5 Spark MLlib  88
4.4.6 Spark Streaming  89
4.4.7 Spark SQL  91
4.4.8 Spark GraphX  92
4.5 其他大數據分析系統(tǒng)  94
4.5.1 圖計算系統(tǒng) Pregel 95
4.5.2 流處理系統(tǒng) Flink  96
4.6 本章小結  97
4.7 習題  97
第 5 章  大數據機器學習  98
5.1 機器學習簡介  99
5.1.1 機器學習的定義  99
5.1.2 機器學習的分類  99
5.1.3 機器學習的歷史  102
5.1.4 機器學習與數據挖掘的關系  106
5.2 數據  107
5.2.1 數據概述  107
5.2.2 帶有標簽的數據和不帶標簽的數據  107
5.2.3 訓練數據、測試數據、驗證數據  108
5.3 有監(jiān)督學習  109
5.3.1 有監(jiān)督學習簡介  109
5.3.2 回歸  109
5.3.3 分類  112
5.3.4 常見的有監(jiān)督學習方法  114
5.4 無監(jiān)督學習  119
5.4.1 無監(jiān)督學習簡介  119
5.4.2 聚類  119
5.4.3 關聯分析  122
5.5 強化學習  123
5.5.1 強化學習簡介  123
5.5.2 強化學習主流算法  125
5.5.3 強化學習的使用場景  126
5.6 弱監(jiān)督學習  127
5.6.1 弱監(jiān)督學習簡介  127
5.6.2 弱監(jiān)督學習的分類  127
5.7 機器學習的相關資源與工具  128
5.8 本章小結  130
5.9 習題  131
第 6 章  數據可視化  132
6.1 可視化概述  133
6.1.1 可視化的含義  133
6.1.2 可視化的發(fā)展歷程  133
6.1.3 可視化的作用  134
6.2 數據可視化及其分類  135
6.2.1 科學可視化  135
6.2.2 信息可視化  136
6.2.3 可視化分析學  137
6.3 數據可視化工具  138
6.3.1 入門級工具  138
6.3.2 信息圖表工具  138
6.3.3 地圖工具  141
6.3.4 基于編程語言的可視化庫  142
6.4 本章小結  144
6.5 習題  144
第 7 章  大數據行業(yè)應用案例  145
7.1 大數據行業(yè)應用概述  146
7.2 政務大數據  146
7.3 交通大數據  150
7.3.1 人群生活模式劃分  151
7.3.2 道路擁堵模式預測  156
7.4 征信大數據  160
7.4.1 企業(yè)征信大數據應用  160
7.4.2 企業(yè)法人資產建模實踐  168
7.5 畫像大數據  171
7.5.1 用戶畫像概述  171
7.5.2 構建用戶畫像流程  172
7.5.3 構建用戶畫像  175
7.5.4 用戶畫像評估和使用  181
7.6 本章小結  182
7.7 習題  182
第 8 章  大數據平臺與實驗環(huán)境  183
8.1 大數據平臺與環(huán)境概述  184
8.1.1 大數據平臺簡介  184
8.1.2 搭建環(huán)境簡介  186
8.2 安裝虛擬機  186
8.3 在虛擬機中安裝 Linux 系統(tǒng)  189
8.4 為 Ubuntu 系統(tǒng)配置 Java 開發(fā)環(huán)境  191
8.5 在 Ubuntu 系統(tǒng)中安裝 Hadoop  197
8.5.1 查詢和更改主機名  198
8.5.2 更改 host 文件  199
8.5.3 認證 SSH 實現無密碼登錄  200
8.5.4 復制 Hadoop 2.6.0 到指定目錄并解壓  202
8.5.5 配置文件  203
8.5.7 啟動、驗證和關閉 Hadoop  211
8.6 安裝 Eclipse 和 Eclipse-hadoop-plugin  214
8.6.1 安裝 Eclipse  214
8.6.2 配置 Eclipse-hadoop-plugin 214
8.7 新建、導入、運行與調試 Hadoop 工程 216
8.7.1 新建 Hadoop 工程 216
8.7.2 導入已有的 Hadoop 工程 217
8.7.3 運行 Hadoop 工程 219
8.7.4 調試 Hadoop 工程 223
8.8 本章小結  226
8.9 習題  226
第 9 章  大數據治理  227
9.1 大數據治理體系  228
9.2 大數據法律政策  229
9.3 大數據行業(yè)標準  231
9.4 大數據治理內容  234
9.5 大數據倫理風險  237
9.6 本章小結  240
9.7 習題  240
主要參考文獻 241

本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號