注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件數(shù)據(jù)科學(xué)概論

數(shù)據(jù)科學(xué)概論

數(shù)據(jù)科學(xué)概論

定 價:¥68.00

作 者: 覃雄派 著
出版社: 中國人民大學(xué)出版社
叢編項: 數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787300252926 出版時間: 2018-01-01 包裝: 平裝
開本: 16開 頁數(shù): 576 字?jǐn)?shù):  

內(nèi)容簡介

  數(shù)據(jù)科學(xué)是一門正在興起的學(xué)科,國內(nèi)外各個大學(xué)開始開設(shè)數(shù)據(jù)科學(xué)課程或類似課程,并且編寫配套教材。我們的教材在內(nèi)容上按照四大模塊進(jìn)行組織,分別是數(shù)據(jù)科學(xué)基礎(chǔ)、數(shù)據(jù)以及數(shù)據(jù)上的計算(分析)、數(shù)據(jù)處理基礎(chǔ)設(shè)施/平臺和工具、以及大數(shù)據(jù)的案例和實踐。我們認(rèn)為這樣的組織,使得內(nèi)容體系相對完整。

作者簡介

  覃雄派(1971?),男,博士,中國人民大學(xué)信息學(xué)院講師、碩士生導(dǎo)師,目前主要從事高性能數(shù)據(jù)庫、大數(shù)據(jù)分析、信息檢索等方面的研究工作,主持1項國家自然科學(xué)基金面上項目,參與多項國家“863”計劃、“973”計劃及國家自然科學(xué)基金項目,在國內(nèi)外期刊和會議上發(fā)表論文20余篇。陳躍國(1978?),男,博士,中國人民大學(xué)信息學(xué)院副教授、博士生導(dǎo)師,中國計算機(jī)學(xué)會高級會員,數(shù)據(jù)庫專家委員會委員,大數(shù)據(jù)專家委員會通信委員,F(xiàn)rontiersofComputerScience青年編委,主要研究方向為大數(shù)據(jù)分析系統(tǒng)和語義搜索。主持國家自然科學(xué)基金項目2項,廣東省科技應(yīng)用重大專項1項,參與多項國家核高基(核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品)、“973”計劃、“863”計劃項目,近年來在SIGMOD、SIGIR、ICDE、AAAI、IEEETKDE、WWW等國際重要期刊和會議上發(fā)表論文30余篇杜小勇(1963?),男,博士,中國人民大學(xué)信息學(xué)院教授,博士生導(dǎo)師,教育部數(shù)據(jù)工程與知識工程重點實驗室主任,中國計算機(jī)學(xué)會會士,《大數(shù)據(jù)》期刊編委會副主任。主要研究方向為智能信息檢索、高性能數(shù)據(jù)庫、知識工程。主持和參與多項國家核高基(核心電子器件、高端通用芯片及基礎(chǔ)軟件產(chǎn)品)、“973”計劃、“863”計劃、國家自然科學(xué)基金項目,近年來在SIGMOD、VLDB、AAAI、IEEETKDE等國際重要期刊和會議上發(fā)表論文百余篇。

圖書目錄

理論篇//
 
1 數(shù)據(jù)科學(xué)概論
1.1 數(shù)據(jù)科學(xué)的定義
1.2 數(shù)據(jù)科學(xué)的定位
1.2.1 數(shù)據(jù)科學(xué)與數(shù)據(jù)庫、大數(shù)據(jù)分析的關(guān)系
1.2.2 數(shù)據(jù)科學(xué)與基于數(shù)據(jù)的決策的關(guān)系
1.3 數(shù)據(jù)科學(xué)家
1.3.1 數(shù)據(jù)科學(xué)家的技能
1.4 數(shù)據(jù)科學(xué)的基本原則(Principle)
1.4.1 原則1:數(shù)據(jù)分析可以劃分成一系列明確的階段
1.4.2 原則2:描述性分析與預(yù)測性分析
1.4.3 原則3:實體的相似度
1.4.4 原則4:模型的泛化能力
1.4.5 原則5:分析結(jié)果的評估與特定應(yīng)用場景有關(guān)
1.4.6 原則6:相關(guān)性不同于因果關(guān)系
1.4.7 原則7:通過并行處理提高數(shù)據(jù)處理(分析)速度
1.5 數(shù)據(jù)處理流程:時間維度的縱向視角
1.6 數(shù)據(jù)處理系統(tǒng)的架構(gòu):系統(tǒng)維度的計算視角
1.6.1 數(shù)據(jù)處理系統(tǒng)的層次架構(gòu)
1.6.2 數(shù)據(jù)處理系統(tǒng)的Lambda架構(gòu)
1.7 數(shù)據(jù)的多樣性:數(shù)據(jù)類型維度的橫向視角
1.8 數(shù)據(jù)價值的挖掘:價值維度的價值提升視角
1.9 思考題
 
2 OLTP與數(shù)據(jù)服務(wù)
2.1 面向OLTP應(yīng)用的RDBMS數(shù)據(jù)庫技術(shù)
2.1.1 關(guān)系數(shù)據(jù)庫技術(shù)與SQL查詢語言
2.1.2 利用索引加快數(shù)據(jù)訪問
2.1.3 數(shù)據(jù)庫的事務(wù)處理、恢復(fù)技術(shù)與安全保證
2.1.4 并行數(shù)據(jù)庫與分布式數(shù)據(jù)庫
2.2 面向數(shù)據(jù)服務(wù)的NoSQL數(shù)據(jù)庫技術(shù)
2.2.1 NoSQL數(shù)據(jù)庫技術(shù)
2.2.2 CAP理論
2.2.3 Key-Value數(shù)據(jù)庫
2.2.4 Column Family數(shù)據(jù)庫
2.2.5 Document數(shù)據(jù)庫
2.2.6 Graph數(shù)據(jù)庫
2.3 NewSQL數(shù)據(jù)庫技術(shù)
2.3.1 VoltDB數(shù)據(jù)庫
2.3.2 Google Spanner數(shù)據(jù)庫
2.4 思考題
 
3 OLAP與結(jié)構(gòu)化數(shù)據(jù)分析
3.1 聯(lián)機(jī)分析處理(OLAP)與結(jié)構(gòu)化數(shù)據(jù)分析
3.1.1 從操作型的業(yè)務(wù)數(shù)據(jù)庫向數(shù)據(jù)倉庫抽取、轉(zhuǎn)換和裝載數(shù)據(jù)
3.1.2 數(shù)據(jù)倉庫與星型模型
3.1.3 聯(lián)機(jī)分析處理OLAP
3.1.4 三種類型的OLAP系統(tǒng)
3.2 高性能OLAP系統(tǒng)的關(guān)鍵技術(shù)
3.2.1 列存儲技術(shù)
3.2.2 位圖索引技術(shù)
3.2.3 內(nèi)存數(shù)據(jù)庫技術(shù)
3.2.4 MPP并行數(shù)據(jù)庫
3.3 結(jié)構(gòu)化數(shù)據(jù)分析工具介紹
3.3.1 MPP(Shared-Nothing)數(shù)據(jù)庫、基于列存儲的關(guān)系數(shù)據(jù)庫
3.3.2 SQL on Hadoop系統(tǒng)
3.3.3 性能比較
3.4 思考題
 
4 數(shù)據(jù)清洗與數(shù)據(jù)集成
4.1 數(shù)據(jù)抽取、轉(zhuǎn)換與裝載
4.2 數(shù)據(jù)清洗
4.2.1 數(shù)據(jù)清洗的意義
4.2.2 數(shù)據(jù)異常的不同類型
4.2.3 數(shù)據(jù)質(zhì)量
4.2.4 數(shù)據(jù)清洗的任務(wù)和過程
4.2.5 數(shù)據(jù)清洗的具體方法
4.3 數(shù)據(jù)集成
4.3.1 數(shù)據(jù)集成
4.3.2 數(shù)據(jù)集成需要解決的問題—異構(gòu)性(Heterogeneity)
4.3.3 數(shù)據(jù)集成的模式
4.3.4 實體解析(Entity Resolution)
4.4 思考題
 
5 數(shù)據(jù)的深度分析(數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí))
5.1 機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘簡介
5.2 主流機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法
5.2.1 決策樹
5.2.2 聚類算法K-Means
5.2.3 分類算法支持向量機(jī)SVM
5.2.4 關(guān)聯(lián)規(guī)則分析(Association Rule Analysis)Apriori算法
5.2.5 EM(Expectation–Maximization)算法
5.2.6 協(xié)同過濾推薦算法(Collaborative Filtering Recommendation)
5.2.7 kNN(k近鄰)算法
5.2.8 樸素Bayes(Naive Bayes)算法
5.2.9 AdaBoost算法
5.2.10 線性回歸、Logistic回歸
5.2.11 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)(Neural Network and Deep Learning)
5.2.12 特征選擇
5.3 主流數(shù)據(jù)深度分析工具
5.3.1 Mahout系統(tǒng)
5.3.2 Spark MLlib系統(tǒng)
5.3.3 Weka系統(tǒng)
5.3.4 R系統(tǒng)與語言
5.3.5 SPSS與Matlab
5.3.6 深度學(xué)習(xí)工具TensorFlow, Caffe
5.4 思考題
 
6 流數(shù)據(jù)處理
6.1 流數(shù)據(jù)處理應(yīng)用
6.2 流式處理(Stream Processing)和批處理(Batch Processing)的區(qū)別
6.3 流數(shù)據(jù)模型
6.4 流數(shù)據(jù)上的查詢實例
6.5 流數(shù)據(jù)處理系統(tǒng)的查詢處理
6.5.1 內(nèi)存需求(Memory Requirement)
6.5.2 近似查詢結(jié)果(Approximate Query Answering)
6.5.3 滑動窗口(Sliding Window)
6.5.4 查詢數(shù)據(jù)流的歷史數(shù)據(jù)(Referencing Past Data)
6.5.5 多查詢優(yōu)化與查詢計劃的適應(yīng)性
6.5.6 堵塞操作符(Blocking Operator)
6.5.7 數(shù)據(jù)流里的時間戳(Timestamps in Stream)
6.5.8 批處理(Batch Processing)、采樣(Sampling)、梗概(Synopsis)
6.6 查詢處理的基礎(chǔ)算法
6.6.1 隨機(jī)采樣(Random Sample)
6.6.2 梗概技術(shù)(Sketch Technique)
6.6.3 直方圖(Histogram)
6.6.4 小波(Wavelet)分析
6.6.5 布隆過濾器(Bloom Filter)
6.6.6 計數(shù)小梗概(Count-Min Sketch)
6.7 流數(shù)據(jù)處理系統(tǒng)
6.7.1 Storm簡介
6.7.2 其它流數(shù)據(jù)處理系統(tǒng)
6.8 思考題
 
7 文本分析
7.1 文本分析的意義
7.2 文本分析的任務(wù)和方法
7.2.1 句子切分、分詞、詞性標(biāo)注、語法分析
7.2.2 文本索引和檢索(Indexing and Search)
7.2.3 文本分類(Text Classification)
7.2.4 文本聚類(Text Clustering)
7.2.5 文檔摘要(Document Summarization)
7.2.6 主題抽取(Topic Theme Extraction)
7.2.7 命名實體識別、概念抽取和關(guān)系抽取、事實抽取
7.2.8 情感分析(Sentiment Analysis)
7.2.9 其它文本分析任務(wù)與方法
7.3 文本分析可視化
7.3.1 標(biāo)記云(Tag Cloud,也叫Word Cloud)
7.3.2 詞共現(xiàn)分析與可視化(Co-Word Analysis & Visualization)
7.4 文本分析軟件和工具
7.4.1 NLTK
7.4.2 OPEN NLP
7.4.3 Stanford NLP
7.4.4 LingPipe
7.4.5 GATE
7.4.6 UIMA
7.4.7 Netlytic
7.4.8 WordNet和SentiWordNet
7.5 思考題
 
8 社交網(wǎng)絡(luò)分析
8.1 簡介
8.2 社交網(wǎng)絡(luò)分析的應(yīng)用
8.3 社交網(wǎng)絡(luò)分析方法
8.3.1 網(wǎng)絡(luò)的一些基本屬性
8.3.2 復(fù)雜網(wǎng)絡(luò)的一些拓?fù)涮匦?br />8.3.3 節(jié)點的中心性(Centrality)
8.3.4 可達(dá)性、路徑、短路徑、小生成樹
8.3.5 凝聚子群與社區(qū)檢測
8.3.6 鏈路預(yù)測、信息擴(kuò)散與影響力分析
8.3.7 核心-邊緣分析
8.3.8 位置和角色、子圖查詢、網(wǎng)絡(luò)模體
8.4 軟件
8.4.1 Gephi
8.4.2 UCINET
8.4.3 Pajek
8.4.4 NodeXL
8.5 思考題
 
9 語義網(wǎng)與知識圖譜
9.1 語義網(wǎng)(Semantic Web)的基本概念
9.2 語義網(wǎng)體系結(jié)構(gòu)
9.3 語義網(wǎng)的關(guān)鍵技術(shù)
9.3.1 XML(Extensible Markup Language, 擴(kuò)展標(biāo)記語言)
9.3.2 RDF(Resource Description Framework, 資源描述框架)
9.3.3 OWL與本體Ontology
9.4 知識庫與知識圖譜
9.4.1 知識庫與Linked Open Data
9.4.2 知識圖譜
9.4.3 知識圖譜的創(chuàng)建
9.4.4 知識圖譜的挖掘
9.5 思考題
 
10 數(shù)據(jù)可視化、可視分析、與探索式數(shù)據(jù)分析
10.1 什么是可視化
10.2 可視化的強(qiáng)大威力
10.3 可視化的一般過程
10.4 科學(xué)可視化與信息可視化
10.5 數(shù)據(jù)可視化的原則
10.6 可視化實例
10.6.1 散點圖與直方圖
10.6.2 線圖
10.6.3 柱狀圖與餅圖
10.6.4 解剖圖、切片、等值面
10.6.5 表現(xiàn)層次關(guān)系:樹、圓錐樹、Tree Map、信息立方體
10.6.6 地圖(Map)和地球(Earth)
10.6.7 社交網(wǎng)絡(luò)(Social network)
10.6.8 堆疊的河流(Stacked River)
10.6.9 多維數(shù)據(jù)的展示
10.6.10 特色可視化應(yīng)用
10.7 可視化的挑戰(zhàn)和趨勢
10.8 可視分析技術(shù)
10.9 探索式數(shù)據(jù)分析
10.10 探索式數(shù)據(jù)分析的作用
10.11 探索式數(shù)據(jù)分析的基本方法
10.11.1 了解變量的分布情況、計算統(tǒng)計值
10.11.2 了解變量之間的關(guān)系
10.11.3 了解因子變量的相對重要性
10.11.4 在探索式數(shù)據(jù)分析中對高維數(shù)據(jù)進(jìn)行降維
10.11.5 探索式數(shù)據(jù)分析案例
10.12 可視化工具介紹
10.12.1 D3.js
10.12.2 Processing.js
10.12.3 Protovis
10.12.4 Prefuse
10.12.5 Matplotlib
10.13 思考題
 
應(yīng)用篇 //
 
11 云計算平臺
11.1 云計算的概念與特點
11.1.1 云計算的概念
11.1.2 云計算的特點
11.1.3 云計算與并行計算、分布式計算、集群計算、網(wǎng)格計算的區(qū)別與聯(lián)系
11.2 云計算與大數(shù)據(jù)處理的關(guān)系
11.3 云計算類型與典型系統(tǒng)
11.4 虛擬化技術(shù)與數(shù)據(jù)中心
11.4.1 服務(wù)器虛擬化
11.4.2 存儲虛擬化
11.4.3 網(wǎng)絡(luò)虛擬化
11.4.4 數(shù)據(jù)中心
11.5 主流產(chǎn)品與特點
11.5.1 VMWare
11.5.2 Hyper-V
11.5.3 KVM
11.5.4 XEN
11.6 Openstack開源虛擬化平臺
11.7 主流廠商的云計算產(chǎn)品和服務(wù)
11.7.1 Amazon
11.7.2 微軟
11.7.3 Google
11.7.4 阿里云
11.8 思考題
 
12 Hadoop及其生態(tài)系統(tǒng)
12.1 Hadoop簡介
12.2 Hadoop分布式文件系統(tǒng)
12.2.1 寫文件
12.2.2 讀文件
12.2.3 Secondary NameNode介紹
12.3 MapReduce工作原理
12.3.1 MapReduce執(zhí)行引擎
12.3.2 MapReduce計算模型
12.3.3 Hadoop 1.0的應(yīng)用
12.4 Hadoop生態(tài)系統(tǒng)
12.4.1 Hive原理
12.5 Hadoop2.0版(YARN)
12.5.1 Hadoop 1.0的優(yōu)勢和局限
12.5.2 業(yè)務(wù)需求推動持續(xù)創(chuàng)新
12.5.3 YARN原理
12.5.4 YARN的優(yōu)勢
12.6 Hadoop 2.0上的交互式查詢引擎Hive on Tez
12.6.1 Tez原理
12.6.2 把數(shù)據(jù)處理邏輯建模成一個DAG連接起來的任務(wù)
12.6.3 Tez(DAG Job)相對于MapReduce(Job)的優(yōu)勢
12.7 Hadoop平臺上的列存儲技術(shù)
12.7.1 列存儲的優(yōu)勢
12.7.2 RCFile
12.7.3 ORC存儲格式
12.7.4 Parquet文件格式
12.8 思考題
 
13 Spark及其生態(tài)系統(tǒng)
13.1 簡介
13.1.1 Spark軟件架構(gòu)
13.1.2 Spark的主要優(yōu)勢
13.2 Hadoop的局限和Spark的誕生
13.3 Spark特性總結(jié)
13.4 Spark生態(tài)系統(tǒng)
13.5 RDD及其處理
13.5.1 DAG、寬依賴與窄依賴
13.5.2 DAG的調(diào)度執(zhí)行
13.5.3 共享變量(Shared Variable)
13.6 Spark SQL
13.6.1 SparkSQL應(yīng)用程序
13.7 Spark應(yīng)用案例
13.7.1 Spark的其它應(yīng)用案例
13.8 總結(jié)
13.9 思考題
 
14 Python與數(shù)據(jù)科學(xué)
14.1 Python概述
14.2 Python開發(fā)環(huán)境配置(Setup)
14.3 通過一系列實例學(xué)習(xí)Python(Learn Python Step by Step with Examples)
14.3.1 變量/常量/注釋
14.3.2 數(shù)據(jù)類型
14.3.3 運算符及其優(yōu)先級、表達(dá)式
14.3.4 順序、分支、循環(huán)程序結(jié)構(gòu)
14.3.5 函數(shù)、庫函數(shù)的使用
14.3.6 類和對象、對象的構(gòu)造、對象摧毀、封裝和繼承、重寫
14.3.7 異常處理
14.3.8 正則表達(dá)式
14.3.9 文件I/O(輸入輸出)
14.4 第三方庫和實例(3th Party Libraries and Examples)
14.4.1 Pandas介紹與實例
14.4.2 scikit-learn介紹與實例
14.4.3 深度學(xué)習(xí)庫Keras(基于Tensorflow、Theano)
14.4.4 Matplotlib 介紹與實例
14.4.5 NetworkX介紹與實例
14.4.6 NLTK介紹與實例
14.5 思考題
 
15 評測基準(zhǔn)
15.1 評測基準(zhǔn)概述
15.1.1 評測基準(zhǔn)的目的和作用
15.1.2 評測基準(zhǔn)的構(gòu)成
15.1.3 評測基準(zhǔn)的分類
15.1.4 評測基準(zhǔn)的選擇
15.2 功能性評測基準(zhǔn)Daytona 100TB Gray Sort
15.3 面向OLTP應(yīng)用的評測基準(zhǔn)
15.3.1 TPC-C標(biāo)準(zhǔn)
15.3.2 TPC-C的數(shù)據(jù)模型
15.3.3 TPC-C的負(fù)載
15.3.4 TPC-C的性能指標(biāo)
15.4 面向OLAP應(yīng)用的評測基準(zhǔn)
15.4.1 TPC-H標(biāo)準(zhǔn)
15.4.2 TPC-H的數(shù)據(jù)模型
15.4.3 TPC-H的負(fù)載
15.4.4 3個測試
15.4.5 TPC-H的性能指標(biāo)
15.4.6 數(shù)據(jù)生成器和查詢負(fù)載生成器
15.4.7 TPC-DS簡介
15.5 面向大數(shù)據(jù)應(yīng)用的評測基準(zhǔn)
15.5.1 面向數(shù)據(jù)服務(wù)的評測基準(zhǔn) - YCSB
15.5.2 面向大數(shù)據(jù)分析處理的評測基準(zhǔn) - Big Bench和BigDataBench
15.5.3 其它評測基準(zhǔn)
15.6 思考題
 
16 數(shù)據(jù)科學(xué)案例
16.1 Google流感趨勢預(yù)測(Google Flu Trends)
16.2 Target利用數(shù)據(jù)分析預(yù)測到一個高中女生的懷孕
16.3 互聯(lián)網(wǎng)輿情監(jiān)控與管理
16.4 投資與信用
16.4.1 大數(shù)據(jù)指數(shù)基金
16.4.2 基于大數(shù)據(jù)的信用評價
16.5 IBM Watson計算機(jī)與醫(yī)療
16.6 奧巴馬競選團(tuán)隊利用大數(shù)據(jù)分析技術(shù),幫助奧巴馬競選連任成功
16.7 數(shù)據(jù)科學(xué)與科學(xué)研究
16.8 奧斯卡大獎預(yù)測、總統(tǒng)選舉預(yù)測、世界杯預(yù)測
16.9 用戶畫像與精準(zhǔn)廣告
16.10 自動短文評分(Automatic Essay Scoring)
16.11 數(shù)據(jù)產(chǎn)品(Data Product)
16.12 其它數(shù)據(jù)科學(xué)案例
16.13 思考題
 
17 數(shù)據(jù)科學(xué)實踐
17.1 概述
17.1.1 算法交易和量化交易
17.1.2 量化交易系統(tǒng)的四大模塊
17.1.3 交易策略的研發(fā)、測試、上線過程
17.1.4 量化交易系統(tǒng)的評價指標(biāo)
17.2 工具和平臺介紹
17.2.1 Zipline函數(shù)庫介紹
17.2.2 Quantopian介紹
17.3 基于規(guī)則的交易策略
17.3.1 移動平均交叉交易策略
17.3.2 均值回歸交易策略
17.4 基于機(jī)器學(xué)習(xí)的交易策略
17.4.1 基于Random Forest分類器的交易策略(分類)
17.4.2 基于SVM回歸模型的交易策略(回歸)
17.5 關(guān)于若干專題的討論
17.5.1 股票價格預(yù)測的基礎(chǔ)數(shù)據(jù)
17.5.2 特征選擇(Feature Selection)
17.5.3 模型的組合(Model Combination)
17.5.4 離線的模型訓(xùn)練(Offline Model Training)
17.5.5 使用大數(shù)據(jù)處理引擎處理大數(shù)據(jù)(using of Big Data Engine)
17.5.6 在交易模型中集成情感分析結(jié)果(Integrating Sentiment Analysis into Trading Model)
17.6 思考題
 
18 附錄
18.1 參考文獻(xiàn)
18.2 專有名詞

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號