注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計Java數(shù)據(jù)科學(xué)指南

Java數(shù)據(jù)科學(xué)指南

Java數(shù)據(jù)科學(xué)指南

定 價:¥79.00

作 者: [加] 魯什迪·夏姆斯(Rushdi Shams) 著,武傳海 譯
出版社: 人民郵電出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787115481634 出版時間: 2018-06-01 包裝: 平裝
開本: 16開 頁數(shù): 302 字?jǐn)?shù):  

內(nèi)容簡介

  現(xiàn)如今,數(shù)據(jù)科學(xué)已經(jīng)成為一個熱門的技術(shù)領(lǐng)域,它涵蓋了人工智能的各個方面,例如數(shù)據(jù)處理、信息檢索、機器學(xué)習(xí)、自然語言處理、數(shù)據(jù)可視化等。而Java作為一門經(jīng)典的編程語言,在數(shù)據(jù)科學(xué)領(lǐng)域也有著杰出的表現(xiàn)。本書旨在通過Java編程來引導(dǎo)讀者更好地完成數(shù)據(jù)科學(xué)任務(wù)。本書通過9章內(nèi)容,詳細地介紹了數(shù)據(jù)獲取與清洗、索引的建立和檢索數(shù)據(jù)、統(tǒng)計分析、數(shù)據(jù)學(xué)習(xí)、信息的提取、大數(shù)據(jù)處理、深度學(xué)習(xí)、數(shù)據(jù)可視化等重要主題。本書適合想通過Java解決數(shù)據(jù)科學(xué)問題的讀者,也適合數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)人士以及普通Java開發(fā)人員閱讀。

作者簡介

  Rushdi Shams畢業(yè)于加拿大韋仕敦大學(xué),獲得了機器學(xué)習(xí)應(yīng)用博士學(xué)位,主攻方向是自然語言處理(Natural Language Processing,NLP)。在成為機器學(xué)習(xí)與NLP領(lǐng)域的專家之前,他講授本科生與研究生課程。在YouTube上,他一直運營著一個名為“跟Rushdi一起學(xué)”(Learn with Rushdi)的頻道,并且做得有聲有色,該頻道主要面向想學(xué)習(xí)計算機技術(shù)的朋友。

圖書目錄

第 1章 獲取數(shù)據(jù)與清洗數(shù)據(jù) 1
1.1 簡介 2
1.2 使用Java從分層目錄中提取所有文件名 3
準(zhǔn)備工作 3
操作步驟 3
1.3 使用Apache Commons IO從多層目錄中提取所有文件名 5
準(zhǔn)備工作 5
操作步驟 5
1.4 使用Java 8從文本文件一次性讀取所有內(nèi)容 6
操作步驟 7
1.5 使用Apache Commons IO從文本文件一次性讀取所有內(nèi)容 7
準(zhǔn)備工作 7
操作方法 8
1.6 使用Apache Tika提取PDF文本 8
準(zhǔn)備知識 9
操作步驟 9
1.7 使用正則表達式清洗ASCII文本文件 11
操作步驟 11
1.8 使用Univocity解析CSV文件 12
準(zhǔn)備工作 13
操作步驟 13
1.9 使用Univocity解析TSV文件 15
準(zhǔn)備工作 15
操作步驟 16
1.10 使用JDOM解析XML文件 17
準(zhǔn)備工作 17
操作步驟 18
1.11 使用JSON.simple編寫JSON文件 20
準(zhǔn)備工作 20
操作步驟 21
1.12 使用JSON.simple讀取JSON文件 23
準(zhǔn)備工作 24
操作步驟 24
1.13 使用JSoup從一個URL提取Web數(shù)據(jù) 26
準(zhǔn)備工作 26
操作步驟 26
1.14 使用Selenium Webdriver從網(wǎng)站提取Web數(shù)據(jù) 29
準(zhǔn)備工作 29
操作步驟 29
1.15 從MySQL數(shù)據(jù)庫讀取表格數(shù)據(jù) 32
準(zhǔn)備工作 32
操作步驟 32
第 2章 為數(shù)據(jù)建立索引與搜索數(shù)據(jù) 35
2.1 簡介 35
2.2 使用Apache Lucene為數(shù)據(jù)建立索引 35
準(zhǔn)備工作 36
操作步驟 40
工作原理 47
2.3 使用Apache Lucene搜索帶索引的數(shù)據(jù) 50
準(zhǔn)備工作 50
操作步驟 51
第3章 數(shù)據(jù)統(tǒng)計分析 56
3.1 簡介 57
3.2 生成描述性統(tǒng)計 59
操作步驟 59
3.3 生成概要統(tǒng)計 60
操作步驟 60
3.4 從多種分布生成概要統(tǒng)計 61
操作步驟 62
更多內(nèi)容 63
3.5 計算頻率分布 64
操作步驟 64
3.6 計算字符串中的詞頻 65
操作步驟 65
工作原理 67
3.7 使用Java 8計算字符串中的詞頻 67
操作步驟 67
3.8 計算簡單回歸 68
操作步驟 69
3.9 計算普通最小二乘回歸 70
操作步驟 70
3.10 計算廣義最小二乘回歸 72
操作步驟 72
3.11 計算兩組數(shù)據(jù)點的協(xié)方差 74
操作步驟 74
3.12 為兩組數(shù)據(jù)點計算皮爾遜相關(guān)系數(shù) 75
操作步驟 75
3.13 執(zhí)行配對t檢驗 76
操作步驟 76
3.14 執(zhí)行卡方檢驗 77
操作步驟 78
3.15 執(zhí)行單因素方差分析
(one-way ANOVA test) 79
操作步驟 79
3.16 執(zhí)行K-S檢驗 81
操作步驟 81
第4章 數(shù)據(jù)學(xué)習(xí)Ⅰ 83
4.1 簡介 83
4.2 創(chuàng)建與保存ARFF文件 84
操作步驟 87
4.3 對機器學(xué)習(xí)模型進行交叉驗證 91
操作步驟 91
4.4 對新的測試數(shù)據(jù)進行分類 95
準(zhǔn)備工作 95
操作步驟 96
4.5 使用過濾分類器對新測試數(shù)據(jù)分類 102
操作步驟 102
4.6 創(chuàng)建線性回歸模型 105
操作步驟 106
4.7 創(chuàng)建邏輯回歸模型 108
操作步驟 108
4.8 使用K均值算法對數(shù)據(jù)點
進行聚類 110
操作步驟 110
4.9 依據(jù)類別對數(shù)據(jù)進行聚類處理 113
操作方法 113
4.10 學(xué)習(xí)數(shù)據(jù)間的關(guān)聯(lián)規(guī)則 116
準(zhǔn)備工作 116
操作步驟 116
4.11 使用低層方法、過濾方法、元分類器方法選擇特征/屬性 118
準(zhǔn)備工作 119
操作步驟 119
第5章 數(shù)據(jù)學(xué)習(xí)Ⅱ 125
5.1 簡介 125
5.2 使用Java機器學(xué)習(xí)庫(Java-ML)向數(shù)據(jù)應(yīng)用機器學(xué)習(xí) 126
準(zhǔn)備工作 126
操作步驟 128
5.3 使用斯坦福分類器對數(shù)據(jù)點分類 137
準(zhǔn)備工作 137
操作步驟 140
工作原理 141
5.4 使用MOA對數(shù)據(jù)點分類 142
準(zhǔn)備工作 142
操作步驟 144
5.5 使用Mulan對多標(biāo)簽數(shù)據(jù)點進行分類 147
準(zhǔn)備工作 147
操作步驟 150
第6章 從文本數(shù)據(jù)提取信息 154
6.1 簡介 154
6.2 使用Java檢測標(biāo)記(單詞) 155
準(zhǔn)備工作 155
操作步驟 155
6.3 使用Java檢測句子 160
準(zhǔn)備工作 160
操作步驟 160
6.4 使用OpenNLP檢測標(biāo)記(單詞)與句子 161
準(zhǔn)備工作 162
操作步驟 163
6.5 使用Stanford CoreNLP從標(biāo)記中提取詞根、詞性,以及
識別命名實體 167
準(zhǔn)備工作 167
操作步驟 169
6.6 使用Java 8借助余弦相似性測度測量文本相似度 171
準(zhǔn)備工作 172
操作步驟 172
6.7 使用Mallet從文本文檔提取主題 176
準(zhǔn)備工作 177
操作步驟 179
6.8 使用Mallet對文本文檔進行分類 184
準(zhǔn)備工作 184
操作步驟 185
6.9 使用Weka對文本文檔進行分類 189
準(zhǔn)備工作 190
操作步驟 191
第7章 處理大數(shù)據(jù) 194
7.1 簡介 194
7.2 使用Apache Mahout訓(xùn)練在線邏輯回歸模型 195
準(zhǔn)備工作 195
操作步驟 198
7.3 使用Apache Mahout應(yīng)用在線邏輯回歸模型 202
準(zhǔn)備工作 202
操作步驟 203
7.4 使用Apache Spark解決簡單的文本挖掘問題 207
準(zhǔn)備工作 208
操作步驟 210
7.5 使用MLib的K均值算法做聚類 214
準(zhǔn)備工作 214
操作步驟 214
7.6 使用MLib創(chuàng)建線性回歸模型 217
準(zhǔn)備工作 217
操作步驟 218
7.7 使用MLib的隨機森林模型對數(shù)據(jù)點進行分類 222
準(zhǔn)備工作 222
操作步驟 223
第8章 數(shù)據(jù)深度學(xué)習(xí) 229
8.1 簡介 229
8.2 使用DL4j創(chuàng)建Word2vec神經(jīng)網(wǎng)絡(luò) 241
操作方法 241
工作原理 243
更多內(nèi)容 246
8.3 使用DL4j創(chuàng)建深度信念神經(jīng)網(wǎng)絡(luò) 246
操作步驟 246
工作原理 250
8.4 使用DL4j創(chuàng)建深度自動編碼器 254
操作步驟 254
工作原理 256
第9章 數(shù)據(jù)可視化 259
9.1 簡介 259
9.2 繪制2D正弦曲線 260
準(zhǔn)備工作 260
操作步驟 262
9.3 繪制直方圖 266
準(zhǔn)備工作 266
操作步驟 268
9.4 繪制條形圖 273
準(zhǔn)備工作 274
操作步驟 275
9.5 繪制箱線圖或箱須圖 279
準(zhǔn)備工作 279
操作步驟 281
9.6 繪制散點圖 285
準(zhǔn)備工作 285
操作步驟 286
9.7 繪制甜圈圖 289
準(zhǔn)備工作 289
操作步驟 290
9.8 繪制面積圖 294
準(zhǔn)備工作 294
操作步驟 295

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號