注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫設(shè)計(jì)/管理命令行中的數(shù)據(jù)科學(xué)

命令行中的數(shù)據(jù)科學(xué)

命令行中的數(shù)據(jù)科學(xué)

定 價(jià):¥49.00

作 者: (荷)詹森斯(Jeroen Janssens)著;王曉偉,劉峰 譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787115391681 出版時(shí)間: 2015-06-01 包裝:
開本: 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書集實(shí)用性和先進(jìn)性于一身,為數(shù)據(jù)分析人員使用命令行這個(gè)靈活的工具提供了重要參考。作者講解了眾多實(shí)用的命令行工具,以及如何使用它們高效地獲取、清洗、探索和建模數(shù)據(jù)。無論你使用Windows、OS X,還是Linux,都可以安裝包含80多個(gè)命令行工具的“數(shù)據(jù)科學(xué)工具箱”,迅速建立自己的數(shù)據(jù)分析環(huán)境。無論你是否已經(jīng)習(xí)慣于使用Python或R語言,都能夠通過本書體會(huì)到使用命令行的快捷、靈活與伸縮自如。

作者簡(jiǎn)介

  Jeroen Janssens愛思唯爾(世界領(lǐng)先的科技及醫(yī)學(xué)出版公司)首席數(shù)據(jù)科學(xué)家,曾是紐約YPlan公司高級(jí)數(shù)據(jù)科學(xué)家。專門從事機(jī)器學(xué)習(xí)、異常檢測(cè)和數(shù)據(jù)可視化。在荷蘭馬斯特里赫特大學(xué)獲得人工智能碩士學(xué)位,在荷蘭蒂爾堡大學(xué)獲得機(jī)器學(xué)習(xí)博士學(xué)位。他熱衷于創(chuàng)建數(shù)據(jù)科學(xué)的開源工具,個(gè)人網(wǎng)站是http://jeroenjanssens.com/。王曉偉(譯)畢業(yè)于國防科學(xué)技術(shù)大學(xué),獲計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)博士學(xué)位。研究興趣為海量數(shù)據(jù)管理與挖掘。劉峰(譯)百度LBS位置大數(shù)據(jù)部資深研發(fā)工程師,新加坡南洋理工大學(xué)計(jì)算機(jī)工程系博士,研究領(lǐng)域包括機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等。2010年加入百度,主要從事大數(shù)據(jù)分析和挖掘方面的工作,近年來專注于網(wǎng)絡(luò)定位、智能交通等LBS大數(shù)據(jù)的挖掘和機(jī)器學(xué)習(xí)應(yīng)用。

圖書目錄

前言
第1章 簡(jiǎn)介 
 1.1 概述 
 1.2 數(shù)據(jù)科學(xué)就是OSEMN 
 1.2.1 數(shù)據(jù)獲取 
 1.2.2 數(shù)據(jù)清洗 
 1.2.3 數(shù)據(jù)探索 
 1.2.4 數(shù)據(jù)建?!?br />  1.2.5 數(shù)據(jù)解釋 
 1.3 插入的幾章 
 1.4 什么是命令行 
 1.5 為什么用命令行做數(shù)據(jù)科學(xué)工作 
 1.5.1 命令行的靈活性 
 1.5.2 命令行可增強(qiáng) 
 1.5.3 命令行可擴(kuò)展 
 1.5.4 命令行可擴(kuò)充 
 1.5.5 命令行無處不在 
 1.6 一個(gè)現(xiàn)實(shí)用例 
 1.7 延伸閱讀 
第2章 入門指南 
 2.1 概述 
 2.2 設(shè)置數(shù)據(jù)科學(xué)工具箱 
 2.2.1 步驟1:下載和安裝VirtualBox 
 2.2.2 步驟2:下載和安裝Vagrant 
 2.2.3 步驟3:下載并啟動(dòng)數(shù)據(jù)科學(xué)工具箱 
 2.2.4 步驟4:登錄(Linux 和Mac OS X) 
 2.2.5 步驟4:登錄(微軟Windows) 
 2.2.6 步驟5:關(guān)閉或重啟 
 2.3 必要的概念和工具 
 2.3.1 環(huán)境 
 2.3.2 運(yùn)行命令行工具 
 2.3.3 五類命令行工具 
 2.3.4 命令行工具的組合 
 2.3.5 輸入和輸出重定向 
 2.3.6 處理文件 
 2.3.7 尋求幫助 
 2.4 延伸閱讀 
第3章 數(shù)據(jù)獲取 
 3.1 概述 
 3.2 將本地文件復(fù)制到數(shù)據(jù)科學(xué)工具箱 
 3.2.1 本地?cái)?shù)據(jù)科學(xué)工具箱 
 3.2.2 遠(yuǎn)程數(shù)據(jù)科學(xué)工具箱 
 3.3 解壓縮文件 
 3.4 微軟Excel 電子表格的轉(zhuǎn)換 
 3.5 查詢關(guān)系數(shù)據(jù)庫 
 3.6 從互聯(lián)網(wǎng)下載 
 3.7 調(diào)用Web API 
 3.8 延伸閱讀 
第4章 創(chuàng)建可重用的命令行工具 
 4.1 概述 
 4.2 將單行轉(zhuǎn)變?yōu)閟hell 腳本 
 4.2.1 步驟1:復(fù)制和粘貼 
 4.2.2 步驟2:添加執(zhí)行權(quán)限 
 4.2.3 步驟3:定義shebang 
 4.2.4 步驟4:刪除固定的輸入 
 4.2.5 步驟5:參數(shù)化 
 4.2.6 步驟6:擴(kuò)展PATH 
 4.3 用Python 和R 創(chuàng)建命令行工具 
 4.3.1 移植shell 腳本 
 4.3.2 處理來自標(biāo)準(zhǔn)輸入的流數(shù)據(jù) 
 4.4 延伸閱讀 
第5章 數(shù)據(jù)清洗 
 5.1 概述 
 5.2 純文本的常見清洗操作 
 5.2.1 行過濾 
 5.2.2 值提取 
 5.2.3 值替換和刪除 
 5.3 處理CSV 
 5.3.1 主體、頭部和列 
 5.3.2 對(duì)CSV 執(zhí)行SQL 查詢 
 5.4 處理HTML/XML 和JSON 
 5.5 CSV 的常見清洗操作 
 5.5.1 列的提取和重排序 
 5.5.2 行過濾 
 5.5.3 列合并 
 5.5.4 多個(gè)CSV 文件的合并 
 5.6 延伸閱讀 
第6章 管理數(shù)據(jù)工作流 
 6.1 概述 
 6.2 Drake 簡(jiǎn)介 
 6.3 Drake 的安裝 
 6.4 獲取古騰堡計(jì)劃中下載最多的電子書 
 6.5 所有工作流都從單個(gè)步驟開始 
 6.6 具體情況具體對(duì)待 
 6.7 重新構(gòu)建具體目標(biāo) 
 6.8 討論 
 6.9 延伸閱讀 
第7章 數(shù)據(jù)探索 
 7.1 概述 
 7.2 檢查數(shù)據(jù)及其屬性 
 7.2.1 確定有無數(shù)據(jù)頭 
 7.2.2 檢查所有數(shù)據(jù) 
 7.2.3 特征名稱和數(shù)據(jù)類型 
 7.2.4 唯一標(biāo)識(shí)、連續(xù)變量和因子 
 7.3 計(jì)算描述性統(tǒng)計(jì)信息 
 7.3.1 使用csvstat 
 7.3.2 在命令行中通過Rio 使用R 
 7.4 生成可視化圖形 
 7.4.1 介紹Gunplot 和feedgnuplot 
 7.4.2 介紹ggplot2 
 7.4.3 直方圖 
 7.4.4 條形圖 
 7.4.5 密度圖 
 7.4.6 箱線圖 
 7.4.7 散點(diǎn)圖 
 7.4.8 折線圖 
 7.4.9 總結(jié) 
 7.5 延伸閱讀 
第8章 并行管道 
 8.1 概述 
 8.2 串行處理 
 8.2.1 對(duì)數(shù)字進(jìn)行遍歷 
 8.2.2 對(duì)行進(jìn)行遍歷 
 8.2.3 對(duì)文件進(jìn)行遍歷 
 8.3 并行處理 
 8.3.1 GNU Parallel 介紹 
 8.3.2 指定輸入 
 8.3.3 控制并發(fā)任務(wù)的個(gè)數(shù) 
 8.3.4 記錄日志和輸出 
 8.3.5 創(chuàng)建并行工具 
 8.4 分布式處理 
 8.4.1 獲得運(yùn)行中的AWS EC2 實(shí)例列表 
 8.4.2 在遠(yuǎn)程機(jī)器上運(yùn)行命令 
 8.4.3 在遠(yuǎn)程機(jī)器間分發(fā)本地?cái)?shù)據(jù) 
 8.4.4 在遠(yuǎn)程機(jī)器上處理文件 
 8.5 討論 
 8.6 延伸閱讀 
第9章 數(shù)據(jù)建?!?br />  9.1 概述 
 9.2 更多的酒,來吧! 
 9.3 用Tapkee 降維 
 9.3.1 介紹Tapkee 
 9.3.2 安裝Tapkee 
 9.3.3 線性和非線性映射 
 9.4 用Weka 聚類 
 9.4.1 介紹Weka 
 9.4.2 在命令行里改進(jìn)Weka 
 9.4.3 在CSV 和ARFF 格式之間轉(zhuǎn)換 
 9.4.4 比較三種聚類算法 
 9.5 通過SciKit-Learn Laboratory 進(jìn)行回歸 
 9.5.1 準(zhǔn)備數(shù)據(jù) 
 9.5.2 運(yùn)行實(shí)驗(yàn) 
 9.5.3 解析結(jié)果 
 9.6 用BigML 分類 
 9.6.1 生成均衡的訓(xùn)練和測(cè)試數(shù)據(jù)集 
 9.6.2 調(diào)用API 
 9.6.3 檢查結(jié)果 
 9.6.4 小結(jié) 
 9.7 延伸閱讀 
第10章 總結(jié) 
 10.1 讓我們回顧一下
 10.2 三條建議 
 10.2.1 有耐心 
 10.2.2 有所創(chuàng)新 
 10.2.3 肯于實(shí)踐 
 10.3 接下來做什么 
 10.3.1 API 
 10.3.2 shell 編程 
 10.3.3 Python、R 和SQL 
 10.3.4 數(shù)據(jù)解釋 
 10.4 聯(lián)系方式 
 附錄A 命令行工具列表 
 附錄B 參考文獻(xiàn) 
 作者介紹 
 封面介紹

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)