注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)文本挖掘:基于R語言的整潔工具

文本挖掘:基于R語言的整潔工具

文本挖掘:基于R語言的整潔工具

定 價:¥59.00

作 者: (美)茱莉亞·斯拉格
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò)

ISBN: 9787111588559 出版時間: 2018-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  全書共9章,主要介紹如何使用基于R的整潔工具來進(jìn)行文本分析。首先介紹了整潔文本的格式,以及如何獲取整潔文本數(shù)據(jù)集;并通過tidytext中的情感數(shù)據(jù)集來進(jìn)行情緒分析;接著介紹了如何根據(jù)tf-idf統(tǒng)計(jì)量來識別特定文檔中的重要單詞,以及如何利用n-gram來分析文本中的文字網(wǎng)絡(luò);之后介紹了如何將整潔文本轉(zhuǎn)換為文檔詞項(xiàng)矩陣和Corpus對象格式,并給出了主題建模的概念;后通過整合多種已知的整潔文本挖掘方法,給出了一些研究案例,這些案例涉及Twitter歸檔文件、NASA數(shù)據(jù)集以及來自新聞組的即時通信信息。

作者簡介

  作者:(美)茱莉亞·斯拉格 作者:戴維·羅賓遜 譯者:劉波 譯者:羅棻 譯者:唐亮貴茱莉亞·斯拉格(Julia Silge),Stack Overflow公司的數(shù)據(jù)科學(xué)家,她主要分析復(fù)雜數(shù)據(jù)集,喜歡與各種人交流技術(shù)問題。她擁有天體物理學(xué)博士學(xué)位,喜歡簡·奧斯汀的作品,還喜歡繪制漂亮的圖表。戴維·羅賓遜(David Robinson),Stack Overflow公司的數(shù)據(jù)科學(xué)家,普林斯頓大學(xué)定量與計(jì)算生物學(xué)博士。他擅長開發(fā)開源R軟件包,包括broom、gganimate、fuzzyjoin和widyr,還喜歡撰寫統(tǒng)計(jì)、R和文本挖掘等方面的博客。

圖書目錄

前言

第1章 整潔文本格式

比較整潔文本結(jié)構(gòu)與其他數(shù)據(jù)結(jié)構(gòu)

unnest_tokens函數(shù)

整理Jane Austen的作品

gutenbergr包

詞頻

總結(jié)

第2章 基于整潔數(shù)據(jù)的情感分析

情感數(shù)據(jù)集

內(nèi)連接的情感分析

比較三個情感詞典

最常見的正面單詞和負(fù)面單詞

Wordclouds模塊

除單詞外的其他文本單元

總結(jié)

第3章 分析詞和文件頻率:tf-idf

Jane Austen小說中的詞項(xiàng)頻率

Zipf定律

bind_tf_idf函數(shù)

物理學(xué)語料庫

總結(jié)

第4章 詞之間的關(guān)系:n-gram及相關(guān)性

n-gram詞條化

用widyr包對單詞對計(jì)數(shù)并計(jì)算相關(guān)性

總結(jié)

第5章 非整潔格式轉(zhuǎn)換

使文檔-詞項(xiàng)矩陣整潔

將整潔文本數(shù)據(jù)轉(zhuǎn)換為矩陣

總結(jié)

第6章 主題建模

LDA

示例:博大的圖書館館藏

LDA方法的替代實(shí)現(xiàn)

總結(jié)

第7章 案例研究:Twitter歸檔文件比較

單詞使用情況的比較

單詞使用情況的變化

收藏和轉(zhuǎn)發(fā)

總結(jié)

第8章 案例研究:NASA元數(shù)據(jù)挖掘

NASA如何組織數(shù)據(jù)

共現(xiàn)單詞與相關(guān)單詞

計(jì)算描述字段的tf-idf

總結(jié)

第9章 案例研究:分析Usenet文本

預(yù)處理

新聞組中的單詞

情感分析

總結(jié)

參考文獻(xiàn)


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號