定 價:¥59.00
作 者: | (美)茱莉亞·斯拉格 |
出版社: | 機(jī)械工業(yè)出版社 |
叢編項(xiàng): | |
標(biāo) 簽: | 程序設(shè)計(jì) 計(jì)算機(jī)/網(wǎng)絡(luò) |
ISBN: | 9787111588559 | 出版時間: | 2018-04-01 | 包裝: | 平裝-膠訂 |
開本: | 16開 | 頁數(shù): | 字?jǐn)?shù): |
前言
第1章 整潔文本格式
比較整潔文本結(jié)構(gòu)與其他數(shù)據(jù)結(jié)構(gòu)
unnest_tokens函數(shù)
整理Jane Austen的作品
gutenbergr包
詞頻
總結(jié)
第2章 基于整潔數(shù)據(jù)的情感分析
情感數(shù)據(jù)集
內(nèi)連接的情感分析
比較三個情感詞典
最常見的正面單詞和負(fù)面單詞
Wordclouds模塊
除單詞外的其他文本單元
總結(jié)
第3章 分析詞和文件頻率:tf-idf
Jane Austen小說中的詞項(xiàng)頻率
Zipf定律
bind_tf_idf函數(shù)
物理學(xué)語料庫
總結(jié)
第4章 詞之間的關(guān)系:n-gram及相關(guān)性
n-gram詞條化
用widyr包對單詞對計(jì)數(shù)并計(jì)算相關(guān)性
總結(jié)
第5章 非整潔格式轉(zhuǎn)換
使文檔-詞項(xiàng)矩陣整潔
將整潔文本數(shù)據(jù)轉(zhuǎn)換為矩陣
總結(jié)
第6章 主題建模
LDA
示例:博大的圖書館館藏
LDA方法的替代實(shí)現(xiàn)
總結(jié)
第7章 案例研究:Twitter歸檔文件比較
單詞使用情況的比較
單詞使用情況的變化
收藏和轉(zhuǎn)發(fā)
總結(jié)
第8章 案例研究:NASA元數(shù)據(jù)挖掘
NASA如何組織數(shù)據(jù)
共現(xiàn)單詞與相關(guān)單詞
計(jì)算描述字段的tf-idf
總結(jié)
第9章 案例研究:分析Usenet文本
預(yù)處理
新聞組中的單詞
情感分析
總結(jié)
參考文獻(xiàn)