注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫文本挖掘技術(shù)及其應(yīng)用

文本挖掘技術(shù)及其應(yīng)用

文本挖掘技術(shù)及其應(yīng)用

定 價(jià):¥32.00

作 者: 謝邦昌
出版社: 廈門大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 數(shù)據(jù)庫

ISBN: 9787561559710 出版時(shí)間: 2016-03-01 包裝: 平裝
開本: 16開 頁數(shù): 160 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《文本挖掘技術(shù)及其應(yīng)用》包括四個(gè)部分。第一部分包括兩章,介紹常用文本挖掘技術(shù),總結(jié)基本流程。第二部分共五章,在R軟件上詳細(xì)介紹了文本挖掘,包括R 軟件的簡(jiǎn)介與安裝,文本挖掘所需的基本R包,F(xiàn)acebook、微博、Twitter、網(wǎng)頁等爬蟲技術(shù)、數(shù)據(jù)預(yù)處理如斷詞、字詞處理、語料庫建立等,資料 分析如關(guān)聯(lián)分析、集群分析、主成份分析和聚類分析。第三部分共兩章,在MS SQL Sever上介紹如何實(shí)現(xiàn)文本挖掘,第一章是數(shù)據(jù)預(yù)處理技術(shù),包括怎么導(dǎo)入文本數(shù)據(jù)、建立字詞與詞向量、建立訓(xùn)練集和測(cè)試集,第二章在MS SQL Sever上實(shí)現(xiàn)常用的文本數(shù)據(jù)挖掘方法,并進(jìn)行圖表分析。第四部分為顧問公司和新聞網(wǎng)合作的案例。

作者簡(jiǎn)介

暫缺《文本挖掘技術(shù)及其應(yīng)用》作者簡(jiǎn)介

圖書目錄

第一部分文本挖掘技術(shù)
第一章 技術(shù)介紹
1.1 整合文本挖掘與數(shù)據(jù)挖掘 7
1.2 基礎(chǔ)技術(shù) 10
第二章 資料分析
2.1 挖掘流程 20
2.1.1 數(shù)據(jù)分析 21
2.1.2 基礎(chǔ)挖掘 26 
第二部分文本挖掘以軟件R為例
第一章 緒論
1.1 什么是Big Data 31
1.2 數(shù)據(jù)挖掘 32
1.3 文字挖掘 33
1.4 R軟件 34
1.4.1 R簡(jiǎn)介 34
1.4.2 R的特色 34
1.4.3 R的基本安裝 35
1.4.4 包安裝 35
第二章 基本工具
2.1 基本工具 37
2.1.1 安裝rJava包 37
2.1.2 安裝Rwordseg包 37
2.1.3 安裝tm包 38
2.1.4 安裝tmcn包 38
2.1.5 安裝wordcloud、ggplot2、graphics包 38
2.1.6 安裝Rfacebook、Rweibo、Rtwitter包 38
2.2 社群開放平臺(tái)權(quán)限申請(qǐng) 39
2.2.1 如何獲得Facebook權(quán)限 39
2.2.2 如何獲得Weibo權(quán)限 46
第三章 文字挖掘之爬蟲
3.1 R Facebook 50
3.1.1 使用者發(fā)文 50
3.1.2 粉絲者發(fā)文 51
3.1.3所需R包(Rfacebook、fbOAuth、getPage、getPost) 54
3.2 R Weibo 58
3.2.1 主題 58
3.2.2 時(shí)間區(qū)間 59
3.2.3 所需R包(XML、Rweibo、web.search.content) 61
3.3 R Twitter 64
3.3.1 關(guān)鍵詞 64
3.3.2 所需R包(devtools、rjson、bit64、httr、twitteR、sink) 66
3.4 網(wǎng)頁爬蟲 70
3.4.1 爬一般網(wǎng)頁文字 70
3.4.2 爬PTT網(wǎng)頁文字 74
3.4.3 所需R包(XML、RCurl) 76
3.5 SpideR 79
3.5.1 所需R包 79
3.5.2 有關(guān)爬蟲時(shí)的注意事項(xiàng) 79
3.5.3 抓取網(wǎng)頁數(shù)據(jù)的標(biāo)準(zhǔn)作業(yè)程序 80
3.5.4 R IDE的Encoding 80
3.5.5 讀取檔案或網(wǎng)頁的Encoding 81
3.5.6 R IDE 開發(fā)SpideR 面對(duì)Encoding 的解決方案 82
第四章 數(shù)據(jù)預(yù)處理
4.1 編碼處理 83
4.2 代表性語料庫、詞庫簡(jiǎn)介 85
4.3 斷詞方法 90
4.4 字詞處理 93
4.5 語料庫建立 95
4.6 正則表達(dá)式(Regular Expressions) 98
第五章 資料分析
5.1 頻率 99
5.2 DTM(TDM) matrix 100
5.3 關(guān)聯(lián)分析 103
5.4 集群分析 104
5.5 主成份分析 109
5.6 詞云聚類分析 114 
第三部分文本挖掘 MS SQL Sever
第一章 數(shù)據(jù)預(yù)處理
1.1 匯入文檔 NGArticles 120
1.2 建立NGArticles的辭庫 130
1.2.1 建立字詞 (Dictionary) 130
1.2.2 建立詞向量 145
1.2.3 建立Train Sample和Test Sample 154
第二章 資料分析
2.1 串聯(lián)Train Sample、Test Sample和TermVectors 160
2.2 建構(gòu)datamining模型(判定樹、類神經(jīng)網(wǎng)絡(luò)、羅吉斯回歸) 164
2.3 圖表分析 173
2.3.1 各模型之精確度圖表分析 173
2.3.2 判定樹圖表分析 175
2.3.3 類神經(jīng)網(wǎng)絡(luò)圖表分析 176 
第四部分 TextMining在實(shí)務(wù)上的應(yīng)用
1.1 創(chuàng)造商機(jī) 205
1.2 結(jié)語 213

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)