注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件文本數(shù)據(jù)挖掘與Python應(yīng)用

文本數(shù)據(jù)挖掘與Python應(yīng)用

文本數(shù)據(jù)挖掘與Python應(yīng)用

定 價(jià):¥49.80

作 者: 劉金嶺,錢升華 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)與人工智能技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787302557869 出版時(shí)間: 2021-02-01 包裝: 平裝
開本: 16開 頁數(shù): 196 字?jǐn)?shù):  

內(nèi)容簡介

  教材系統(tǒng)地介紹文本數(shù)據(jù)挖掘的相關(guān)概念,利用Python作為工具進(jìn)行相關(guān)試驗(yàn),其內(nèi)容主要包括:文本挖掘產(chǎn)生的背景及發(fā)展;文本挖掘的概念、文本模型表示、文本內(nèi)容的預(yù)處理,包括分詞、去停用詞以及特征抽??;文本相似度的概念等。介紹文本分類的概念及常用方法,如KNN算法、SVM算法等,并對(duì)分類結(jié)果進(jìn)行評(píng)價(jià);在介紹文本聚類聚類的概念時(shí)是,同樣介紹聚類常用算法,如K均值算法、層次聚類法、密度聚類法等,作為有文本分類、文本聚類的應(yīng)用,最后給出了信息抽取、社會(huì)網(wǎng)絡(luò)中的實(shí)體關(guān)系抽取和事件抽取。

作者簡介

  劉金嶺,教授,碩士生導(dǎo)師。至2007年以來進(jìn)行文本數(shù)據(jù)挖掘的研究,在專業(yè)核心期刊發(fā)表相關(guān)論文30多篇,EI檢索4篇,SCCSI檢索3篇。在2010-2013年與江蘇移動(dòng)公司合作進(jìn)行垃圾短信處理研究,2009-2011完成市級(jí)科研課題“基于語義的垃圾短信分類器設(shè)計(jì)與實(shí)現(xiàn)(HAG09061)”。

圖書目錄


目錄

源碼下載

第1章緒論

1.1文本挖掘的研究背景及意義

1.2文本挖掘的國內(nèi)外研究現(xiàn)狀

1.3文本挖掘概述

1.3.1文本挖掘的概念

1.3.2文本挖掘的任務(wù)

1.3.3文本挖掘與數(shù)據(jù)挖掘的聯(lián)系與區(qū)別

1.4文本挖掘的過程

1.5文本挖掘的主要研究領(lǐng)域

1.5.1文本特征選擇

1.5.2文本結(jié)構(gòu)分析

1.5.3文本摘要

1.5.4文本分類

1.5.5文本聚類

1.5.6文本關(guān)聯(lián)分析

1.5.7分布分析與趨勢預(yù)測

1.6文本挖掘在制藥行業(yè)的應(yīng)用案例

習(xí)題1

第2章文本切分及特征詞選擇

2.1文本數(shù)據(jù)采集

2.1.1軟件接口對(duì)接方式

2.1.2開放數(shù)據(jù)庫方式

2.1.3基于底層數(shù)據(jù)交換的數(shù)據(jù)直接采集方式

2.1.4網(wǎng)絡(luò)爬蟲采集網(wǎng)頁數(shù)據(jù)

2.2語料庫與詞典簡介

2.2.1語料庫

2.2.2詞典

2.3文本切分

2.3.1句子切分

2.3.2詞匯切分

2.4文本特征詞選擇

2.4.1文本特征詞選擇概述

2.4.2常用的文本特征詞選擇方法

2.5Python jieba分詞模塊及其用法

2.5.1jieba方法

2.5.2基于規(guī)則的中文分詞

2.5.3關(guān)鍵詞提取

習(xí)題2





第3章文本表示模型

3.1文本預(yù)處理

3.1.1原始數(shù)據(jù)處理

3.1.2文本預(yù)處理簡述

3.2向量空間模型

3.2.1向量空間模型的概念

3.2.2文本向量的相似度

3.2.3向量模型的Python實(shí)現(xiàn)

3.3概率模型

3.3.1概率模型概述

3.3.2概率建模方法

3.3.3文本信息檢索中的概率模型

3.3.4概率模型的Python實(shí)現(xiàn)

3.4概率主題模型

3.4.1概率主題模型概述

3.4.2PLSA概率主題模型

3.4.3LDA概率主題模型

3.4.4LDA概率主題模型的Python實(shí)現(xiàn)

習(xí)題3

第4章文本分類

4.1文本分類概述

4.1.1研究的意義

4.1.2國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢

4.1.3文本分類的定義

4.1.4文本分類流程

4.1.5文本分類預(yù)處理

4.2常用文本分類器

4.2.1KNN分類器

4.2.2SVM分類器

4.2.3Rocchio分類器

4.2.4樸素貝葉斯分類器

4.2.5決策樹分類器

4.3分類模型的性能評(píng)估

4.3.1分類評(píng)價(jià)方法

4.3.2分類性能評(píng)價(jià)指標(biāo)

習(xí)題4

第5章文本聚類

5.1文本聚類概述

5.1.1研究的意義

5.1.2國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢

5.1.3文本聚類的定義

5.1.4文本聚類流程

5.1.5對(duì)聚類算法的性能要求

5.2文本聚類原理與方法

5.2.1基于劃分的方法

5.2.2基于層次的方法

5.2.3基于密度的方法

5.2.4基于網(wǎng)格的方法

5.2.5基于模型的方法

5.3文本聚類評(píng)估

5.3.1估計(jì)聚類趨勢

5.3.2確定簇?cái)?shù)

5.3.3測定聚類質(zhì)量

習(xí)題5

第6章文本關(guān)聯(lián)分析

6.1關(guān)聯(lián)規(guī)則挖掘概述

6.2文本關(guān)聯(lián)規(guī)則

6.2.1關(guān)聯(lián)規(guī)則的基本概念

6.2.2關(guān)聯(lián)規(guī)則分類

6.3關(guān)聯(lián)規(guī)則挖掘算法

6.3.1Apriori算法

6.3.2FPGrowth算法

習(xí)題6

第7章利用Python處理文本數(shù)據(jù)簡單應(yīng)用

7.1情感分析

7.1.1情感分析原理

7.1.2算法設(shè)計(jì)

7.1.3算法實(shí)現(xiàn)

7.2自動(dòng)生成關(guān)鍵詞和摘要

7.2.1TextRank算法

7.2.2生成關(guān)鍵詞和摘要

7.3使用SnowNLP進(jìn)行商品評(píng)價(jià)

7.3.1SnowNLP庫簡介

7.3.2SnowNLP商品評(píng)價(jià)

7.4生成“詞云”

7.4.1“詞云”的概念

7.4.2Python“詞云”圖的生成

習(xí)題7

參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)