自然語言處理Python進階

定　價：￥59.00

作　者：	（印度）克里希納·巴夫薩，（印度）納雷什·庫馬爾等
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787111616436	出版時間：	2019-02-01	包裝：	平裝
開本：	16開	頁數(shù)：		字數(shù)：

內(nèi)容簡介

　　第1章教你使用內(nèi)置的NLTK語料庫和頻率分布。我們還將學習什么是WordNet，并探索其特點和用法。第2章演示如何從各種格式的數(shù)據(jù)源中提取文本。我們還將學習如何從網(wǎng)絡源提取原始文本。zui后，我們將從這些異構數(shù)據(jù)源中對原始文本進行規(guī)范并構建語料庫。第3章介紹一些關鍵的預處理步驟，如分詞、詞干提取、詞形還原和編輯距離。第4章介紹正則表達式，它是zui基本、zui簡單、zui重要和zui強大的工具之一。在本章中，你將學習模式匹配的概念，它是文本分析的一種方式，基于此概念，沒有比正則表達式更方便的工具了。第5章將學習如何使用和編寫自己的詞性標注器和文法規(guī)則。詞性標注是進一步句法分析的基礎，而通過使用詞性標記和組塊標記可以產(chǎn)生或改進文法規(guī)則。第6章幫助你了解如何使用內(nèi)置分塊器以及訓練或編寫自己的分塊器，即依存句法分析器。在本章中，你將學習評估自己訓練的模型。第7章介紹信息抽取和文本分類，告訴你關于命名實體識別的更多信息。我們將使用內(nèi)置的命名實體識別工具，并使用字典創(chuàng)建自己的命名實體。我們將學會使用內(nèi)置的文本分類算法和一些簡單的應用實例。第8章介紹高階自然語言處理方法，該方法將目前為止你所學的所有課程結合到一起，并創(chuàng)建應對你現(xiàn)實生活中各種問題的適用方法。我們將介紹諸如文本相似度、摘要、情感分析、回指消解等任務。第9章介紹深度學習應用于自然語言處理所必需的各種基本原理，例如利用卷積神經(jīng)網(wǎng)絡（CNN）和長短型記憶網(wǎng)絡（LSTM）進行郵件分類、情感分類等，zui后在低維空間中可視化高維詞匯。第10章描述如何利用深度學習解決zui前沿的問題，包括文本自動生成、情景數(shù)據(jù)問答，預測下一個優(yōu)詞的語言模型以及生成式聊天機器人的開發(fā)。

作者簡介

　　克里希納·巴夫薩（Krishna Bhavsar）花了大約10年時間在各行業(yè)領域如酒店業(yè)、銀行業(yè)、醫(yī)療行業(yè)等進行自然語言處理、社交媒體分析和文本挖掘方面的研究。他致力于用不同的NLP語料庫如Stanford CoreNLP、IBM的 SystemText和BigInsights、GATE和NLTK來解決與文本分析有關的行業(yè)問題?？死锵＜{還致力于分析社交媒體給熱門電視節(jié)目和流行零售品牌以及產(chǎn)品帶來的效應。2010年，他在NAACL上發(fā)表了一篇關于情感分析增強技術的論文。近期，他創(chuàng)建了一個NLP管道/工具集并開源以便公眾使用。除了學術和科技，克里希納還熱衷于摩托車和足球，空閑時間喜歡旅行和探索。他騎摩托車參加過環(huán)印度公路旅行并在東南亞和歐洲大部分國家徒步旅行過。納雷什·庫馬爾（Naresh Kumar）曾為財富500強企業(yè)設計、實施和運行超大型因特網(wǎng)應用程序，在這方面他擁有超過十年的專業(yè)經(jīng)驗。他是一位全棧架構師，在電子商務、網(wǎng)絡托管、醫(yī)療、大數(shù)據(jù)及分析、數(shù)據(jù)流、廣告和數(shù)據(jù)庫等領域擁有豐富的實踐經(jīng)驗。他依賴開源并積極為其做貢獻。納雷什一直走在新興技術的前沿，從Linux系統(tǒng)內(nèi)部技術到前端技術。他曾在拉賈斯坦邦的BITS-Pilani學習，獲得了計算機科學和經(jīng)濟學的雙學位。普拉塔普·丹蒂（Pratap Dangeti）在班加羅爾的研究和創(chuàng)新實驗室開發(fā)機器學習和深度學習方法，以用于結構化、圖像和TCS文本數(shù)據(jù)。他在分析和數(shù)據(jù)科學領域擁有豐富的經(jīng)驗，并在IIT Bombay獲得了工業(yè)工程和運籌學項目的碩士學位。普拉塔普是一名人工智能愛好者。閑暇時，他喜歡閱讀下一代技術和創(chuàng)新方法。他還是Packt出版的《Statistics for Machine Learning》一書的作者。

圖書目錄

譯者序

前言

作者簡介

審校者簡介

第1章　語料庫和WordNet 1

1.1　引言 1

1.2　訪問內(nèi)置語料庫 1

1.3　下載外部語料庫，加載并訪問 3

1.4　計算布朗語料庫中三種不同類別的特殊疑問詞 5

1.5　探討網(wǎng)絡文本和聊天文本的詞頻分布 7

1.6　使用WordNet進行詞義消歧 9

1.7　選擇兩個不同的同義詞集，使用WordNet探討上位詞和下位詞的概念 12

1.8　基于WordNet計算名詞、動詞、形容詞和副詞的平均多義性 15

第2章　針對原始文本，獲取源數(shù)據(jù)和規(guī)范化 17

2.1　引言 17

2.2　字符串操作的重要性 17

2.3　深入實踐字符串操作 19

2.4　在Python中讀取PDF文件 21

2.5　在Python中讀取Word文件 23

2.6　使用PDF、DOCX和純文本文件，創(chuàng)建用戶自定義的語料庫 26

2.7　讀取RSS信息源的內(nèi)容 29

2.8　使用BeautifulSoup解析HTML 31

第3章　預處理 34

3.1　引言 34

3.2　分詞——學習使用NLTK內(nèi)置的分詞器 34

3.3　詞干提取——學習使用NLTK內(nèi)置的詞干提取器 36

3.4　詞形還原——學習使用NLTK中的WordnetLemmatizer函數(shù) 38

3.5　停用詞——學習使用停用詞語料庫及其應用 40

3.6　編輯距離——編寫計算兩個字符串之間編輯距離的算法 42

3.7　處理兩篇短文并提取共有詞匯 44

第4章　正則表達式 50

4.1　引言 50

4.2　正則表達式——學習使用*、和？ 50

4.3　正則表達式——學習使用$和^，以及如何在單詞內(nèi)部（非開頭與結尾處）進行模式匹配 52

4.4　匹配多個字符串和子字符串 54

4.5　學習創(chuàng)建日期正則表達式和一組字符集合或字符范圍 56

4.6　查找句子中所有長度為5的單詞，并進行縮寫 58

4.7　學習編寫基于正則表達式的分詞器 59

4.8　學習編寫基于正則表達式的詞干提取器 60

第5章　詞性標注和文法 63

5.1　引言 63

5.2　使用內(nèi)置的詞性標注器 63

5.3　編寫你的詞性標注器 65

5.4　訓練你的詞性標注器 70

5.5　學習編寫你的文法 73

5.6　編寫基于概率的上下文無關文法 76

5.7　編寫遞歸的上下文無關文法 79

第6章　分塊、句法分析、依存分析 82

6.1　引言 82

6.2　使用內(nèi)置的分塊器 82

6.3　編寫你的簡單分塊器 84

6.4　訓練分塊器 87

6.5　遞歸下降句法分析 90

6.6　shift-reduce句法分析 93

6.7　依存句法分析和主觀依存分析 95

6.8　線圖句法分析 97

第7章　信息抽取和文本分類 101

7.1　引言 101

7.2　使用內(nèi)置的命名實體識別工具 102

7.3　創(chuàng)建字典、逆序字典和使用字典 104

7.4　特征集合選擇 109

7.5　利用分類器分割句子 113

7.6　文本分類 116

7.7　利用上下文進行詞性標注 120

第8章　高階自然語言處理實踐 124

8.1　引言 124

8.2　創(chuàng)建一條自然語言處理管道 124

8.3　解決文本相似度問題 131

8.4　主題識別 136

8.5　文本摘要 140

8.6　指代消解 143

8.7　詞義消歧 147

8.8　情感分析 150

8.9　高階情感分析 153

8.10　創(chuàng)建一個對話助手或聊天機器人 157

第9章　深度學習在自然語言處理中的應用 163

9.1　引言 163

9.2　利用深度神經(jīng)網(wǎng)絡對電子郵件進行分類 168

9.3　使用一維卷積網(wǎng)絡進行IMDB情感分類 175

9.4　基于雙向LSTM的IMDB情感分類模型 179

9.5　利用詞向量實現(xiàn)高維詞在二維空間的可視化 183

第10章　深度學習在自然語言處理中的高級應用 188

10.1　引言 188

10.2　基于莎士比亞的著作使用LSTM技術自動生成文本 188

10.3　基于記憶網(wǎng)絡的情景數(shù)據(jù)問答 193

10.4　使用循環(huán)神經(jīng)網(wǎng)絡LSTM進行語言建模以預測最優(yōu)詞 199

10.5　使用循環(huán)神經(jīng)網(wǎng)絡LSTM構建生成式聊天機器人 203

自然語言處理Python進階

購買這本書可以去

內(nèi)容簡介

作者簡介

圖書目錄

本目錄推薦

框架輕板住宅設計理論與實踐

設計交響曲：2019上海設計10x10…

啟迪設計集團作品集1953—2023

現(xiàn)代住區(qū)規(guī)劃及住宅建筑設計與應…

建筑設計與氣候緩沖：一種空間層…

產(chǎn)品設計思維與表達研究

景觀雕塑設計

天津市第二南開中學工程設計

建筑設備安裝識圖與施工工藝（第…

畫中聽樂 2024年日歷