注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python和NLTK自然語(yǔ)言處理

Python和NLTK自然語(yǔ)言處理

Python和NLTK自然語(yǔ)言處理

定 價(jià):¥138.00

作 者: [印度] 尼天·哈登尼亞(Nitin Hardeniya),雅各布·帕金斯(Jacob Perkins),迪蒂·喬普拉(Deepti Chopra),尼什·斯喬希 等著,林賜 譯
出版社: 人民郵電出版社
叢編項(xiàng): 人工智能
標(biāo) 簽: 暫缺

ISBN: 9787115503343 出版時(shí)間: 2019-04-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 621 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  NLTK是自然語(yǔ)言處理領(lǐng)域中非常受歡迎和廣泛使用的Python庫(kù)。NLTK的優(yōu)點(diǎn)在于其簡(jiǎn)單性,其中大多數(shù)復(fù)雜的自然語(yǔ)言處理任務(wù)使用幾行代碼即可完成。本書旨在講述如何用Python和NLTK解決各種自然語(yǔ)言處理任務(wù)并開發(fā)機(jī)器學(xué)習(xí)方面的應(yīng)用。本書介紹了NLTK的基本模塊,講述了采用NLTK實(shí)現(xiàn)自然語(yǔ)言處理的大量技巧,討論了一些文本處理方法和語(yǔ)言處理技術(shù),展示了使用Python實(shí)現(xiàn)NLP項(xiàng)目的大量實(shí)踐經(jīng)驗(yàn)。本書主要內(nèi)容包括文本挖掘/NLP任務(wù)中所需的所有預(yù)處理步驟,如何使用Python 3的NLTK 3進(jìn)行文本處理,如何通過Python開展NLP項(xiàng)目。本書適合NLP和機(jī)器學(xué)習(xí)領(lǐng)域的愛好者、Python程序員以及機(jī)器學(xué)習(xí)領(lǐng)域的研究人員閱讀。

作者簡(jiǎn)介

  Nitin Hardeniya是一位數(shù)據(jù)科學(xué)家,精通Python、NLTK、機(jī)器學(xué)習(xí),與多家知名公司都有長(zhǎng)期的合作。他的業(yè)務(wù)范圍比較廣,擅長(zhǎng)解決不同領(lǐng)域的各種業(yè)務(wù)問題。他發(fā)表過5篇專利。

圖書目錄

模塊1 NLTK基礎(chǔ)知識(shí)
第 1章 自然語(yǔ)言處理簡(jiǎn)介 3
1.1 為什么要學(xué)習(xí)NLP 4
1.2 從Python的基本知識(shí)開始 7
1.2.1 列表 7
1.2.2 自助 8
1.2.3 正則表達(dá)式 9
1.2.4 詞典 11
1.2.5 編寫函數(shù) 11
1.3 NLTK 13
1.4 試一試 18
1.5 本章小結(jié) 18
第 2章 文本的整理和清洗 19
2.1 文本整理 19
2.2 文本清洗 21
2.3 句子拆分器 22
2.4 標(biāo)記解析 22
2.5 詞干提取 24
2.6 詞形還原 25
2.7 停用詞刪除 26
2.8 生僻字刪除 27
2.9 拼寫校正 27
2.10 試一試 28
2.11 本章小結(jié) 28
第3章 詞性標(biāo)注 30
3.1 什么是詞性標(biāo)注 30
3.1.1 斯坦福標(biāo)注器 33
3.1.2 深入了解標(biāo)注器 34
3.1.3 序列標(biāo)注器 35
3.1.4 布里爾標(biāo)注器 37
3.1.5 基于標(biāo)注器的機(jī)器學(xué)習(xí) 37
3.2 命名實(shí)體識(shí)別 38
3.3 試一試 40
3.4 本章小結(jié) 41
第4章 對(duì)文本的結(jié)構(gòu)進(jìn)行語(yǔ)法分析 42
4.1 淺層語(yǔ)法分析與深層語(yǔ)法
分析 42
4.2 語(yǔ)法分析的兩種方法 43
4.3 為什么需要語(yǔ)法分析 43
4.4 不同類型的語(yǔ)法分析器 45
4.4.1 遞歸下降的語(yǔ)法分析器 45
4.4.2 移位歸約語(yǔ)法分析器 45
4.4.3 圖表語(yǔ)法分析器 45
4.4.4 正則表達(dá)式語(yǔ)法
分析器 46
4.5 依存分析 47
4.6 組塊化 49
4.7 信息抽取 51
4.7.1 命名實(shí)體識(shí)別 52
4.7.2 關(guān)系抽取 52
4.8 本章小結(jié) 53
第5章 NLP應(yīng)用 54
5.1 構(gòu)建第 一個(gè)NLP應(yīng)用 54
5.2 其他的NLP應(yīng)用 58
5.2.1 機(jī)器翻譯 58
5.2.2 統(tǒng)計(jì)機(jī)器翻譯 59
5.2.3 信息檢索 59
5.2.4 語(yǔ)音識(shí)別 61
5.2.5 文本分類 62
5.2.6 信息提取 63
5.2.7 問答系統(tǒng) 64
5.2.8 對(duì)話系統(tǒng) 64
5.2.9 詞義消歧 64
5.2.10 主題建?!?4
5.2.11 語(yǔ)言檢測(cè) 65
5.2.12 光學(xué)字符識(shí)別 65
5.3 本章小結(jié) 65
第6章 文本分類 66
6.1 機(jī)器學(xué)習(xí) 67
6.2 文本分類 68
6.3 采樣 70
6.3.1 樸素貝葉斯 73
6.3.2 決策樹 75
6.3.3 隨機(jī)梯度下降 76
6.3.4 邏輯回歸 77
6.3.5 支持向量機(jī) 78
6.4 隨機(jī)森林算法 79
6.5 文本聚類 79
6.6 文本的主題建?!?1
6.7 參考資料 83
6.8 本章小結(jié) 83
第7章 網(wǎng)絡(luò)爬取 85
7.1 網(wǎng)絡(luò)爬蟲 85
7.2 編寫第 一個(gè)爬蟲程序 86
7.3 Scrapy中的數(shù)據(jù)流 89
7.3.1 Scrapy命令行界面 89
7.3.2 項(xiàng) 94
7.4 站點(diǎn)地圖蜘蛛 96
7.5 項(xiàng)管道 97
7.6 外部參考 98
7.7 本章小結(jié) 99
第8章 與其他Python庫(kù)一同
使用NLTK 100
8.1 NumPy 100
8.1.1 ndarray 101
8.1.2 基本操作 102
8.1.3 從數(shù)組中提取數(shù)據(jù) 103
8.1.4 復(fù)雜的矩陣運(yùn)算 103
8.2 SciPy 107
8.2.1 線性代數(shù) 108
8.2.2 特征值和特征向量 108
8.2.3 稀疏矩陣 109
8.2.4 優(yōu)化 110
8.3 Pandas 111
8.3.1 讀取數(shù)據(jù) 112
8.3.2 時(shí)序數(shù)據(jù) 114
8.3.3 列轉(zhuǎn)換 115
8.3.4 噪聲數(shù)據(jù) 116
8.4 Matplotlib 117
8.4.1 subplot 118
8.4.2 添加軸 119
8.4.3 散點(diǎn)圖 120
8.4.4 柱狀圖 120
8.4.5 3D圖 121
8.5 外部參考 121
8.6 本章小結(jié) 121
第9章 使用Python進(jìn)行社交媒體
挖掘 122
9.1 數(shù)據(jù)收集 122
9.2 數(shù)據(jù)提取 126
9.3 地理可視化 128
9.3.1 影響者檢測(cè) 129
9.3.2 Facebook 130
9.3.3 影響者的朋友 134
9.4 本章小結(jié) 135
第 10章 大規(guī)模的文本挖掘 136
10.1 在Hadoop上使用Python的
不同方法 136
10.1.1 Python的流 137
10.1.2 Hive/Pig UDF 137
10.1.3 流包裝器 137
10.2 在Hadoop上運(yùn)行NLTK 138
10.2.1 UDF 138
10.2.2 Python流 140
10.3 在Hadoop上運(yùn)行
Scikit-learn 141
10.4 PySpark 144
10.5 本章小結(jié) 146
模塊2 使用Python 3的NLTK 3進(jìn)行文本處理
第 1章 標(biāo)記文本和WordNet的基礎(chǔ) 149
1.1 引言 149
1.2 將文本標(biāo)記成句子 150
1.2.1 準(zhǔn)備工作 150
1.2.2 工作方式 151
1.2.3 工作原理 151
1.2.4 更多信息 151
1.2.5 請(qǐng)參閱 152
1.3 將句子標(biāo)記成單詞 152
1.3.1 工作方式 152
1.3.2 工作原理 153
1.3.3 更多信息 153
1.3.4 請(qǐng)參閱 154
1.4 使用正則表達(dá)式標(biāo)記語(yǔ)句 154
1.4.1 準(zhǔn)備工作 155
1.4.2 工作方式 155
1.4.3 工作原理 155
1.4.4 更多信息 155
1.4.5 請(qǐng)參閱 156
1.5 訓(xùn)練語(yǔ)句標(biāo)記生成器 156
1.5.1 準(zhǔn)備工作 156
1.5.2 工作方式 156
1.5.3 工作原理 157
1.5.4 更多信息 158
1.5.5 請(qǐng)參閱 158
1.6 在已標(biāo)記的語(yǔ)句中過濾
停用詞 158
1.6.1 準(zhǔn)備工作 158
1.6.2 工作方式 159
1.6.3 工作原理 159
1.6.4 更多信息 159
1.6.5 請(qǐng)參閱 160
1.7 查找WordNet中單詞的
Synset 160
1.7.1 準(zhǔn)備工作 160
1.7.2 工作方式 160
1.7.3 工作原理 161
1.7.4 更多信息 161
1.7.5 請(qǐng)參閱 163
1.8 在WordNet中查找詞元和
同義詞 163
1.8.1 工作方式 163
1.8.2 工作原理 163
1.8.3 更多信息 163
1.8.4 請(qǐng)參閱 165
1.9 計(jì)算WordNet和Synset的
相似度 165
1.9.1 工作方式 165
1.9.2 工作原理 165
1.9.3 更多信息 166
1.9.4 請(qǐng)參閱 167
1.10 發(fā)現(xiàn)單詞搭配 167
1.10.1 準(zhǔn)備工作 167
1.10.2 工作方式 167
1.10.3 工作原理 168
1.10.4 更多信息 168
1.10.5 請(qǐng)參閱 169
第 2章 替換和校正單詞 170
2.1 引言 170
2.2 詞干提取 170
2.2.1 工作方式 171
2.2.2 工作原理 171
2.2.3 更多信息 171
2.2.4 請(qǐng)參閱 173
2.3 使用WordNet進(jìn)行詞形還原 173
2.3.1 準(zhǔn)備工作 173
2.3.2 工作方式 173
2.3.3 工作原理 174
2.3.4 更多信息 174
2.3.5 請(qǐng)參閱 175
2.4 基于匹配的正則表達(dá)式替換
單詞 175
2.4.1 準(zhǔn)備工作 175
2.4.2 工作方式 175
2.4.3 工作原理 176
2.4.4 更多信息 177
2.4.5 請(qǐng)參閱 177
2.5 移除重復(fù)字符 177
2.5.1 準(zhǔn)備工作 177
2.5.2 工作方式 178
2.5.3 工作原理 178
2.5.4 更多信息 179
2.5.5 請(qǐng)參閱 179
2.6 使用Enchant進(jìn)行拼寫校正 180
2.6.1 準(zhǔn)備工作 180
2.6.2 工作方式 180
2.6.3 工作原理 181
2.6.4 更多信息 181
2.6.5 請(qǐng)參閱 183
2.7 替換同義詞 183
2.7.1 準(zhǔn)備工作 183
2.7.2 工作方式 183
2.7.3 工作原理 184
2.7.4 更多信息 184
2.7.5 請(qǐng)參閱 185
2.8 使用反義詞替換否定形式 186
2.8.1 工作方式 186
2.8.2 工作原理 187
2.8.3 更多信息 187
2.8.4 請(qǐng)參閱 188
第3章 創(chuàng)建自定義語(yǔ)料庫(kù) 189
3.1 引言 189
3.2 建立自定義語(yǔ)料庫(kù) 190
3.2.1 準(zhǔn)備工作 190
3.2.2 工作方式 190
3.2.3 工作原理 191
3.2.4 更多信息 192
3.2.5 請(qǐng)參閱 192
3.3 創(chuàng)建詞匯表語(yǔ)料庫(kù) 192
3.3.1 準(zhǔn)備工作 192
3.3.2 工作方式 193
3.3.3 工作原理 193
3.3.4 更多信息 194
3.3.5 請(qǐng)參閱 194
3.4 創(chuàng)建已標(biāo)記詞性單詞的
語(yǔ)料庫(kù) 195
3.4.1 準(zhǔn)備工作 195
3.4.2 工作方式 195
3.4.3 工作原理 196
3.4.4 更多信息 196
3.4.5 請(qǐng)參閱 199
3.5 創(chuàng)建已組塊短語(yǔ)的語(yǔ)料庫(kù) 199
3.5.1 準(zhǔn)備工作 199
3.5.2 工作方式 199
3.5.3 工作原理 201
3.5.4 更多信息 201
3.5.5 請(qǐng)參閱 203
3.6 創(chuàng)建已分類文本的語(yǔ)料庫(kù) 203
3.6.1 準(zhǔn)備工作 204
3.6.2 工作方式 204
3.6.3 工作原理 204
3.6.4 更多信息 205
3.6.5 請(qǐng)參閱 206
3.7 創(chuàng)建已分類組塊語(yǔ)料庫(kù)
讀取器 206
3.7.1 準(zhǔn)備工作 206
3.7.2 工作方式 207
3.7.3 工作原理 208
3.7.4 更多信息 209
3.7.5 請(qǐng)參閱 213
3.8 懶惰語(yǔ)料庫(kù)加載 213
3.8.1 工作方式 213
3.8.2 工作原理 214
3.8.3 更多信息 214
3.9 創(chuàng)建自定義語(yǔ)料庫(kù)視圖 215
3.9.1 工作方式 215
3.9.2 工作原理 216
3.9.3 更多信息 217
3.9.4 請(qǐng)參閱 218
3.10 創(chuàng)建基于MongoDB的
語(yǔ)料庫(kù)讀取器 218
3.10.1 準(zhǔn)備工作 219
3.10.2 工作方式 219
3.10.3 工作原理 220
3.10.4 更多信息 221
3.10.5 請(qǐng)參閱 221
3.11 在加鎖文件的情況下編輯
語(yǔ)料庫(kù) 221
3.11.1 準(zhǔn)備工作 221
3.11.2 工作方式 221
3.11.3 工作原理 222
第4章 詞性標(biāo)注 224
4.1 引言 224
4.2 默認(rèn)標(biāo)注 225
4.2.1 準(zhǔn)備工作 225
4.2.2 工作方式 225
4.2.3 工作原理 226
4.2.4 更多信息 227
4.2.5 請(qǐng)參閱 228
4.3 訓(xùn)練一元組詞性標(biāo)注器 228
4.3.1 工作方式 228
4.3.2 工作原理 229
4.3.3 更多信息 230
4.3.4 請(qǐng)參閱 231
4.4 回退標(biāo)注的組合標(biāo)注器 231
4.4.1 工作方式 231
4.4.2 工作原理 232
4.4.3 更多信息 232
4.4.4 請(qǐng)參閱 233
4.5 訓(xùn)練和組合N元標(biāo)注器 233
4.5.1 準(zhǔn)備工作 233
4.5.2 工作方式 233
4.5.3 工作原理 234
4.5.4 更多信息 235
4.5.5 請(qǐng)參閱 236
4.6 創(chuàng)建似然單詞標(biāo)簽的
模型 236
4.6.1 工作方式 236
4.6.2 工作原理 237
4.6.3 更多信息 237
4.6.4 請(qǐng)參閱 238
4.7 使用正則表達(dá)式標(biāo)注 238
4.7.1 準(zhǔn)備工作 238
4.7.2 工作方式 238
4.7.3 工作原理 239
4.7.4 更多信息 239
4.7.5 請(qǐng)參閱 239
4.8 詞綴標(biāo)簽 239
4.8.1 工作方式 239
4.8.2 工作原理 240
4.8.3 更多信息 240
4.8.4 請(qǐng)參閱 241
4.9 訓(xùn)練布里爾標(biāo)注器 241
4.9.1 工作方式 241
4.9.2 工作原理 242
4.9.3 更多信息 243
4.9.4 請(qǐng)參閱 244
4.10 訓(xùn)練TnT標(biāo)注器 244
4.10.1 工作方式 244
4.10.2 工作原理 244
4.10.3 更多信息 245
4.10.4 請(qǐng)參閱 246
4.11 使用WordNet進(jìn)行
標(biāo)注 246
4.11.1 準(zhǔn)備工作 246
4.11.2 工作方式 247
4.11.3 工作原理 248
4.11.4 請(qǐng)參閱 248
4.12 標(biāo)注專有名詞 248
4.12.1 工作方式 248
4.12.2 工作原理 249
4.12.3 請(qǐng)參閱 249
4.13 基于分類器的標(biāo)注 249
4.13.1 工作方式 250
4.13.2 工作原理 250
4.13.3 更多信息 251
4.13.4 請(qǐng)參閱 252
4.14 使用NLTK訓(xùn)練器訓(xùn)練
標(biāo)注器 253
4.14.1 工作方式 253
4.14.2 工作原理 254
4.14.3 更多信息 258
4.14.4 請(qǐng)參閱 260
第5章 提取組塊 261
5.1 引言 261
5.2 使用正則表達(dá)式組塊和
隔斷 262
5.2.1 準(zhǔn)備工作 262
5.2.2 工作方式 262
5.2.3 工作原理 263
5.2.4 更多信息 265
5.2.5 請(qǐng)參閱 267
5.3 使用正則表達(dá)式合并和拆分
組塊 267
5.3.1 工作方式 267
5.3.2 工作原理 269
5.3.3 更多信息 270
5.3.4 請(qǐng)參閱 271
5.4 使用正則表達(dá)式擴(kuò)展和刪除
組塊 271
5.4.1 工作方式 271
5.4.2 工作原理 272
5.4.3 更多信息 273
5.4.4 請(qǐng)參閱 273
5.5 使用正則表達(dá)式進(jìn)行部分
解析 273
5.5.1 工作方式 273
5.5.2 工作原理 274
5.5.3 更多信息 275
5.5.4 請(qǐng)參閱 276
5.6 訓(xùn)練基于標(biāo)注器的組塊器 276
5.6.1 工作方式 276
5.6.2 工作原理 277
5.6.3 更多信息 278
5.6.4 請(qǐng)參閱 279
5.7 基于分類的分塊 279
5.7.1 工作方式 279
5.7.2 工作原理 282
5.7.3 更多信息 282
5.7.4 請(qǐng)參閱 283
5.8 提取命名實(shí)體 283
5.8.1 工作方式 283
5.8.2 工作原理 284
5.8.3 更多信息 284
5.8.4 請(qǐng)參閱 285
5.9 提取專有名詞組塊 285
5.9.1 工作方式 286
5.9.2 工作原理 286
5.9.3 更多信息 286
5.10 提取部位組塊 287
5.10.1 工作方式 288
5.10.2 工作原理 290
5.10.3 更多信息 290
5.10.4 請(qǐng)參閱 290
5.11 訓(xùn)練命名實(shí)體組塊器 290
5.11.1 工作方式 290
5.11.2 工作原理 292
5.11.3 更多信息 292
5.11.4 請(qǐng)參閱 293
5.12 使用NLTK訓(xùn)練器訓(xùn)練
組塊器 293
5.12.1 工作方式 293
5.12.2 工作原理 294
5.12.3 更多信息 295
5.12.4 請(qǐng)參閱 299
第6章 轉(zhuǎn)換組塊與樹 300
6.1 引言 300
6.2 過濾句子中無(wú)意義的
單詞 301
6.2.1 準(zhǔn)備工作 301
6.2.2 工作方式 301
6.2.3 工作原理 302
6.2.4 更多信息 302
6.2.5 請(qǐng)參閱 303
6.3 糾正動(dòng)詞形式 303
6.3.1 準(zhǔn)備工作 303
6.3.2 工作方式 303
6.3.3 工作原理 305
6.3.4 請(qǐng)參閱 306
6.4 交換動(dòng)詞短語(yǔ) 306
6.4.1 工作方式 306
6.4.2 工作原理 307
6.4.3 更多信息 307
6.4.4 請(qǐng)參閱 307
6.5 交換名詞基數(shù) 308
6.5.1 工作方式 308
6.5.2 工作原理 309
6.5.3 請(qǐng)參閱 309
6.6 交換不定式短語(yǔ) 309
6.6.1 工作方式 309
6.6.2 工作原理 310
6.6.3 更多信息 310
6.6.4 請(qǐng)參閱 310
6.7 單數(shù)化復(fù)數(shù)名詞 310
6.7.1 工作方式 310
6.7.2 工作原理 311
6.7.3 請(qǐng)參閱 311
6.8 鏈接組塊變換 311
6.8.1 工作方式 311
6.8.2 工作原理 312
6.8.3 更多信息 312
6.8.4 請(qǐng)參閱 313
6.9 將組塊樹轉(zhuǎn)換為文本 313
6.9.1 工作方式 313
6.9.2 工作原理 314
6.9.3 更多信息 314
6.9.4 請(qǐng)參閱 314
6.10 平展深度樹 314
6.10.1 準(zhǔn)備工作 315
6.10.2 工作方式 315
6.10.3 工作原理 316
6.10.4 更多信息 317
6.10.5 請(qǐng)參閱 318
6.11 創(chuàng)建淺樹 318
6.11.1 工作方式 318
6.11.2 工作原理 320
6.11.3 請(qǐng)參閱 320
6.12 轉(zhuǎn)換樹標(biāo)簽 320
6.12.1 準(zhǔn)備工作 320
6.12.2 工作方式 321
6.12.3 工作原理 322
6.12.4 請(qǐng)參閱 322
第7章 文本分類 323
7.1 引言 323
7.2 詞袋特征提取 324
7.2.1 工作方式 324
7.2.2 工作原理 325
7.2.3 更多信息 325
7.2.4 請(qǐng)參閱 327
7.3 訓(xùn)練樸素貝葉斯
分類器 327
7.3.1 準(zhǔn)備工作 327
7.3.2 工作方式 328
7.3.3 工作原理 329
7.3.4 更多信息 330
7.3.5 請(qǐng)參閱 333
7.4 訓(xùn)練決策樹分類器 334
7.4.1 工作方式 334
7.4.2 工作原理 335
7.4.3 更多信息 335
7.4.4 請(qǐng)參閱 337
7.5 訓(xùn)練最大熵分類器 337
7.5.1 準(zhǔn)備工作 337
7.5.2 工作方式 337
7.5.3 工作原理 338
7.5.4 更多信息 339
7.5.5 請(qǐng)參閱 340
7.6 訓(xùn)練scikit-learn
分類器 340
7.6.1 準(zhǔn)備工作 341
7.6.2 工作方式 341
7.6.3 工作原理 342
7.6.4 更多信息 343
7.6.5 請(qǐng)參閱 345
7.7 衡量分類器的精準(zhǔn)率和
召回率 346
7.7.1 工作方式 346
7.7.2 工作原理 347
7.7.3 更多信息 348
7.7.4 請(qǐng)參閱 349
7.8 計(jì)算高信息量單詞 349
7.8.1 工作方式 350
7.8.2 工作原理 351
7.8.3 更多信息 352
7.8.4 請(qǐng)參閱 354
7.9 使用投票組合分類器 354
7.9.1 準(zhǔn)備工作 355
7.9.2 工作方式 355
7.9.3 工作原理 356
7.9.4 請(qǐng)參閱 356
7.10 使用多個(gè)二元分類器
分類 357
7.10.1 準(zhǔn)備工作 357
7.10.2 工作方式 357
7.10.3 工作原理 361
7.10.4 更多信息 362
7.10.5 請(qǐng)參閱 363
7.11 使用NLTK訓(xùn)練器訓(xùn)練
分類器 363
7.11.1 工作方式 363
7.11.2 工作原理 364
7.11.3 更多信息 365
7.11.4 請(qǐng)參閱 371
第8章 分布式進(jìn)程和大型數(shù)據(jù)集的
處理 372
8.1 引言 372
8.2 使用execnet進(jìn)行分布式
標(biāo)注 372
8.2.1 準(zhǔn)備工作 373
8.2.2 工作方式 373
8.2.3 工作原理 374
8.2.4 更多內(nèi)容 375
8.2.5 請(qǐng)參閱 377
8.3 使用execnet進(jìn)行分布式
組塊 377
8.3.1 準(zhǔn)備工作 377
8.3.2 工作方式 377
8.3.3 工作原理 378
8.3.4 更多內(nèi)容 379
8.3.5 請(qǐng)參閱 379
8.4 使用execnet并行處理
列表 379
8.4.1 工作方式 379
8.4.2 工作原理 380
8.4.3 更多內(nèi)容 381
8.4.4 請(qǐng)參閱 381
8.5 在Redis中存儲(chǔ)頻率分布 382
8.5.1 準(zhǔn)備工作 382
8.5.2 工作方式 382
8.5.3 工作原理 384
8.5.4 更多內(nèi)容 385
8.5.5 請(qǐng)參閱 386
8.6 在Redis中存儲(chǔ)條件頻率
分布 386
8.6.1 準(zhǔn)備工作 386
8.6.2 工作方式 386
8.6.3 工作原理 387
8.6.4 更多內(nèi)容 388
8.6.5 請(qǐng)參閱 388
8.7 在Redis中存儲(chǔ)有序
字典 388
8.7.1 準(zhǔn)備工作 388
8.7.2 工作方式 388
8.7.3 工作原理 390
8.7.4 更多內(nèi)容 391
8.7.5 請(qǐng)參閱 392
8.8 使用Redis和execnet進(jìn)行
分布式單詞評(píng)分 392
8.8.1 準(zhǔn)備工作 392
8.8.2 工作方式 392
8.8.3 工作原理 393
8.8.4 更多內(nèi)容 396
8.8.5 請(qǐng)參閱 396
第9章 解析特定的數(shù)據(jù)類型 397
9.1 引言 397
9.2 使用dateutil解析日期和
時(shí)間 398
9.2.1 準(zhǔn)備工作 398
9.2.2 工作方式 398
9.2.3 工作原理 399
9.2.4 更多信息 399
9.2.5 請(qǐng)參閱 399
9.3 時(shí)區(qū)的查找和轉(zhuǎn)換 400
9.3.1 準(zhǔn)備工作 400
9.3.2 工作方式 400
9.3.3 工作原理 402
9.3.4 更多信息 402
9.3.5 請(qǐng)參閱 403
9.4 使用lxml從HTML中提取
URL 403
9.4.1 準(zhǔn)備工作 403
9.4.2 工作方式 403
9.4.3 工作原理 404
9.4.4 更多信息 404
9.4.5 請(qǐng)參閱 405
9.5 清理和剝離HTML 405
9.5.1 準(zhǔn)備工作 405
9.5.2 工作方式 405
9.5.3 工作原理 405
9.5.4 更多信息 406
9.5.5 請(qǐng)參閱 406
9.6 使用BeautifulSoup轉(zhuǎn)換
HTML實(shí)體 406
9.6.1 準(zhǔn)備工作 406
9.6.2 工作方式 406
9.6.3 工作原理 407
9.6.4 更多信息 407
9.6.5 請(qǐng)參閱 407
9.7 檢測(cè)和轉(zhuǎn)換字符編碼 407
9.7.1 準(zhǔn)備工作 408
9.7.2 工作方式 408
9.7.3 工作原理 409
9.7.4 更多信息 409
9.7.5 請(qǐng)參閱 410
附錄A 賓州treebank詞性標(biāo)簽 411
模塊3 使用Python掌握自然語(yǔ)言處理
第 1章 使用字符串 417
1.1 標(biāo)記化 417
1.1.1 將文本標(biāo)記為句子 418
1.1.2 其他語(yǔ)言文字的標(biāo)記化 418
1.1.3 將句子標(biāo)記為單詞 419
1.1.4 使用TreebankWordTokenizer
進(jìn)行標(biāo)記化 420
1.1.5 使用正則表達(dá)式進(jìn)行
標(biāo)記化 421
1.2 規(guī)范化 424
1.2.1 消除標(biāo)點(diǎn)符號(hào) 424
1.2.2 轉(zhuǎn)化為小寫和大寫 425
1.2.3 處理停用詞 425
1.2.4 計(jì)算英語(yǔ)中的停用詞 426
1.3 替代和糾正標(biāo)記 427
1.3.1 使用正則表達(dá)式替換
單詞 427
1.3.2 使用一個(gè)文本替換另一個(gè)
文本的示例 428
1.3.3 在標(biāo)記化之前進(jìn)行
替代 428
1.3.4 處理重復(fù)的字符 428
1.3.5 刪除重復(fù)字符的示例 429
1.3.6 使用單詞的同義詞替換
單詞 430
1.4 在文本上應(yīng)用齊夫定律 431
1.5 相似性量度 431
1.5.1 使用編輯距離算法應(yīng)用
相似性量度 432
1.5.2 使用杰卡德系數(shù)應(yīng)用
相似性量度 434
1.5.3 使用史密斯-沃特曼算法
應(yīng)用相似性量度 434
1.5.4 其他字符串相似性指標(biāo) 435
1.6 本章小結(jié) 436
第 2章 統(tǒng)計(jì)語(yǔ)言模型 437
2.1 單詞頻率 437
2.1.1 對(duì)給定文本進(jìn)行最大
似然估計(jì) 441
2.1.2 隱馬爾可夫模型估計(jì) 448
2.2 在MLE模型上應(yīng)用平滑 450
2.2.1 加一平滑法 450
2.2.2 古德-圖靈算法 451
2.2.3 聶氏估計(jì) 456
2.2.4 威滕 貝爾估計(jì) 457
2.3 為MLE指定回退機(jī)制 457
2.4 應(yīng)用數(shù)據(jù)插值獲得混合和
匹配 458
2.5 應(yīng)用困惑度評(píng)估語(yǔ)言模型 458
2.6 在建模語(yǔ)言中應(yīng)用
梅特羅波利斯-黑斯廷斯算法 459
2.7 在語(yǔ)言處理中應(yīng)用
吉布斯采樣 459
2.8 本章小結(jié) 461
第3章 詞語(yǔ)形態(tài)學(xué)—試一試 462
3.1 詞語(yǔ)形態(tài)學(xué) 462
3.2 詞根還原器 463
3.3 詞形還原 466
3.4 開發(fā)用于非英語(yǔ)語(yǔ)言的詞根
還原器 467
3.5 詞語(yǔ)形態(tài)分析器 469
3.6 詞語(yǔ)形態(tài)生成器 471
3.7 搜索引擎 471
3.8 本章小結(jié) 475
第4章 詞性標(biāo)注—識(shí)別單詞 476
4.1 詞性標(biāo)注 476
4.2 創(chuàng)建POS標(biāo)注的語(yǔ)料庫(kù) 482
4.3 選擇某個(gè)機(jī)器學(xué)習(xí)算法 484
4.4 涉及n元組方法的統(tǒng)計(jì)建?!?86
4.5 使用POS標(biāo)注的語(yǔ)料庫(kù)開發(fā)
組塊器 491
4.6 本章小結(jié) 494
第5章 解析—分析訓(xùn)練數(shù)據(jù) 495
5.1 解析 495
5.2 構(gòu)建樹庫(kù) 496
5.3 從樹庫(kù)中提取上下文無(wú)關(guān)文法的
規(guī)則 501
5.4 從CFG中創(chuàng)建概率上下文無(wú)關(guān)的
文法 507
5.5 CYK圖解析算法 509
5.6 厄雷圖解析算法 510
5.7 本章小結(jié) 516
第6章 語(yǔ)義分析—意義重大 517
6.1 語(yǔ)義分析 517
6.1.1 NER簡(jiǎn)介 521
6.1.2 使用隱馬爾可夫模型的
NER系統(tǒng) 525
6.1.3 使用機(jī)器學(xué)習(xí)工具包訓(xùn)練
NER 530
6.1.4 使用POS標(biāo)注的
NER 531
6.2 從Wordnet中生成同義詞集
ID 534
6.3 使用Wordnet消除歧義 537
6.4 本章小結(jié) 541
第7章 情感分析—我很高興 542
7.1 情感分析 542
7.2 使用機(jī)器學(xué)習(xí)的情感分析 548
7.3 本章小結(jié) 572
第8章 信息檢索—訪問信息 573
8.1 信息檢索 573
8.1.1 停用詞刪除 574
8.1.2 利用向量空間模型進(jìn)行
信息檢索 576
8.2 向量空間評(píng)分以及與查詢
操作器交互 583
8.3 利用隱含語(yǔ)義索引開發(fā)IR
系統(tǒng) 586
8.4 文本摘要 587
8.5 問答系統(tǒng) 588
8.6 本章小結(jié) 589
第9章 話語(yǔ)分析—知識(shí)就是信仰 590
9.1 話語(yǔ)分析 590
9.1.1 使用定中心理論進(jìn)行
話語(yǔ)分析 595
9.1.2 回指解析 596
9.2 本章小結(jié) 601

第 10章 NLP系統(tǒng)的評(píng)估—
性能分析 602
10.1 對(duì)NLP系統(tǒng)進(jìn)行評(píng)估的
需求 602
10.1.1 NLP工具(POS標(biāo)注器、
詞干還原器和形態(tài)分析器)
的評(píng)估 603
10.1.2 使用黃金數(shù)據(jù)評(píng)估
解析器 613
10.2 IR系統(tǒng)的評(píng)估 614
10.3 錯(cuò)誤識(shí)別的指標(biāo) 614
10.4 基于詞匯匹配的指標(biāo) 615
10.5 基于語(yǔ)法匹配的指標(biāo) 619
10.6 使用淺層語(yǔ)義匹配的
指標(biāo) 620
10.7 本章小結(jié) 621
參考書目 622

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)