定 價:¥69.00
作 者: | 趙海 |
出版社: | 清華大學出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787302627784 | 出版時間: | 2023-07-01 | 包裝: | 平裝 |
開本: | 16開 | 頁數: | 字數: |
第 1章自然語言處理概要 1
1.1自然語言處理的概念和術語 .1
1.1.1自然語言 .1
1.1.2自然語言處理與自然語言理解 .2
1.1.3計算語言學 3
1.2自然語言處理的技術性挑戰(zhàn) .4
1.3機器翻譯 7
1.4語言處理層次 .9
1.5應用型自然語言處理:人機對話系統(tǒng) 16
1.6自然語言處理的學術出版體系 19
參考文獻25
第 2章 n元語言模型.27
2.1概率論基礎.27
2.2語言模型用于語言生成 29
2.3 n元語言模型的工作方式及馬爾可夫假設 .30
2.3.1 n元機制 .30
2.3.2馬爾可夫假設.31
2.4評價指標:困惑度.32
2.5 n元語言模型的平滑方法.33
2.5.1 Laplace平滑(加一平滑)34
2.5.2 Good-Turing平滑 35
2.5.3 Jelinek-Mercer平滑 .36
2.5.4 Katz平滑37
2.5.5 Kneser-Ney平滑 37
2.5.6 Pitman-Yor語言模型 .39
2.6非 n元機制的平滑方法 .41
2.6.1緩存 41
2.6.2跳詞 41
2.6.3聚類 42
2.7平滑方法的經驗結果 .43
2.8 n元語言模型的建模工具.44
參考文獻45
XII自然語言理解
第 3章語言編碼表示 .47
3.1獨熱表示 47
3.2特征函數 49
3.3通用特征模板 .52
3.4加權的獨熱表示:TF-IDF.53
參考文獻55
第 4章非監(jiān)督的結構化學習 .56
4.1自然語言處理的方法構成.56
4.2簡單任務:詞/子詞切分 58
4.3切分算法 58
4.3.1通用切分框架.58
4.3.2全局優(yōu)度最大化:Viterbi解碼算法 .59
4.3.3局部優(yōu)度最大化:貪心解碼算法 59
4.4優(yōu)度度量 60
4.4.1頻率 60
4.4.2鄰接多樣性 61
4.4.3分支熵.62
4.4.4描述長度增益.63
4.4.5點互信息 .63
4.4.6學生 t測試64
4.5非監(jiān)督分詞.64
4.5.1數據集和評估指標 64
4.5.2詞典預處理技巧 .65
4.5.3性能 66
4.6推廣的字節(jié)對編碼切分算法 .67
參考文獻67
第 5章結構化學習 69
5.1機器學習的粒度和語言單元 .69
5.2結構化學習的必要性 .72
5.3自然語言處理中的結構化學習任務 .74
5.4退化為分類任務 76
5.5結構分解 78
5.6共時結構分解:圖模型 78
5.7歷時結構分解:轉移模型.82
5.8兩類結構化分解方式的優(yōu)劣 .83
5.9結構化學習的簡化情形 84
參考文獻85
目錄 XIII
第 6章結構上的標注任務 86
6.1從結構標注到序列標注 86
6.2局部馬爾可夫模型.88
6.3全局馬爾可夫模型和條件隨機場.90
6.3.1全局馬爾可夫模型 90
6.3.2馬爾可夫隨機場 .91
6.3.3條件隨機場 92
6.4隱馬爾可夫模型 95
6.4.1從馬爾可夫鏈到隱馬爾可夫模型 95
6.4.2隱馬爾可夫模型的基本計算任務:概率估計 .96
6.4.3隱馬爾可夫模型的訓練:參數估計.99
6.4.4隱馬爾可夫模型的解碼:Viterbi算法99
6.5自然語言處理中的結構標注任務. 100
6.5.1再標注的序列標注任務 . 100
6.5.2詞性標注任務的隱馬爾可夫模型實現示例. 102
6.5.3推廣的分詞建模:不等單元的結構分解 105
參考文獻 107
第 7章機器學習模型 . 109
7.1機器學習模型的要素配置. 109
7.2損失函數 111
7.3 k近鄰方法 . 116
7.4感知機 . 119
7.5鉸鏈損失與支持向量機 124
7.5.1最大化間隔 125
7.5.2懲罰項導出的軟邊界. 128
7.5.3映射到高維空間 . 129
7.5.4核函數. 132
7.5.5支持向量機的訓練算法 . 134
7.5.6多類支持向量機 . 136
7.5.7支持向量機工具包 136
7.5.8支持向量機總結 . 138
7.6交叉熵損失與最大熵模型. 138
7.6.1最大似然估計:對數-線性模型 139
7.6.2最大熵原理 143
7.6.3平滑 145
7.6.4最大熵模型的工具包. 146
7.7從神經元學習到神經網絡. 146
參考文獻 147
XIV自然語言理解
第 8章深度學習模型 . 150
8.1表示學習 152
8.2連續(xù)空間語言模型:詞嵌入或詞向量 154
8.2.1連續(xù)空間語言模型 154
8.2.2連續(xù)空間語言模型的機器學習解釋. 156
8.2.3 Word2Vec和 GloVe詞嵌入 159
8.2.4評估詞向量 162
8.3神經網絡的結構配置 . 167
8.3.1神經網絡的拓撲連接方式 168
3.3.2激活函數 . 170
8.4深度學習模型的訓練 . 175
8.4.1訓練目標:輸出表示和損失函數 175
8.4.2誤差反向傳播算法 178
8.4.3深度學習的訓練管理器 . 179
8.5編碼器-解碼器建模 . 180
8.6編碼器架構:循環(huán)神經網絡 . 183
8.6.1循環(huán)神經網絡的 BPTT訓練算法 185
8.6.2長短時記憶網絡 . 186
8.7編碼器架構:卷積神經網絡 . 188
8.7.1卷積 189
8.7.2池化 190
8.7.3卷積神經網絡的結構. 191
8.8編碼器架構:Transformer . 192
8.8.1自注意力機制. 192
8.8.2 Transformer網絡結構 193
8.9編碼器比較:RNN、CNN和 Transformer 196
8.10序列生成的解碼過程 196
8.11符號主義對陣聯(lián)結主義 199
8.12深度學習工具包 201
參考文獻 203
第 9章預訓練語言模型 206
9.1從表示學習到自監(jiān)督學習. 206
9.2從 n元語言模型到預訓練語言模型 207
9.3輸入單元管理 . 211
9.4預訓練語言模型的自回歸解釋 212
9.5以編輯操作定義自監(jiān)督學習 . 216
9.6采樣與預測目標的單元選擇 . 217
目錄 XV
9.7編碼器架構. 218
9.8預訓練語言模型方法的普適化 220
9.9預訓練語言模型的強化策略 . 221
9.9.1知識增強 . 222
9.9.2多模態(tài)預訓練語言模型 . 222
9.9.3模型優(yōu)化 . 224
9.10典型的預訓練語言模型 224
參考文獻 228
第 10章句法分析 232
10.1句法分析概要 233
10.2成分/短語句法分析 . 235
10.2.1喬姆斯基文法層次體系 235
10.2.2上下文無關文法 237
10.2.3概率上下文無關文法 242
10.3依存句法 246
10.3.1帶中心詞標注的成分句法 . 246
10.3.2依存結構 247
10.3.3成分/短語結構到依存結構的轉換 . 248
10.4句法標注語料:樹庫 250
10.5成分/短語句法分析算法. 251
10.5.1 CYK算法 251
10.5.2 Earley算法 254
10.6依存句法分析算法 . 255
10.6.1基于圖模型的依存句法分析 255
10.6.2基于轉換模型的依存句法分析 259
10.6.3非投影型依存分析 . 261
10.7句法分析的深度學習方法改進 264
10.8依存分析的序列到序列建模 266
10.9從容易優(yōu)先分析到全局貪心分析 . 267
10.10句法分析的經驗結果 270
參考文獻 272
第 11章語義角色標注 . 279
11.1從語義分析到語義角色標注 279
11.2句法分析樹上的語義圖 281
11.3語義角色標注的規(guī)范和語料 283
11.4語義角色標注的建模方式 . 285
XVI自然語言理解
11.5句法特征集成:傳統(tǒng)機器學習模型 291
11.6句法編碼器:深度學習模型 292
11.7句法裁剪 297
11.8統(tǒng)一建模成分和依存語義角色標注 299
11.9語義角色標注中的句法角色變遷 . 300
11.10語義角色標注的經驗結果 . 303
參考文獻 304
第 12章機器閱讀理解 . 307
12.1機器閱讀理解任務的類型和評價指標 308
12.2機器閱讀理解的深度學習建模 310
12.2.1編碼器 312
12.2.2解碼器 314
12.3對話理解 317
12.4面向推理的閱讀理解 319
12.5常識問答 320
12.6開放域問答 . 322
參考文獻 325
第 13章大語言模型及其前沿應用 334
13.1腦計劃與預訓練語言模型 . 334
13.2從預訓練語言模型到大語言模型 . 336
13.3從提示學習到思維鏈推理 . 343
13.4對話式大語言模型 ChatGPT . 349
13.5知識邊界 356
參考文獻 363
后記. 366