注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能基于NLP的內(nèi)容理解

基于NLP的內(nèi)容理解

基于NLP的內(nèi)容理解

定 價:¥99.00

作 者: 李明琦,谷雪,孟子堯
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111720690 出版時間: 2023-03-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  這是一本講述如何用NLP技術(shù)進(jìn)行文本內(nèi)容理解的著作,也是一本系統(tǒng)講解NLP算法的著作,是作者在NLP和內(nèi)容理解領(lǐng)域多年經(jīng)驗(yàn)的總結(jié)。本書結(jié)合內(nèi)容理解的實(shí)際業(yè)務(wù)場景,系統(tǒng)全面、循序漸進(jìn)地講解了各種NLP算法以及如何用這些算法高效地解決內(nèi)容理解方面的難題,主要包括如下幾個方面的內(nèi)容:(1)文本特征表示文本特征表示是NLP的基石,也是內(nèi)容理解的基礎(chǔ)環(huán)節(jié),本書詳細(xì)講解了離散型表示方法和分布型表示方法等特征表示方法及其應(yīng)用場景,還講解了詞向量的評判標(biāo)準(zhǔn)。(2)內(nèi)容重復(fù)理解詳細(xì)講解了標(biāo)題重復(fù)、段落重復(fù)、文章重復(fù)的識別方法和去重算法。(3)內(nèi)容通順度識別及糾正詳細(xì)講解了內(nèi)容通順度的識別方法以及糾正不通順內(nèi)容的方法。(4)內(nèi)容質(zhì)量詳細(xì)講解了多種內(nèi)容質(zhì)量相關(guān)的算法,以及如何搭建高質(zhì)量的知識問答體系的流程。(5)標(biāo)簽體系構(gòu)建詳細(xì)講解了針對內(nèi)容理解的標(biāo)簽體系的建設(shè)流程和方法,以及多種相關(guān)算法。(6)文本摘要生成詳細(xì)講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數(shù)據(jù)集和文本摘要評價方法。(7)文本糾錯詳細(xì)講解了文本糾錯的傳統(tǒng)方法、深度學(xué)習(xí)方法、工業(yè)界解決方案,以及常用的文本糾錯工具的安裝和使用。

作者簡介

  李明琦資深A(yù)I技術(shù)專家,現(xiàn)就職于BAT,擔(dān)任高級算法工程師。長期致力于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、NLP等技術(shù)在實(shí)際業(yè)務(wù)場景中的落地,在內(nèi)容理解方面有豐富的經(jīng)驗(yàn),主導(dǎo)的內(nèi)容質(zhì)量項(xiàng)目曾獲得最佳項(xiàng)目獎。先后發(fā)表人工智能相關(guān)的學(xué)術(shù)論文2篇,申請人工智能領(lǐng)域的發(fā)明專利5項(xiàng)。在GitHub上貢獻(xiàn)了大量內(nèi)容質(zhì)量、問答系統(tǒng)、NLP等方面的代碼,在CSDN撰寫了一些與算法、機(jī)器學(xué)習(xí)、內(nèi)容理解相關(guān)的文章,深受歡迎。谷 雪現(xiàn)為葡萄牙米尼奧大學(xué)博士生,涉及的研究領(lǐng)域?yàn)樯窠?jīng)架構(gòu)搜索、自然語言處理、情感分析,博士期間著力于細(xì)粒度情感原因提取。先后發(fā)表過學(xué)術(shù)論文2篇,其中一篇是神經(jīng)架構(gòu)搜索的綜述,另一篇是基于進(jìn)化策略的神經(jīng)架構(gòu)演化方法。在GitHub上貢獻(xiàn)了大量深度學(xué)習(xí)、機(jī)器學(xué)習(xí)代碼,在CSDN上分享了服務(wù)器配置、數(shù)據(jù)分析、圖像去噪、情感分析等方向的多篇文章。孟子堯在人工智能技術(shù)領(lǐng)域有非常深厚的積累,擅長機(jī)器學(xué)習(xí)和深度學(xué)習(xí),尤其是深度學(xué)習(xí)中的圖像分類和自然語言處理等技術(shù)。熱衷于開源的應(yīng)用和推廣,在GitHub和CSDN上貢獻(xiàn)了許多代碼和文章。在《計(jì)算機(jī)研究與發(fā)展》上發(fā)表過1篇人工智能相關(guān)論文。

圖書目錄

CONTENTS
目  錄
前言
第1章 文本特征表示 1
1.1 語料與語料預(yù)處理 1
1.1.1 語料和語料庫 1
1.1.2 語料預(yù)處理 2
1.2 文本特征表示方法 6
1.2.1 離散型特征表示方法 6
1.2.2 分布型特征表示方法 13
1.3 詞向量的評判標(biāo)準(zhǔn) 29
1.3.1 內(nèi)部評估 29
1.3.2 外在評估 31
1.4 本章小結(jié) 34
第2章 內(nèi)容重復(fù)理解 35
2.1 標(biāo)題重復(fù) 35
2.1.1 標(biāo)題符號規(guī)整化處理 36
2.1.2 Jieba分詞 39
2.1.3 LAC分詞 43
2.1.4 基于分詞及字符串等
方式進(jìn)行重復(fù)識別 45
2.2 段落重復(fù)識別實(shí)例 47
2.2.1 段落重復(fù)識別 47
2.2.2 基于N-gram算法進(jìn)行
內(nèi)容去重 48
2.2.3 平滑處理技術(shù) 54
2.3 基于相似度計(jì)算的文章判重 57
2.3.1 文本相似度計(jì)算任務(wù)
的分析 57
2.3.2 距離度量方式 58
2.3.3 基于SimHash算法進(jìn)行
文本重復(fù)檢測 62
2.4 本章小結(jié) 66
第3章 內(nèi)容通順度識別及糾正 67
3.1 數(shù)據(jù)增強(qiáng) 67
3.2 基于FastText算法的句子
通順度識別 73
3.2.1 CBOW模型 74
3.2.2 FastText算法原理 75
3.2.3 FastText算法實(shí)戰(zhàn) 81
3.3 基于TextCNN算法的分類
任務(wù)實(shí)現(xiàn) 93
3.3.1 專有名詞簡介 93
3.3.2 算法介紹 94
3.3.3 參數(shù)調(diào)優(yōu)經(jīng)驗(yàn)總結(jié) 96
3.3.4 基于Keras工具實(shí)現(xiàn)TextCNN算法 96
3.4 基于TextRNN算法的分類
任務(wù)實(shí)現(xiàn) 98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
識別效果對比 105
3.5 基于Seq2Seq模型的
糾正策略 106
3.5.1 Seq2Seq模型原理 106
3.5.2 糾正不通順句子的方法 108
3.6 本章小結(jié) 114
第4章 內(nèi)容質(zhì)量 116
4.1 GBDT算法 116
4.1.1 GBDT算法概述 117
4.1.2 負(fù)梯度擬合 117
4.1.3 GBDT回歸算法 118
4.1.4 GBDT分類算法 119
4.2 XGBoost算法 121
4.2.1 從GBDT到XGBoost 121
4.2.2 XGBoost損失函數(shù) 122
4.2.3 XGBoost損失函數(shù)的
優(yōu)化求解 124
4.2.4 XGBoost算法流程 125
4.2.5 XGBoost算法參數(shù)
及調(diào)優(yōu) 127
4.3 知識問答質(zhì)量體系的搭建 129
4.3.1 知識問答質(zhì)量體系
建立的意義 130
4.3.2 整體的項(xiàng)目實(shí)施方案 130
4.3.3 知識問答質(zhì)量體系
搭建流程 133
4.4 本章小結(jié) 142
第5章 標(biāo)簽體系構(gòu)建 143
5.1 標(biāo)簽體系 143
5.1.1 標(biāo)簽體系的重要性 143
5.1.2 標(biāo)簽體系的分類 144
5.1.3 構(gòu)建標(biāo)簽體系 146
5.2 TF-IDF算法 151
5.2.1 TF-IDF算法介紹 151
5.2.2 TF-IDF算法實(shí)現(xiàn) 152
5.3 PageRank算法 155
5.4 TextRank算法 163
5.4.1 TextRank算法的使用
場景 164
5.4.2 TextRank算法的
優(yōu)缺點(diǎn) 168
5.5 本章小結(jié) 168
第6章  文本摘要生成 169
6.1 文本摘要相關(guān)介紹 169
6.1.1 文本摘要問題定義 169
6.1.2 文本摘要分類 170
6.1.3 文本摘要的技術(shù)和方法 170
6.2 基于無監(jiān)督的抽取式文本摘要 172
6.2.1 基于經(jīng)驗(yàn)的文本摘要 173
6.2.2 基于主題模型的
文本摘要 175
6.2.3 基于圖的文本摘要 182
6.2.4 基于特征評分的
文本摘要 185
6.2.5 基于聚類的文本摘要 188
6.3 基于有監(jiān)督的抽取式文本摘要 191
6.4 基于深度神經(jīng)網(wǎng)絡(luò)的生成式
文本摘要 201
6.5 文本摘要常用數(shù)據(jù)集 210
6.6 文本摘要評價方法 211
6.6.1 自動評價方法 211
6.6.2 人工評價方法 213
6.7 本章小結(jié) 213
第7章 文本糾錯 214
7.1 錯誤來源及類型 214
7.2 文本糾錯的3種傳統(tǒng)方法 215
7.2.1 模板匹配 215
7.2.2 編輯距離匹配 216
7.2.3 HANSpeller++框架 217
7.3 文本糾錯深度學(xué)習(xí)方法 220
7.3.1 英文文本糾錯方法 220
7.3.2 中文文本糾錯方法 224
7.4 工業(yè)界解決方法 233
7.4.1 3階段級聯(lián)的糾錯方案 234
7.4.2 符合多種場景的通用
糾錯方案 236
7.4.3 保險文本的糾錯方案 237
7.5 文本糾錯工具 239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小結(jié) 242

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號