注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)科學(xué)技術(shù):文本分析和知識(shí)圖譜

數(shù)據(jù)科學(xué)技術(shù):文本分析和知識(shí)圖譜

數(shù)據(jù)科學(xué)技術(shù):文本分析和知識(shí)圖譜

定 價(jià):¥129.00

作 者: 蘇海波、劉譯璟、易顯維、蘇萌
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787302649700 出版時(shí)間: 2024-01-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  數(shù)據(jù)科學(xué)的關(guān)鍵技術(shù)包括數(shù)據(jù)存儲(chǔ)計(jì)算、數(shù)據(jù)治理、結(jié)構(gòu)化數(shù)據(jù)分析、語(yǔ)音分析、視覺(jué)分析、文本分析和知識(shí)圖譜等方面。本書(shū)的重點(diǎn)是詳細(xì)介紹文本分析和知識(shí)圖譜方面的技術(shù)。文本分析技術(shù)主要包括文本預(yù)訓(xùn)練模型、多語(yǔ)種文本分析、文本情感分析、文本機(jī)器翻譯、文本智能糾錯(cuò)、NL2SQL問(wèn)答以及ChatGPT大語(yǔ)言模型等。知識(shí)圖譜技術(shù)主要包括知識(shí)圖譜構(gòu)建和知識(shí)圖譜問(wèn)答等。本書(shū)將理論介紹和實(shí)踐相結(jié)合,詳細(xì)闡述各個(gè)技術(shù)主題的實(shí)現(xiàn)路線(xiàn),并對(duì)應(yīng)用于業(yè)界算法大賽中的技術(shù)方案和技巧進(jìn)行源代碼解讀,幫助讀者深入理解技術(shù)原理。最后,本書(shū)還介紹了文本分析和知識(shí)圖譜技術(shù)在政務(wù)、公共安全、應(yīng)急等多個(gè)行業(yè)中的智能應(yīng)用實(shí)踐案例?!稊?shù)據(jù)科學(xué)技術(shù):文本分析和知識(shí)圖譜》適合具備Python和機(jī)器學(xué)習(xí)技術(shù)基礎(chǔ)的高等院校學(xué)生、文本分析(或者自然語(yǔ)言處理)以及知識(shí)圖譜領(lǐng)域的算法工程師和研究機(jī)構(gòu)的研究者閱讀,也適合數(shù)據(jù)科學(xué)和人工智能領(lǐng)域的研究者作為參考書(shū)。

作者簡(jiǎn)介

  蘇海波清華大學(xué)電子工程系博士,副研究員,在文本分析、知識(shí)圖譜、大模型等人工智能方向擁有超過(guò)十年的研發(fā)實(shí)踐經(jīng)驗(yàn)。多篇SCI和EI論文發(fā)表于國(guó)外頂尖學(xué)術(shù)會(huì)議和期刊,獲得國(guó)家發(fā)明專(zhuān)利20余項(xiàng),曾擔(dān)任科技部重點(diǎn)研發(fā)計(jì)劃子課題負(fù)責(zé)人。獲得2019年和2020年北京市科學(xué)技術(shù)進(jìn)步獎(jiǎng),帶領(lǐng)團(tuán)隊(duì)獲得多個(gè)業(yè)界知名算法技術(shù)評(píng)測(cè)的冠軍和亞軍。劉譯璟北京大學(xué)博士、正高級(jí)工程師,現(xiàn)任北京百分點(diǎn)科技集團(tuán)股份有限公司CTO。在云計(jì)算、大數(shù)據(jù)、人工智能等領(lǐng)域擁有15年研究和工作經(jīng)驗(yàn)。曾榮獲北京市科學(xué)技術(shù)獎(jiǎng)等獎(jiǎng)項(xiàng),承擔(dān)國(guó)家科技部重點(diǎn)研發(fā)計(jì)劃項(xiàng)目2項(xiàng),參與多個(gè)國(guó)家自然科學(xué)基金項(xiàng)目,多篇論文曾發(fā)表于國(guó)內(nèi)外學(xué)術(shù)刊物。易顯維中國(guó)地質(zhì)大學(xué)碩士,擁有12年AI算法研發(fā)崗相關(guān)研發(fā)管理經(jīng)驗(yàn)。在數(shù)據(jù)挖掘、OCR、文本分析等方面擁有豐富的實(shí)踐經(jīng)驗(yàn),在眾多知名企事業(yè)單位舉辦的高水平機(jī)器學(xué)習(xí)算法競(jìng)賽中累計(jì)獲獎(jiǎng)20余次。蘇 萌美國(guó)康奈爾大學(xué)博士,研究員, 現(xiàn)任北京百分點(diǎn)科技集團(tuán)股份有限公司董事長(zhǎng)兼CEO、北京大學(xué)國(guó)家發(fā)展研究院實(shí)踐教授、北京大學(xué)光華管理學(xué)院實(shí)踐教授、北京市商會(huì)副會(huì)長(zhǎng)、海淀區(qū)工商聯(lián)副主席、海淀區(qū)政協(xié)委員、國(guó)務(wù)院學(xué)位委員會(huì)全國(guó)應(yīng)用統(tǒng)計(jì)專(zhuān)業(yè) “大數(shù)據(jù)專(zhuān)家委員會(huì)" 委員等。曾執(zhí)教于北京大學(xué)光華管理學(xué)院,任副系主任、博士生導(dǎo)師。

圖書(shū)目錄

第1章 什么是數(shù)據(jù)科學(xué) 1
1.1 數(shù)據(jù)科學(xué)的定義 1
1.1.1 數(shù)據(jù)科學(xué)的背景 1
1.1.2 數(shù)據(jù)科學(xué)的定義 1
1.2 數(shù)據(jù)科學(xué)的關(guān)鍵技術(shù) 3
1.2.1 數(shù)據(jù)存儲(chǔ)計(jì)算 5
1.2.2 數(shù)據(jù)治理  12
1.2.3 結(jié)構(gòu)化數(shù)據(jù)分析  28
1.2.4 語(yǔ)音分析  44
1.2.5 視覺(jué)分析 55
1.2.6 文本分析 61
1.2.7 知識(shí)圖譜  65
1.3 本章小結(jié)  65
1.4 習(xí)題  66
1.5 本章參考文獻(xiàn)  66
第2章 文本預(yù)訓(xùn)練模型 68
2.1 文本分析技術(shù)的發(fā)展史  68
2.2 Transformer模型結(jié)構(gòu)  70
2.3 預(yù)訓(xùn)練模型的結(jié)構(gòu)和變種 75
2.4 加速處理器GPU和TPU  79
2.4.1 GPU的介紹  79
2.4.2 GPU產(chǎn)品命名  80
2.4.3 TPU和GPU的區(qū)別  83
2.4.4 TPU的使用總結(jié)  84
2.5 預(yù)訓(xùn)練模型的常見(jiàn)問(wèn)題  87
2.5.1 模型輸入的常見(jiàn)問(wèn)題  87
2.5.2 模型原理的常見(jiàn)問(wèn)題  90
2.5.3 模型進(jìn)化的常見(jiàn)問(wèn)題  94
2.6 預(yù)訓(xùn)練模型的源碼解讀  96
2.6.1 模型架構(gòu)  96
2.6.2 BertModel  96
2.6.3 BERT預(yù)訓(xùn)練任務(wù)  107
2.6.4 BERT 微調(diào)  112
2.7 本章小結(jié)  114
2.8 習(xí)題  114
2.9 本章參考文獻(xiàn)  115
第3章 多語(yǔ)種文本分析 116
3.1 多語(yǔ)種文本分析背景介紹  116
3.2 多語(yǔ)種文本分析技術(shù)  116
3.2.1 Polyglot技術(shù)  116
3.2.2 Multilingual BERT  117
3.2.3 XLM多語(yǔ)言模型  117
3.2.4 XLMR多語(yǔ)言模型  119
3.2.5 模型實(shí)驗(yàn)效果  120
3.3 多語(yǔ)種文本分析源碼解讀  121
3.4 本章小結(jié)  125
3.5 習(xí)題  126
3.6 本章參考文獻(xiàn)  126
第4章 文本情感分析 127
4.1 情感分析背景介紹  127
4.2 情感分析技術(shù)  127
4.2.1 目標(biāo)和挑戰(zhàn)  127
4.2.2 技術(shù)發(fā)展歷程  129
4.2.3 情感分析的需求分析  133
4.2.4 情感分析的落地實(shí)踐  134
4.2.5 模型開(kāi)發(fā)平臺(tái)的構(gòu)建  137
4.3 情感分析比賽和方案  144
4.3.1 背景介紹  144
4.3.2 方案介紹  146
4.3.3 數(shù)據(jù)清洗和增廣  147
4.3.4 多模態(tài)融合  147
4.3.5 機(jī)器學(xué)習(xí)技巧  148
4.4 情感分析源碼解讀  151
4.4.1 F1值適應(yīng)優(yōu)化技巧代碼  151
4.4.2 對(duì)抗訓(xùn)練代碼  152
4.5 本章小結(jié)  154
4.6 習(xí)題  154
4.7 本章參考文獻(xiàn)  155
第5章 文本機(jī)器翻譯 156
5.1 機(jī)器翻譯背景介紹  156
5.2 機(jī)器翻譯技術(shù)  157
5.2.1 基于規(guī)則的機(jī)器翻譯  157
5.2.2 統(tǒng)計(jì)機(jī)器翻譯  158
5.2.3 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯  159
5.2.4 Encoder-Decoder模型  161
5.2.5 注意力機(jī)制模型  162
5.2.6 工業(yè)級(jí)神經(jīng)網(wǎng)絡(luò)實(shí)踐  164
5.3 機(jī)器翻譯比賽和方案  167
5.3.1 WMT21翻譯任務(wù)  167
5.3.2 WMT22 翻譯任務(wù)  168
5.4 機(jī)器翻譯源碼解讀  169
5.4.1 通用框架介紹  169
5.4.2 翻譯模型實(shí)現(xiàn)  170
5.5 本章小結(jié)  180
5.6 習(xí)題  181
5.7 本章參考文獻(xiàn)  181
第6章 文本智能糾錯(cuò) 183
6.1 文本糾錯(cuò)背景介紹  183
6.2 文本智能糾錯(cuò)技術(shù)  184
6.2.1 智能糾錯(cuò)的意義和難點(diǎn)  185
6.2.2 智能糾錯(cuò)解決的問(wèn)題  185
6.2.3 業(yè)界主流解決方案  186
6.2.4 技術(shù)方案實(shí)踐  190
 6.3 文本智能糾錯(cuò)技術(shù)  193
6.3.1 比賽介紹  193
6.3.2 校對(duì)問(wèn)題思考  194
6.4 糾錯(cuò)方案和源碼解讀  195
6.4.1 GECToR原理解讀  195
6.4.2 MacBERT原理解讀  199
6.4.3 PERT原理解讀 200
6.4.4 PLOME原理解讀 202
6.4.5 比賽方案  203
6.5 本章小結(jié) 204
6.6 習(xí)題  205
6.7 本章參考文獻(xiàn)  205
第7章 知識(shí)圖譜構(gòu)建  206
7.1 知識(shí)圖譜背景介紹 206
7.1.1 知識(shí)和知識(shí)圖譜 206
7.1.2 知識(shí)獲取、知識(shí)抽取與信息抽取
 的區(qū)別207
7.1.3 知識(shí)圖譜構(gòu)建范式 208
7.2 非結(jié)構(gòu)化信息抽取技術(shù)  211
7.2.1 信息抽取框架  211
7.2.2 命名實(shí)體識(shí)別 212
7.2.3 關(guān)系識(shí)別  213
7.2.4 事件抽取  215
7.3 生成式統(tǒng)一模型抽取技術(shù)  216
7.4 模型源碼解讀 220
7.5 本章小結(jié) 224
7.6 習(xí)題 224
7.7 本章參考文獻(xiàn)  225
第8章 知識(shí)圖譜問(wèn)答  226
8.1 背景介紹  226
8.2 知識(shí)圖譜問(wèn)答技術(shù)  229
8.2.1 信息檢索方法  229
8.2.2 語(yǔ)義解析方法  231
8.3 方案和源碼解讀  233
8.3.1 NL2SPARQL  233
8.3.2 NL2SPARQL語(yǔ)義解析方案  234
8.3.3 T5、BART、UniLM模型簡(jiǎn)介  234
8.3.4 T5、BART、UniLM方案  236
8.3.5 訓(xùn)練T5、BART、UniLM
 生成模型  237
8.3.6 語(yǔ)義排序方案和代碼  239
8.3.7 SPARQL修正代碼  241
8.4 本章小結(jié)  245
8.5 習(xí)題  245
第9章 結(jié)構(gòu)化知識(shí)NL2SQL問(wèn)答 246
9.1 NL2SQL背景介紹 246
9.2 NL2SQL技術(shù)  249
9.2.1 NL2SQL技術(shù)路線(xiàn)  249
9.2.2 NL2SQL項(xiàng)目實(shí)踐  255
9.3 NL2SQL比賽和方案  256
9.4 NL2SQL源碼解讀  259
9.5 本章小結(jié)  269
9.6 習(xí)題  269
9.7 本章參考文獻(xiàn)  270
第10章 ChatGPT大語(yǔ)言模型 271
10.1 ChatGPT介紹  271
10.1.1 ChatGPT的定義和背景  271
10.1.2 ChatGPT的發(fā)展歷程  272
10.2 GPT模型概述 272
10.2.1 GPT-1模型的原理  272
10.2.2 GPT-2模型的原理  273
10.2.3 GPT-3模型的原理  275
10.3 ChatGPT的實(shí)現(xiàn)原理  277
10.3.1 大模型的微調(diào)技術(shù)  277
10.3.2 ChatGPT的能力來(lái)源  278
10.3.3 ChatGPT的預(yù)訓(xùn)練和微調(diào)  279
10.4 ChatGPT的應(yīng)用  282
10.4.1 ChatGPT提示工程  282
10.4.2 ChatGPT應(yīng)用場(chǎng)景  283
10.4.3 ChatGPT的優(yōu)缺點(diǎn) 284
10.5 開(kāi)源大模型  285
10.5.1 ChatGLM大模型  285
10.5.2 LLaMA大模型  288
10.6 本章小結(jié) 294
10.7 習(xí)題 294
10.8 本章參考文獻(xiàn) 295
第11章 行業(yè)實(shí)踐案例  296
11.1 智慧政務(wù)實(shí)踐案例  296
11.1.1 案例背景  296
11.1.2 解決方案  297
11.1.3 系統(tǒng)架構(gòu)和實(shí)現(xiàn)  299
11.1.4 案例總結(jié)  307
11.2 公共安全實(shí)踐案例 308
11.2.1 案例背景 308
11.2.2 解決方案 309
11.2.3 系統(tǒng)架構(gòu)及實(shí)現(xiàn)  311
11.2.4 案例總結(jié)  317
11.3 智能應(yīng)急實(shí)踐案例  318
11.3.1 案例背景  319
11.3.2 解決方案  320
11.3.3 系統(tǒng)架構(gòu)及實(shí)現(xiàn)  321
11.3.4 案例總結(jié)  332
11.4 本章小結(jié)  334
11.5 習(xí)題 334

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)