注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫挖掘/數(shù)據(jù)倉庫向量數(shù)據(jù)庫:大模型驅(qū)動的智能檢索與應用

向量數(shù)據(jù)庫:大模型驅(qū)動的智能檢索與應用

向量數(shù)據(jù)庫:大模型驅(qū)動的智能檢索與應用

定 價:¥119.00

作 者: 梁楠
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302685647 出版時間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內(nèi)容簡介

  《向量數(shù)據(jù)庫:大模型驅(qū)動的智能檢索與應用》系統(tǒng)地介紹向量數(shù)據(jù)庫的原理、技術(shù)實現(xiàn)及其應用,重點分析傳統(tǒng)數(shù)據(jù)庫在處理高維向量數(shù)據(jù)時的局限性,并提供相應的解決方案。《向量數(shù)據(jù)庫:大模型驅(qū)動的智能檢索與應用》分為4個部分,共13章,內(nèi)容涵蓋從理論基礎到技術(shù)實踐的多個方面,詳細討論高維向量表示中的信息丟失、嵌入空間誤差和維度詛咒等問題,結(jié)合FAISS和Milvus等主流開源工具,深入剖析向量數(shù)據(jù)庫的索引機制、搜索算法和優(yōu)化策略。通過實際案例,展示向量數(shù)據(jù)庫在推薦系統(tǒng)、行為分析、智能診斷、語義搜索等領域的應用,并特別強調(diào)企業(yè)級語義搜索系統(tǒng)的開發(fā)與部署經(jīng)驗。《向量數(shù)據(jù)庫:大模型驅(qū)動的智能檢索與應用》不僅提供深度的理論指導,還通過豐富的案例幫助讀者掌握如何構(gòu)建高效的向量搜索引擎,適合從事搜索引擎與推薦系統(tǒng)開發(fā)的工程師,數(shù)據(jù)科學、人工智能及相關領域的從業(yè)者、研究人員,以及對向量數(shù)據(jù)庫與相似性搜索感興趣的讀者,也可作為培訓機構(gòu)和高校相關課程的教學用書。

作者簡介

  梁楠,博士,畢業(yè)于北京航空航天大學,高級職稱,長期從事模式識別、機器學習、統(tǒng)計理論的研究與應用,負責或參與科研項目多項,專注于人工智能、大語言模型的應用與開發(fā),對深度學習、數(shù)據(jù)分析與預測等有獨到見解。

圖書目錄

第1部分  理論基礎
第1章  為何需要向量數(shù)據(jù)庫 3
1.1  大語言模型的缺陷 3
1.1.1  高維向量表示中的信息丟失問題 3
1.1.2  嵌入空間對語義相似度的誤差影響 8
1.2  高維數(shù)據(jù)存儲與檢索的技術(shù)瓶頸 11
1.2.1  高維數(shù)據(jù)的特性與存儲難點分析 11
1.2.2  高維空間中的“維度詛咒”問題簡介 12
1.2.3  高效檢索:索引結(jié)構(gòu)與搜索算法簡介 14
1.3  傳統(tǒng)數(shù)據(jù)庫與向量數(shù)據(jù)庫的對比分析 15
1.3.1  傳統(tǒng)數(shù)據(jù)庫的設計原理與局限性 15
1.3.2  高維向量檢索在傳統(tǒng)數(shù)據(jù)庫中的實現(xiàn)難點 16
1.3.3  傳統(tǒng)數(shù)據(jù)庫與向量數(shù)據(jù)庫的性能對比分析 17
1.4  向量數(shù)據(jù)庫的優(yōu)勢 19
1.5  本章小結(jié) 20
1.6  思考題 21
第2章  向量數(shù)據(jù)庫基礎 22
2.1  向量數(shù)據(jù)庫的核心概念與基本數(shù)據(jù)結(jié)構(gòu) 22
2.1.1  向量數(shù)據(jù)庫的定義與發(fā)展背景 22
2.1.2  向量數(shù)據(jù)庫常見的數(shù)據(jù)結(jié)構(gòu):倒排索引、圖索引與分區(qū)技術(shù) 23
2.1.3  向量數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫邏輯對比 26
2.2  特征提取與向量表示:從數(shù)據(jù)到高維坐標系 28
2.2.1  特征提取的基本方法 28
2.2.2  嵌入向量生成 31
2.2.3  數(shù)據(jù)預處理對向量質(zhì)量的影響 32
2.3  高維空間特性與“維度詛咒”問題解析 34
2.3.1  高維空間中的稀疏性與數(shù)據(jù)分布特性 34
2.3.2  距離度量的退化:歐氏距離與余弦相似度 36
2.3.3  維度詛咒:降維與索引優(yōu)化 38
2.4  本章小結(jié) 39
2.5  思考題 40
第2部分  核心技術(shù)與算法原理
第3章  向量嵌入 43
3.1  靜態(tài)向量嵌入 43
3.1.1  傳統(tǒng)詞向量模型:Word2Vec與GloVe 43
3.1.2  靜態(tài)嵌入的局限性:語義多義性與上下文缺失 46
3.1.3  靜態(tài)向量嵌入在特定領域的應用 48
3.2  動態(tài)向量嵌入 50
3.2.1  動態(tài)詞向量的生成:BERT與GPT的嵌入機制 50
3.2.2  動態(tài)嵌入的優(yōu)勢:上下文敏感性與語義一致性 53
3.2.3  動態(tài)向量嵌入的實時生成與優(yōu)化 55
3.3  均勻分布與空間覆蓋率 57
3.3.1  高維向量分布分析 57
3.3.2  嵌入向量的均勻性測量方法 59
3.3.3  空間覆蓋率對檢索性能的影響 61
3.4  嵌入向量優(yōu)化 63
3.4.1  主成分分析與奇異值分解的降維應用 63
3.4.2  t-SNE與UMAP降維技術(shù) 65
3.4.3  降維對嵌入語義保留與性能的權(quán)衡分析 67
3.5  本章小結(jié) 70
3.6  思考題 70
第4章  向量相似性搜索初步 72
4.1  基于暴力搜索的向量相似性檢索 72
4.1.1  暴力搜索的原理與實現(xiàn) 72
4.1.2  暴力搜索優(yōu)化 74
4.2  歐氏距離與余弦相似度 77
4.2.1  距離與相似度的數(shù)學定義 77
4.2.2  不同相似度指標的適用場景分析 79
4.3  向量搜索的精度與召回率 81
4.3.1  精度、召回率與F1評分的計算方法 81
4.3.2  向量搜索性能提升方案 84
4.4  本章小結(jié) 87
4.5  思考題 87
第5章  分層定位與局部敏感哈希 89
5.1  HNSW的核心原理:圖結(jié)構(gòu)與分層搜索路徑優(yōu)化 89
5.1.1  基于圖結(jié)構(gòu)的近鄰搜索模型 89
5.1.2  分層搜索路徑的構(gòu)建與更新 93
5.1.3  HNSW索引時間復雜度分析 96
5.2  局部敏感哈希的設計與性能調(diào)優(yōu) 99
5.2.1  哈希函數(shù)的設計與向量分區(qū)原理 100
5.2.2  LSH桶化與參數(shù)調(diào)優(yōu) 103
5.2.3  LSH的內(nèi)存占用與計算性能分析 106
5.3  HNSW與LSH的具體應用 108
5.3.1  HNSW在推薦系統(tǒng)中的應用 109
5.3.2  LSH在文本和圖像檢索中的應用 114
5.3.3  HNSW與LSH的組合應用:多模態(tài)檢索實例 117
5.4  本章小結(jié) 121
5.5  思考題 121
第6章  LSH搜索優(yōu)化 123
6.1  BallTree算法的工作原理 123
6.1.1  BallTree的節(jié)點分割與索引構(gòu)建 123
6.1.2  BallTree查詢過程與復雜度分析 126
6.2  Annoy搜索算法 130
6.2.1  Annoy的索引結(jié)構(gòu)設計與分區(qū)原理 130
6.2.2  Annoy在大規(guī)模向量檢索中的性能優(yōu)化 131
6.3  隨機投影在LSH中的應用 136
6.3.1  隨機投影的數(shù)學基礎 136
6.3.2  隨機投影在高維數(shù)據(jù)降維與檢索中的實際應用 138
6.3.3  隨機投影在用戶畫像降維與檢索中的應用 140
6.4  本章小結(jié) 143
6.5  思考題 143
第3部分  工具與系統(tǒng)構(gòu)建
第7章  相似性測量初步 147
7.1  從曼哈頓距離到切比雪夫距離 147
7.1.1  曼哈頓距離的幾何意義與公式推導 147
7.1.2  切比雪夫距離在棋盤模型中的應用 149
7.1.3  不同距離度量的適用場景分析 151
7.2  相似性測量的時間復雜度與優(yōu)化 153
7.2.1  向量間距離計算的時間復雜度分析 153
7.2.2  減少距離計算的分區(qū)優(yōu)化技術(shù) 155
7.2.3  并行化與硬件加速在相似性測量中的應用 157
7.2.4  廣告分發(fā)系統(tǒng)案例:基于相似性測量的高效推薦 159
7.3  本章小結(jié) 163
7.4  思考題 163
第8章  測量進階:點積相似度與杰卡德相似度 165
8.1  點積相似度測量 165
8.1.1  點積相似度測量實現(xiàn) 165
8.1.2  點積相似度在推薦系統(tǒng)中的應用案例 167
8.1.3  點積相似度在醫(yī)療領域的應用案例:患者治療方案匹配 170
8.2  杰卡德相似度在稀疏向量中的應用 173
8.2.1  稀疏向量的構(gòu)造與稀疏性分析 173
8.2.2  杰卡德相似度案例分析 175
8.2.3  基于杰卡德相似度的犯罪嫌疑人關系網(wǎng)絡分析 177
8.3  跨模態(tài)醫(yī)療數(shù)據(jù)相似性分析與智能診斷系統(tǒng) 180
8.4  本章小結(jié) 187
8.5  思考題 187
第9章  元數(shù)據(jù)過濾與犯罪行為分析系統(tǒng) 189
9.1  元數(shù)據(jù)與向量檢索 189
9.1.1  元數(shù)據(jù)在混合檢索中的作用 189
9.1.2  元數(shù)據(jù)標簽的定義與標準化 191
9.1.3  智能多條件推薦系統(tǒng) 192
9.2  多條件檢索實現(xiàn) 195
9.2.1  多維度條件組合檢索 195
9.2.2  基于元數(shù)據(jù)優(yōu)先級的排序算法 197
9.2.3  基于元數(shù)據(jù)的酒店智能化推薦案例分析 199
9.3  元數(shù)據(jù)索引的構(gòu)建與優(yōu)化 204
9.3.1  元數(shù)據(jù)索引構(gòu)建 204
9.3.2  動態(tài)元數(shù)據(jù)的更新與重建 206
9.4  實時檢索與元數(shù)據(jù)緩存 208
9.4.1  基于緩存的高性能檢索架構(gòu) 209
9.4.2  元數(shù)據(jù)緩存失效與一致性管理 211
9.5  基于元數(shù)據(jù)的犯罪行為分析與實時預警系統(tǒng) 213
9.5.1  模塊開發(fā)劃分 213
9.5.2  逐模塊開發(fā) 214
9.5.3  犯罪分析與預警系統(tǒng)綜合測試 223
9.6  本章小結(jié) 227
9.7  思考題 227
第10章  FAISS向量數(shù)據(jù)庫開發(fā)基礎 229
10.1  FAISS庫的安裝與快速上手 229
10.1.1  FAISS初步開發(fā)以及CPU、GPU的版本差異 229
10.1.2  加載數(shù)據(jù)與基本查詢示例 232
10.2  基于FAISS的索引構(gòu)建與參數(shù)調(diào)整 234
10.2.1  不同索引類型:Flat、IVF與HNSW 234
10.2.2  參數(shù)調(diào)整對搜索精度與速度的影響 236
10.3  大規(guī)模向量搜索的分片與分布式實現(xiàn) 238
10.3.1  數(shù)據(jù)分片與動態(tài)分片 239
10.3.2  基于分布式框架的FAISS部署 241
10.4  FAISS中的內(nèi)存優(yōu)化與GPU加速 243
10.4.1  壓縮索引與量化技術(shù) 244
10.4.2  多GPU的并行處理 245
10.5  本章小結(jié) 247
10.6  思考題 247
第11章  Milvus向量數(shù)據(jù)庫開發(fā)基礎 249
11.1  Milvus的架構(gòu)設計與功能模塊解析 249
11.1.1  Milvus的初步使用及集群架構(gòu)與組件通信 249
11.1.2  數(shù)據(jù)分區(qū)與高可用設計 253
11.2  使用Milvus進行向量插入、檢索與過濾 255
11.2.1  向量數(shù)據(jù)預處理與批量插入 255
11.2.2  復雜查詢條件實現(xiàn) 257
11.3  Milvus的索引類型與性能調(diào)優(yōu) 259
11.3.1  索引類型的選擇與適用場景分析 259
11.3.2  并行優(yōu)化與索引更新 261
11.4  Milvus在企業(yè)級應用中的部署與擴展方案 264
11.4.1  基于容器化的高可用部署 264
11.4.2  動態(tài)擴展與監(jiān)控集成方案 267
11.5  本章小結(jié) 269
11.6  思考題 269
第4部分  實戰(zhàn)與案例分析
第12章  基于FAISS的自動駕駛泊車數(shù)據(jù)檢索系統(tǒng) 273
12.1  項目背景介紹 273
12.1.1  系統(tǒng)架構(gòu) 273
12.1.2  應用流程 274
12.1.3  案例特色 275
12.2  模塊劃分 275
12.3  模塊化開發(fā) 276
12.3.1  數(shù)據(jù)預處理模塊 276
12.3.2  向量生成模塊 278
12.3.3  索引構(gòu)建與存儲模塊 281
12.3.4  實時檢索模塊 282
12.3.5  動態(tài)更新模塊 284
12.3.6  系統(tǒng)監(jiān)控與優(yōu)化模塊 286
12.4  系統(tǒng)綜合測試 288
12.5  API接口開發(fā)與云端部署 291
12.5.1  API接口開發(fā) 291
12.5.2  云端部署完整系統(tǒng) 294
12.6  本章小結(jié) 298
12.7  思考題 298
第13章  基于語義搜索的向量數(shù)據(jù)庫開發(fā)實戰(zhàn) 301
13.1  語義嵌入生成與優(yōu)化 301
13.1.1  使用預訓練模型生成語義向量嵌入 301
13.1.2  動態(tài)分詞與文本預處理 303
13.1.3  領域微調(diào)技術(shù) 305
13.2  構(gòu)建向量索引與語義檢索框架 308
13.2.1  選擇合適的向量索引類型 308
13.2.2  構(gòu)建Milvus向量索引 310
13.2.3  語義向量檢索與關鍵詞過濾 313
13.2.4  結(jié)合元數(shù)據(jù)與篩選條件實現(xiàn)多維度語義搜索 315
13.3  語義搜索系統(tǒng)的性能調(diào)優(yōu) 318
13.3.1  GPU加速優(yōu)化檢索 319
13.3.2  批量查詢與異步IO技術(shù) 320
13.3.3  實現(xiàn)基于分布式架構(gòu)的語義搜索系統(tǒng) 322
13.4  企業(yè)級語義搜索應用集成與部署 325
13.4.1  構(gòu)建語義搜索RESTful接口 325
13.4.2  使用Docker與Kubernetes實現(xiàn)語義搜索系統(tǒng)的容器化 327
13.4.3  日志監(jiān)控與錯誤診斷模塊 329
13.4.4  基于語義搜索的文檔檢索系統(tǒng)集成與部署 332
13.4.5  大型圖書館圖書檢索的測試案例 335
13.5  本章小結(jié) 337
13.6  思考題 337

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號