注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)工業(yè)技術(shù)一般工業(yè)技術(shù)多模態(tài)深度學習技術(shù)基礎(chǔ)

多模態(tài)深度學習技術(shù)基礎(chǔ)

多模態(tài)深度學習技術(shù)基礎(chǔ)

定 價:¥99.00

作 者: 馮方向,王小捷
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302637479 出版時間: 2023-09-01 包裝: 平裝
開本: 16開 頁數(shù): 241 字數(shù):  

內(nèi)容簡介

  深度學習技術(shù)的引入使得多模態(tài)信息處理領(lǐng)域取得了巨大的突破。本書在介紹多模態(tài)信息處理的基礎(chǔ)概念和典型任務的基礎(chǔ)上,重點介紹 通用、 基礎(chǔ)的基于深度學習的多模態(tài)信息處理技術(shù)。本書內(nèi)容包括初識多模態(tài)信息處理、單模態(tài)深度學習表示技術(shù)、多模態(tài)深度學習基礎(chǔ)技術(shù)、多模態(tài)預訓練技術(shù)4部分:初識多模態(tài)信息處理部分介紹多模態(tài)信息處理的基礎(chǔ)概念和典型任務;單模態(tài)深度學習表示技術(shù)部分介紹多模態(tài)深度學習模型中常用的文本表示和圖像表示技術(shù);多模態(tài)深度學習基礎(chǔ)技術(shù)部分介紹多模態(tài)表示、對齊、融合和轉(zhuǎn)換這4種技術(shù);多模態(tài)預訓練技術(shù)部分介紹多模態(tài)預訓練技術(shù)。此外,為了讓讀者 好地理解理論的細節(jié)并實踐這些多模態(tài)深度學習技術(shù),本書提供了4個可運行的完整的實戰(zhàn)案例,分別對應多模態(tài)表示、對齊、融合和轉(zhuǎn)換這4種技術(shù)。本書既可作為多模態(tài)信息處理、多模態(tài)深度學習等相關(guān)課程的教學參考書,適用于高等院校智能科學與技術(shù)和人工智能等專業(yè)的本科生、研究生,同時可供為對多模態(tài)深度學習技術(shù)感興趣的工程師和研究人員參考。

作者簡介

暫缺《多模態(tài)深度學習技術(shù)基礎(chǔ)》作者簡介

圖書目錄

第1章 緒論
1.1 多模態(tài)信息處理的概念
1.2 多模態(tài)信息處理的難點
1.3 使用深度學習技術(shù)的動機
1.4 多模態(tài)信息處理的基礎(chǔ)技術(shù)
1.4.1 表示技術(shù)
1.4.2 對齊技術(shù)
1.4.3 融合技術(shù)
1.4.4 轉(zhuǎn)換技術(shù)
1.5 多模態(tài)深度學習技術(shù)的發(fā)展歷史
1.6 小結(jié)
1.7 習題
第2章 多模態(tài)任務
2.1 圖文跨模態(tài)檢索
2.1.1 數(shù)據(jù)集
2.1.2 評測指標
2.2 圖像描述
2.2.1 數(shù)據(jù)集
2.2.2 評測指標
2.3 視覺問答
2.3.1 數(shù)據(jù)集
2.3.2 評測指標
2.4 文本生成圖像
2.4.1 數(shù)據(jù)集
2.4.2 評測指標
2.5 指稱表達
2.5.1 數(shù)據(jù)集
2.5.2 評測指標
2.6 小結(jié)
2.7 習題
第3章 文本表示
3.1 基于詞嵌入的靜態(tài)詞表示
3.1.1 Word2vec
3.1.2 GloVe
3.2 基于循環(huán)神經(jīng)網(wǎng)絡的動態(tài)詞表示
3.2.1 循環(huán)神經(jīng)網(wǎng)絡基礎(chǔ)
3.2.2 現(xiàn)代循環(huán)神經(jīng)網(wǎng)絡
3.2.3 動態(tài)詞表示和整體表示
3.3 基于注意力的預訓練語言模型表示
3.3.1 自注意力
3.3.2 transformer編碼器
3.3.3 BERT
3.3.4 BERT詞表示和整體表示
3.4 小結(jié)
3.5 習題
第4章 圖像表示
4.1 基于卷積神經(jīng)網(wǎng)絡的整體表示和網(wǎng)格表示
4.1.1 卷積神經(jīng)網(wǎng)絡基礎(chǔ)
4.1.2 現(xiàn)代卷積神經(jīng)網(wǎng)絡
4.1.3 整體表示和網(wǎng)格表示
4.2 基于目標檢測模型的區(qū)域表示
4.2.1 基于深度學習的目標檢測基礎(chǔ)
4.2.2 區(qū)域表示
4.3 基于視覺transformer的整體表示和塊表示
4.3.1 使用自注意力代替卷積
4.3.2 視覺transformer
4.3.3 整體表示和塊表示
4.4 基于自編碼器的壓縮表示
4.4.1 量化自編碼器:VQ-VAE
4.4.2 量化生成對抗網(wǎng)絡:VQGAN
4.4.3 變分生成對抗網(wǎng)絡:KLGAN
4.4.4 壓縮表示
4.5 小結(jié)
4.6 習題
第5章 多模態(tài)表示
5.1 共享表示
5.1.1 多模態(tài)深度自編碼器
5.1.2 多模態(tài)深度生成模型
5.2 對應表示
5.2.1 基于重構(gòu)損失的方法
5.2.2 基于排序損失的方法
5.2.3 基于對抗損失的方法
5.3 實戰(zhàn)案例:基于對應表示的跨模態(tài)檢索
5.3.1 跨模態(tài)檢索技術(shù)簡介
5.3.2 模型訓練流程
5.3.3 讀取數(shù)據(jù)
5.3.4 定義模型
5.3.5 定義損失函數(shù)
5.3.6 選擇優(yōu)化方法
5.3.7 評估指標
5.3.8 訓練模型
5.4 小結(jié)
5.5 習題
第6章 多模態(tài)對齊
6.1 基于注意力的方法
6.1.1 交叉注意力
6.1.2 基于交叉注意力的圖文對齊和相關(guān)性計算
6.2 基于圖神經(jīng)網(wǎng)絡的方法
6.2.1 圖神經(jīng)網(wǎng)絡基礎(chǔ)
6.2.2 單模態(tài)表示提取
6.2.3 單模態(tài)圖表示學習
6.2.4 多模態(tài)圖對齊
6.3 實戰(zhàn)案例:基于交叉注意力的跨模態(tài)檢索
6.3.1 讀取數(shù)據(jù)
6.3.2 定義模型
6.3.3 定義損失函數(shù)
6.3.4 選擇優(yōu)化方法
6.3.5 評估指標
6.3.6 訓練模型
6.4 小結(jié)
6.5 習題
第7章 多模態(tài)融合
7.1 基于雙線性融合的方法
7.1.1 多模態(tài)低秩雙線性池化
7.1.2 多模態(tài)因子雙線性池化
7.1.3 多模態(tài)Tucker融合
7.2 基于注意力的方法
7.2.1 基于交叉注意力的基礎(chǔ)方法
7.2.2 基于多步交叉注意力的方法
7.2.3 基于交叉transformer編碼器的方法
7.3 實戰(zhàn)案例:基于MFB的視覺問答
7.3.1 視覺問答技術(shù)簡介
7.3.2 讀取數(shù)據(jù)
7.3.3 定義模型
7.3.4 定義損失函數(shù)
7.3.5 選擇優(yōu)化方法
7.3.6 選擇評估指標
7.3.7 訓練模型
7.4 小結(jié)
7.5 習題
第8章 多模態(tài)轉(zhuǎn)換
8.1 基于編解碼框架的方法
8.1.1 基于循環(huán)神經(jīng)網(wǎng)絡的編解碼模型
8.1.2 基于注意力的編解碼模型
8.1.3 基于transformer的編解碼模型
8.2 基于生成對抗網(wǎng)絡的方法
8.2.1 基于條件生成對抗網(wǎng)絡的基本方法
8.2.2 基于多階段生成網(wǎng)絡的方法
8.2.3 基于注意力生成網(wǎng)絡的方法
8.3 實戰(zhàn)案例:基于注意力的圖像描述
8.3.1 圖像描述技術(shù)簡介
8.3.2 讀取數(shù)據(jù)
8.3.3 定義模型
8.3.4 定義損失函數(shù)
8.3.5 選擇優(yōu)化方法
8.3.6 選擇評估指標
8.3.7 訓練模型
8.4 小結(jié)
8.5 習題
第9章 多模態(tài)預訓練
9.1 總體框架
9.2 預訓練數(shù)據(jù)集
9.3 模型結(jié)構(gòu)
9.3.1 基于編碼器的模型
9.3.2 基于編解碼框架的模型
9.4 預訓練任務
9.4.1 掩碼語言模型
9.4.2 掩碼視覺模型
9.4.3 圖像文本匹配
9.4.4 跨模態(tài)對比學習
9.5 下游任務
9.5.1 視覺常識推理
9.5.2 視覺語言推理
9.5.3 視覺蘊含
9.6 典型模型
9.6.1 基于融合編碼器的雙流模型:LXMERT
9.6.2 基于融合編碼器的單流模型:V

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號