注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡計算機科學理論與基礎知識視覺問答:理論與實踐

視覺問答:理論與實踐

視覺問答:理論與實踐

定 價:¥118.00

作 者: Qi Wu(吳琦),Peng Wang(王鵬 ),Xin Wang(王鑫),Xiaodong He(何曉冬),Wenwu Zhu(朱文武)
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121475313 出版時間: 2024-07-01 包裝: 平裝-膠訂
開本: 32開 頁數(shù): 字數(shù):  

內容簡介

  視覺問答任務要求機器根據(jù)指定的視覺圖像內容, 對單輪或多輪的自然語言問題進行作答。其本質上是一個多學科的研究問題,涉及計算機視覺、自然語言處理、知識表示與推理等。本書共5 部分,第1 部分介紹在計算機視覺和自然語言處理領域廣泛使用的基本方法和技術,包括卷積神經(jīng)網(wǎng)絡、序列建模和注意力機制等。本書將視覺問答分為圖像和視頻方法。第2 部分將圖像視覺問答進一步分為五類,即聯(lián)合嵌入、注意力機制、記憶網(wǎng)絡、組合推理和圖神經(jīng)網(wǎng)絡。此外,概述基于圖像的其他視覺問答任務,例如基于知識的視覺問答、視覺問答的視覺和語言預訓練。第3 部分討論基于視頻的視覺問答及其相關模型。第4 部分討論與視覺問答相關的高級任務,包括具身視覺問答、醫(yī)學視覺問答、基于文本的視覺問答、視覺問題生成、視覺對話和指代表達理解,它們是視覺問答任務的擴展。第5 部分對該領域進行總結和展望,討論視覺問答領域的未來研究方向。

作者簡介

  吳琦,澳大利亞阿德萊德大學高級講師(副教授),博士生導師,澳大利亞青年學者基金獲得者 (Australian Research Council DECRA Fellow),澳大利亞機器人視覺研究中心(ACRV)vision-language課題組組長,澳大利亞科學院羅素獎獲得者。吳琦博士于2015年在英國巴斯大學獲得博士學位,致力于計算機視覺領域研究,尤其關注于計算機視覺-自然語言相關領域的研究。吳琦博士在CVPR,ICCV,ECCV, NeurIPS, TPAMI等多個國際會議和期刊發(fā)表論文七十余篇,吳琦博士亦擔任TPAMI,IJCV,TIP,CVPR,NIPS,ACL等學術期刊會議審稿人以及ICCV2021 領域主席。

圖書目錄

目錄
第1 章簡介..................................................................1
1.1 視覺問答的動機........................................................1
1.2 人工智能任務中的視覺問答...........................................4
1.3 視覺問答類別..........................................................5
1.3.1 數(shù)據(jù)分類驅動......................................................6
1.3.2 任務分類驅動......................................................7
1.3.3 其他..............................................................7
參考文獻.....................................................................8
第1 部分基礎理論
第2 章深度學習基礎......................................................15
2.1 神經(jīng)網(wǎng)絡...............................................................15
2.2 卷積神經(jīng)網(wǎng)絡..........................................................17
2.3 循環(huán)神經(jīng)網(wǎng)絡及變體...................................................18
2.4 編碼器-解碼器結構....................................................20
2.5 注意力機制.............................................................20
2.6 記憶網(wǎng)絡...............................................................21
2.7 Transformer 網(wǎng)絡和BERT............................................22
2.8 圖神經(jīng)網(wǎng)絡.............................................................24
參考文獻.....................................................................25
第3 章問答基礎知識......................................................27
3.1 基于規(guī)則的方法........................................................27
3.2 基于信息檢索的方法...................................................28
3.3 問答的神經(jīng)語義解析...................................................29
3.4 問答知識庫.............................................................29
參考文獻.....................................................................30
第2 部分圖像視覺問答
第4 章經(jīng)典視覺問答......................................................35
4.1 簡介....................................................................35
4.2 數(shù)據(jù)集..................................................................36
4.3 生成與分類:兩種回答策略...........................................40
4.4 聯(lián)合嵌入...............................................................40
4.4.1 序列到序列編碼器-解碼器模型......................................40
4.4.2 雙線性編碼模型....................................................43
4.5 注意力機制.............................................................45
4.5.1 堆疊注意力網(wǎng)絡....................................................45
4.5.2 分層問題-圖像協(xié)同注意力..........................................47
4.5.3 自底向上和自頂向下的注意力.......................................49
4.6 記憶網(wǎng)絡...............................................................51
4.6.1 改進的動態(tài)記憶網(wǎng)絡...............................................51
4.6.2 記憶增強網(wǎng)絡......................................................52
4.7 組合推理...............................................................54
4.7.1 神經(jīng)模塊網(wǎng)絡......................................................55
4.7.2 動態(tài)神經(jīng)模塊網(wǎng)絡..................................................56
4.8 圖神經(jīng)網(wǎng)絡.............................................................58
4.8.1 圖卷積網(wǎng)絡........................................................58
4.8.2 圖注意力網(wǎng)絡......................................................60
4.8.3 視覺問答圖卷積網(wǎng)絡...............................................62
4.8.4 視覺問答圖注意力網(wǎng)絡.............................................63
參考文獻.....................................................................66
第5 章基于知識的視覺問答..............................................71
5.1 簡介....................................................................71
5.2 數(shù)據(jù)集..................................................................72
5.3 知識庫..................................................................74
5.3.1 數(shù)據(jù)庫百科........................................................74
5.3.2 ConceptNet........................................................74
5.4 知識嵌入...............................................................75
5.4.1 文字對矢量表示法..................................................75
5.4.2 基于BERT 的表征.................................................78
5.5 問題-查詢轉換.........................................................79
5.5.1 基于查詢映射的方法...............................................79
5.5.2 基于學習的方法....................................................81
5.6 查詢知識庫的方法.....................................................82
5.6.1 RDF ..............................................................82
5.6.2 記憶網(wǎng)查詢........................................................83
參考文獻.....................................................................84
第6 章視覺問答的視覺和語言預訓練..................................88
6.1 簡介....................................................................88
6.2 常規(guī)預訓練模型........................................................89
6.2.1 ELMo .............................................................89
6.2.2 GPT ..............................................................89
6.2.3 MLM .............................................................90
6.3 視覺和語言預訓練的常用方法.........................................93
6.3.1 單流方法..........................................................94
6.3.2 雙流方法..........................................................96
6.4 視覺問答及其下游任務微調...........................................98
參考文獻.....................................................................101
第3 部分視頻視覺問答
第7 章視頻表征學習.....................................................·105
7.1 人工標注的局部視頻描述符...........................................105
7.2 數(shù)據(jù)驅動的深度學習的視頻特征表示.................................107
7.3 視頻表征的自監(jiān)督學習................................................109
參考文獻.....................................................................110
第8 章視頻問答...........................................................·112
8.1 簡介....................................................................112
8.2 數(shù)據(jù)集..................................................................112
8.2.1 多步推理數(shù)據(jù)集....................................................113
8.2.2 單步推理數(shù)據(jù)集....................................................116
8.3 使用編碼器-解碼器結構的傳統(tǒng)視頻時空推理.........................118
參考文獻.....................................................................123
第9 章視頻問答的高級模型.............................................·126
9.1 時空特征注意力........................................................126
9.2 記憶網(wǎng)絡...............................................................129
9.3 時空圖神經(jīng)網(wǎng)絡........................................................130
參考文獻.....................................................................132
第4 部分視覺問答高級任務
第10 章具身視覺問答...................................................·137
10.1 簡介...................................................................137
10.2 模擬器、數(shù)據(jù)集和評估標準..........................................138
10.2.1 模擬器...........................................................138
10.2.2 數(shù)據(jù)集...........................................................140
10.2.3 評估指標.........................................................141
10.3 語言引導的視覺導航................................

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號