《視覺語言交互中的視覺推理研究》的作者牛玉磊博士于2020年在中國人民大學取得博士學會,后前往美國哥倫比亞大學開展博士后研究工作。本書從知識建模和知識推斷兩方面入手,深入研究了視覺語言交互任務中的視覺推理問題?!兑曈X語言交互中的視覺推理研究》共五章:第1章主要介紹了計算機視覺與自然語言處理交叉領域中交互類問題的研究背景,并分別從單輪交互、多輪交互、知識偏差三個角度選取了指稱語理解、視覺對話、視覺問答三個經典任務展開討論。第2章主要介紹了單輪交互情形的代表性視覺推理任務,即指稱語理解問題,提出了變分背景框架,根據視覺圖像和指稱語文本的聯系及視覺物體之間的關系提取語義背景信息,并根據背景信息對指稱語進行定位。第3章介紹了多輪交互情形的代表性視覺推理任務,即視覺對話問題,提出了遞歸注意力機制,通過視覺指代消解的思想對圖像、對話和問題之間的聯系進行建模,優(yōu)化視覺表示。第4章介紹了知識偏差情形的代表性視覺推理任務,即視覺問答問題,基于因果推理提出了反事實視覺問答框架,在訓練環(huán)境和測試環(huán)境的答案分布不一致情況下,通過因果效應的視角提取并去除語言偏差。第5章對本書進行了總結,并對未來研究方向進行了展望。