近日,我院陳震中教授指導的智能信息處理課題組(iip.whu.edu.cn)博士生歐陽君及碩士生米黎合作論文“Object-Relation Reasoning Graph for Action Recognition” 被國際計算機視覺頂級會議CVPR錄用。
動作識別是視頻理解領域的一項重要的研究課題。相比圖像而言,視頻內容和背景更加復雜多變,視頻中目標的屬性及目標之間的關系隨著時間不斷變化,為動作識別任務帶來了挑戰性。本文提出的目標關系推理圖卷積網絡(OR2G)從可解釋性的角度對動作進行推理,通過將動作分解為一系列時序的目標和關系,構建目標級別圖和關系級別圖分別對時序目標和關系進行推理,并利用圖聚合模塊將關系圖節點信息反向更新回目標圖,以增加兩個圖之間的耦合性。在Action Genome數據集上,相比于傳統方法獲得了較大的性能提升,促進動作識別任務向基于語義推理的方向發展。

圖1: 目標關系推理圖卷積網絡OR2G
此外,陳震中教授課題組博士生胡姚姒與微軟亞洲研究院智能多媒體組的實習合作論文“Make It Move: Controllable Image-to-Video Generation with Text Descriptions”也被CVPR錄用。
該論文針對視頻生成這一計算機視覺領域極具挑戰性的課題,提出了一種新穎的文本圖像驅動的視頻生成任務(Text-Image-to-Video generation,TI2V),并實現了一種基于運動錨點的視頻自回歸生成模型。通過運動描點實現圖像與文本的語義對齊,并以時空對齊的方式驅動視頻生成。同時,該模型通過引入顯式條件以及隱式隨機噪聲,分別實現對視頻速度控制以及模糊文本的多樣化視頻生成。該工作構建了針對TI2V任務的CATER-GENs數據集,驗證了這一任務的可行性與模型的有效性,推動了可控視頻生成領域的發展。
陳震中教授課題組多名研究生在與該組的實習合作期間均有高水平期刊會議論文發表,我院學生的科研能力得到了一致好評。

圖2: 基于運動錨點的視頻生成模型MAGE