日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給叢末
發(fā)送

0

復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

本文作者: 叢末 2019-12-29 20:10
導(dǎo)語:該方法可以顯著的提高故事生成的質(zhì)量。

作者王瑞澤在本文中介紹了復(fù)旦大學(xué)研究團隊在 AAAI 2020上錄用的一篇關(guān)于多模態(tài)文本生成工作: 《Storytelling from an Image Stream Using Scene Graphs》,利用場景圖針對圖像序列進行故事生成。

該文章認為將圖像轉(zhuǎn)為圖結(jié)構(gòu)的表示方法(如場景圖),然后通過圖網(wǎng)絡(luò)在圖像內(nèi)和跨圖像兩個層面上進行關(guān)系推理,有助于表示圖像,并最終有利于描述圖像。實驗結(jié)果證明該方法可以顯著的提高故事生成的質(zhì)量。

復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

對于大多數(shù)人,觀察一組圖像然后寫一個語義通順的故事是很簡單的事情。盡管近年來深度神經(jīng)網(wǎng)絡(luò)的研究取得了令人鼓舞的成果,但對于機器來說,這仍然是一件困難的事情。

近年來,視覺敘事(visual storytelling)越來越受到計算機視覺(CV)和自然語言處理(NLP)領(lǐng)域的關(guān)注。不同于圖像標注(image captioning)旨在為單個圖像生成文字描述,視覺敘事任務(wù)則更具挑戰(zhàn)性,它進一步研究了機器如何理解一個圖像序列,并生成連貫故事的能力。

目前的視覺敘事方法都采用了編碼器-解碼器結(jié)構(gòu),使用通過一個基于CNN的模型提取視覺特征,使用基于RNN的模型進行文本生成。其中有些方法引入了強化學(xué)習(xí)和對抗學(xué)習(xí)等方法,來產(chǎn)生更加通順、有表現(xiàn)性的故事。但是僅使用CNN提取到的特征來表示所有的視覺信息,這不大符合直覺而且損害了模型的可解釋性和推理能力。

回想一下人是如何看圖寫故事的呢?人會先分辨出圖像上面有什么物體,推理他們的關(guān)系,接下來把一個圖像抽象成一個場景,然后依次看觀察圖像,推理圖像間的關(guān)系。對于視覺敘事這個任務(wù),本文認為也可以采用類似方法。

本文認為把圖像轉(zhuǎn)為一種圖結(jié)構(gòu)的表示(如場景圖),隨后在圖像內(nèi)(within-image)和跨圖像(cross-image)這兩個層面上建模視覺關(guān)系,將會有助于表示圖像,并最終對描述圖片有所幫助。復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

圖1:一個基于場景圖的視覺敘事例子.

一、方法描述

復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

       圖2:提出的模型概述.

本文提出了一種基于圖網(wǎng)絡(luò)的模型SGVST (如圖2所示),它可以在圖像內(nèi)和跨圖像這兩個層面上建模視覺關(guān)系。

簡單來說,首先將圖像In通過Scene Graph Parser轉(zhuǎn)化為場景圖Gn=(Vn, En)。場景圖包含了檢測到的物體Vn={vn,1,…,vn,k},以及物體之間的視覺關(guān)系En。

如圖2所示,一個男人抱著一個孩子,那么男人和孩子就可以作為圖中的節(jié)點,他們的視覺關(guān)系作為邊。接著將場景圖通過Multi-modal Graph ConvNet:在圖像內(nèi)的層面,使用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來對場景圖中的節(jié)點特征進行增強。在跨圖像層面,為了建模圖像之間的交互,使用時序卷積神經(jīng)網(wǎng)絡(luò)(TCN)來沿著時間維度進行卷積,進一步優(yōu)化圖像的特征表示。最后得到了集合了圖像內(nèi)關(guān)系和跨圖像關(guān)系的relation aware的特征,輸入到層次化解碼器(Hierarchical Decoder)中來生成故事。

復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

圖3:層次化解碼器概述.


二、實驗結(jié)果

1. 定量分析


復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

表1:在VIST數(shù)據(jù)集上的不同模型性能比較. *代表直接優(yōu)化RL獎勵,比如CIDEr分數(shù),  + 代表通過交叉熵損失(MLE)優(yōu)化. 

表1顯示了不同模型在七個自動評價指標上的性能。結(jié)果顯示作者提出的SGVST模型幾乎在所有指標上都優(yōu)于其他用MLE和RL優(yōu)化的模型具有更好的性能,SGVST的BLEU-1、BLEU-4和METEOR得分比其他基于MLE優(yōu)化的最佳方法分別提高了3.2%、2.5%和1.4%,這被認為是在VIST數(shù)據(jù)集上的顯著進步。這直接說明將圖像轉(zhuǎn)換為基于圖的語義表示(如場景圖),有利于圖像的表示和高質(zhì)量的故事生成。

本文還進行了消融實驗,和提出模型的5個變種模型進行了比較,來驗證模型每個模塊部分的重要性。從表1中可以看在不使用GCN和TCN的時候,模型性能有一個很大的下降。這說明圖網(wǎng)絡(luò)在該模型中是最為重要的,因為它可以給模型帶來了推理視覺關(guān)系的能力。


2. 定性分析


復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

圖4:不同模型定性分析的例子.

圖4展示了3種不同模型生成的故事和真實故事的樣例。第一行是輸入的一個圖像序列。第二行是生成出的場景圖。第三行是不同模型生成的故事??梢钥闯鯯GVST生成的故事更通順,而且信息更豐富、更有表現(xiàn)力。

復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

圖5:每種顏色代表了相對應(yīng)模型產(chǎn)生的故事,被評價人員認為更加像人寫的、更有表現(xiàn)力所占的比例?;疑摹盩ie”代表了打平.


復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

表2:人工評估結(jié)果。在AMT上的評估人員根據(jù)對每個問題的同意程度來評價故事的質(zhì)量,評分范圍為1-5.

為了更好地評價生成的故事的質(zhì)量,作者通過Amazon Mechanical Turk(AMT)進行了兩種人工評價。(1)圖5是不同模型兩兩比較的一個實驗結(jié)果,給評價人員2個生成出的故事,然后讓他來選擇哪一個寫的更好。(2)表2是在6個指標上進行的人工評估實驗結(jié)果??梢钥闯霰疚奶岢龅哪P秃推渌P拖啾扔兄薮蟮膬?yōu)勢,而且和人類相比,也取得了有競爭力的表現(xiàn)。


三、總結(jié)


1. 將圖像轉(zhuǎn)為圖結(jié)構(gòu)的語義表示(如場景圖),可以更好的表示圖像,有利于高質(zhì)量的故事生成。

2. 本文提出了一個基于圖網(wǎng)絡(luò)的模型,可以將圖像轉(zhuǎn)為場景圖,然后在圖像內(nèi)和跨圖像兩個層面上進行關(guān)系推理。

3. 實驗結(jié)果表明,本文提出的模型取得了優(yōu)秀的表現(xiàn),并且能產(chǎn)生信息更加豐富、語言更加連貫的故事。

4. 場景圖生成的質(zhì)量限制了本文模型的性能,如果能有更好的場景圖生成方法,本文模型的性能還能取得進一步提高。

雷鋒網(wǎng) AI 科技評論報道 雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

復(fù)旦大學(xué):利用場景圖針對圖像序列進行故事生成 | AAAI 2020

分享:
相關(guān)文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說