4
| 本文作者: 思睿 | 2015-06-01 08:15 |

讓我們想象一下這樣的場(chǎng)景,一片一望無(wú)際的麥田中種著一棵橡樹,以及萬(wàn)里無(wú)云的天空所營(yíng)造出的一個(gè)陽(yáng)光明媚的午后。當(dāng)大多數(shù)人讀到這句話時(shí),可以很容易就在他們的腦海里想象出這樣的田園景象。這種人類所獨(dú)有的能力可以讓你在讀到一個(gè)場(chǎng)景的描述后,想象出這樣的場(chǎng)景。不過,這一珍貴的技能可能不再是我們?nèi)祟愃?dú)有的了。
這類在你看來(lái)可能想象力遠(yuǎn)遠(yuǎn)超越了當(dāng)今計(jì)算機(jī)能力的事情,將由來(lái)自日本東京大學(xué)的Hiroharu Kato 和 Tatsuya Harada 所帶來(lái)。
最近,他們公布了一臺(tái)計(jì)算機(jī),它能將一個(gè)對(duì)物體的描述轉(zhuǎn)換成圖像。這就是對(duì)想象力所作出的一個(gè)完美定義。
可以肯定的是,這些計(jì)算機(jī)的想象力還比較簡(jiǎn)單,甚至有時(shí)十分混亂且沒有任何意義。但不可否認(rèn)的是,這臺(tái)計(jì)算機(jī)代表著計(jì)算機(jī)的創(chuàng)造力顯著地向前邁進(jìn)了一大步。
計(jì)算機(jī)科學(xué)家長(zhǎng)期以來(lái)都是利用文字管理來(lái)處理圖像,這一方式十分直接,例如:用戶在搜索引擎中輸入一個(gè)單詞或一系列單詞,并利用關(guān)鍵詞得到高度相關(guān)的圖像。這并不是因?yàn)橛?jì)算機(jī)擁有特殊的能力來(lái)理解用戶輸入的關(guān)鍵詞。事實(shí)上,通過關(guān)鍵詞來(lái)得到結(jié)果的技術(shù)已經(jīng)非常強(qiáng)大,但與此相反,在處理圖像時(shí)就無(wú)法發(fā)揮出等效的能力。
因此,幾年前計(jì)算機(jī)科學(xué)家開始將圖像當(dāng)作一系列像素來(lái)對(duì)待,圖像會(huì)被分成一系列的短序列,每個(gè)序列對(duì)應(yīng)于圖像的一個(gè)特定部分。例如,一個(gè)短序列可能對(duì)應(yīng)于一個(gè)杯子的邊緣、皮膚的某個(gè)區(qū)域或天空的某部分。
這些短序列對(duì)人類可能沒有什么意義,但對(duì)計(jì)算機(jī)而言就能將它們視為關(guān)鍵詞。因此,一臺(tái)電腦分析一張圖片就能通過計(jì)算序列的數(shù)量以及出現(xiàn)的頻率,就像是通過計(jì)算文檔中詞語(yǔ)的出現(xiàn)頻率一樣。計(jì)算機(jī)科學(xué)家稱這些序列為“視覺關(guān)鍵詞”。
Kato 和 Harada 的方法則是反其道而行,想要鑒于視覺關(guān)鍵詞的分配,而得到原始圖像。這是一個(gè)非常困難的技術(shù)問題,雖然視覺關(guān)鍵詞可以描述圖像的一部分,它并不能解釋在圖像中的什么位置。
Kato 和 Harada 用兩種不同的方法來(lái)處理這一問題。
首先是評(píng)估每個(gè)視覺關(guān)鍵詞如何和其他視覺關(guān)鍵詞組合在一起。這一過程并非十分簡(jiǎn)單,因?yàn)橐曈X關(guān)鍵詞沒有任何明顯的形狀,因此并不能像拼圖一樣適合被組合在一起。
第二種方法是評(píng)估給定的視覺關(guān)鍵詞應(yīng)該出現(xiàn)在圖象特定部分的可能性。例如,表示天空區(qū)域的視覺關(guān)鍵詞更可能出現(xiàn)在圖像的頂部。
有了以上兩種方法的鋪墊,最后 Kato 和 Harada 會(huì)使用自己的方法讓計(jì)算機(jī)能夠明白人類普通的日常句子,并生成相應(yīng)的圖像。他們會(huì)把語(yǔ)句中的每一個(gè)單詞轉(zhuǎn)換成視覺關(guān)鍵詞,然后再將關(guān)鍵詞轉(zhuǎn)換成圖像。而把普通的單詞轉(zhuǎn)換成視覺關(guān)鍵詞同樣又是另一個(gè)棘手的任務(wù)。
整個(gè)項(xiàng)目困難重重,但這是一個(gè)充滿希望的開端,并希望能夠開辟一條通往新世代的圖像創(chuàng)建系統(tǒng)之路。
via technologyreview
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。