日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給賴文昕
發(fā)送

0

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

本文作者: 賴文昕   2024-12-30 15:05
導(dǎo)語:導(dǎo)語:具身智能的高層感知,可以從認知科學(xué)突破。

作者 | 賴文昕

編輯 | 陳彩嫻

近日,馬爾獎得主、約翰霍普金斯大學(xué)教授 Alan Yuille 的團隊發(fā)布了一項世界模型方向的重磅工作——GenEx,引起了具身智能領(lǐng)域的廣泛討論與關(guān)注。

作為李飛飛初創(chuàng)公司 World Labs 發(fā)布的同期工作,生成模型 GenEx 的特別之處在于它能讓 AI 具有"想象力",使智能體通過想象出來的觀測探索生成式世界。

受到心智模型的啟發(fā),GenEx 希望在一定程度上試圖模擬人類大腦中對世界的認知方式和理解機制,以實現(xiàn)更智能、更靈活的人工智能系統(tǒng)。

具體而言,GenEx 系統(tǒng)有兩個相互關(guān)聯(lián)的組件:一個是想象世界,它能動態(tài)地生成可供探索的三維環(huán)境;另一個是具身智能體,它與這個環(huán)境相互作用,以完善自身的理解和決策能力——兩個組件構(gòu)成了一個共生系統(tǒng),使得人工智能能夠以類似于人類認知過程的方式進行模擬、探索和學(xué)習(xí)。

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

項目鏈接:https://www.genex.world/

GenEx 僅依據(jù)單張 RGB 圖像就能生成整個三維連貫的想象環(huán)境,還能通過 360 度的全景視頻使其變得栩栩如生。

在 GenEx 生成式想象力的驅(qū)動下,智能體能執(zhí)行復(fù)雜的具身任務(wù),包括與目標(biāo)無關(guān)的探索和目標(biāo)驅(qū)動的導(dǎo)航。這些智能體利用對物理世界中未被觀測部分的預(yù)測性預(yù)期來完善自身認知,基于潛在決策模擬不同結(jié)果,并做出更明智的選擇。

而且,GenEx 還可以擴展到多智能體場景,當(dāng)某個智能體導(dǎo)航到其他智能體的位置時,還能根據(jù)其他智能體想象的認知更新自己的認知。

這個工作的核心作者,是約翰霍普金斯大學(xué)即將畢業(yè)的中國博士生陳杰能。

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

在轉(zhuǎn)向世界模型、空間智能前,陳杰能的研究重點為醫(yī)學(xué)圖像,本科畢業(yè)于同濟大學(xué)計算機系,2020 年到約翰霍普金斯大學(xué)讀博,師從 Alan Yuile。

此前,他發(fā)表了首次將 Transformers 與 U-Net 融合的網(wǎng)絡(luò)模型 TransUNet,至今引用量已超 5000。

自今年起,陳杰能把研究重心轉(zhuǎn)向世界模型與空間智能領(lǐng)域。其研究內(nèi)容主要包括基于單張圖像生成具備交互功能的 3D 世界,并且將這個生成的世界構(gòu)建為具身智能體的心智模型(mental models),從而助力智能體做出更優(yōu)決策。

從醫(yī)療圖像到具身智能,陳杰能認為自己已較好地完成了上一個使命,“接下來希望研究新的黃金問題,參與到前期探索中?!?/p>

以下是 AI 科技評論與陳杰能的對話。


當(dāng)癌癥遇上AI

AI 科技評論:您正式讀博前發(fā)布的 TransUNet 至今引用量已超5000,當(dāng)時是如何想到這個 idea 的?

陳杰能:當(dāng)時我正在進行另一個項目,目標(biāo)是對物體邊緣的語義進行建模,就有了序列建模的idea,即序列學(xué)習(xí)(Sequential Learning),Transformer 雖然全局學(xué)習(xí)比較好,但難以捕捉物體邊緣的局部細節(jié)。

在2020年底,Transformer 已經(jīng)證明了在分類任務(wù)中表現(xiàn)較好,但對于它能否做密集預(yù)測,大家都還在探索中。為了解決這一問題,我就想結(jié)合 Transformer 和 UNet 的優(yōu)勢,從實際效果來看,UNet 更擅長處理局部信息,Transformer 則擅長處理全局和預(yù)期信息,它們是一個實現(xiàn)局部細節(jié)還原并兼顧長距離建模的最佳組合,能夠很好地支持多種任務(wù)。

后來,我繼續(xù)把 TransUNet 擴展到 3D 層面,也進一步將其應(yīng)用于多癌篩查。TransUNet在今天仍是一個經(jīng)典的架構(gòu),廣泛應(yīng)用于分割模型和擴散模型等任務(wù)中。

AI 科技評論:那您是如何接觸計算機視覺,并決定扎根醫(yī)學(xué)影像領(lǐng)域的?

陳杰能:2017 年下半年我在慕尼黑工業(yè)大學(xué)交換,3D 視覺學(xué)者 Daniel Cremers 是其中一位授課老師,巧的是他也是我現(xiàn)在的導(dǎo)師 Alan Yuille host過的博士后。當(dāng)時的計算機視覺課程內(nèi)容偏幾何和理論,我被前沿科研吸引,回來后便決定參與視覺的研究,便在同濟的陳廣老師課題組研究車輛檢測。

2019 年暑研,我機緣巧合聯(lián)系到 Alan Yuille,他與約翰霍普金斯醫(yī)院合作癌癥早篩項目,有抑癌因子 P53 發(fā)現(xiàn)者等知名醫(yī)生參與。他們雖不是 AI 研究者,但也意識到 AI 在醫(yī)療領(lǐng)域的潛力,這領(lǐng)域有規(guī)?;臋C會,同時還能切實地幫助到每一個普通人,這便吸引我鉆研醫(yī)學(xué)影像領(lǐng)域。

AI 科技評論:所以您又加入達摩院醫(yī)療 AI 團隊實習(xí)了??梢苑窒硪幌伦?CancerUniT 的故事嗎?

陳杰能:負責(zé)人呂樂是我在約翰霍普金斯計算機系的學(xué)長,他的導(dǎo)師Gregory D. Hager和我的導(dǎo)師本身就有合作,我們認識的比較早。

當(dāng)時在醫(yī)療AI領(lǐng)域,大家都在做單一病種的研究,達摩院希望我能加入去做多癌篩查。具體而言,我們希望開發(fā)了一個 AI 模型,能通過單次CT篩查找出八種癌癥并診斷14種亞型,這八種癌癥是國內(nèi)最高發(fā)病率高致死率的癌癥,涵蓋了接近80%的患癌病人。

醫(yī)療AI領(lǐng)域涉及眾多方向,其中疾病篩查無疑是優(yōu)先級最高的,尤其是針對癌癥、阿爾茨海默癥和慢性病等主要疾病。癌癥因其發(fā)病率和死亡率雙高,我認為更值得在我精力有限的情況下優(yōu)先攻關(guān),也被我認定為一個黃金問題。

對我來說解決這個黃金問題就像是攀登一個更高的山峰,如果它能早一些解決,就能幫助到更多的人、使許多家庭受益,我很有熱情,希望能貢獻我的微薄之力加速這個進程。我推進工作的過程中,我和我的合作者一起明確了問題的定義,也搭建了一個高敏感性高特異性的基礎(chǔ)模型,現(xiàn)在,達摩院正在進一步擴展我當(dāng)時開發(fā)的多癌模型,我期待這系列模型能盡早在社會中發(fā)揮實際作用。

從視覺基礎(chǔ)模型到空間智能

AI 科技評論:后面您來到字節(jié) Seed 團隊做視覺基礎(chǔ)模型,為什么會選擇這個機會呢?

陳杰能:我的 mentor Liang-Chieh Chen 在谷歌時就曾邀請我去實習(xí),不過我當(dāng)時去了達摩院,就答應(yīng)下一年再加入,后面字節(jié)成立了核心團隊Seed,他加入并帶領(lǐng)基礎(chǔ)研究組,我也跟著來到字節(jié)。

2023年業(yè)內(nèi)研究的一大重點是多模態(tài)大模型,Liang-Chieh Chen 在深度學(xué)習(xí)架構(gòu)設(shè)計方面有著很高的造詣而且經(jīng)驗豐富,特別是在MobileNetv2和DeepLab的貢獻。,我希望能對大模型的視覺編碼器進行一次徹底設(shè)計,探索新的可能性、進一步打磨自己的技術(shù)能力,就此加入了。

AI 科技評論:第一次主導(dǎo)視覺編碼器架構(gòu)的設(shè)計,成功發(fā)表了 ViTamin,感受如何?

陳杰能:其實在做 ViTamin 的過程中和完成后的感受都很深刻。

我負責(zé)基礎(chǔ)架構(gòu)設(shè)計,需要對多模態(tài)大模型里的視覺編碼器架構(gòu)規(guī)劃并探索 scaling law。而由于耗費算力較大,常常僅有一次訓(xùn)練模型機會,所以設(shè)計時得既謹慎又創(chuàng)新。

我們的視覺編碼器在imageNet零樣本準確率達到了83%的SOTA,也能有效的遷移到大模型里,我們探索了一條合理的scaling law。將模型性能優(yōu)化至世界最佳的過程,是充滿挑戰(zhàn)且極具成就感的。

如果將多模態(tài)模型比作一個智能體,那么視覺編碼器就是智能體的眼睛。隨著今年年初公司研究者們認識到了大模型中視覺編碼器的重要性,并進行針對性的設(shè)計,我再次感受到此工作的重要性。

此外,ViTamin 最高分模型僅有436M,不足 0.5B,在追求大模型、大規(guī)模參數(shù)量的2023年算是非常小的。而在我們所能獲取的最佳數(shù)據(jù)條件下,這個規(guī)模已經(jīng)達到了 scaling law 的極限。有趣的是,從今年開始,小模型也變得非常熱門,現(xiàn)在多模態(tài)模型為了終端優(yōu)化,也只會采用幾百兆量級的視覺編碼器。不難看出,scaling law 最終會逐步收斂到一個最佳的設(shè)置。

AI 科技評論:為什么今年會從醫(yī)學(xué)影像轉(zhuǎn)向空間智能?空間智能的核心是什么?

陳杰能:我相信工業(yè)界和醫(yī)院的聯(lián)合下,癌癥篩查這一關(guān)鍵問題將在未來幾年得以解決,而我以前的工作有助于其規(guī)模化推廣,算是完成了自己的使命。如今我想探索新領(lǐng)域,而空間智能、具身智能等定義尚新,能參與前期探索頗具意義。

導(dǎo)師Alan在1990年就有研究三維物體的表面曲率,近年實驗室也一直關(guān)注3D 視覺,我常受到熏陶而感興趣。我今年開始著手解決一兩個黃金問題,希望能一起推進空間智能與具身智能。

今年空間智能備受關(guān)注,它涉及圖片 3D 建模或視頻 4D 建模,本質(zhì)上是逆向圖形學(xué)單張圖重建三維結(jié)構(gòu)并提取物體類別、位置和幾何等信息。

舉個例子,在虛擬游戲引擎或物理引擎中,通常會通過預(yù)設(shè)的場景配置文件給定3D模型,并渲染為2D圖像,這是一個從場景到圖像的正向渲染過程;而計算機視覺則是這一過程的逆向推理,即從2D圖像中重建或推演出三維場景。如果能徹底解決這一挑戰(zhàn),計算機視覺可能會有較大的突破,比如在 GPT 的空間推理,以及視頻生成是否表現(xiàn)視覺場景的物理性,因此,從圖片中推演 3D 場景,是空間智能的一個核心。

我目前的工作聚焦了空間推演。不久前發(fā)布的 Gemini 2 也特別強調(diào)了空間推演能力,然而,我們最近開發(fā)的空間推理基準3DSRBench的結(jié)果顯示,其準確率僅為 50%,遠低于人類的 95%。結(jié)果發(fā)布后,DeepMind的相關(guān)人員也提供代碼庫,共同推動大模型在空間推理的進展。這表明在空間智能領(lǐng)域,尤其空間推理,機器與人類的能力還存在較大差距。

AI 科技評論:那空間智能與醫(yī)療圖像之間有何關(guān)聯(lián)與差異呢?

陳杰能:空間智能與醫(yī)療圖像皆涉圖像處理及復(fù)雜場景建模,醫(yī)療圖像的 三維理解與空間智能的 三維理解目標(biāo)相近,都要將像素數(shù)據(jù)轉(zhuǎn)化為對三維結(jié)構(gòu)和語義關(guān)系的預(yù)測,并提取關(guān)鍵的信息如物體位置和形態(tài)。在醫(yī)療影像中,這具體表現(xiàn)為對器官和病灶的位置、形態(tài)及其空間關(guān)系的精準解析。

二者也有不同:從數(shù)據(jù)上,醫(yī)療圖像是規(guī)則的三維數(shù)據(jù),通常處于有限范圍內(nèi)(例如人體高度有限、器官形態(tài)相對規(guī)則),數(shù)據(jù)復(fù)雜度較低;而空間智能的數(shù)據(jù)更加復(fù)雜,包含大量不規(guī)則、有形變和帶有關(guān)節(jié)活動的物體,數(shù)據(jù)的復(fù)雜度明顯更高。從優(yōu)化目標(biāo)上,空間智能和具身智能重實時性與泛化性,期望模型在不同環(huán)境泛化良好,達類似小孩智商與感知力;醫(yī)療人工智能則強調(diào)專家性,欲在專項達醫(yī)生專家水平,所以二者優(yōu)化目標(biāo)迥異。

心智模型之于具身智能

AI 科技評論:您是從什么時候開始聚焦世界模型的?

陳杰能:我對世界模型的研究,是與空間智能和具身智能同期進行的??臻g推理是具身智能體感知物理世界的起點,但僅依靠空間感知無法全面支持智能體對物理世界的交互理解。構(gòu)建一個可預(yù)測、可交互的世界模型,將更好地幫助智能體在真實世界中進行有效決策。

雖然世界模型的定義本身仍百家爭鳴,但在二三十年前就已應(yīng)用于控制論了。它的一個本質(zhì)定義是:給定當(dāng)前的狀態(tài)分布和動作輸入,能否預(yù)測出未來下一個狀態(tài)的分布。這在早年的控制論等領(lǐng)域中有一些實踐,但早年狀態(tài)的定義較為簡單。

我認為世界模型本質(zhì)是提供對世界變化的預(yù)測性分布,但世界變化不應(yīng)是最初的低維狀態(tài),而可以是一個四維世界的狀態(tài),包括目標(biāo)物體的語義信息、紋理信息、三維幾何結(jié)構(gòu)、形態(tài)、形變、運動特性,以及物體之間的空間關(guān)系的建模。

我關(guān)注的一個難點是,能否從圖像觀測中提取上述的三維空間表征,作為世界模型的狀態(tài)。此外,我也關(guān)注世界模型在具身智能的應(yīng)用。

AI 科技評論:您不久前發(fā)布了“生成式世界探索者”,從單張圖生成可交互 3D 世界,可以聊聊這個 idea 是怎么誕生的嗎?

陳杰能:人類在現(xiàn)實生活中探索看不到的地方,能通過發(fā)揮想象力在大腦里構(gòu)建出一個世界,然后在其中進行想象性的探索。這種能力使得我們?nèi)祟悷o需物理移動就能探索到這個世界未知的地方,還能幫助更好地做出決策——讓AI智能體具備此能力,就是我的初衷。

從實踐的角度來看,當(dāng)下看到的事物,無論是單張圖還是單個觀察,首先是要從單張圖中生成一個可交互的 3D 世界,下一步才能在這個 3D 世界中探索。

AI 科技評論:那具身智能的心智模型和世界模型又有何關(guān)聯(lián)呢?

陳杰能:心智模型最早在心理學(xué)和認知科學(xué)領(lǐng)域被提出,心智模型是指存在于我們腦中的一種認知框架,用于表示對世界的理解。它相當(dāng)于一種內(nèi)部的現(xiàn)實模擬,幫助人類解讀信息、做出決策,并根據(jù)以往的經(jīng)驗和知識預(yù)測結(jié)果。當(dāng)然世界模型也是根據(jù)過往的經(jīng)驗和知識,去對未來的狀態(tài)分布做出預(yù)測。因此這兩個模型的本質(zhì)是相關(guān)聯(lián)的。

心智模型的表征最早主要是關(guān)于語言語義學(xué)特征,如今生成技術(shù)的發(fā)展使視覺表征成為可能。我的工作實際上是將心智模型提升到了一個表征上的新高度,即構(gòu)造出具備空間想象力的心智模型,能想象三維世界中看不到的地方,比如只看到輪子能想象到一輛救護車,亦或者通過動作交互,探索到更遠的看不到的場景。

具身智能體基于此核心能力,無論走到哪里,都能通過對周圍環(huán)境的觀察來構(gòu)造出一個可探索的三維世界,即生成式的三維世界。在對生成的世界里,智能體通過探索發(fā)現(xiàn)未曾見過的觀測,并將這些想象出來的觀測加入到?jīng)Q策過程中——因此稱之為“生成式世界探索者”。

將生成世界的觀測融入決策的過程,可以看做通過世界模型開發(fā)的一種全新策略(policy)。應(yīng)用于具身智能時,其實是用在生成式世界收集到觀測來補充物理世界中的缺失觀測,形成更完整的觀測集,從而構(gòu)建一個想象力增強的policy。

AI 科技評論:心智模型屬于對常識的理解嗎,比如知道橫著拿紙杯水會灑出來?

陳杰能:心智模型作為一種認知框架,有基于常識的理解。然而,“知道橫著拿紙杯水會灑出來”,這仍基于對紙杯和紙杯里的水的完全觀測,心智模型可以解決更有挑戰(zhàn)性的部分觀測和缺失觀測的場景。心智模型是通過已有環(huán)境信息,去推演和想象那些未觀測到的環(huán)境部分,比如一陣大風(fēng)是缺失觀測的,但人類的心智模型或許能推演出風(fēng)吹后紙杯會倒下。

模擬這些未觀測到的環(huán)境因素,有助于做出更精確的決策,從而提高決策模型的泛化能力。這一方向在未來會獲得更多的關(guān)注。

AI 科技評論:這個方向在具身智能領(lǐng)域并不熱門。

陳杰能:是的,領(lǐng)域內(nèi)很多研究者聚焦于提升低層次(low level)策略的魯棒性,而我目前的研究更側(cè)重于高層次(high level)問題,旨在為具身智能體構(gòu)建可交互的三維世界模型,以輔助其決策過程。

在高層次領(lǐng)域,除了心智模型,具身智能體的物理世界的空間理解仍有挑戰(zhàn),如果把上游的空間理解處理好加上三維心智模型,低層次問題會解決得更輕松,能讓智能體走入真實世界而非僅限在機械臂的環(huán)境里。 當(dāng)然這兩者最終可以結(jié)合起來形成多層次模型。

最后,我們開發(fā)的生成式世界探索者,不僅是具身智能體的重要組成部分,也已經(jīng)初步證明能夠輔助人類的認知決策。我希望在這個多學(xué)科交叉的領(lǐng)域貢獻點力量。


雷峰網(wǎng)(公眾號:雷峰網(wǎng))作者anna042023將持續(xù)關(guān)注具身智能,歡迎添加交流,互通有無。雷峰網(wǎng)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

JHU 陳杰能:世界模型+心智模型,讓具身智能體擁有「想象力」

分享:
相關(guān)文章

資深編輯

關(guān)注具身智能。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說