JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

本文作者：賴文昕

2024-12-30 15:05

導語：導語：具身智能的高層感知，可以從認知科學突破。

作者 | 賴文昕

編輯 | 陳彩嫻

近日，馬爾獎得主、約翰霍普金斯大學教授 Alan Yuille 的團隊發(fā)布了一項世界模型方向的重磅工作——GenEx，引起了具身智能領域的廣泛討論與關注。

作為李飛飛初創(chuàng)公司 World Labs 發(fā)布的同期工作，生成模型 GenEx 的特別之處在于它能讓 AI 具有"想象力"，使智能體通過想象出來的觀測探索生成式世界。

受到心智模型的啟發(fā)，GenEx 希望在一定程度上試圖模擬人類大腦中對世界的認知方式和理解機制，以實現(xiàn)更智能、更靈活的人工智能系統(tǒng)。

具體而言，GenEx 系統(tǒng)有兩個相互關聯(lián)的組件：一個是想象世界，它能動態(tài)地生成可供探索的三維環(huán)境；另一個是具身智能體，它與這個環(huán)境相互作用，以完善自身的理解和決策能力——兩個組件構成了一個共生系統(tǒng)，使得人工智能能夠以類似于人類認知過程的方式進行模擬、探索和學習。

JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

項目鏈接：https://www.genex.world/

GenEx 僅依據(jù)單張 RGB 圖像就能生成整個三維連貫的想象環(huán)境，還能通過 360 度的全景視頻使其變得栩栩如生。

在 GenEx 生成式想象力的驅動下，智能體能執(zhí)行復雜的具身任務，包括與目標無關的探索和目標驅動的導航。這些智能體利用對物理世界中未被觀測部分的預測性預期來完善自身認知，基于潛在決策模擬不同結果，并做出更明智的選擇。

而且，GenEx 還可以擴展到多智能體場景，當某個智能體導航到其他智能體的位置時，還能根據(jù)其他智能體想象的認知更新自己的認知。

這個工作的核心作者，是約翰霍普金斯大學即將畢業(yè)的中國博士生陳杰能。

JHU 陳杰能：世界模型+心智模型，讓具身智能體擁有「想象力」

在轉向世界模型、空間智能前，陳杰能的研究重點為醫(yī)學圖像，本科畢業(yè)于同濟大學計算機系，2020 年到約翰霍普金斯大學讀博，師從 Alan Yuile。

此前，他發(fā)表了首次將 Transformers 與 U-Net 融合的網(wǎng)絡模型 TransUNet，至今引用量已超 5000。

自今年起，陳杰能把研究重心轉向世界模型與空間智能領域。其研究內容主要包括基于單張圖像生成具備交互功能的 3D 世界，并且將這個生成的世界構建為具身智能體的心智模型（mental models），從而助力智能體做出更優(yōu)決策。

從醫(yī)療圖像到具身智能，陳杰能認為自己已較好地完成了上一個使命，“接下來希望研究新的黃金問題，參與到前期探索中?！?/p>

以下是 AI 科技評論與陳杰能的對話。

當癌癥遇上AI

AI 科技評論：您正式讀博前發(fā)布的 TransUNet 至今引用量已超5000，當時是如何想到這個 idea 的？

陳杰能：當時我正在進行另一個項目，目標是對物體邊緣的語義進行建模，就有了序列建模的idea，即序列學習（Sequential Learning），Transformer 雖然全局學習比較好，但難以捕捉物體邊緣的局部細節(jié)。

在2020年底，Transformer 已經(jīng)證明了在分類任務中表現(xiàn)較好，但對于它能否做密集預測，大家都還在探索中。為了解決這一問題，我就想結合 Transformer 和 UNet 的優(yōu)勢，從實際效果來看，UNet 更擅長處理局部信息，Transformer 則擅長處理全局和預期信息，它們是一個實現(xiàn)局部細節(jié)還原并兼顧長距離建模的最佳組合，能夠很好地支持多種任務。

后來，我繼續(xù)把 TransUNet 擴展到 3D 層面，也進一步將其應用于多癌篩查。TransUNet在今天仍是一個經(jīng)典的架構，廣泛應用于分割模型和擴散模型等任務中。

AI 科技評論：那您是如何接觸計算機視覺，并決定扎根醫(yī)學影像領域的？

陳杰能：2017 年下半年我在慕尼黑工業(yè)大學交換，3D 視覺學者 Daniel Cremers 是其中一位授課老師，巧的是他也是我現(xiàn)在的導師 Alan Yuille host過的博士后。當時的計算機視覺課程內容偏幾何和理論，我被前沿科研吸引，回來后便決定參與視覺的研究，便在同濟的陳廣老師課題組研究車輛檢測。

2019 年暑研，我機緣巧合聯(lián)系到 Alan Yuille，他與約翰霍普金斯醫(yī)院合作癌癥早篩項目，有抑癌因子 P53 發(fā)現(xiàn)者等知名醫(yī)生參與。他們雖不是 AI 研究者，但也意識到 AI 在醫(yī)療領域的潛力，這領域有規(guī)?；臋C會，同時還能切實地幫助到每一個普通人，這便吸引我鉆研醫(yī)學影像領域。

AI 科技評論：所以您又加入達摩院醫(yī)療 AI 團隊實習了。可以分享一下做 CancerUniT 的故事嗎？

陳杰能：負責人呂樂是我在約翰霍普金斯計算機系的學長，他的導師Gregory D. Hager和我的導師本身就有合作，我們認識的比較早。

當時在醫(yī)療AI領域，大家都在做單一病種的研究，達摩院希望我能加入去做多癌篩查。具體而言，我們希望開發(fā)了一個 AI 模型，能通過單次CT篩查找出八種癌癥并診斷14種亞型，這八種癌癥是國內最高發(fā)病率高致死率的癌癥，涵蓋了接近80%的患癌病人。

醫(yī)療AI領域涉及眾多方向，其中疾病篩查無疑是優(yōu)先級最高的，尤其是針對癌癥、阿爾茨海默癥和慢性病等主要疾病。癌癥因其發(fā)病率和死亡率雙高，我認為更值得在我精力有限的情況下優(yōu)先攻關，也被我認定為一個黃金問題。

對我來說解決這個黃金問題就像是攀登一個更高的山峰，如果它能早一些解決，就能幫助到更多的人、使許多家庭受益，我很有熱情，希望能貢獻我的微薄之力加速這個進程。我推進工作的過程中，我和我的合作者一起明確了問題的定義，也搭建了一個高敏感性高特異性的基礎模型，現(xiàn)在，達摩院正在進一步擴展我當時開發(fā)的多癌模型，我期待這系列模型能盡早在社會中發(fā)揮實際作用。

從視覺基礎模型到空間智能

AI 科技評論：后面您來到字節(jié) Seed 團隊做視覺基礎模型，為什么會選擇這個機會呢？

陳杰能：我的 mentor Liang-Chieh Chen 在谷歌時就曾邀請我去實習，不過我當時去了達摩院，就答應下一年再加入，后面字節(jié)成立了核心團隊Seed，他加入并帶領基礎研究組，我也跟著來到字節(jié)。

2023年業(yè)內研究的一大重點是多模態(tài)大模型，Liang-Chieh Chen 在深度學習架構設計方面有著很高的造詣而且經(jīng)驗豐富，特別是在MobileNetv2和DeepLab的貢獻。，我希望能對大模型的視覺編碼器進行一次徹底設計，探索新的可能性、進一步打磨自己的技術能力，就此加入了。

AI 科技評論：第一次主導視覺編碼器架構的設計，成功發(fā)表了 ViTamin，感受如何？

陳杰能：其實在做 ViTamin 的過程中和完成后的感受都很深刻。

我負責基礎架構設計，需要對多模態(tài)大模型里的視覺編碼器架構規(guī)劃并探索 scaling law。而由于耗費算力較大，常常僅有一次訓練模型機會，所以設計時得既謹慎又創(chuàng)新。

我們的視覺編碼器在imageNet零樣本準確率達到了83%的SOTA，也能有效的遷移到大模型里，我們探索了一條合理的scaling law。將模型性能優(yōu)化至世界最佳的過程，是充滿挑戰(zhàn)且極具成就感的。

如果將多模態(tài)模型比作一個智能體，那么視覺編碼器就是智能體的眼睛。隨著今年年初公司研究者們認識到了大模型中視覺編碼器的重要性，并進行針對性的設計，我再次感受到此工作的重要性。

此外，ViTamin 最高分模型僅有436M，不足 0.5B，在追求大模型、大規(guī)模參數(shù)量的2023年算是非常小的。而在我們所能獲取的最佳數(shù)據(jù)條件下，這個規(guī)模已經(jīng)達到了 scaling law 的極限。有趣的是，從今年開始，小模型也變得非常熱門，現(xiàn)在多模態(tài)模型為了終端優(yōu)化，也只會采用幾百兆量級的視覺編碼器。不難看出，scaling law 最終會逐步收斂到一個最佳的設置。

AI 科技評論：為什么今年會從醫(yī)學影像轉向空間智能？空間智能的核心是什么？

陳杰能：我相信工業(yè)界和醫(yī)院的聯(lián)合下，癌癥篩查這一關鍵問題將在未來幾年得以解決，而我以前的工作有助于其規(guī)模化推廣，算是完成了自己的使命。如今我想探索新領域，而空間智能、具身智能等定義尚新，能參與前期探索頗具意義。

導師Alan在1990年就有研究三維物體的表面曲率，近年實驗室也一直關注3D 視覺，我常受到熏陶而感興趣。我今年開始著手解決一兩個黃金問題，希望能一起推進空間智能與具身智能。

今年空間智能備受關注，它涉及圖片 3D 建模或視頻 4D 建模，本質上是逆向圖形學單張圖重建三維結構并提取物體類別、位置和幾何等信息。

舉個例子，在虛擬游戲引擎或物理引擎中，通常會通過預設的場景配置文件給定3D模型，并渲染為2D圖像，這是一個從場景到圖像的正向渲染過程；而計算機視覺則是這一過程的逆向推理，即從2D圖像中重建或推演出三維場景。如果能徹底解決這一挑戰(zhàn)，計算機視覺可能會有較大的突破，比如在 GPT 的空間推理，以及視頻生成是否表現(xiàn)視覺場景的物理性，因此，從圖片中推演 3D 場景，是空間智能的一個核心。

我目前的工作聚焦了空間推演。不久前發(fā)布的 Gemini 2 也特別強調了空間推演能力，然而，我們最近開發(fā)的空間推理基準3DSRBench的結果顯示，其準確率僅為 50%，遠低于人類的 95%。結果發(fā)布后，DeepMind的相關人員也提供代碼庫，共同推動大模型在空間推理的進展。這表明在空間智能領域，尤其空間推理，機器與人類的能力還存在較大差距。

AI 科技評論：那空間智能與醫(yī)療圖像之間有何關聯(lián)與差異呢？

陳杰能：空間智能與醫(yī)療圖像皆涉圖像處理及復雜場景建模，醫(yī)療圖像的三維理解與空間智能的三維理解目標相近，都要將像素數(shù)據(jù)轉化為對三維結構和語義關系的預測，并提取關鍵的信息如物體位置和形態(tài)。在醫(yī)療影像中，這具體表現(xiàn)為對器官和病灶的位置、形態(tài)及其空間關系的精準解析。

二者也有不同：從數(shù)據(jù)上，醫(yī)療圖像是規(guī)則的三維數(shù)據(jù)，通常處于有限范圍內（例如人體高度有限、器官形態(tài)相對規(guī)則），數(shù)據(jù)復雜度較低；而空間智能的數(shù)據(jù)更加復雜，包含大量不規(guī)則、有形變和帶有關節(jié)活動的物體，數(shù)據(jù)的復雜度明顯更高。從優(yōu)化目標上，空間智能和具身智能重實時性與泛化性，期望模型在不同環(huán)境泛化良好，達類似小孩智商與感知力；醫(yī)療人工智能則強調專家性，欲在專項達醫(yī)生專家水平，所以二者優(yōu)化目標迥異。

心智模型之于具身智能

AI 科技評論：您是從什么時候開始聚焦世界模型的？

陳杰能：我對世界模型的研究，是與空間智能和具身智能同期進行的。空間推理是具身智能體感知物理世界的起點，但僅依靠空間感知無法全面支持智能體對物理世界的交互理解。構建一個可預測、可交互的世界模型，將更好地幫助智能體在真實世界中進行有效決策。

雖然世界模型的定義本身仍百家爭鳴，但在二三十年前就已應用于控制論了。它的一個本質定義是：給定當前的狀態(tài)分布和動作輸入，能否預測出未來下一個狀態(tài)的分布。這在早年的控制論等領域中有一些實踐，但早年狀態(tài)的定義較為簡單。

我認為世界模型本質是提供對世界變化的預測性分布，但世界變化不應是最初的低維狀態(tài)，而可以是一個四維世界的狀態(tài)，包括目標物體的語義信息、紋理信息、三維幾何結構、形態(tài)、形變、運動特性，以及物體之間的空間關系的建模。

我關注的一個難點是，能否從圖像觀測中提取上述的三維空間表征，作為世界模型的狀態(tài)。此外，我也關注世界模型在具身智能的應用。

AI 科技評論：您不久前發(fā)布了“生成式世界探索者”，從單張圖生成可交互 3D 世界，可以聊聊這個 idea 是怎么誕生的嗎？

陳杰能：人類在現(xiàn)實生活中探索看不到的地方，能通過發(fā)揮想象力在大腦里構建出一個世界，然后在其中進行想象性的探索。這種能力使得我們人類無需物理移動就能探索到這個世界未知的地方，還能幫助更好地做出決策——讓AI智能體具備此能力，就是我的初衷。

從實踐的角度來看，當下看到的事物，無論是單張圖還是單個觀察，首先是要從單張圖中生成一個可交互的 3D 世界，下一步才能在這個 3D 世界中探索。

AI 科技評論：那具身智能的心智模型和世界模型又有何關聯(lián)呢？

陳杰能：心智模型最早在心理學和認知科學領域被提出，心智模型是指存在于我們腦中的一種認知框架，用于表示對世界的理解。它相當于一種內部的現(xiàn)實模擬，幫助人類解讀信息、做出決策，并根據(jù)以往的經(jīng)驗和知識預測結果。當然世界模型也是根據(jù)過往的經(jīng)驗和知識，去對未來的狀態(tài)分布做出預測。因此這兩個模型的本質是相關聯(lián)的。

心智模型的表征最早主要是關于語言語義學特征，如今生成技術的發(fā)展使視覺表征成為可能。我的工作實際上是將心智模型提升到了一個表征上的新高度，即構造出具備空間想象力的心智模型，能想象三維世界中看不到的地方，比如只看到輪子能想象到一輛救護車，亦或者通過動作交互，探索到更遠的看不到的場景。

具身智能體基于此核心能力，無論走到哪里，都能通過對周圍環(huán)境的觀察來構造出一個可探索的三維世界，即生成式的三維世界。在對生成的世界里，智能體通過探索發(fā)現(xiàn)未曾見過的觀測，并將這些想象出來的觀測加入到?jīng)Q策過程中——因此稱之為“生成式世界探索者”。

將生成世界的觀測融入決策的過程，可以看做通過世界模型開發(fā)的一種全新策略（policy）。應用于具身智能時，其實是用在生成式世界收集到觀測來補充物理世界中的缺失觀測，形成更完整的觀測集，從而構建一個想象力增強的policy。

AI 科技評論：心智模型屬于對常識的理解嗎，比如知道橫著拿紙杯水會灑出來？

陳杰能：心智模型作為一種認知框架，有基于常識的理解。然而，“知道橫著拿紙杯水會灑出來”，這仍基于對紙杯和紙杯里的水的完全觀測，心智模型可以解決更有挑戰(zhàn)性的部分觀測和缺失觀測的場景。心智模型是通過已有環(huán)境信息，去推演和想象那些未觀測到的環(huán)境部分，比如一陣大風是缺失觀測的，但人類的心智模型或許能推演出風吹后紙杯會倒下。

模擬這些未觀測到的環(huán)境因素，有助于做出更精確的決策，從而提高決策模型的泛化能力。這一方向在未來會獲得更多的關注。

AI 科技評論：這個方向在具身智能領域并不熱門。

陳杰能：是的，領域內很多研究者聚焦于提升低層次（low level）策略的魯棒性，而我目前的研究更側重于高層次（high level）問題，旨在為具身智能體構建可交互的三維世界模型，以輔助其決策過程。

在高層次領域，除了心智模型，具身智能體的物理世界的空間理解仍有挑戰(zhàn)，如果把上游的空間理解處理好加上三維心智模型，低層次問題會解決得更輕松，能讓智能體走入真實世界而非僅限在機械臂的環(huán)境里。當然這兩者最終可以結合起來形成多層次模型。

最后，我們開發(fā)的生成式世界探索者，不僅是具身智能體的重要組成部分，也已經(jīng)初步證明能夠輔助人類的認知決策。我希望在這個多學科交叉的領域貢獻點力量。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))作者anna042023將持續(xù)關注具身智能，歡迎添加交流，互通有無。雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。