日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026

本文作者: 鄭佳美   2026-05-12 15:48
導(dǎo)語(yǔ):當(dāng)機(jī)器從識(shí)別圖像走向介入現(xiàn)實(shí),視覺(jué)研究的邊界也被重新劃定。
從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026
當(dāng)機(jī)器從識(shí)別圖像走向介入現(xiàn)實(shí),視覺(jué)研究的邊界也被重新劃定。

    作者丨鄭佳美

    編輯丨馬曉寧

                                                                                                               從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026

如果您漫步在 CVPR 2026 的會(huì)場(chǎng),會(huì)產(chǎn)生一種強(qiáng)烈的錯(cuò)覺(jué):自己是不是跑錯(cuò)了場(chǎng)館,誤入了 ICRA 或者 IROS 的現(xiàn)場(chǎng)?滿(mǎn)屏的機(jī)械臂抓取、足式機(jī)器人的越野導(dǎo)航、以及在虛擬沙盒中進(jìn)行千億次迭代的物理模擬。

具身智能(Embodied AI)已經(jīng)不再是視覺(jué)領(lǐng)域的一個(gè)“邊緣分支”,而是以一種占據(jù)主舞臺(tái)的姿態(tài),成為視覺(jué)頂會(huì)最難被忽視的敘事之一。

這種范式的易位,讓人們不禁回想起 2017 年機(jī)器人學(xué)界的頂級(jí)盛會(huì) IROS。當(dāng)時(shí),機(jī)器人專(zhuān)家們打破了固守多年的運(yùn)動(dòng)學(xué)控制圈層,邀請(qǐng)計(jì)算機(jī)視覺(jué)泰斗、ImageNet 奠基人李飛飛做主題演講。

在那個(gè)時(shí)刻,視覺(jué)對(duì)于機(jī)器人而言,更像是一個(gè)“尊貴的外部插件”:機(jī)器人學(xué)是主,計(jì)算機(jī)視覺(jué)是客。機(jī)器人真正的知識(shí)核心,仍然是運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)、控制、規(guī)劃、執(zhí)行器和系統(tǒng)工程;視覺(jué)負(fù)責(zé)把外部世界翻譯成機(jī)器人能夠使用的狀態(tài)信息,卻并不真正決定機(jī)器人學(xué)的問(wèn)題邊界。

九年之后,機(jī)器人和計(jì)算機(jī)視覺(jué)的融合已進(jìn)入新的里程碑。在計(jì)算機(jī)視覺(jué)領(lǐng)域,我們甚至可以看到具身智能“反客為主”的表現(xiàn)。

這種“反客為主”,并不是說(shuō)機(jī)器人論文在視覺(jué)頂會(huì)中數(shù)量變多了,也不是說(shuō) CVPR 正在變成另一個(gè) ICRA 或 IROS。真正重要的是,具身智能正在改變計(jì)算機(jī)視覺(jué)判斷自身價(jià)值的方式。

過(guò)去,視覺(jué)研究的中心問(wèn)題是:機(jī)器如何從圖像中提取語(yǔ)義,從視頻中理解事件,從多視角中還原三維結(jié)構(gòu)。今天,具身智能把問(wèn)題推進(jìn)到了另一層:視覺(jué)系統(tǒng)不僅要看懂世界,還要支持一個(gè)智能體進(jìn)入世界、改變世界,并在行動(dòng)反饋中重新校正自己對(duì)世界的理解。

這才是所謂“范式奪權(quán)”的本質(zhì)。一個(gè)方向真正完成“奪權(quán)”,從來(lái)不是靠論文數(shù)量取勝,而是靠重新定義整個(gè)領(lǐng)域的問(wèn)題入口、評(píng)價(jià)標(biāo)準(zhǔn)和技術(shù)路線(xiàn)。

如果說(shuō)過(guò)去的計(jì)算機(jī)視覺(jué)是在屏幕中理解世界,那么具身智能正在迫使它走出屏幕,在真實(shí)空間、真實(shí)物體和真實(shí)動(dòng)作中重新證明自己。

從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026

01

Ted Xiao「三大時(shí)代」里的具身智能拐點(diǎn)

要理解具身智能為什么會(huì)在 CVPR 2026 中形成如此強(qiáng)的存在感,不能只從這一屆會(huì)議本身看起。更準(zhǔn)確的切口,是 Ted Xiao 對(duì)機(jī)器人學(xué)習(xí)過(guò)去十年發(fā)展的三階段復(fù)盤(pán):存在性證明時(shí)代、基礎(chǔ)模型時(shí)代和 Scaling 時(shí)代。

這個(gè)框架之所以重要,是因?yàn)樗忉屃艘粋€(gè)關(guān)鍵問(wèn)題:具身智能并不是突然進(jìn)入計(jì)算機(jī)視覺(jué)中心的,而是在機(jī)器人學(xué)習(xí)自身演進(jìn)到某個(gè)階段之后,必然開(kāi)始向視覺(jué)研究索取更深層的能力。

換句話(huà)說(shuō),CVPR 2026 所呈現(xiàn)出的變化,不是一個(gè)會(huì)議熱點(diǎn)的偶然輪換,而是機(jī)器人學(xué)習(xí)從控制問(wèn)題、數(shù)據(jù)問(wèn)題,進(jìn)一步演變成世界理解問(wèn)題后的自然結(jié)果。

第一個(gè)階段是存在性證明時(shí)代。這個(gè)階段的核心問(wèn)題是:端到端的數(shù)據(jù)驅(qū)動(dòng)方法到底能不能在真實(shí)機(jī)器人上工作?強(qiáng)化學(xué)習(xí)能不能控制機(jī)械臂?模仿學(xué)習(xí)能不能完成抓取?真實(shí)硬件采集的數(shù)據(jù)能不能訓(xùn)練出穩(wěn)定策略?

這一時(shí)期的機(jī)器人學(xué)習(xí)還帶有很強(qiáng)的“實(shí)驗(yàn)室證明”色彩。研究者需要先證明,深度學(xué)習(xí)不只是能在 Atari、圍棋和圖像分類(lèi)中奏效,也能面對(duì)真實(shí)世界中連續(xù)、高維、噪聲極強(qiáng)的物理系統(tǒng)。

在這個(gè)階段,視覺(jué)當(dāng)然重要,但它更多是機(jī)器人系統(tǒng)中的輸入模塊。機(jī)器人需要視覺(jué)來(lái)感知物體位置、場(chǎng)景狀態(tài)和外部環(huán)境,但機(jī)器人學(xué)習(xí)的主要壓力仍然來(lái)自控制穩(wěn)定性、硬件誤差、樣本效率、數(shù)據(jù)采集成本和真實(shí)環(huán)境不確定性。視覺(jué)是必要條件,卻還不是范式重組的中心。

第二個(gè)階段是基礎(chǔ)模型時(shí)代。隨著大語(yǔ)言模型、視覺(jué)語(yǔ)言模型和多模態(tài)大模型的發(fā)展,機(jī)器人學(xué)習(xí)開(kāi)始發(fā)生第一次重要轉(zhuǎn)向。機(jī)器人不再只是學(xué)習(xí)某個(gè)單一技能,而是開(kāi)始吸收互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中形成的語(yǔ)義理解能力。

它不僅要知道機(jī)械臂如何移動(dòng),還要理解“把紅色杯子放到盤(pán)子旁邊”這樣的自然語(yǔ)言指令;不僅要識(shí)別物體,還要理解開(kāi)放詞匯、空間關(guān)系、任務(wù)意圖和人類(lèi)常識(shí)。

SayCan、RT-1、RT-2 這類(lèi)路線(xiàn)的意義正在于此。它們并不只是讓機(jī)器人“聽(tīng)懂更多話(huà)”,而是讓視覺(jué)、語(yǔ)言和動(dòng)作第一次被壓進(jìn)同一個(gè)建模框架中:語(yǔ)言給出目標(biāo),視覺(jué)理解狀態(tài),模型生成動(dòng)作,動(dòng)作改變世界,世界反饋又回到視覺(jué)輸入之中。

到了這個(gè)階段,計(jì)算機(jī)視覺(jué)和機(jī)器人學(xué)習(xí)的關(guān)系已經(jīng)開(kāi)始變化。機(jī)器人對(duì)視覺(jué)的需求,不再只是“幫我看見(jiàn)物體在哪里”,而是“幫我理解一個(gè)開(kāi)放世界,并把這種理解轉(zhuǎn)化為行動(dòng)”。這已經(jīng)不是傳統(tǒng)意義上的視覺(jué)模塊調(diào)用,而是對(duì)視覺(jué)研究提出了更高層的要求。

第三個(gè)階段是 Scaling 時(shí)代。也正是在這個(gè)階段,CVPR 的位置變得不可替代。因?yàn)橐坏C(jī)器人學(xué)習(xí)進(jìn)入規(guī)模化,它需要的基礎(chǔ)設(shè)施幾乎全部與計(jì)算機(jī)視覺(jué)深度綁定:

它需要從海量視頻中學(xué)習(xí)人類(lèi)動(dòng)作和物體交互,需要用 3D 場(chǎng)景理解支撐空間推理,需要用世界模型預(yù)測(cè)動(dòng)作后果,需要通過(guò)仿真和合成數(shù)據(jù)彌補(bǔ)真實(shí)機(jī)器人數(shù)據(jù)的稀缺,需要把語(yǔ)言目標(biāo)映射到視覺(jué)狀態(tài)和動(dòng)作序列,也需要在長(zhǎng)程任務(wù)中維持對(duì)場(chǎng)景、記憶和目標(biāo)的持續(xù)理解。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

這就是為什么具身智能會(huì)在 CVPR 2026 中顯得像一次集中爆發(fā)。機(jī)器人學(xué)習(xí)早期更像是在解決“能不能讓機(jī)器人動(dòng)起來(lái)”;基礎(chǔ)模型時(shí)代開(kāi)始解決“能不能讓機(jī)器人理解指令和場(chǎng)景”;而到了 Scaling 時(shí)代,真正的問(wèn)題變成了“能不能讓機(jī)器人在開(kāi)放世界中規(guī)?;貙W(xué)習(xí)、泛化和行動(dòng)”。

這個(gè)問(wèn)題已經(jīng)不再是機(jī)器人學(xué)單獨(dú)能夠完成的,它必須借助計(jì)算機(jī)視覺(jué)在視覺(jué)表征、視頻理解、三維重建、多模態(tài)對(duì)齊、生成建模和世界建模上的長(zhǎng)期積累。因此,Ted Xiao 的三大時(shí)代復(fù)盤(pán)實(shí)際上揭示了這場(chǎng)“范式奪權(quán)”的歷史條件:只有當(dāng)機(jī)器人學(xué)習(xí)進(jìn)入 Scaling 階段,視覺(jué)才會(huì)從機(jī)器人系統(tǒng)中的外部插件,變成物理智能的底層基礎(chǔ)設(shè)施。

從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026

02


三重「奪權(quán)」:

問(wèn)題、標(biāo)準(zhǔn)與路線(xiàn)的重寫(xiě)

有了 Ted Xiao 的時(shí)間線(xiàn),再回到 CVPR 2026,很多現(xiàn)象就不再顯得孤立。

VLA、機(jī)器人操作、移動(dòng)導(dǎo)航、人形機(jī)器人、世界模型、Sim2Real、物理仿真、3D 空間智能和自動(dòng)駕駛等主題集中出現(xiàn),并不是多個(gè)熱點(diǎn)并排爆發(fā),而是同一條范式遷移鏈路在視覺(jué)頂會(huì)中的集中顯影。

過(guò)去,CVPR 的很多核心任務(wù)可以被理解為從視覺(jué)輸入到視覺(jué)表征的映射:圖像到類(lèi)別,圖像到框,圖像到 mask,圖像到 depth,圖像到 3D,視頻到事件,文本到圖像。

具身智能則要求建立一條更長(zhǎng)的鏈路:視覺(jué)輸入進(jìn)入語(yǔ)言理解,語(yǔ)言目標(biāo)進(jìn)入任務(wù)規(guī)劃,任務(wù)規(guī)劃進(jìn)入動(dòng)作生成,動(dòng)作結(jié)果回到視覺(jué)反饋,反饋再更新模型對(duì)世界的判斷。

這條鏈路一旦成為主流,計(jì)算機(jī)視覺(jué)的研究對(duì)象就會(huì)發(fā)生變化。圖像不再只是被理解的對(duì)象,而是行動(dòng)決策的起點(diǎn);視頻不再只是時(shí)間序列,而是動(dòng)作、變化和因果后果的載體;三維重建不再只是幾何恢復(fù),而是智能體導(dǎo)航、操作和交互的空間底座;生成模型不再只是為了生成逼真的內(nèi)容,而是要生成可用于訓(xùn)練、預(yù)測(cè)和評(píng)估行動(dòng)策略的世界。

這就是 CVPR 2026 的標(biāo)志性意義。它不是具身智能第一次出現(xiàn)在視覺(jué)頂會(huì)中,卻可能是具身智能第一次如此清晰地改變視覺(jué)頂會(huì)的敘事重心。過(guò)去,機(jī)器人是視覺(jué)技術(shù)的應(yīng)用場(chǎng)景;現(xiàn)在,機(jī)器人問(wèn)題開(kāi)始成為視覺(jué)研究重新定義自身的一面鏡子。

而所謂具身智能的“范式奪權(quán)”,正是從這里開(kāi)始的:它首先改變了計(jì)算機(jī)視覺(jué)的問(wèn)題定義。

傳統(tǒng)計(jì)算機(jī)視覺(jué)最常問(wèn)的是:這是什么?它在哪里?這個(gè)場(chǎng)景如何重建?這段視頻發(fā)生了什么?這些問(wèn)題共同指向一個(gè)目標(biāo):讓機(jī)器更好地表征世界。

具身智能把問(wèn)題改寫(xiě)了。一個(gè)機(jī)器人看見(jiàn)桌上的杯子,任務(wù)并不會(huì)停在“識(shí)別這是杯子”。它還要判斷杯子的重心、材質(zhì)、杯柄朝向、可抓取區(qū)域、周?chē)系K物、機(jī)械臂運(yùn)動(dòng)路徑,以及拿起之后世界狀態(tài)會(huì)如何改變。也就是說(shuō),具身智能真正問(wèn)的是:我能對(duì)它做什么?

這一步改變了視覺(jué)研究的底層對(duì)象。物體不再只是類(lèi)別標(biāo)簽,而是可抓取、可推動(dòng)、可打開(kāi)、可阻擋、可支撐的實(shí)體;空間不再只是幾何結(jié)構(gòu),而是可導(dǎo)航、可探索、可交互的任務(wù)場(chǎng);視頻不再只是時(shí)間序列,而是動(dòng)作、變化和因果后果的線(xiàn)索。

問(wèn)題一旦被改寫(xiě),評(píng)價(jià)標(biāo)準(zhǔn)也會(huì)隨之變化。傳統(tǒng)視覺(jué)的成功大多建立在離線(xiàn)數(shù)據(jù)集上:分類(lèi)看準(zhǔn)確率,檢測(cè)看 mAP,分割看 IoU,重建看誤差,生成看保真度和語(yǔ)義一致性。具身智能帶來(lái)的標(biāo)準(zhǔn)更苛刻:模型“看對(duì)了”并不等于任務(wù)成功。

機(jī)器人識(shí)別出了杯子,但抓取失敗,視覺(jué)理解仍然不夠;模型重建出了房間,但機(jī)器人無(wú)法安全導(dǎo)航,空間表征仍然不夠;視頻生成看起來(lái)逼真,但不能預(yù)測(cè)動(dòng)作后果,世界模型仍然不夠。

所以,具身智能把評(píng)價(jià)標(biāo)準(zhǔn)從“輸出是否正確”,推向“行動(dòng)是否有效”。計(jì)算機(jī)視覺(jué)過(guò)去可以在視覺(jué)空間內(nèi)部自洽,現(xiàn)在則必須接受物理世界的檢驗(yàn)。

當(dāng)問(wèn)題定義和評(píng)價(jià)標(biāo)準(zhǔn)都發(fā)生變化,方法路線(xiàn)也會(huì)被重寫(xiě)。VLA 模型之所以重要,并不是因?yàn)樗?Vision、Language、Action 三個(gè)詞放在一起,而是因?yàn)樗亟酥悄芟到y(tǒng)的基本接口:人類(lèi)用語(yǔ)言表達(dá)目標(biāo),機(jī)器人通過(guò)視覺(jué)理解當(dāng)前世界,再把語(yǔ)言目標(biāo)和視覺(jué)狀態(tài)轉(zhuǎn)化為動(dòng)作序列。

世界模型和物理仿真解決的,則是行動(dòng)之前的后果預(yù)測(cè)。機(jī)器人拿起杯子,桌面狀態(tài)會(huì)改變;推開(kāi)箱子,路徑可達(dá)性會(huì)改變;打開(kāi)抽屜,新的物體會(huì)出現(xiàn)。如果視覺(jué)模型不能推演這些變化,它就很難支撐規(guī)劃。

3D 空間智能也因此被重新賦予意義。過(guò)去,三維重建關(guān)注幾何是否準(zhǔn)確、紋理是否真實(shí);現(xiàn)在,具身智能要求三維世界是可行動(dòng)的:哪里能走,哪里能抓,哪里會(huì)撞,哪里需要探索。

這就是具身智能對(duì)計(jì)算機(jī)視覺(jué)方法路線(xiàn)的重寫(xiě)。它把視覺(jué)模型從“感知器”推向“行動(dòng)系統(tǒng)的一部分”,把 3D 從幾何恢復(fù)推向空間決策,把視頻生成從內(nèi)容合成推向物理預(yù)測(cè),把多模態(tài)模型從視覺(jué)問(wèn)答推向任務(wù)執(zhí)行。

而學(xué)術(shù)范式的變化,最終還需要產(chǎn)業(yè)現(xiàn)實(shí)來(lái)確認(rèn)。過(guò)去,計(jì)算機(jī)視覺(jué)的產(chǎn)業(yè)化多發(fā)生在相對(duì)可控的感知和內(nèi)容場(chǎng)景中。安防識(shí)別、工業(yè)檢測(cè)、自動(dòng)駕駛感知、手機(jī)影像和 AIGC,都可以在一定程度上把視覺(jué)輸出作為獨(dú)立結(jié)果來(lái)使用。

但機(jī)器人不同。機(jī)器人要求視覺(jué)結(jié)果直接進(jìn)入行動(dòng)鏈條。模型不能只是“看起來(lái)理解了”,它必須把貨箱搬起來(lái),把零件放到位,把路線(xiàn)走通,把門(mén)打開(kāi),把錯(cuò)誤恢復(fù)過(guò)來(lái)。

這使得視覺(jué)模型的錯(cuò)誤成本發(fā)生了變化。一次識(shí)別錯(cuò)誤可能導(dǎo)致抓取失敗,一次空間誤判可能導(dǎo)致碰撞,一次物理預(yù)測(cè)錯(cuò)誤可能讓策略失效。

因此,產(chǎn)業(yè)需要的不是單點(diǎn)視覺(jué)能力,而是一整套面向物理世界的視覺(jué)基礎(chǔ)設(shè)施:穩(wěn)定的 3D 世界表征、低延遲動(dòng)作生成、高質(zhì)量機(jī)器人數(shù)據(jù)、可交互仿真環(huán)境、可靠的 Sim2Real 遷移,以及失敗后的恢復(fù)機(jī)制。

只要 AI 繼續(xù)從屏幕走向物理世界,計(jì)算機(jī)視覺(jué)就必然從“感知模型”走向“行動(dòng)基礎(chǔ)設(shè)施”。這也是具身智能奪取范式解釋權(quán)的現(xiàn)實(shí)基礎(chǔ)。

從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026

03


從開(kāi)放世界之橋,到物理智能底座

回到 2017 年 IROS 的歷史現(xiàn)場(chǎng),李飛飛的出現(xiàn)象征著機(jī)器人學(xué)界對(duì)視覺(jué)智能的主動(dòng)擁抱。那時(shí),機(jī)器人如果要進(jìn)入開(kāi)放世界,就必須借助視覺(jué)理解對(duì)象、場(chǎng)景和人類(lèi)意圖。視覺(jué)是機(jī)器人通往開(kāi)放世界的一座橋。

而現(xiàn)在 CVPR 2026 的具身智能熱潮構(gòu)成了另一個(gè)歷史鏡像:機(jī)器人問(wèn)題開(kāi)始反過(guò)來(lái)迫使計(jì)算機(jī)視覺(jué)重新理解自身。沒(méi)有視覺(jué),機(jī)器人無(wú)法理解開(kāi)放世界;但沒(méi)有行動(dòng),視覺(jué)智能也很容易停留在描述世界的層面,無(wú)法證明自己是否真正理解世界。

這就是“從座上賓到主戰(zhàn)場(chǎng)”的真正含義。

它不是機(jī)器人取代計(jì)算機(jī)視覺(jué),也不是 CVPR 變成機(jī)器人會(huì)議,而是具身智能奪取了計(jì)算機(jī)視覺(jué)的范式解釋權(quán)。它重新定義了什么是重要問(wèn)題,什么是有效方法,什么是成功結(jié)果,也重新定義了視覺(jué)智能必須面對(duì)的世界。雷峰網(wǎng)

過(guò)去,計(jì)算機(jī)視覺(jué)的核心是讓機(jī)器看見(jiàn)世界;后來(lái),它變成讓機(jī)器理解世界;現(xiàn)在,具身智能正在要求機(jī)器進(jìn)入世界。看見(jiàn)是感知,理解是表征,行動(dòng)才是對(duì)理解的最終檢驗(yàn)。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

從「座上賓」到「主戰(zhàn)場(chǎng)」:具身智能如何完成對(duì)計(jì)算機(jī)視覺(jué)的「范式奪權(quán)」?| CVPR 2026

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)