日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給鄭佳美
發(fā)送

0

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

本文作者: 鄭佳美   2026-01-14 10:55
導(dǎo)語(yǔ):InfiniDepth:一種基于隱式神經(jīng)表達(dá)的單目深度估計(jì)方法,支持任意分辨率預(yù)測(cè)。

在單目深度估計(jì)中,分辨率越來(lái)越高已經(jīng)是一個(gè)很常見(jiàn)的趨勢(shì)。很多方法可以輸出 2K 甚至 4K 的深度結(jié)果,看起來(lái)也確實(shí)比低分辨率更細(xì)致。

但在實(shí)際使用中,這類高分辨率深度并不總是好用。尤其是在三維重建、新視角合成等對(duì)幾何一致性要求較高的任務(wù)中,物體邊緣容易發(fā)虛,細(xì)小結(jié)構(gòu)經(jīng)常對(duì)不齊,結(jié)果并沒(méi)有隨著分辨率提升而明顯改善。類似的問(wèn)題在自動(dòng)駕駛和機(jī)器人導(dǎo)航場(chǎng)景中同樣存在,幾何誤差會(huì)影響障礙物邊界判斷和可通行區(qū)域估計(jì),從而增加后續(xù)規(guī)劃與決策的不確定性。

一個(gè)很重要的原因在于,現(xiàn)有方法大多仍在固定分辨率下預(yù)測(cè)深度,再通過(guò)插值將結(jié)果放大到更高分辨率。這樣做雖然能夠得到更大的輸出尺寸,但在細(xì)節(jié)區(qū)域,本質(zhì)上只是放大了原有的預(yù)測(cè)誤差。

而對(duì)于依賴深度信息進(jìn)行環(huán)境建模的自動(dòng)駕駛系統(tǒng)而言,這種誤差不僅影響局部幾何質(zhì)量,還會(huì)進(jìn)一步影響路徑規(guī)劃和決策的穩(wěn)定性。久而久之,人們開(kāi)始意識(shí)到,高分辨率深度面臨的瓶頸,可能并不只是模型不夠復(fù)雜,而是預(yù)測(cè)深度的方式本身存在局限。

基于這樣的觀察,浙江大學(xué)彭思達(dá)團(tuán)隊(duì)聯(lián)合理想研究團(tuán)隊(duì),提出了論文《InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields》。這項(xiàng)工作并未急于在既有框架上追求更高指標(biāo),而是從深度的表示方式本身出發(fā),重新思考高分辨率條件下深度應(yīng)如何被建模和使用。

圍繞這一思路,研究團(tuán)隊(duì)設(shè)計(jì)了一系列覆蓋合成數(shù)據(jù)、真實(shí)數(shù)據(jù)以及三維下游任務(wù)的實(shí)驗(yàn),將這種表示方式放到不同場(chǎng)景中加以檢驗(yàn),從而更細(xì)致地觀察其在細(xì)節(jié)區(qū)域和復(fù)雜幾何結(jié)構(gòu)中的實(shí)際表現(xiàn)。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

論文地址:https://arxiv.org/pdf/2601.03252

當(dāng)深度不再受分辨率限制

研究團(tuán)隊(duì)通過(guò)一系列覆蓋合成數(shù)據(jù)、真實(shí)數(shù)據(jù)以及下游三維任務(wù)的實(shí)驗(yàn),系統(tǒng)驗(yàn)證了InfiniDepth 在高分辨率深度估計(jì)、細(xì)粒度幾何建模以及大視角渲染方面的有效性。

首先,在研究團(tuán)隊(duì)構(gòu)建的 Synth4K 數(shù)據(jù)集上,對(duì)模型進(jìn)行了零樣本相對(duì)深度評(píng)測(cè)。Synth4K 由五個(gè)子數(shù)據(jù)集組成,分別來(lái)自不同高質(zhì)量游戲場(chǎng)景,每個(gè)子集包含數(shù)百?gòu)埛直媛蕿?nbsp;3840×2160 的 RGB 圖像及對(duì)應(yīng)高精度深度圖,能夠真實(shí)反映高分辨率場(chǎng)景中的邊緣結(jié)構(gòu)、薄物體以及復(fù)雜曲面。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在評(píng)測(cè)過(guò)程中,研究人員同時(shí)報(bào)告了全圖區(qū)域和高頻細(xì)節(jié)區(qū)域的結(jié)果,并采用 δ0.5、δ1 和 δ2 作為評(píng)價(jià)指標(biāo)。在全圖區(qū)域內(nèi),InfiniDepth 在五個(gè)子數(shù)據(jù)集上均取得了最優(yōu)表現(xiàn)。

例如,Synth4K-1上,InfiniDepth的δ1達(dá)到89.0%,明顯高于 DepthAnything 的 83.8% 和MoGe-2 的 84.2%;在Synth4K-3 上,其 δ1提升至 93.9%,相比DepthPro和Marigold 等方法仍具有顯著優(yōu)勢(shì);在 Synth4K-5 上,InfiniDepth 的 δ1 達(dá)到 96.3%,在所有對(duì)比方法中排名第一。這些結(jié)果表明,在整體區(qū)域內(nèi),該方法在高分辨率條件下具備穩(wěn)定而一致的精度優(yōu)勢(shì)。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在進(jìn)一步針對(duì)高頻細(xì)節(jié)區(qū)域的評(píng)測(cè)中,研究人員僅在由多尺度拉普拉斯算子篩選出的幾何變化劇烈區(qū)域計(jì)算指標(biāo)。結(jié)果顯示,所有方法在高頻區(qū)域的性能都會(huì)明顯下降,但I(xiàn)nfiniDepth 的下降幅度最小,且在多數(shù)子集上仍保持領(lǐng)先。

例如,在Synth4K-1 的高頻區(qū)域內(nèi),其δ1達(dá)到67.5%,而 DepthAnything 和 DepthAnythingV2 分別僅為 61.3% 和 60.6%;在 Synth4K-3 的高頻區(qū)域中,InfiniDepth 的 δ1 為 69.0%,相比 MoGe-2 的 63.4% 有明顯提升。整體來(lái)看,InfiniDepth 在高頻區(qū)域的 δ1 指標(biāo)通常比主流方法高出約 5 至 8 個(gè)百分點(diǎn),表明這個(gè)方法在邊緣、薄結(jié)構(gòu)和局部幾何變化區(qū)域具有更強(qiáng)的表達(dá)能力。

值得一提的是,這類高頻區(qū)域本身并非只存在于合成數(shù)據(jù)中,而是廣泛出現(xiàn)在真實(shí)世界的復(fù)雜場(chǎng)景中。在自動(dòng)駕駛環(huán)境下,路緣、護(hù)欄、交通標(biāo)志桿等關(guān)鍵元素往往具有細(xì)長(zhǎng)、邊界清晰且?guī)缀巫兓黠@的特點(diǎn),其深度估計(jì)精度直接影響車輛對(duì)道路結(jié)構(gòu)和可行駛空間的理解能力。因此,在這些區(qū)域中保持穩(wěn)定的幾何表達(dá),對(duì)于提升復(fù)雜道路環(huán)境下的感知可靠性具有實(shí)際意義。

研究團(tuán)隊(duì)還特別指出,這種性能差異并非來(lái)自后處理技巧。對(duì)于 Synth4K 的 4K 輸出,絕大多數(shù)對(duì)比方法需要先在較低分辨率下預(yù)測(cè)深度,再通過(guò)插值方式上采樣到 4K,而InfiniDepth 由于采用連續(xù)深度表示,可以直接在 4K坐標(biāo)位置預(yù)測(cè)深度值,因此其在高分辨率評(píng)測(cè)中的優(yōu)勢(shì)反映的是模型原生的分辨率擴(kuò)展能力。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在真實(shí)世界數(shù)據(jù)集上的零樣本相對(duì)深度評(píng)測(cè)中,研究人員在KITTI、ETH3D、NYUv2、ScanNet和DIODE五個(gè)數(shù)據(jù)集上報(bào)告了 δ1 指標(biāo)。結(jié)果顯示,InfiniDepth在這些數(shù)據(jù)集上的表現(xiàn)與當(dāng)前主流方法整體處于同一水平。

例如,在ETH3D上,其 δ1 達(dá)到 99.1%,略高于MoGe-2的99.0%;在KITTI 上,其 δ1 為 97.9%,與DepthPro和MoGe等方法基本持平;在NYUv2和ScanNet 上,InfiniDepth的表現(xiàn)也未出現(xiàn)明顯退化。這些結(jié)果說(shuō)明,即便模型只使用合成數(shù)據(jù)訓(xùn)練,其連續(xù)深度表示并未對(duì)真實(shí)數(shù)據(jù)的泛化能力造成負(fù)面影響。這種對(duì)訓(xùn)練數(shù)據(jù)分布變化不敏感的特性,在自動(dòng)駕駛和移動(dòng)機(jī)器人等實(shí)際部署場(chǎng)景中尤為關(guān)鍵,因?yàn)檎鎸?shí)環(huán)境往往與訓(xùn)練條件存在較大差異,對(duì)感知系統(tǒng)的穩(wěn)定性提出了更高要求。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在尺度深度估計(jì)實(shí)驗(yàn)中,研究團(tuán)隊(duì)將 InfiniDepth 與稀疏深度提示機(jī)制結(jié)合,并在 Synth4K 以及真實(shí)數(shù)據(jù)集上采用更嚴(yán)格的 δ0.01、δ0.02 和 δ0.04 指標(biāo)進(jìn)行評(píng)測(cè)。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

在 Synth4K 的全圖區(qū)域中,InfiniDepth-Metric 在 Synth4K-1 上的δ0.01 達(dá)到 78.0%,相比PromptDA 的 65.0% 提升顯著;在 Synth4K-3 上,其 δ0.01 達(dá)到 83.8%,同樣領(lǐng)先于所有對(duì)比方法。在高頻細(xì)節(jié)區(qū)域內(nèi),這一優(yōu)勢(shì)更加明顯,例如在 Synth4K-3 的高頻區(qū)域中,InfiniDepth-Metric 的 δ0.01 為 37.2%,而 PromptDA 僅為 24.7%,PriorDA 和 Omni-DC 的表現(xiàn)更低。這表明,在細(xì)節(jié)區(qū)域和高精度尺度估計(jì)任務(wù)中,連續(xù)深度表示能夠帶來(lái)更顯著的收益。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在真實(shí)數(shù)據(jù)集的尺度深度評(píng)測(cè)中,研究人員同樣觀察到一致趨勢(shì)。在 KITTI 和 ETH3D 上,InfiniDepth-Metric 的 δ0.01 指標(biāo)分別達(dá)到 63.9% 和 96.7%,均優(yōu)于現(xiàn)有方法;在 DIODE 數(shù)據(jù)集上,其 δ0.01 達(dá)到 98.4%,在對(duì)比方法中排名第一。這說(shuō)明該方法在引入稀疏深度約束后,能夠在真實(shí)場(chǎng)景中實(shí)現(xiàn)高精度且穩(wěn)定的尺度深度預(yù)測(cè)。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

此外,在單視圖新視角合成實(shí)驗(yàn)中,研究團(tuán)隊(duì)將 InfiniDepth 預(yù)測(cè)的深度用于構(gòu)建三維點(diǎn)云并驅(qū)動(dòng)高斯渲染。實(shí)驗(yàn)結(jié)果表明,相比采用像素對(duì)齊深度的方法,在大視角變化條件下,基于該方法構(gòu)建的點(diǎn)云分布更加均勻,生成的新視角圖像中幾何空洞和斷裂明顯減少,整體結(jié)構(gòu)更加完整。這說(shuō)明連續(xù)深度表示能夠?yàn)槿S建模提供更加穩(wěn)定和一致的幾何基礎(chǔ)。

這種更可靠的三維幾何結(jié)構(gòu)不僅有利于視覺(jué)重建和渲染任務(wù),在自動(dòng)駕駛和機(jī)器人系統(tǒng)中同樣具有現(xiàn)實(shí)意義。更準(zhǔn)確的空間幾何信息有助于系統(tǒng)對(duì)周圍環(huán)境形成更清晰的空間認(rèn)知,從而為后續(xù)的導(dǎo)航規(guī)劃與決策提供更加穩(wěn)定的感知支撐。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失把深度放進(jìn)三維里再看一次

這些實(shí)驗(yàn)結(jié)果來(lái)源于研究團(tuán)隊(duì)圍繞“深度表示方式是否限制分辨率擴(kuò)展性與幾何細(xì)節(jié)恢復(fù)能力”這一核心問(wèn)題所設(shè)計(jì)的系統(tǒng)實(shí)驗(yàn)。

研究人員指出,現(xiàn)有單目深度估計(jì)方法普遍在固定像素網(wǎng)格上進(jìn)行深度預(yù)測(cè),輸出分辨率與訓(xùn)練分辨率強(qiáng)相關(guān),高分辨率結(jié)果通常依賴插值或上采樣,從而不可避免地?fù)p失高頻幾何信息。為驗(yàn)證這一問(wèn)題是否源于表示方式本身,研究團(tuán)隊(duì)提出將深度建模為連續(xù)空間中的映射關(guān)系,使模型能夠在任意圖像坐標(biāo)位置直接預(yù)測(cè)深度值。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在數(shù)據(jù)設(shè)計(jì)上,為避免真實(shí)數(shù)據(jù)集中深度標(biāo)注稀疏、分辨率有限和噪聲較大的問(wèn)題對(duì)實(shí)驗(yàn)結(jié)論產(chǎn)生干擾,研究人員構(gòu)建了 Synth4K 數(shù)據(jù)集,并進(jìn)一步引入高頻細(xì)節(jié)掩碼,通過(guò)多尺度拉普拉斯能量篩選出幾何變化最為劇烈的區(qū)域,從而實(shí)現(xiàn)對(duì)模型細(xì)節(jié)恢復(fù)能力的定量評(píng)估。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在實(shí)驗(yàn)設(shè)置上,所有對(duì)比方法均使用相同分辨率的輸入圖像,并在評(píng)測(cè)階段統(tǒng)一對(duì)齊尺度;對(duì)于 4K 輸出,基線方法的結(jié)果通過(guò)上采樣獲得,而 InfiniDepth 直接在 4K 網(wǎng)格坐標(biāo)位置進(jìn)行深度預(yù)測(cè),以確保實(shí)驗(yàn)對(duì)比集中反映深度表示和解碼方式的差異。在訓(xùn)練階段,研究人員并未對(duì)整張深度圖逐像素監(jiān)督,而是隨機(jī)采樣大量坐標(biāo)與對(duì)應(yīng)深度值進(jìn)行訓(xùn)練,這一策略既符合連續(xù)深度建模的設(shè)定,也使得高分辨率監(jiān)督更加靈活。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

為驗(yàn)證各個(gè)模塊的貢獻(xiàn),研究團(tuán)隊(duì)進(jìn)一步設(shè)計(jì)了系統(tǒng)的消融實(shí)驗(yàn)。當(dāng)移除連續(xù)深度表示、回退到傳統(tǒng)離散網(wǎng)格預(yù)測(cè)方式時(shí),模型在 Synth4K 和真實(shí)數(shù)據(jù)集上的高精度指標(biāo)普遍下降 8 到 12個(gè)百分點(diǎn);當(dāng)去除多尺度局部特征查詢與融合機(jī)制時(shí),模型在細(xì)節(jié)區(qū)域的性能同樣出現(xiàn)一致性退化。這些結(jié)果從定量角度證明,連續(xù)表示和多尺度局部查詢是 InfiniDepth 性能提升的關(guān)鍵因素。雷峰網(wǎng)

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

在新視角合成相關(guān)實(shí)驗(yàn)中,研究人員進(jìn)一步分析了像素對(duì)齊深度在三維反投影過(guò)程中造成點(diǎn)云密度不均的問(wèn)題,并基于連續(xù)深度表示所支持的幾何分析能力,根據(jù)不同區(qū)域?qū)?yīng)的表面覆蓋情況分配采樣密度,從而在三維空間中生成更加均勻的表面點(diǎn)分布。實(shí)驗(yàn)結(jié)果表明,這一策略在大視角變化條件下能夠有效減少孔洞和幾何斷裂。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失不同場(chǎng)景下的一致性結(jié)論

綜合上述實(shí)驗(yàn)可以看出,InfiniDepth 的研究意義不僅體現(xiàn)在指標(biāo)上的提升,更在于研究團(tuán)隊(duì)通過(guò)多數(shù)據(jù)集、多指標(biāo)和多任務(wù)的定量實(shí)驗(yàn),清楚地表明高分辨率深度估計(jì)中幾何細(xì)節(jié)恢復(fù)能力的主要瓶頸來(lái)源于深度表示方式本身。在 Synth4K 這一高分辨率基準(zhǔn)上,高頻細(xì)節(jié)區(qū)域中普遍達(dá)到 5 至 10個(gè)百分點(diǎn)的性能提升,直接說(shuō)明了依賴插值的高分辨率預(yù)測(cè)在幾何建模上的局限性。

同時(shí),真實(shí)數(shù)據(jù)集上的零樣本評(píng)測(cè)結(jié)果表明,連續(xù)深度表示并未削弱模型的泛化能力,而在引入稀疏深度約束后,其在高精度尺度深度估計(jì)中的優(yōu)勢(shì)進(jìn)一步放大。結(jié)合新視角合成實(shí)驗(yàn)可以看到,這種表示方式不僅提升了二維深度圖在細(xì)節(jié)上的一致性,也為三維點(diǎn)云構(gòu)建和渲染提供了更加穩(wěn)定的幾何基礎(chǔ)。

在此基礎(chǔ)上,這類連續(xù)深度表示所帶來(lái)的穩(wěn)定幾何結(jié)構(gòu),使深度信息能夠更自然地被用于后續(xù)的三維建模與環(huán)境理解。在自動(dòng)駕駛和機(jī)器人系統(tǒng)中,這種高分辨率且一致的深度感知,有助于提升復(fù)雜場(chǎng)景下空間建模和導(dǎo)航?jīng)Q策的可靠性。

總體而言,研究團(tuán)隊(duì)通過(guò)在高分辨率合成數(shù)據(jù)、真實(shí)世界數(shù)據(jù)以及下游三維任務(wù)上的系統(tǒng)實(shí)驗(yàn),用具體數(shù)據(jù)和指標(biāo)證明了連續(xù)隱式深度表示在分辨率擴(kuò)展性、幾何細(xì)節(jié)恢復(fù)能力以及大視角渲染方面的綜合優(yōu)勢(shì),為單目深度估計(jì)的后續(xù)研究提供了清晰而可驗(yàn)證的方向。

研究背后的工作者

本論文的通訊作者彭思達(dá),現(xiàn)任浙江大學(xué)軟件學(xué)院研究員。他于 2023 年在浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院獲得博士學(xué)位,師從周曉巍教授和鮑虎軍教授,本科畢業(yè)于浙江大學(xué)信息工程專業(yè)。

彭思達(dá)教授在三維視覺(jué)、神經(jīng)隱式表示以及深度感知等研究方向上具有扎實(shí)的研究積累和持續(xù)的學(xué)術(shù)貢獻(xiàn),已在多項(xiàng)國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表高水平論文,并在多項(xiàng)學(xué)術(shù)評(píng)選中獲得重要榮譽(yù),包括2025 China3DV 年度杰出青年學(xué)者獎(jiǎng)和2024 CCF 優(yōu)秀博士論文獎(jiǎng)。

此外,他在 GitHub 上分享的個(gè)人科研經(jīng)驗(yàn)與學(xué)習(xí)資料獲得約9.7K 星標(biāo)關(guān)注,致力于推動(dòng)空間智能與幾何感知領(lǐng)域的基礎(chǔ)研究與應(yīng)用落地。

彭思達(dá)教授的研究興趣從神經(jīng)隱式深度估計(jì)進(jìn)一步拓展至動(dòng)態(tài)場(chǎng)景建模、空間智能體訓(xùn)練以及大規(guī)模三維重建等方向,強(qiáng)調(diào)解決具有實(shí)際應(yīng)用價(jià)值且尚未充分解決的核心問(wèn)題,推動(dòng)新技術(shù)在真實(shí)行業(yè)場(chǎng)景中的落地與影響。

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

參考鏈接:https://pengsida.net/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

浙大彭思達(dá)團(tuán)隊(duì) × 理想最新研究:直面高分辨率深度的細(xì)節(jié)缺失

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)