日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

本文作者: 鄭佳美   2026-03-20 16:33
導(dǎo)語(yǔ):GDRO:一種通過(guò)組級(jí)獎(jiǎng)勵(lì)排序優(yōu)化擴(kuò)散模型生成能力的后訓(xùn)練方法。

現(xiàn)如今,擴(kuò)散模型已經(jīng)成為當(dāng)前圖像生成領(lǐng)域的核心技術(shù)之一。從文本生成圖像到復(fù)雜視覺(jué)內(nèi)容合成,這類(lèi)模型已經(jīng)能夠生成高度逼真的畫(huà)面。然而,在真實(shí)應(yīng)用場(chǎng)景中,人們對(duì)生成模型的要求并不僅僅是“生成逼真圖像”,而是希望模型能夠嚴(yán)格按照提示完成特定任務(wù)。

例如,在要求生成包含指定文字的圖像時(shí),模型可能 simply 將文字放大到占據(jù)畫(huà)面大部分區(qū)域,從而輕松獲得 OCR 系統(tǒng)的高分,而在需要生成多個(gè)對(duì)象的任務(wù)中,模型也可能通過(guò)極度簡(jiǎn)化場(chǎng)景結(jié)構(gòu)來(lái)滿(mǎn)足評(píng)分規(guī)則。這種現(xiàn)象通常被稱(chēng)為“獎(jiǎng)勵(lì)作弊”,已經(jīng)成為當(dāng)前生成模型對(duì)齊研究中的一個(gè)重要挑戰(zhàn)。

為了解決這一問(wèn)題,近年來(lái)一些研究開(kāi)始嘗試?yán)脧?qiáng)化學(xué)習(xí)或獎(jiǎng)勵(lì)機(jī)制對(duì)擴(kuò)散模型進(jìn)行后訓(xùn)練,希望通過(guò)獎(jiǎng)勵(lì)信號(hào)引導(dǎo)模型生成更加符合任務(wù)要求的內(nèi)容。然而實(shí)踐中逐漸發(fā)現(xiàn),這種方法容易帶來(lái)一個(gè)新的問(wèn)題:模型可能學(xué)會(huì)迎合評(píng)價(jià)指標(biāo),而不是理解任務(wù)本身。

在這樣的研究背景下,香港大學(xué)趙恒爽團(tuán)隊(duì)提出了一種新的擴(kuò)散模型后訓(xùn)練方法,并在論文《GDRO: Group-level Reward Post-training Suitable for Diffusion Models》中系統(tǒng)探討了這一問(wèn)題。研究通過(guò)引入組級(jí)獎(jiǎng)勵(lì)優(yōu)化機(jī)制對(duì)擴(kuò)散模型進(jìn)行后訓(xùn)練,在提升模型任務(wù)表現(xiàn)的同時(shí)有效緩解獎(jiǎng)勵(lì)作弊問(wèn)題,并且還可以顯著提高訓(xùn)練效率。

更重要的,這一方法在實(shí)際應(yīng)用中也具有明顯的工程價(jià)值。傳統(tǒng)的在線強(qiáng)化學(xué)習(xí)方法通常需要在每一次優(yōu)化步驟中重新執(zhí)行完整的擴(kuò)散采樣過(guò)程來(lái)生成圖像,這意味著模型需要不斷運(yùn)行完整的擴(kuò)散鏈進(jìn)行圖像生成,在線采樣往往成為訓(xùn)練過(guò)程中最主要的時(shí)間和計(jì)算開(kāi)銷(xiāo)。

相比之下,GDRO 支持完全離線的訓(xùn)練方式,在訓(xùn)練開(kāi)始之前先生成并保存帶有評(píng)分信息的圖像數(shù)據(jù),之后的優(yōu)化過(guò)程無(wú)需再依賴(lài)擴(kuò)散采樣,從而避免了重復(fù)執(zhí)行擴(kuò)散鏈帶來(lái)的巨大計(jì)算成本。同時(shí),這個(gè)方法也不依賴(lài)特定的擴(kuò)散采樣器,不需要通過(guò) ODE 到 SDE 的近似來(lái)引入隨機(jī)性,使訓(xùn)練流程更加簡(jiǎn)單穩(wěn)定。

對(duì)于工業(yè)界而言,這意味著企業(yè)可以在不顯著增加算力投入的情況下,對(duì)大規(guī)模擴(kuò)散模型進(jìn)行后訓(xùn)練優(yōu)化,從而以更低的計(jì)算資源消耗提升模型表現(xiàn)。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

論文地址:https://arxiv.org/pdf/2601.02036

不僅得分更高,還能避免「獎(jiǎng)勵(lì)作弊」

在實(shí)驗(yàn)結(jié)果方面,研究主要從模型任務(wù)表現(xiàn)、獎(jiǎng)勵(lì)作弊現(xiàn)象以及訓(xùn)練效率等多個(gè)方面進(jìn)行了分析。

整體結(jié)果表明,GDRO 不僅能夠提升擴(kuò)散模型在相關(guān)任務(wù)中的評(píng)分表現(xiàn),還可以明顯減少獎(jiǎng)勵(lì)作弊問(wèn)題,同時(shí)在訓(xùn)練效率和穩(wěn)定性方面也具有優(yōu)勢(shì)。研究人員主要通過(guò)兩個(gè)任務(wù)來(lái)評(píng)估模型能力,分別是 OCR 任務(wù)和 GenEval 任務(wù)。

OCR 任務(wù)用于測(cè)試圖像中生成文字的準(zhǔn)確性。具體流程是:首先向模型輸入一個(gè)提示詞,例如 “ 一個(gè)廣告牌,上面寫(xiě)著 diamond sale ”或者“ 一張卡片寫(xiě)著 we meet never ”;隨后擴(kuò)散模型根據(jù)提示詞生成圖片;接著 OCR 系統(tǒng)讀取圖片中的文字;如果 OCR 識(shí)別出的文字與提示詞中的內(nèi)容一致,則會(huì)獲得較高評(píng)分。

實(shí)驗(yàn)觀察發(fā)現(xiàn),原始模型生成的文字經(jīng)常出現(xiàn)多種問(wèn)題,例如拼寫(xiě)錯(cuò)誤、字體模糊、字符缺失以及排列混亂。有些圖片中的文字還會(huì)出現(xiàn)明顯傾斜或不完整的情況,導(dǎo)致 OCR 識(shí)別系統(tǒng)無(wú)法正確識(shí)別。經(jīng)過(guò) GDRO 訓(xùn)練之后,生成圖片中的文字更加清晰,文字排版更加規(guī)范,OCR 識(shí)別的準(zhǔn)確率也明顯提高。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

除了 OCR 任務(wù),研究還通過(guò) GenEval 任務(wù)評(píng)估模型對(duì)文本描述的理解能力。GenEval 任務(wù)主要關(guān)注四個(gè)方面的能力:物體數(shù)量是否正確、物體屬性是否正確(例如顏色和類(lèi)別)、物體之間的位置關(guān)系是否正確,以及圖像整體是否符合文本描述。

例如提示詞可能包括 “一張黃色餐桌和一只粉色狗” “一個(gè)筆記本電腦在球下面” “兩輛火車(chē)” “一個(gè)酒杯和一只熊” 等。評(píng)測(cè)系統(tǒng)會(huì)進(jìn)一步檢查生成圖像中是否確實(shí)包含指定對(duì)象、對(duì)象數(shù)量是否符合描述、對(duì)象之間的位置關(guān)系是否正確。實(shí)驗(yàn)結(jié)果顯示,在使用 GDRO 訓(xùn)練之后,圖像中的對(duì)象數(shù)量更加準(zhǔn)確,對(duì)象之間的位置關(guān)系更加符合提示描述,對(duì)象屬性匹配也更加穩(wěn)定。

在分析實(shí)驗(yàn)結(jié)果的過(guò)程中,研究人員還發(fā)現(xiàn)了一個(gè)非常重要的問(wèn)題,即獎(jiǎng)勵(lì)作弊現(xiàn)象。所謂獎(jiǎng)勵(lì)作弊,是指模型為了獲得更高評(píng)分,并沒(méi)有真正提高生成圖像的質(zhì)量,而是通過(guò)某種投機(jī)方式去欺騙評(píng)分系統(tǒng)。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

在 OCR 任務(wù)中,一些強(qiáng)化學(xué)習(xí)方法(例如 Flow - GRPO )在訓(xùn)練過(guò)程中會(huì)采取某些極端策略來(lái)提高 OCR 評(píng)分,例如把目標(biāo)文字做得非常大,將文字放在圖像中央位置,同時(shí)減少圖像中的背景內(nèi)容。這樣 OCR 系統(tǒng)更容易識(shí)別文字,因此評(píng)分會(huì)很高。但這種策略會(huì)帶來(lái)明顯問(wèn)題,包括圖像整體變得不自然、背景細(xì)節(jié)消失以及圖像結(jié)構(gòu)被破壞。例如原本應(yīng)該是一個(gè)復(fù)雜的地圖場(chǎng)景,但最終生成結(jié)果卻變成了一個(gè)巨大橫幅。圖像示例顯示,一些方法雖然獲得更高 OCR 評(píng)分,但圖像細(xì)節(jié)明顯減少。雷峰網(wǎng)

在 GenEval 任務(wù)中也存在類(lèi)似的獎(jiǎng)勵(lì)作弊現(xiàn)象。一些方法生成的圖像會(huì)變得非常簡(jiǎn)單,只保留最基本的對(duì)象,同時(shí)幾乎沒(méi)有任何細(xì)節(jié)。例如在提示詞為“一個(gè)綠色熱狗”的情況下,一些方法生成的圖像只有一個(gè)簡(jiǎn)單的圖形,背景幾乎為空。雖然對(duì)象類(lèi)型正確,但整體圖像質(zhì)量明顯下降。相比之下,使用 GDRO 訓(xùn)練后的模型生成圖像通常仍然保持完整場(chǎng)景,同時(shí)能夠滿(mǎn)足評(píng)分系統(tǒng)的要求,從而減少了這種獎(jiǎng)勵(lì)作弊現(xiàn)象。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

為了進(jìn)一步驗(yàn)證自動(dòng)評(píng)分系統(tǒng)的可靠性,研究團(tuán)隊(duì)還進(jìn)行了人工評(píng)估實(shí)驗(yàn)。實(shí)驗(yàn)邀請(qǐng)了 21 名參與者,對(duì)不同方法生成的圖片進(jìn)行比較評(píng)價(jià)。

評(píng)價(jià)主要從三個(gè)方面進(jìn)行,包括文字準(zhǔn)確性、圖像與提示詞之間的匹配程度以及圖像整體質(zhì)量。每組圖片中同時(shí)包含原始模型生成結(jié)果、GDRO 生成結(jié)果以及其他強(qiáng)化學(xué)習(xí)方法生成結(jié)果,參與者需要從這些圖片中選擇表現(xiàn)更好的結(jié)果。實(shí)驗(yàn)結(jié)果顯示,在文字準(zhǔn)確性方面,各種方法之間的差距并不明顯,但在圖像質(zhì)量以及語(yǔ)義匹配方面,GDRO 生成的圖像表現(xiàn)明顯更好。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

此外,研究還比較了不同方法在訓(xùn)練效率方面的表現(xiàn)。傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在訓(xùn)練擴(kuò)散模型時(shí),每一步訓(xùn)練通常都需要完成三個(gè)步驟,即生成新的圖片、計(jì)算獎(jiǎng)勵(lì)以及更新模型。由于擴(kuò)散模型生成圖片本身計(jì)算成本較高,這種訓(xùn)練方式往往需要大量時(shí)間和計(jì)算資源。

GDRO 則采用離線訓(xùn)練方式,在訓(xùn)練開(kāi)始之前先生成數(shù)據(jù),然后在訓(xùn)練過(guò)程中反復(fù)使用這些數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,在達(dá)到相似性能水平時(shí),GDRO 所需的訓(xùn)練時(shí)間明顯更短,并且在某些任務(wù)中訓(xùn)練效率可以提升數(shù)倍。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

從數(shù)據(jù)生成到模型訓(xùn)練

在實(shí)驗(yàn)設(shè)計(jì)方面,研究首先選擇 FLUX.1-dev 作為基礎(chǔ)模型。FLUX.1-dev 是一個(gè)已經(jīng)訓(xùn)練好的文本到圖像擴(kuò)散模型。研究人員并沒(méi)有重新訓(xùn)練整個(gè)模型,而是在這個(gè)模型的基礎(chǔ)上進(jìn)行后訓(xùn)練優(yōu)化。這樣做的主要目的是節(jié)省計(jì)算資源,同時(shí)能夠?qū)⒀芯恐攸c(diǎn)集中在獎(jiǎng)勵(lì)優(yōu)化方法本身,而不需要消耗大量資源去重新訓(xùn)練完整模型。

在數(shù)據(jù)集設(shè)置方面,實(shí)驗(yàn)使用了兩個(gè)數(shù)據(jù)集,分別對(duì)應(yīng) OCR 任務(wù)和 GenEval 任務(wù)。OCR 任務(wù)的數(shù)據(jù)集中,訓(xùn)練集包含約 2 萬(wàn)條提示詞,測(cè)試集包含約 1000 條提示詞。這些提示詞通常用于描述某個(gè)具體場(chǎng)景,并且場(chǎng)景中包含指定文字。雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

例如其中一個(gè)提示詞是 “一個(gè)珠寶店櫥窗,上面寫(xiě)著 diamond sale”。模型需要根據(jù)這些提示詞生成相應(yīng)圖像,并在圖像中正確呈現(xiàn)指定文字。另一部分實(shí)驗(yàn)使用 GenEval 數(shù)據(jù)集,其中訓(xùn)練集包含約 5 萬(wàn)條提示詞,測(cè)試集包含約 2000 條提示詞。這些提示詞通常描述多個(gè)對(duì)象、對(duì)象屬性以及對(duì)象之間的空間關(guān)系,例如物體的數(shù)量、顏色以及位置關(guān)系等內(nèi)容。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

由于 GDRO 采用離線訓(xùn)練方式,因此在正式訓(xùn)練之前需要先生成訓(xùn)練數(shù)據(jù)。具體流程是:對(duì)于每一個(gè)提示詞,首先使用基礎(chǔ)模型生成 16 張圖像;隨后對(duì)每一張圖像計(jì)算獎(jiǎng)勵(lì)評(píng)分,評(píng)分來(lái)源包括 OCR 識(shí)別準(zhǔn)確度以及 GenEval 評(píng)估結(jié)果;之后根據(jù)獎(jiǎng)勵(lì)大小對(duì)這些圖像進(jìn)行排序。經(jīng)過(guò)這一過(guò)程,每一個(gè)提示詞都會(huì)對(duì)應(yīng)一組帶有評(píng)分信息的圖像集合,這些圖像組隨后作為 GDRO 訓(xùn)練階段使用的數(shù)據(jù)。

在 GDRO 訓(xùn)練過(guò)程中,模型不會(huì)再生成新的圖像,而是反復(fù)利用已經(jīng)生成好的這些圖像組進(jìn)行訓(xùn)練。訓(xùn)練時(shí)首先從某一個(gè)提示詞對(duì)應(yīng)的圖像組中取出多張圖片,然后給這些圖片加入噪聲,以模擬擴(kuò)散過(guò)程中的中間狀態(tài)。接著將這些帶噪圖像輸入擴(kuò)散模型,由模型預(yù)測(cè)噪聲信息。最后根據(jù)模型預(yù)測(cè)結(jié)果以及原始圖像評(píng)分計(jì)算訓(xùn)練損失。隨著訓(xùn)練不斷進(jìn)行,模型逐漸學(xué)習(xí)到更傾向生成評(píng)分較高的圖像,同時(shí)減少生成評(píng)分較低圖像的概率。

在實(shí)驗(yàn)比較方面,研究人員將 GDRO 與多種方法進(jìn)行了對(duì)比,包括 Flow - GRPO、Dance GRPO 以及 DPO。這些方法代表不同類(lèi)型的訓(xùn)練思想。其中 Flow - GRPO 是一種利用強(qiáng)化學(xué)習(xí)優(yōu)化擴(kuò)散模型的方法, Dance GRPO 是另一種強(qiáng)化學(xué)習(xí)改進(jìn)方法,而 DPO 則是一種基于偏好優(yōu)化思想的方法。通過(guò)在相同實(shí)驗(yàn)條件下比較這些方法的效果,可以更加清楚地驗(yàn)證 GDRO 在性能和穩(wěn)定性方面的優(yōu)勢(shì)。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

此外,研究團(tuán)隊(duì)還進(jìn)行了消融實(shí)驗(yàn),用于分析不同參數(shù)設(shè)置對(duì)模型表現(xiàn)的影響。其中一個(gè)重要實(shí)驗(yàn)是改變圖像組大小。當(dāng)圖像組大小只有 2 時(shí),訓(xùn)練過(guò)程會(huì)出現(xiàn)明顯的不穩(wěn)定現(xiàn)象,模型甚至容易發(fā)生崩潰。

當(dāng)圖像組大小增加到 4 或 6 時(shí),訓(xùn)練穩(wěn)定性明顯提高。這是因?yàn)榻M級(jí)獎(jiǎng)勵(lì)能夠提供更加豐富的排序信息,使模型在訓(xùn)練過(guò)程中獲得更穩(wěn)定的優(yōu)化信號(hào)。研究人員還對(duì)其他關(guān)鍵參數(shù)進(jìn)行了測(cè)試,以進(jìn)一步分析這些因素對(duì)模型穩(wěn)定性和性能的影響。

擴(kuò)散模型訓(xùn)練的三個(gè)關(guān)鍵啟示

在實(shí)驗(yàn)意義方面,這項(xiàng)研究的結(jié)果主要體現(xiàn)了三個(gè)方面的重要結(jié)論。首先,實(shí)驗(yàn)表明擴(kuò)散模型同樣可以進(jìn)行獎(jiǎng)勵(lì)對(duì)齊。也就是說(shuō),擴(kuò)散模型可以像語(yǔ)言模型一樣,通過(guò)獎(jiǎng)勵(lì)優(yōu)化的方式實(shí)現(xiàn)模型對(duì)齊。不過(guò),由于擴(kuò)散模型的結(jié)構(gòu)與語(yǔ)言模型存在差異,因此需要設(shè)計(jì)新的優(yōu)化方法。GDRO 正是針對(duì)擴(kuò)散模型特點(diǎn)所提出的一種優(yōu)化方法。

其次,實(shí)驗(yàn)結(jié)果表明離線訓(xùn)練能夠顯著降低訓(xùn)練成本。研究結(jié)果說(shuō)明,如果能夠利用離線數(shù)據(jù)進(jìn)行訓(xùn)練,就可以避免在訓(xùn)練過(guò)程中頻繁生成新的圖像樣本。這一點(diǎn)對(duì)于擴(kuò)散模型訓(xùn)練尤為重要,因?yàn)閳D像生成過(guò)程本身計(jì)算成本較高,因此減少生成過(guò)程能夠明顯降低整體訓(xùn)練開(kāi)銷(xiāo)。

最后,實(shí)驗(yàn)還揭示了評(píng)價(jià)指標(biāo)使用時(shí)需要保持謹(jǐn)慎。研究發(fā)現(xiàn),高評(píng)分并不一定意味著生成結(jié)果質(zhì)量更高,因?yàn)槟P涂赡軙?huì)學(xué)會(huì)利用評(píng)分系統(tǒng)中的漏洞,從而獲得較高評(píng)分而不真正提升圖像質(zhì)量。因此,未來(lái)研究需要進(jìn)一步設(shè)計(jì)更加可靠的評(píng)價(jià)方法,以更準(zhǔn)確地反映模型生成結(jié)果的真實(shí)質(zhì)量。

構(gòu)建 GDRO 的人

論文一作汪逸陽(yáng),目前是香港大學(xué)計(jì)算機(jī)視覺(jué)方向的博士研究生,導(dǎo)師為趙恒爽教授。他于 2024 年開(kāi)始攻讀博士學(xué)位,目前處于博士第二年。在進(jìn)入香港大學(xué)之前,他于 2024 年 7 月在北京大學(xué)完成計(jì)算機(jī)科學(xué)專(zhuān)業(yè)本科教育。他的研究方向主要集中在視覺(jué)生成模型和多模態(tài)模型領(lǐng)域。

具體來(lái)說(shuō),他關(guān)注三個(gè)方面的研究問(wèn)題:第一,利用視覺(jué)生成模型解決真實(shí)場(chǎng)景中的視覺(jué)內(nèi)容創(chuàng)作需求,例如圖像生成和視覺(jué)內(nèi)容創(chuàng)作;第二,通過(guò)設(shè)計(jì)合理的優(yōu)化策略和評(píng)價(jià)標(biāo)準(zhǔn)來(lái)提升生成模型的性能,例如利用強(qiáng)化學(xué)習(xí)或人工反饋等方式改進(jìn)生成模型;第三,研究如何對(duì)生成模型進(jìn)行更加客觀和合理的評(píng)估,從而促進(jìn)生成模型生成更高質(zhì)量的內(nèi)容。

除了學(xué)術(shù)研究之外,他目前還在通義視覺(jué)智能實(shí)驗(yàn)室擔(dān)任研究實(shí)習(xí)生,參與視覺(jué)智能相關(guān)研究工作。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

參考鏈接:https://chandlerwang14.github.io/

這篇論文的通訊作者趙恒爽,目前是香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院助理教授,從事計(jì)算機(jī)視覺(jué)與人工智能相關(guān)研究。他的研究領(lǐng)域主要包括計(jì)算機(jī)視覺(jué)、多模態(tài)人工智能、空間智能、生成式人工智能、具身智能以及物理智能等方向,研究目標(biāo)是構(gòu)建能夠感知、理解并與環(huán)境交互的智能視覺(jué)系統(tǒng),從而推動(dòng)人工智能在多個(gè)領(lǐng)域的應(yīng)用。

在學(xué)術(shù)經(jīng)歷方面,趙恒爽曾在美國(guó)麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室從事博士后研究工作,并在英國(guó)牛津大學(xué)視覺(jué)幾何團(tuán)隊(duì)從事研究,由托拉爾巴教授和托爾教授指導(dǎo)。他在香港中文大學(xué)獲得博士學(xué)位,導(dǎo)師為賈佳亞教授,本科畢業(yè)于華中科技大學(xué)。

在博士階段以及之后的研究工作中,他曾在多家國(guó)際科技公司和研究機(jī)構(gòu)進(jìn)行科研合作與實(shí)習(xí),包括美國(guó) Adobe 公司、Uber 公司以及英特爾公司等,并與多位研究人員開(kāi)展合作研究。

在研究?jī)?nèi)容方面,他的研究興趣涵蓋計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)和人工智能等多個(gè)領(lǐng)域,重點(diǎn)關(guān)注三個(gè)方向。第一是視覺(jué)場(chǎng)景理解,包括視覺(jué)感知、三維重建、表示學(xué)習(xí)以及多模態(tài)學(xué)習(xí)等問(wèn)題。第二是生成式模型與內(nèi)容生成,例如圖像、視頻和三維內(nèi)容的生成與編輯。第三是具身智能相關(guān)研究,包括自動(dòng)駕駛、機(jī)器人學(xué)習(xí)以及大語(yǔ)言模型在真實(shí)環(huán)境中的應(yīng)用。

趙恒爽在計(jì)算機(jī)視覺(jué)領(lǐng)域具有較高的學(xué)術(shù)影響力,多次獲得重要科研獎(jiǎng)勵(lì)。他獲得過(guò)國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目資助,并獲得世界人工智能大會(huì)亮點(diǎn)之星獎(jiǎng)以及青年優(yōu)秀論文獎(jiǎng)。他還多次入選人工智能領(lǐng)域具有影響力的學(xué)者榜單。

此外,他在多個(gè)國(guó)際頂級(jí)會(huì)議和學(xué)術(shù)活動(dòng)中擔(dān)任重要角色,擔(dān)任國(guó)際計(jì)算機(jī)視覺(jué)會(huì)議多模態(tài)學(xué)習(xí)分會(huì)場(chǎng)主席,并組織多個(gè)國(guó)際會(huì)議的專(zhuān)題研討會(huì)與教程。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

參考鏈接:https://i.cs.hku.hk/~hszhao/

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

港大趙恒爽團(tuán)隊(duì)論文:讓擴(kuò)散模型既拿高分又不「作弊」丨CVPR 2026

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)