日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給胡清文
發(fā)送

0

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

本文作者: 胡清文   2026-01-08 17:59
導(dǎo)語:以聲波毫米波為代表的新型模態(tài)感知,正在重塑空間智能。

12月12日,第八屆GAIR全球人工智能與機器人大會在深圳正式啟幕。

本次大會為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導(dǎo)委員會主席,楊強院士與朱曉蕊教授任大會主席。

作為觀測AI技術(shù)演進與生態(tài)變遷的重要窗口,GAIR大會自2016年創(chuàng)辦以來以來,始終與全球AI發(fā)展的脈搏同頻共振,見證了技術(shù)浪潮從實驗室涌向產(chǎn)業(yè)深海。2025年,是大模型從“技術(shù)破壁”邁向“價值深耕”的關(guān)鍵節(jié)點,值此之際GAIR如期而至,攜手智者觸摸AI最前沿脈動,洞見產(chǎn)業(yè)深層邏輯。

大會上,深圳市海外高層次人才、南方科技大學(xué)計算機科學(xué)與工程系長聘副教授張進親臨現(xiàn)場,為參會者帶來了一場精彩紛呈的演講分享。

演講一開始,張進教授就向“時空AI”、“具身智能”等當下火熱概念率先拋出了自身見解:無論是具身智能還是智慧健康,都需要對物理世界進行感知理解,并在虛擬世界和物理世界之間建立溝通。因此傳統(tǒng)AI和新型傳感本質(zhì)上是從不同的角度和路徑走到同一個點,最終實現(xiàn)“殊途同歸”。

基于這一點,張進教授認為傳統(tǒng)AI從語言、文字、視覺等模態(tài)出發(fā),生成世界模型探索空間智能。而傳感器、智能物聯(lián)網(wǎng)相關(guān)領(lǐng)域的學(xué)者們一直以來在做的,同樣是為了準確感知物理世界。只不過感知方式從信號處理迭代到機器學(xué)習(xí)、深度學(xué)習(xí),再到如今通過大模型實現(xiàn)面向空間智能的多模態(tài)感知。

關(guān)于面向空間智能的新型模態(tài)感知,張進教授和她的團隊有一些新想法:

1、當下的多模態(tài)感知大部分集中在語音、文字、圖像、視頻等形式,存在功耗成本高、隱私性差等問題,我們希望引入更多的新型模態(tài)感知如聲波感知、毫米波雷達感知。

2、聲波感知成本低、計算量低,能通過對多個設(shè)備對之間的聲波感知,判斷它的方向和距離,未來這項技術(shù)有望作為提供連接和方向感知的基礎(chǔ)設(shè)施。

3、聲波感知在醫(yī)療健康領(lǐng)域大有可為,在未來也許利用小小一副耳機就能實現(xiàn)心跳、血壓、肺功能健康全鏈路監(jiān)測。但如何實現(xiàn)跨模態(tài)檢測、消除個體差異性影響,仍是一項巨大挑戰(zhàn)。

4、如今我們對毫米波雷達的關(guān)注點由檢測準確率轉(zhuǎn)向可信感知,正在思考要如何將視覺的數(shù)據(jù)合成毫米波數(shù)據(jù)。

5、接下來我們的主要工作方向有個:繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型、讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解,用大模型自動生成代碼來檢測物理世界的感知信號。

6、在將來,面向空間智能、物理世界的多模態(tài)感知需求會極其大,需要更多像聲波感知、毫米波雷達一樣的新型感知模態(tài)在不同場景并發(fā)揮獨特優(yōu)勢。

7、當下新型模態(tài)的數(shù)據(jù)量還是很少,所以未來的研究方向?qū)杏跀?shù)據(jù)理解、數(shù)據(jù)生成等方面。如何生成、如何防御、如何更輕量化的跑在端側(cè)等等,這些問題亟需進一步研究。

以下是張進教授演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變原意的整理與編輯:

聲波感知也好,毫米波也罷,都是為了感知物理世界獲取空間智能,所以今天我要講的是面向空間智能的新型模態(tài)感知。

眾所周知,上個月李飛飛院士剛剛提出空間智能是AI的下一個前沿。深圳的反應(yīng)非常迅速,在上個月底發(fā)布的《深圳市“人工智能+”(征求意見稿)》當中就把空間智能模型寫進去了。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

實際上無論是現(xiàn)在的具身智能、無人機、智慧健康,都是用來認識和了解物理世界的,只不過大家是從不同的渠道、不同的方向走到了共同的點上,所以我管它叫殊途同歸。

為什么說是殊途同歸?

傳統(tǒng)AI從語言、文字、視覺等模態(tài)出發(fā),生成世界模型,探索空間智能。但回過頭看,二十年前我們在無線通信和無線網(wǎng)絡(luò)的研究中,就已經(jīng)開始做無線傳感器網(wǎng)絡(luò)了:把所有的傳感器放到山里、放到河里、甚至空中去進行監(jiān)測。

再往前追溯十年,數(shù)字孿生、城市建筑、交通等等都是為了準確的感知物理世界。包括現(xiàn)在我們利用WiFi、手機信號做感知,從有線發(fā)展到無線,這些都是我們在試圖感知物理世界的方式。

那么我們是如何做到殊途同歸的呢?

最初我們是用信號處理來完成這件事情,后來我們可以用機器學(xué)習(xí)、深度學(xué)習(xí)來理解物理信息,現(xiàn)在我們可以用大模型理解傳統(tǒng)傳感器的信號,從而得到更多的信息,也為我們帶來面向空間智能的多模態(tài)感知。

但說實話,現(xiàn)在所謂的多模態(tài)感知,都還是集中在語音、文字、圖像、視頻,真正新型的并不多。像激光雷達、點云、深度攝像頭、紅外,稍微有一點與傳統(tǒng)的結(jié)合。我們希望能夠引入更多的模態(tài),比如聲波感知、毫米波雷達感知。

聲波感知有哪些最新探索?

毫米波雷達感知目前已經(jīng)有一些應(yīng)用了,但聲波感知的應(yīng)用目前較少。更重要的是,為了更好地理解這些新型模態(tài),我們需要用更新的網(wǎng)絡(luò)更好地理解它,所以這也是我們整個正在團隊做的事情,就是希望用這些最新的模型技術(shù),來理解一些新型的傳感器數(shù)據(jù)。

為什么需要這些新型的傳感器數(shù)據(jù)?這個事情非常好理解。已有的視覺傳感器復(fù)雜度高、依賴光照,還有隱私問題。如果要在小機器人上加一個攝像頭,甚至加一個處理視覺數(shù)據(jù)的芯片,它的功耗和成本都是不容小覷的。那么能不能用更便宜、更好的方式來做感知呢?

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

基于此,我們最近幾年都在研究聲波感知。我們所有的設(shè)備,例如手機、智能眼鏡、耳機、智能音箱等,全都帶有揚聲器和麥克風(fēng)。無需要借助額外設(shè)備,只要讓它們用揚聲器、麥克風(fēng)發(fā)出一個人聽不到的聲音,將這個聲音打在環(huán)境中再返回來,就能夠像蝙蝠一樣感知到周邊的狀況。這種感知方法成本低、計算量低,非常適合機器人應(yīng)用。

具體來看它有哪些應(yīng)用呢?例如華為汽車,它在車內(nèi)的定位已經(jīng)試圖在做這件事了。以及在筆記本電腦上,已經(jīng)可以用手來翻頁了,這個動作并不是靠攝像頭來完成,而是通過聲波完成的。還有很多應(yīng)用,包括智能眼鏡和耳機等設(shè)備上的應(yīng)用。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

最早的時候我們還沒有用聲波模型,只是理解信號,用兩個很小、距離很近的兩個揚聲器,發(fā)一些特殊的旋轉(zhuǎn)聲場的信號,就可以做到很精準的厘米級的位置感知,這是需要依賴設(shè)備的,在設(shè)備和設(shè)備之間做定位的時候這一點就非常重要。

除了2D的感知,我們還可以做3D的運動追蹤。其實兩個設(shè)備之間去做聲波感知,并非一件容易的事,多設(shè)備之間的聲波感知就更為復(fù)雜了。在這個過程中要面臨很多的沖突,要怎么去解決這些沖突呢?近幾年我們在跟榮耀、華為等智能設(shè)備廠商合作解決這個問題,通過多個設(shè)備對之間的感知,判斷它的方向和距離。未來,這項技術(shù)有望放到華為OpenHarmony系統(tǒng)中,作為提供連接以及方向感知的基礎(chǔ)設(shè)施。

除此之外,我們還在智能交互方面做了很大一部分工作。我們花了很多的精力做智能眼鏡的交互,希望能夠用聲波感知人眼上下左右的表情。比如只需要眨個眼、擠個眉,就可以控制眼鏡的操作。本質(zhì)其實也是speaker發(fā)出聲音,打到麥克風(fēng)上從而做交互,實現(xiàn)無需抬手僅用眼球就可以控制智能眼鏡。

緊接著,我們還做了不少的東西。如果你現(xiàn)在的智能眼鏡前面有十幾個圖標,在點擊圖標的時候你需要用手滑動它,看到需要點的位置。因此,我們做了一個面部的傳感器,它只需要發(fā)出一個稍微高一點的次聲波,就可以非常便捷地進行感知,包括觸摸、滑動等等。未來,這種傳感器如果可以集成在眼鏡上,外觀上可以做到基本隱形。

除此之外,我們還做了隔空的手勢識別。比如華為的智能眼鏡,在旁邊有一個觸控板,只要觸碰到就可以感覺到眼鏡在動造成不適感。那么能不能隔空控制它呢?這個技術(shù)挑戰(zhàn)還是蠻高的。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

目前,我們有兩種技術(shù):一種是被動感知的技術(shù),手在滑動產(chǎn)生了微弱的聲音,讓麥克風(fēng)聽到。另一種是主動感知的技術(shù),speaker要發(fā)一個人聽不到的聲音,彈回來然后感知它,無論如何都是隔空手勢的感知。

除了在智能眼鏡上做交互之外,我們還發(fā)現(xiàn)了很多痛點。例如現(xiàn)在幾乎人手一個藍牙耳機,但是目前對耳機做交互主要還是靠摸,摸它的柄上下不同的位置。尤其是很好的耳機,輕輕一摸聲音的增減幅度就很大,現(xiàn)在我們希望不觸摸它,就可以讓耳機實現(xiàn)感知。

我們首先做的是,讓舌頭頂上顎的不同位置,來告訴耳機現(xiàn)在希望它進行什么樣的操作,這個構(gòu)想我們最早是從助聽器上得到的。助聽器具備一個很重要的特點,就是需要區(qū)分聲音的方向,不光要選擇聲音的強弱,而且還要選擇聲音的方向,并且使用者一般不希望別人知道他戴著這個東西。

因此,我們受了助聽器的啟發(fā),在藍牙耳機上安裝了隔空隱蔽式傳感器,用舌頭就可以控制耳機。它的原理其實很簡單,因為耳道、上顎和口腔是連通的,耳道發(fā)一個聲音,打到口腔內(nèi)再返回去,舌頭不同的位置會使信道產(chǎn)生明顯的變化。通過感知信道的變化,就可以實現(xiàn)隔空隱蔽,這也是今年人機交互頂會上的一份工作。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

除了用舌頭來控制耳機之外,接下來我們還做了隔空手勢控制耳機。這個部分其實有非常多的挑戰(zhàn),包括怎樣設(shè)置這個手勢?怎樣防止周圍環(huán)境的干擾?選用什么樣的信號?看起來是蠻小的系統(tǒng),但這里面的技術(shù)挑戰(zhàn)還是很多的。在交互上,我們前前后后也做了不少的工作。有一些消費電子類廠商對我們正在做的這些研究很感興趣,所以我們現(xiàn)在也在做進一步的落地工作。

另一方面,我們想稍微聊一下聲波感知在健康方面的應(yīng)用。實際上用聲波感知做健康的監(jiān)測,這項研究我們已經(jīng)做了十多年。在此之前,我們已經(jīng)做了快20年遠程健康監(jiān)測。

我們現(xiàn)在想做的事情是,用聲波感知最基本的呼吸、心跳。打個比方,就是把手機放在桌子前面,就可以看你的呼吸、心跳,這部分現(xiàn)在已經(jīng)做得非常成熟了。 而我們現(xiàn)在做的事情是,拿耳機觀測你的肺功能。

在中國,有非常多的慢阻肺人群,以及哮喘病人需要定期到醫(yī)院做肺功能的監(jiān)測,有時候他不想去,就沒辦法知道自己病情的發(fā)展。如果我們在家里戴著耳機,就可以得出跟醫(yī)院幾十萬的監(jiān)測設(shè)備類似的肺功能曲線結(jié)果,這對用戶來說將是一件非常利好的事情。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

為此,我們做了兩方面的工作:第一份工作,用耳機作肺功能監(jiān)測,但是還需要吹一個很長的管子。第二份工作即今年的研究,現(xiàn)在用耳機做肺功能檢測已經(jīng)不需要管子了,通過正常說話就可以判斷肺功能的情況。

在做完這件事情之后,醫(yī)生告訴我們光知道他們的情況是沒用的,對醫(yī)學(xué)來說,技術(shù)手段不光要監(jiān)測出狀況,最重要的就是要形成閉環(huán),還需要返回來幫助他們進行康復(fù)或治療。

那么要如何在呼吸系統(tǒng)疾病上幫助他做治療呢?醫(yī)生告訴我們,肺部訓(xùn)練是一個很常用的辦法,可以每天做幾十次的腹式呼吸訓(xùn)練。

但是病人一回家就發(fā)現(xiàn),雖然一開始做的是腹式呼吸,但做了不到2個就又變成胸式呼吸了。所以我們想到可以用聲學(xué)攝像機或毫米波雷達來幫助他們做呼吸方式、呼吸深度的評估,從而替代醫(yī)生和護士,幫助他們?nèi)プ龊粑?xùn)練的指導(dǎo)。目前,我們正在跟廣東省人民醫(yī)院進行相關(guān)合作。

除此之外,我們還用聲波做了房顫監(jiān)測系統(tǒng),只要放到手上就可以做監(jiān)測,使用方法上相對比較容易。想象一下,未來只要戴著耳機就可以知道你的呼吸、心跳、壓力狀況,發(fā)出呼吸訓(xùn)練的提醒,還可以順帶放一些音樂緩解你的壓力。這個方面目前我們正在做,后續(xù)還有很多需要進一步完善的地方。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

除了聲波感知,我們做了一些關(guān)于柔性傳感器的工作。因為我們的研究主要關(guān)注醫(yī)療健康領(lǐng)域,所以我們嘗試過把柔性傳感器放在耳朵里做血壓監(jiān)測,放在手腕上進行血壓的監(jiān)測等等。這一方面我們要解決的核心問題是,原來大多數(shù)的數(shù)據(jù)都是基于光電傳感器和PPG的,如果切換到柔性傳感器它的數(shù)據(jù)量是遠遠不足的。

這部分的難點主要有兩個,一方面要實現(xiàn)跨模態(tài)監(jiān)測,這一點尤為重要。另一方面,在正常人身上做監(jiān)測是很容易的,但是在病人身上做檢測就相對困難。未來我們還需要收集更多病人的數(shù)據(jù)來做相關(guān)工作,仍然有很長的一段路要走。

數(shù)據(jù)匱乏是毫米波雷達感知的關(guān)鍵挑戰(zhàn)

最后一部分,我想分享一下關(guān)于毫米波雷達的感知。

其實毫米波雷達我們其實做了已經(jīng)快10年了,之前也做了很多毫米波雷達的SLAM,比如針對材質(zhì)進行識別,是玻璃、石頭還是沙發(fā)?最近我們的關(guān)注點反而不是它的檢測準確率了,而是毫米波雷達的可信感知。之前我們嘗試過用毫米波雷達監(jiān)測人的運動,可以做到把人的Skeleton畫出來、追蹤出來。

在這個工作中要解決的核心問題是,毫米波雷達的數(shù)據(jù)很少。但視覺的數(shù)據(jù)很多的,所以我們在思考要如何將視覺的數(shù)據(jù)合成毫米波數(shù)據(jù)從而進行分析以及后續(xù)的學(xué)習(xí)和訓(xùn)練。在做的過程中我們發(fā)現(xiàn),視覺上的欺騙可能會影響毫米波雷達的判斷,所以只能識別還是遠遠不夠的。

舉一個交通相關(guān)的例子,假如你前面有一輛車,但是旁邊車輛開門造成一個視覺上的遮擋,這時它就會生成一個信號讓你誤以為前面沒有車,就很容易撞上去。還有一種可能,就是你前面本來沒有車,但是它生成一個信號讓你誤以為前面有車,這個時候剎車就會導(dǎo)致后車追尾,這些情況都是有可能發(fā)生的。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

那要怎么樣防御這種生成式欺騙呢?后續(xù)我們著重做了一些工作。舉個例子,我們可以設(shè)置毫米波雷達發(fā)射出來的信號,讓它形成幾個不同的通路,使得我們在一個通路下看到的運動速度距離是A,另外一個通路下看到的運動速度距離是B。這樣我們就可以區(qū)分真實信號和欺騙信號。

如今大家進到一個陌生的房間里,會很關(guān)心屋子里有沒有攝像頭在進行偷拍。也許在未來,如果房間里有入侵的毫米波雷達,不需要偷拍就可以感知到房間里的狀況,那我們要如何探測、發(fā)現(xiàn)、并將它清理出房間呢?這個相關(guān)研究也是我們后續(xù)要做的。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

最后,我們來總結(jié)一下聲波毫米波雷達的發(fā)展歷程。

在初期,我主要做信號相關(guān)研究。這也與我的專業(yè)背景有關(guān),我的本科碩士都是電子信息專業(yè),博士期間跨專業(yè)到計算機,于是開始做深度學(xué)習(xí)研究。我們最早用的是一些信號處理的手段。隨著深度學(xué)習(xí)的發(fā)展,我們早期的信號處理手段已經(jīng)遠遠不夠用了,需要在理解物理信號的基礎(chǔ)上,設(shè)計針對物理信號的模型。

舉個簡單例子,毫米波雷達的信號是有稀疏性的,會有天線之間角度的關(guān)聯(lián)性,這種關(guān)聯(lián)性就不能再直接套用傳統(tǒng)的視覺網(wǎng)絡(luò)。我們需要理解它的物理意義,然后在此基礎(chǔ)上設(shè)計合理的模型。因此,所以我們慢慢從物理意義做到有物理意義模型。

新型模態(tài)感知會走向何方?

在將來,我們的主要工作方向會集中在以下三個方面:

首先,繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型。舉個例子,現(xiàn)在已經(jīng)做出了很多毫米波雷達模型,但大都是基于生成點云然后在點云上做理解的。但實際上生成點云這件事本身就已經(jīng)消耗了很多信息,如果可以直接在原有的信息上做理解,用物理意義結(jié)合深度模型來做模型設(shè)計,效果將會更好,這也是我們現(xiàn)在的工作方向。

其次,如何讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解。

最后,近兩年大模型非常火熱,并且對各行各業(yè)造成了翻天覆地的變化。我們所做的智能感知領(lǐng)域的物聯(lián)網(wǎng)相關(guān)研究,自然也深受大模型的影響。所以我們也在積極擁抱大模型并做了一些新的工作,比如用大模型自動生成代碼來檢測物理世界的感知信號,然后直接給出結(jié)果。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

未來,還會有非常多基于大模型的感知模型生成方面的工作。如今這方面的工作才剛剛開始,我相信未來五到十年就會非常繁榮的發(fā)展。

總結(jié)一下,面向空間智能、物理世界的多模態(tài)感知需求是極其大的。傳統(tǒng)的感知模式只有寥寥幾類,而未來我們需要更多的新型感知模式。并且在不同領(lǐng)域需要不同的感知模式,聲波感知、毫米波感知、柔性傳感等新型模態(tài),會適用于不同物體的感知并發(fā)揮獨特優(yōu)勢。

而我們需要做的,就是理解新型的感知模態(tài),設(shè)計新型感知模型,從而更好地利用這些新型感知模態(tài)的信息,更全面的感知這個物理世界。所以未來的研究方向?qū)杏跀?shù)據(jù)理解、數(shù)據(jù)生成等方面,當下新型模態(tài)的數(shù)據(jù)量還是很少,如何生成、如何防御、如何更輕量化的跑在端側(cè)等等,這些問題亟需我們進一步研究。

我的分享就到這里,謝謝。

以下是雷峰網(wǎng)(公眾號:雷峰網(wǎng))與張進教授采訪對談的精彩內(nèi)容,雷峰網(wǎng)作了不改變原意的整理與編輯:

雷峰網(wǎng):您最初的研究領(lǐng)域電子通信與現(xiàn)在跨度很大,是基于什么樣的契機開始做感知研究?

張進:本碩期間我在清華讀的都是電子通信專業(yè),后來去了香港科技大學(xué)讀博改學(xué)計算機專業(yè),結(jié)合過往的學(xué)科背景,博士期間我開始研究認知無線電。博士畢業(yè)后我開始跟醫(yī)院合作,將無線信號技術(shù)應(yīng)用在智慧醫(yī)療中,也是在這期間發(fā)現(xiàn)了信號也能感知健康狀況。人口老齡化不斷加速發(fā)展的背景,讓我意識到智慧健康領(lǐng)域的感知需求將會非常大。

但學(xué)界研究和業(yè)界需求變革始終是相輔相成的,所以在2014年前后我選擇回到學(xué)術(shù)界,繼續(xù)深耕健康檢測感知技術(shù)。研究過程中我開始關(guān)注到毫米波雷達在醫(yī)療健康領(lǐng)域的適用性,從2014年至今我一直在南方科技大學(xué)做毫米波雷達相關(guān)的應(yīng)用研究,并在2018年開始同時做聲波感知的應(yīng)用研究。因此,我經(jīng)常告訴我的學(xué)生,在找工作時不能只看公司需求的產(chǎn)品跟自己的研究內(nèi)容是否對號入座,要用系統(tǒng)性思維去拆分需求找到解決問題的突破點,這也是一個成功的博士應(yīng)該具備的能力。

雷峰網(wǎng):聲波感知、毫米波雷達這種新型感知技術(shù),會對普通大眾產(chǎn)生什么主要影響?

張進:真正的好技術(shù)是“無形”和“無感”的。打個比方,平時我們把藍牙耳機從充電倉里取出來戴在耳朵上,就能立刻自動連接手機。但如果戴上耳機之后還需要在手機上點一下才能開始用,那么用戶的體驗感就會大打折扣。所以我們這種新型感知技術(shù)的核心目的,就是幫助設(shè)備理解周圍的環(huán)境,并具備智能感知周圍環(huán)境的能力,從而更加便捷的進行人機交互。

舉個例子,現(xiàn)在我們跟一些AI智能設(shè)備互動時,還需要拍個照片或說句話才能讓設(shè)備理解我們的目的并執(zhí)行。在未來,有了更多模態(tài)的智能感知技術(shù)之后,也許我們無需做任何事,設(shè)備就能自動理解周圍環(huán)境并執(zhí)行我們的目的。

雷峰網(wǎng):新型模態(tài)感知技術(shù)在推動空間智能發(fā)展中起什么作用?未來的感知世界會是什么樣?

王進:傳統(tǒng)的AI是通過視覺、聽覺、文本等內(nèi)容來讀取信息認識世界,對于物理世界中的距離這種概念它是無法理解的。所以要真想讓空間智能真正的理解物理世界,需要通過物理傳感來進行空間感知,因此我認為新型模態(tài)感知技術(shù)中的聲波感知、毫米波雷達等物理傳感,在推動空間智能的發(fā)展中是必不可少的。

正如剛才所說的,真正的好技術(shù)是“無形”和“無感”的,在感知這件事情上也是一樣的。新型感知技術(shù)是一個非常復(fù)雜的領(lǐng)域,它會針對不同的場景需求和設(shè)備限制提供不同的技術(shù)支持,聲波感知也好、毫米波雷達也好,一般來說不會有一種感知技術(shù)打通一切場景的情況。未來也許會是一樣或者幾樣感知技術(shù)結(jié)合起來,在特定場景中滿足產(chǎn)品的智能化需求。


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

南方科技大學(xué)張進教授:為什么打造空間智能,不能只依賴“傳統(tǒng)多模態(tài)感知”?|GAIR 2025

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說