南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

本文作者：胡清文

2026-01-08 17:59

導(dǎo)語：以聲波毫米波為代表的新型模態(tài)感知，正在重塑空間智能。

12月12日，第八屆GAIR全球人工智能與機器人大會在深圳正式啟幕。

本次大會為期兩天，由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦，高文院士任指導(dǎo)委員會主席，楊強院士與朱曉蕊教授任大會主席。

作為觀測AI技術(shù)演進與生態(tài)變遷的重要窗口，GAIR大會自2016年創(chuàng)辦以來以來，始終與全球AI發(fā)展的脈搏同頻共振，見證了技術(shù)浪潮從實驗室涌向產(chǎn)業(yè)深海。2025年，是大模型從“技術(shù)破壁”邁向“價值深耕”的關(guān)鍵節(jié)點，值此之際GAIR如期而至，攜手智者觸摸AI最前沿脈動，洞見產(chǎn)業(yè)深層邏輯。

大會上，深圳市海外高層次人才、南方科技大學(xué)計算機科學(xué)與工程系長聘副教授張進親臨現(xiàn)場，為參會者帶來了一場精彩紛呈的演講分享。

演講一開始，張進教授就向“時空AI”、“具身智能”等當下火熱概念率先拋出了自身見解：無論是具身智能還是智慧健康，都需要對物理世界進行感知理解，并在虛擬世界和物理世界之間建立溝通。因此傳統(tǒng)AI和新型傳感本質(zhì)上是從不同的角度和路徑走到同一個點，最終實現(xiàn)“殊途同歸”。

基于這一點，張進教授認為傳統(tǒng)AI從語言、文字、視覺等模態(tài)出發(fā)，生成世界模型探索空間智能。而傳感器、智能物聯(lián)網(wǎng)相關(guān)領(lǐng)域的學(xué)者們一直以來在做的，同樣是為了準確感知物理世界。只不過感知方式從信號處理迭代到機器學(xué)習(xí)、深度學(xué)習(xí)，再到如今通過大模型實現(xiàn)面向空間智能的多模態(tài)感知。

關(guān)于面向空間智能的新型模態(tài)感知，張進教授和她的團隊有一些新想法：

1、當下的多模態(tài)感知大部分集中在語音、文字、圖像、視頻等形式，存在功耗成本高、隱私性差等問題，我們希望引入更多的新型模態(tài)感知如聲波感知、毫米波雷達感知。

2、聲波感知成本低、計算量低，能通過對多個設(shè)備對之間的聲波感知，判斷它的方向和距離，未來這項技術(shù)有望作為提供連接和方向感知的基礎(chǔ)設(shè)施。

3、聲波感知在醫(yī)療健康領(lǐng)域大有可為，在未來也許利用小小一副耳機就能實現(xiàn)心跳、血壓、肺功能健康全鏈路監(jiān)測。但如何實現(xiàn)跨模態(tài)檢測、消除個體差異性影響，仍是一項巨大挑戰(zhàn)。

4、如今我們對毫米波雷達的關(guān)注點由檢測準確率轉(zhuǎn)向可信感知，正在思考要如何將視覺的數(shù)據(jù)合成毫米波數(shù)據(jù)。

5、接下來我們的主要工作方向有個：繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型、讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解，用大模型自動生成代碼來檢測物理世界的感知信號。

6、在將來，面向空間智能、物理世界的多模態(tài)感知需求會極其大，需要更多像聲波感知、毫米波雷達一樣的新型感知模態(tài)在不同場景并發(fā)揮獨特優(yōu)勢。

7、當下新型模態(tài)的數(shù)據(jù)量還是很少，所以未來的研究方向?qū)杏跀?shù)據(jù)理解、數(shù)據(jù)生成等方面。如何生成、如何防御、如何更輕量化的跑在端側(cè)等等，這些問題亟需進一步研究。

以下是張進教授演講的精彩內(nèi)容，雷峰網(wǎng)作了不改變原意的整理與編輯：

聲波感知也好，毫米波也罷，都是為了感知物理世界獲取空間智能，所以今天我要講的是面向空間智能的新型模態(tài)感知。

眾所周知，上個月李飛飛院士剛剛提出空間智能是AI的下一個前沿。深圳的反應(yīng)非常迅速，在上個月底發(fā)布的《深圳市“人工智能+”（征求意見稿）》當中就把空間智能模型寫進去了。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

實際上無論是現(xiàn)在的具身智能、無人機、智慧健康，都是用來認識和了解物理世界的，只不過大家是從不同的渠道、不同的方向走到了共同的點上，所以我管它叫殊途同歸。

為什么說是殊途同歸？

傳統(tǒng)AI從語言、文字、視覺等模態(tài)出發(fā)，生成世界模型，探索空間智能。但回過頭看，二十年前我們在無線通信和無線網(wǎng)絡(luò)的研究中，就已經(jīng)開始做無線傳感器網(wǎng)絡(luò)了：把所有的傳感器放到山里、放到河里、甚至空中去進行監(jiān)測。

再往前追溯十年，數(shù)字孿生、城市建筑、交通等等都是為了準確的感知物理世界。包括現(xiàn)在我們利用WiFi、手機信號做感知，從有線發(fā)展到無線，這些都是我們在試圖感知物理世界的方式。

那么我們是如何做到殊途同歸的呢？

最初我們是用信號處理來完成這件事情，后來我們可以用機器學(xué)習(xí)、深度學(xué)習(xí)來理解物理信息，現(xiàn)在我們可以用大模型理解傳統(tǒng)傳感器的信號，從而得到更多的信息，也為我們帶來面向空間智能的多模態(tài)感知。

但說實話，現(xiàn)在所謂的多模態(tài)感知，都還是集中在語音、文字、圖像、視頻，真正新型的并不多。像激光雷達、點云、深度攝像頭、紅外，稍微有一點與傳統(tǒng)的結(jié)合。我們希望能夠引入更多的模態(tài)，比如聲波感知、毫米波雷達感知。

聲波感知有哪些最新探索？

毫米波雷達感知目前已經(jīng)有一些應(yīng)用了，但聲波感知的應(yīng)用目前較少。更重要的是，為了更好地理解這些新型模態(tài)，我們需要用更新的網(wǎng)絡(luò)更好地理解它，所以這也是我們整個正在團隊做的事情，就是希望用這些最新的模型技術(shù)，來理解一些新型的傳感器數(shù)據(jù)。

為什么需要這些新型的傳感器數(shù)據(jù)？這個事情非常好理解。已有的視覺傳感器復(fù)雜度高、依賴光照，還有隱私問題。如果要在小機器人上加一個攝像頭，甚至加一個處理視覺數(shù)據(jù)的芯片，它的功耗和成本都是不容小覷的。那么能不能用更便宜、更好的方式來做感知呢？

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

基于此，我們最近幾年都在研究聲波感知。我們所有的設(shè)備，例如手機、智能眼鏡、耳機、智能音箱等，全都帶有揚聲器和麥克風(fēng)。無需要借助額外設(shè)備，只要讓它們用揚聲器、麥克風(fēng)發(fā)出一個人聽不到的聲音，將這個聲音打在環(huán)境中再返回來，就能夠像蝙蝠一樣感知到周邊的狀況。這種感知方法成本低、計算量低，非常適合機器人應(yīng)用。

具體來看它有哪些應(yīng)用呢？例如華為汽車，它在車內(nèi)的定位已經(jīng)試圖在做這件事了。以及在筆記本電腦上，已經(jīng)可以用手來翻頁了，這個動作并不是靠攝像頭來完成，而是通過聲波完成的。還有很多應(yīng)用，包括智能眼鏡和耳機等設(shè)備上的應(yīng)用。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

最早的時候我們還沒有用聲波模型，只是理解信號，用兩個很小、距離很近的兩個揚聲器，發(fā)一些特殊的旋轉(zhuǎn)聲場的信號，就可以做到很精準的厘米級的位置感知，這是需要依賴設(shè)備的，在設(shè)備和設(shè)備之間做定位的時候這一點就非常重要。

除了2D的感知，我們還可以做3D的運動追蹤。其實兩個設(shè)備之間去做聲波感知，并非一件容易的事，多設(shè)備之間的聲波感知就更為復(fù)雜了。在這個過程中要面臨很多的沖突，要怎么去解決這些沖突呢？近幾年我們在跟榮耀、華為等智能設(shè)備廠商合作解決這個問題，通過多個設(shè)備對之間的感知，判斷它的方向和距離。未來，這項技術(shù)有望放到華為OpenHarmony系統(tǒng)中，作為提供連接以及方向感知的基礎(chǔ)設(shè)施。

除此之外，我們還在智能交互方面做了很大一部分工作。我們花了很多的精力做智能眼鏡的交互，希望能夠用聲波感知人眼上下左右的表情。比如只需要眨個眼、擠個眉，就可以控制眼鏡的操作。本質(zhì)其實也是speaker發(fā)出聲音，打到麥克風(fēng)上從而做交互，實現(xiàn)無需抬手僅用眼球就可以控制智能眼鏡。

緊接著，我們還做了不少的東西。如果你現(xiàn)在的智能眼鏡前面有十幾個圖標，在點擊圖標的時候你需要用手滑動它，看到需要點的位置。因此，我們做了一個面部的傳感器，它只需要發(fā)出一個稍微高一點的次聲波，就可以非常便捷地進行感知，包括觸摸、滑動等等。未來，這種傳感器如果可以集成在眼鏡上，外觀上可以做到基本隱形。

除此之外，我們還做了隔空的手勢識別。比如華為的智能眼鏡，在旁邊有一個觸控板，只要觸碰到就可以感覺到眼鏡在動造成不適感。那么能不能隔空控制它呢？這個技術(shù)挑戰(zhàn)還是蠻高的。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

目前，我們有兩種技術(shù)：一種是被動感知的技術(shù)，手在滑動產(chǎn)生了微弱的聲音，讓麥克風(fēng)聽到。另一種是主動感知的技術(shù)，speaker要發(fā)一個人聽不到的聲音，彈回來然后感知它，無論如何都是隔空手勢的感知。

除了在智能眼鏡上做交互之外，我們還發(fā)現(xiàn)了很多痛點。例如現(xiàn)在幾乎人手一個藍牙耳機，但是目前對耳機做交互主要還是靠摸，摸它的柄上下不同的位置。尤其是很好的耳機，輕輕一摸聲音的增減幅度就很大，現(xiàn)在我們希望不觸摸它，就可以讓耳機實現(xiàn)感知。

我們首先做的是，讓舌頭頂上顎的不同位置，來告訴耳機現(xiàn)在希望它進行什么樣的操作，這個構(gòu)想我們最早是從助聽器上得到的。助聽器具備一個很重要的特點，就是需要區(qū)分聲音的方向，不光要選擇聲音的強弱，而且還要選擇聲音的方向，并且使用者一般不希望別人知道他戴著這個東西。

因此，我們受了助聽器的啟發(fā)，在藍牙耳機上安裝了隔空隱蔽式傳感器，用舌頭就可以控制耳機。它的原理其實很簡單，因為耳道、上顎和口腔是連通的，耳道發(fā)一個聲音，打到口腔內(nèi)再返回去，舌頭不同的位置會使信道產(chǎn)生明顯的變化。通過感知信道的變化，就可以實現(xiàn)隔空隱蔽，這也是今年人機交互頂會上的一份工作。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

除了用舌頭來控制耳機之外，接下來我們還做了隔空手勢控制耳機。這個部分其實有非常多的挑戰(zhàn)，包括怎樣設(shè)置這個手勢？怎樣防止周圍環(huán)境的干擾？選用什么樣的信號？看起來是蠻小的系統(tǒng)，但這里面的技術(shù)挑戰(zhàn)還是很多的。在交互上，我們前前后后也做了不少的工作。有一些消費電子類廠商對我們正在做的這些研究很感興趣，所以我們現(xiàn)在也在做進一步的落地工作。

另一方面，我們想稍微聊一下聲波感知在健康方面的應(yīng)用。實際上用聲波感知做健康的監(jiān)測，這項研究我們已經(jīng)做了十多年。在此之前，我們已經(jīng)做了快20年遠程健康監(jiān)測。

我們現(xiàn)在想做的事情是，用聲波感知最基本的呼吸、心跳。打個比方，就是把手機放在桌子前面，就可以看你的呼吸、心跳，這部分現(xiàn)在已經(jīng)做得非常成熟了。而我們現(xiàn)在做的事情是，拿耳機觀測你的肺功能。

在中國，有非常多的慢阻肺人群，以及哮喘病人需要定期到醫(yī)院做肺功能的監(jiān)測，有時候他不想去，就沒辦法知道自己病情的發(fā)展。如果我們在家里戴著耳機，就可以得出跟醫(yī)院幾十萬的監(jiān)測設(shè)備類似的肺功能曲線結(jié)果，這對用戶來說將是一件非常利好的事情。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

為此，我們做了兩方面的工作：第一份工作，用耳機作肺功能監(jiān)測，但是還需要吹一個很長的管子。第二份工作即今年的研究，現(xiàn)在用耳機做肺功能檢測已經(jīng)不需要管子了，通過正常說話就可以判斷肺功能的情況。

在做完這件事情之后，醫(yī)生告訴我們光知道他們的情況是沒用的，對醫(yī)學(xué)來說，技術(shù)手段不光要監(jiān)測出狀況，最重要的就是要形成閉環(huán)，還需要返回來幫助他們進行康復(fù)或治療。

那么要如何在呼吸系統(tǒng)疾病上幫助他做治療呢？醫(yī)生告訴我們，肺部訓(xùn)練是一個很常用的辦法，可以每天做幾十次的腹式呼吸訓(xùn)練。

但是病人一回家就發(fā)現(xiàn)，雖然一開始做的是腹式呼吸，但做了不到2個就又變成胸式呼吸了。所以我們想到可以用聲學(xué)攝像機或毫米波雷達來幫助他們做呼吸方式、呼吸深度的評估，從而替代醫(yī)生和護士，幫助他們?nèi)プ龊粑?xùn)練的指導(dǎo)。目前，我們正在跟廣東省人民醫(yī)院進行相關(guān)合作。

除此之外，我們還用聲波做了房顫監(jiān)測系統(tǒng)，只要放到手上就可以做監(jiān)測，使用方法上相對比較容易。想象一下，未來只要戴著耳機就可以知道你的呼吸、心跳、壓力狀況，發(fā)出呼吸訓(xùn)練的提醒，還可以順帶放一些音樂緩解你的壓力。這個方面目前我們正在做，后續(xù)還有很多需要進一步完善的地方。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

除了聲波感知，我們做了一些關(guān)于柔性傳感器的工作。因為我們的研究主要關(guān)注醫(yī)療健康領(lǐng)域，所以我們嘗試過把柔性傳感器放在耳朵里做血壓監(jiān)測，放在手腕上進行血壓的監(jiān)測等等。這一方面我們要解決的核心問題是，原來大多數(shù)的數(shù)據(jù)都是基于光電傳感器和PPG的，如果切換到柔性傳感器它的數(shù)據(jù)量是遠遠不足的。

這部分的難點主要有兩個，一方面要實現(xiàn)跨模態(tài)監(jiān)測，這一點尤為重要。另一方面，在正常人身上做監(jiān)測是很容易的，但是在病人身上做檢測就相對困難。未來我們還需要收集更多病人的數(shù)據(jù)來做相關(guān)工作，仍然有很長的一段路要走。

數(shù)據(jù)匱乏是毫米波雷達感知的關(guān)鍵挑戰(zhàn)

最后一部分，我想分享一下關(guān)于毫米波雷達的感知。

其實毫米波雷達我們其實做了已經(jīng)快10年了，之前也做了很多毫米波雷達的SLAM，比如針對材質(zhì)進行識別，是玻璃、石頭還是沙發(fā)？最近我們的關(guān)注點反而不是它的檢測準確率了，而是毫米波雷達的可信感知。之前我們嘗試過用毫米波雷達監(jiān)測人的運動，可以做到把人的Skeleton畫出來、追蹤出來。

在這個工作中要解決的核心問題是，毫米波雷達的數(shù)據(jù)很少。但視覺的數(shù)據(jù)很多的，所以我們在思考要如何將視覺的數(shù)據(jù)合成毫米波數(shù)據(jù)從而進行分析以及后續(xù)的學(xué)習(xí)和訓(xùn)練。在做的過程中我們發(fā)現(xiàn)，視覺上的欺騙可能會影響毫米波雷達的判斷，所以只能識別還是遠遠不夠的。

舉一個交通相關(guān)的例子，假如你前面有一輛車，但是旁邊車輛開門造成一個視覺上的遮擋，這時它就會生成一個信號讓你誤以為前面沒有車，就很容易撞上去。還有一種可能，就是你前面本來沒有車，但是它生成一個信號讓你誤以為前面有車，這個時候剎車就會導(dǎo)致后車追尾，這些情況都是有可能發(fā)生的。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

那要怎么樣防御這種生成式欺騙呢？后續(xù)我們著重做了一些工作。舉個例子，我們可以設(shè)置毫米波雷達發(fā)射出來的信號，讓它形成幾個不同的通路，使得我們在一個通路下看到的運動速度距離是A，另外一個通路下看到的運動速度距離是B。這樣我們就可以區(qū)分真實信號和欺騙信號。

如今大家進到一個陌生的房間里，會很關(guān)心屋子里有沒有攝像頭在進行偷拍。也許在未來，如果房間里有入侵的毫米波雷達，不需要偷拍就可以感知到房間里的狀況，那我們要如何探測、發(fā)現(xiàn)、并將它清理出房間呢？這個相關(guān)研究也是我們后續(xù)要做的。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

最后，我們來總結(jié)一下聲波毫米波雷達的發(fā)展歷程。

在初期，我主要做信號相關(guān)研究。這也與我的專業(yè)背景有關(guān)，我的本科碩士都是電子信息專業(yè)，博士期間跨專業(yè)到計算機，于是開始做深度學(xué)習(xí)研究。我們最早用的是一些信號處理的手段。隨著深度學(xué)習(xí)的發(fā)展，我們早期的信號處理手段已經(jīng)遠遠不夠用了，需要在理解物理信號的基礎(chǔ)上，設(shè)計針對物理信號的模型。

舉個簡單例子，毫米波雷達的信號是有稀疏性的，會有天線之間角度的關(guān)聯(lián)性，這種關(guān)聯(lián)性就不能再直接套用傳統(tǒng)的視覺網(wǎng)絡(luò)。我們需要理解它的物理意義，然后在此基礎(chǔ)上設(shè)計合理的模型。因此，所以我們慢慢從物理意義做到有物理意義模型。

新型模態(tài)感知會走向何方？

在將來，我們的主要工作方向會集中在以下三個方面：

首先，繼續(xù)做用于物理信息輔助的新型模態(tài)理解模型。舉個例子，現(xiàn)在已經(jīng)做出了很多毫米波雷達模型，但大都是基于生成點云然后在點云上做理解的。但實際上生成點云這件事本身就已經(jīng)消耗了很多信息，如果可以直接在原有的信息上做理解，用物理意義結(jié)合深度模型來做模型設(shè)計，效果將會更好，這也是我們現(xiàn)在的工作方向。

其次，如何讓傳統(tǒng)模態(tài)與更新型的模態(tài)融合理解。

最后，近兩年大模型非常火熱，并且對各行各業(yè)造成了翻天覆地的變化。我們所做的智能感知領(lǐng)域的物聯(lián)網(wǎng)相關(guān)研究，自然也深受大模型的影響。所以我們也在積極擁抱大模型并做了一些新的工作，比如用大模型自動生成代碼來檢測物理世界的感知信號，然后直接給出結(jié)果。

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

未來，還會有非常多基于大模型的感知模型生成方面的工作。如今這方面的工作才剛剛開始，我相信未來五到十年就會非常繁榮的發(fā)展。

總結(jié)一下，面向空間智能、物理世界的多模態(tài)感知需求是極其大的。傳統(tǒng)的感知模式只有寥寥幾類，而未來我們需要更多的新型感知模式。并且在不同領(lǐng)域需要不同的感知模式，聲波感知、毫米波感知、柔性傳感等新型模態(tài)，會適用于不同物體的感知并發(fā)揮獨特優(yōu)勢。

而我們需要做的，就是理解新型的感知模態(tài)，設(shè)計新型感知模型，從而更好地利用這些新型感知模態(tài)的信息，更全面的感知這個物理世界。所以未來的研究方向?qū)杏跀?shù)據(jù)理解、數(shù)據(jù)生成等方面，當下新型模態(tài)的數(shù)據(jù)量還是很少，如何生成、如何防御、如何更輕量化的跑在端側(cè)等等，這些問題亟需我們進一步研究。

我的分享就到這里，謝謝。

以下是雷峰網(wǎng)(公眾號：雷峰網(wǎng))與張進教授采訪對談的精彩內(nèi)容，雷峰網(wǎng)作了不改變原意的整理與編輯：

雷峰網(wǎng)：您最初的研究領(lǐng)域電子通信與現(xiàn)在跨度很大，是基于什么樣的契機開始做感知研究？

張進：本碩期間我在清華讀的都是電子通信專業(yè)，后來去了香港科技大學(xué)讀博改學(xué)計算機專業(yè)，結(jié)合過往的學(xué)科背景，博士期間我開始研究認知無線電。博士畢業(yè)后我開始跟醫(yī)院合作，將無線信號技術(shù)應(yīng)用在智慧醫(yī)療中，也是在這期間發(fā)現(xiàn)了信號也能感知健康狀況。人口老齡化不斷加速發(fā)展的背景，讓我意識到智慧健康領(lǐng)域的感知需求將會非常大。

但學(xué)界研究和業(yè)界需求變革始終是相輔相成的，所以在2014年前后我選擇回到學(xué)術(shù)界，繼續(xù)深耕健康檢測感知技術(shù)。研究過程中我開始關(guān)注到毫米波雷達在醫(yī)療健康領(lǐng)域的適用性，從2014年至今我一直在南方科技大學(xué)做毫米波雷達相關(guān)的應(yīng)用研究，并在2018年開始同時做聲波感知的應(yīng)用研究。因此，我經(jīng)常告訴我的學(xué)生，在找工作時不能只看公司需求的產(chǎn)品跟自己的研究內(nèi)容是否對號入座，要用系統(tǒng)性思維去拆分需求找到解決問題的突破點，這也是一個成功的博士應(yīng)該具備的能力。

雷峰網(wǎng)：聲波感知、毫米波雷達這種新型感知技術(shù)，會對普通大眾產(chǎn)生什么主要影響？

張進：真正的好技術(shù)是“無形”和“無感”的。打個比方，平時我們把藍牙耳機從充電倉里取出來戴在耳朵上，就能立刻自動連接手機。但如果戴上耳機之后還需要在手機上點一下才能開始用，那么用戶的體驗感就會大打折扣。所以我們這種新型感知技術(shù)的核心目的，就是幫助設(shè)備理解周圍的環(huán)境，并具備智能感知周圍環(huán)境的能力，從而更加便捷的進行人機交互。

舉個例子，現(xiàn)在我們跟一些AI智能設(shè)備互動時，還需要拍個照片或說句話才能讓設(shè)備理解我們的目的并執(zhí)行。在未來，有了更多模態(tài)的智能感知技術(shù)之后，也許我們無需做任何事，設(shè)備就能自動理解周圍環(huán)境并執(zhí)行我們的目的。

雷峰網(wǎng)：新型模態(tài)感知技術(shù)在推動空間智能發(fā)展中起什么作用？未來的感知世界會是什么樣？

王進：傳統(tǒng)的AI是通過視覺、聽覺、文本等內(nèi)容來讀取信息認識世界，對于物理世界中的距離這種概念它是無法理解的。所以要真想讓空間智能真正的理解物理世界，需要通過物理傳感來進行空間感知，因此我認為新型模態(tài)感知技術(shù)中的聲波感知、毫米波雷達等物理傳感，在推動空間智能的發(fā)展中是必不可少的。

正如剛才所說的，真正的好技術(shù)是“無形”和“無感”的，在感知這件事情上也是一樣的。新型感知技術(shù)是一個非常復(fù)雜的領(lǐng)域，它會針對不同的場景需求和設(shè)備限制提供不同的技術(shù)支持，聲波感知也好、毫米波雷達也好，一般來說不會有一種感知技術(shù)打通一切場景的情況。未來也許會是一樣或者幾樣感知技術(shù)結(jié)合起來，在特定場景中滿足產(chǎn)品的智能化需求。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

胡清文

編輯

發(fā)私信

當月熱門文章

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025

南方科技大學(xué)張進教授：為什么打造空間智能，不能只依賴“傳統(tǒng)多模態(tài)感知”？｜GAIR 2025