大模型不再只是生成：智象未來CTO姚霆談AI如何開始“完成”一個(gè)“創(chuàng)作”

本文作者：鄭佳美

2026-03-30 19:22

導(dǎo)語：智象未來全力構(gòu)建全模態(tài)底座：讓 AI 從“生成能力”走向“專業(yè)創(chuàng)作”。

過去一年，AI行業(yè)一個(gè)越來越清晰的變化是，真正拉開差距的，已經(jīng)不再只是某個(gè)模型單項(xiàng)能力是否更強(qiáng)，而是誰能把“能力”組織成“任務(wù)”，再把“任務(wù)”沉淀為“系統(tǒng)”。

文生圖、圖生視頻、視頻生成、3D生成、動(dòng)作生成，這些曾經(jīng)被分別討論的技術(shù)模塊，正在被重新放回同一個(gè)問題之下：如果未來的模型不只是回答問題、生成內(nèi)容，而是能夠理解復(fù)雜意圖、調(diào)動(dòng)多種能力、完成端到端創(chuàng)作，那么大模型競爭的核心，就會(huì)從模型本身，轉(zhuǎn)向模型、Agent、skills與應(yīng)用場景之間的整體協(xié)同。

也正因此，“世界模型”之爭的真正分野，或許并不只在于誰更接近物理規(guī)律、誰更像現(xiàn)實(shí)世界的復(fù)刻，而在于誰能率先搭建出一套可運(yùn)行、可調(diào)用、可商業(yè)化的全模態(tài)生產(chǎn)系統(tǒng)。

在這樣的背景下，智象未來聯(lián)合創(chuàng)始人兼CTO姚霆對(duì)“世界模型”“全模態(tài)”“Agent平臺(tái)”的理解，提供了一個(gè)很有前瞻性的觀察樣本。相比單純討論視頻生成能力的優(yōu)劣，他更在意的是，模型如何從單點(diǎn)能力躍遷為創(chuàng)作底座，skills如何被高效而安全地管理、編排和組合，應(yīng)用又如何反過來塑造下一輪模型迭代。

這使得這場對(duì)話的意義，已經(jīng)不只是討論一家AI視頻公司的產(chǎn)品路徑，而是在更深層面上回應(yīng)一個(gè)行業(yè)共同面對(duì)的問題：當(dāng)技術(shù)紅利從“能不能生成”進(jìn)入“能不能真正完成任務(wù)”的階段之后，下一輪競爭的護(hù)城河，究竟會(huì)建在模型里，建在系統(tǒng)里，還是建在對(duì)未來工作與創(chuàng)作方式智能體的重新定義里。

大模型不再只是生成：智象未來CTO姚霆談AI如何開始“完成”一個(gè)“創(chuàng)作” 全球首創(chuàng)文生視頻：智象未來的技術(shù)原點(diǎn)與產(chǎn)業(yè)積淀

Q：請(qǐng)先介紹一下你們團(tuán)隊(duì)過往的經(jīng)歷，以及智象未來是怎么走到今天的。
姚霆：智象未來的核心團(tuán)隊(duì)最早來自微軟亞洲研究院，那時(shí)候，我們跟著梅濤老師（智象未來創(chuàng)始人），做了全球第一個(gè)從文生成視頻的工作研究，算是中國比較早一批做視覺、多媒體、視頻相關(guān)研究的人。當(dāng)時(shí)我們做得更偏理解，包括視頻內(nèi)容理解、動(dòng)作識(shí)別、圖像和視頻搜索等，也做了很多和搜索引擎相關(guān)的事情，比如Bing的視頻搜索，以及后來小冰相關(guān)的一些項(xiàng)目。那時(shí)候也做過一些可以算作生成的工作，比如根據(jù)圖像、視頻生成描述，從而驅(qū)動(dòng)用戶和小冰之間的聊天。

后來我們?cè)陔x開微軟加入京東，在京東平臺(tái)上做了很多商業(yè)化落地的項(xiàng)目工作。比如大家現(xiàn)在熟悉的京東 APP 首頁的以圖搜圖、拍照購這些應(yīng)用，背后做的是十億級(jí)圖像垂域搜索。我們也做了圖像、視頻審核，包括敏感人物、政治內(nèi)容、成人內(nèi)容等識(shí)別和處理技術(shù)。再往后，也參與了商品3D化、數(shù)字商城等相關(guān)工作，把商品做成3D資產(chǎn)。后期還研發(fā)了與物流分揀相關(guān)的機(jī)械臂視覺方案，這實(shí)際上是具身智能的前身形態(tài) ：我們?cè)诰〇|物流倉里部署了兩套7×24小時(shí)穩(wěn)態(tài)運(yùn)營系統(tǒng)，訓(xùn)練機(jī)械臂實(shí)現(xiàn)商品識(shí)別、抓取和tracking等。

到了2022年，看到GPT、ChatGPT，以及Midjourney這樣的圖像生成模型涌現(xiàn)，讓我們這個(gè)團(tuán)隊(duì)看到了很大的場景想象空間，這個(gè)場景與我們的技術(shù)背景和產(chǎn)業(yè)實(shí)踐高度相關(guān)，因此，2023年，梅老師帶著我們一起創(chuàng)立了智象未來，正式投入做自研多模態(tài)大模型和相關(guān)產(chǎn)品應(yīng)用。

我們比較早就定下了“1+3+N”的布局。這里的“1”是一個(gè)底層全模態(tài)世界模型底座，支撐上層的3個(gè)智能體出口：第一條是偏專業(yè)創(chuàng)作者的視頻創(chuàng)作工具，海外就是vivago，國內(nèi)的應(yīng)用叫智小象；第二條是和互動(dòng)營銷場景的應(yīng)用；第三條就是和AI影視創(chuàng)作相關(guān)。未來還會(huì)拓展出更多的智能體應(yīng)用。

從2023年開始，我們重點(diǎn)做圖像生成；我們也開源了HiDream-I1模型，通過開源去撬動(dòng)更多聲量，目前，智象未來ARR（年度經(jīng)常性收入）已達(dá)數(shù)千萬美金級(jí)別。整體來說，我們一路走到今天，既是在堅(jiān)持模型研發(fā)，也是在不斷拓展商業(yè)化落地。

超越單項(xiàng)生成能力：全模態(tài)架構(gòu)如何驅(qū)動(dòng)端到端的任務(wù)交付

Q：現(xiàn)在大家對(duì)世界模型的定義并不統(tǒng)一。在你看來，一個(gè)合格的世界模型應(yīng)該如何定義，它的標(biāo)準(zhǔn)或維度是什么？
姚霆：智象未來對(duì)世界模型的理解，首先是承認(rèn)它的定義確實(shí)非常廣，而且不同階段差異很大。早期我覺得大致可以分成三類。第一類是以語言模型為主的世界模型，它更像是高層知識(shí)、世界知識(shí)的提煉和壓縮，所以它是high level的世界模型。第二類是中層表達(dá)學(xué)習(xí)，例如Yan LeCun做的JEPA，更偏理解，理解之后可能還會(huì)做動(dòng)作預(yù)測。第三類則是和我們更相關(guān)的底層像素生成，或者說視頻生成模型，這一類我也認(rèn)為屬于世界模型的一種可能性。

但到了近期，世界模型的定義其實(shí)開始慢慢收斂了。我覺得收斂之后大概也可以分成三類。第一類，是在現(xiàn)有視頻生成模型中加入因果關(guān)系和物理規(guī)律，它本質(zhì)上還是視頻生成模型，只是因?yàn)榫邆溥@些能力，所以更接近世界模型。第二類，是根據(jù)用戶的指令，比如上下左右，去實(shí)時(shí)生成相應(yīng)場景，以視頻形式呈現(xiàn)，像Genie-3這一類。第三類，是最近大家討論很多的World Action Model，它和具身智能更相關(guān)，核心是根據(jù)用戶輸入同時(shí)生成視頻和動(dòng)作，包括英偉達(dá)在內(nèi)，最近很多工作都和這個(gè)方向有關(guān)。

從我們自己的角度來看，我們現(xiàn)在雖然還是做視頻生成更多，但也會(huì)把它放在世界模型范疇下去理解。我們更關(guān)注兩個(gè)延伸方向。第一個(gè)是模型側(cè)，我們認(rèn)為未來更重要的是用一個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)理解和生成文本、圖像、視頻、3D以及動(dòng)作。也就是說，它一定是端到端的全模態(tài)架構(gòu)，而不是過去那種多模態(tài)拼接式方式。它們之間不應(yīng)該各自獨(dú)立編碼，而是統(tǒng)一編碼、統(tǒng)一tokenization。第二個(gè)是產(chǎn)品和系統(tǒng)側(cè)。最近大家在談Agent，我們會(huì)認(rèn)為Agentic app其實(shí)可以理解為一個(gè)平臺(tái)或載體，這個(gè)載體可能是PC，也可能是手機(jī)，再乘上一個(gè)Harness，也就是對(duì)底層skills的管理、適配和組合能力，再加上一組skills。底層也許是OS，也許是OpenClaw，但它會(huì)是一種新的戰(zhàn)略形態(tài)。

如果真有一個(gè)很強(qiáng)大的全模態(tài)世界模型，那么用戶的輸入可以是任意模態(tài)，單一也可以多個(gè)模態(tài)同時(shí)輸入，下游的skills也可以是各種模態(tài)，而中間這個(gè)Harness對(duì)模態(tài)的管理、描述和編排，也應(yīng)該是全模態(tài)的。這樣才能真正端到端地完成用戶想創(chuàng)作的任務(wù)。

關(guān)于世界模型的標(biāo)準(zhǔn)，我的理解有以下幾個(gè)維度。第一個(gè)是模型維度，我更看重世界模型的底座一定是全模態(tài)的。第二個(gè)是效果維度，它當(dāng)然要支持生成質(zhì)量、準(zhǔn)確度等常規(guī)標(biāo)準(zhǔn)。第三個(gè)是產(chǎn)品形態(tài)維度，我會(huì)更在意它是否能通過一個(gè)很好的Agentic方式去實(shí)現(xiàn)全模態(tài)創(chuàng)作需求。

從春晚“合肥七分鐘”到機(jī)器人訓(xùn)練：AI技術(shù)創(chuàng)新的更大可能

Q：如果這樣一套世界模型成立，它在具身智能、游戲或者數(shù)字孿生領(lǐng)域的實(shí)際價(jià)值和潛在價(jià)值會(huì)有多大？
姚霆：以具身智能為例，大家現(xiàn)在討論很多的是視頻模型和具身智能之間的關(guān)系。如果今天這個(gè)模型真的是全模態(tài)模型，那么它既可以作為視頻生成的底座，也可以作為具身智能的底座。它的核心在于，輸入和輸出都不再被限制。假如輸入是動(dòng)作，輸出既可以是Video，也可以是動(dòng)作；如果輸入是文本，輸出也可以是Video。這樣的話，整個(gè)模型就能夠支持多樣性的輸入和輸出。

如果放到具身場景里，它既可以用來生成數(shù)據(jù)，也可以支持VLA模型預(yù)訓(xùn)練，甚至當(dāng)精度達(dá)到毫米級(jí)別的時(shí)候，也可以進(jìn)一步做后訓(xùn)練，甚至直接去做VLA或者action production。我覺得這會(huì)是一個(gè)非常好的基礎(chǔ)。

游戲方向會(huì)更加自然。因?yàn)橐坏┠憬o模型一個(gè)動(dòng)作，它就可以渲染出新的畫面，生成新的場景和視頻，這本質(zhì)上就是游戲和影視結(jié)合的互動(dòng)影游?；?dòng)影游里面大量需求就是，你給它一個(gè)新任務(wù)，它會(huì)繼續(xù)延展新的內(nèi)容和新的可能性，所以不管是作為游戲，還是作為影視呈現(xiàn)，它都很有發(fā)展應(yīng)用的空間。

Q：現(xiàn)在關(guān)于AI漫改和影視落地的話題很熱。你們?cè)谟耙暫吐姆矫娴纳虡I(yè)化客戶占比大概如何？從你們接觸的客戶來看，目前AI最有價(jià)值的場景是什么？
姚霆：目前，我們還是更注重“創(chuàng)作”這個(gè)事情。以前大家談生成，不管是圖像還是視頻，更多是把它當(dāng)作一種單點(diǎn)能力去看，所以經(jīng)常會(huì)陷入一個(gè)問題，就是到底終局是文生視頻更重要，還是圖生視頻更重要。比如Sora更強(qiáng)調(diào)文生視頻，早期的可靈則更強(qiáng)調(diào)圖生視頻，很多時(shí)候大家都在糾結(jié)到底誰代表終局。

在我看來，如果把“創(chuàng)作”當(dāng)作一個(gè)完整任務(wù)來理解，那么就不應(yīng)該只盯著底層能力到底是文生還是圖生，而應(yīng)該看這個(gè)系統(tǒng)能不能端到端地把用戶的創(chuàng)作任務(wù)完成。如果它能真正完成創(chuàng)作，這才是首要目標(biāo)。

在影視創(chuàng)作這一塊，我們核心做兩類事情。第一類是協(xié)同生產(chǎn)工具。第二類是內(nèi)容交付。智象的技術(shù)交付能力已在國家級(jí)舞臺(tái)上得到驗(yàn)證。在 2026 年央視馬年春晚合肥分會(huì)場 7 分鐘視頻，虛實(shí)融合視覺等呈現(xiàn)由智象大模型提供了 AI 能力支持。此外，我們很早就在AI影視方面布局，如2024年和亦莊合作過AIGC短劇《意向未來》，屬于國內(nèi)首批AIGC短劇之一。2025年我們又和安徽電視臺(tái)合作了一個(gè)項(xiàng)目，叫《量子湖傳說》，是12集偏漫劇。在AI漫改和影視落地方面，據(jù)不完全統(tǒng)計(jì)目前智象未來，已經(jīng)協(xié)助完成超過5000分鐘的AI短劇創(chuàng)作。工業(yè)級(jí)的 AI 短劇平臺(tái)幀贊已經(jīng)在內(nèi)測招募中，馬上就要正式上線。

當(dāng)然，除了創(chuàng)作，另外一個(gè)重要領(lǐng)域就是具身智能，具身智能的迭代高度依賴于高質(zhì)量、多維度的訓(xùn)練數(shù)據(jù) 。最近，智象未來與具身智能數(shù)據(jù)基礎(chǔ)設(shè)施企業(yè)諾亦騰機(jī)器人已達(dá)成戰(zhàn)略合作，希望共同攻克行業(yè)普遍面臨的高精度訓(xùn)練數(shù)據(jù)供給難題。雙方將諾亦騰積累的真實(shí)運(yùn)動(dòng)捕捉數(shù)據(jù)與智象多模態(tài)大模型生成的仿真數(shù)據(jù)進(jìn)行深度融合。為具身智能本體廠商提供規(guī)?；?biāo)準(zhǔn)化的 VLA（視覺-語言-動(dòng)作）模型預(yù)訓(xùn)練資源。

在巨頭格局下快跑：技術(shù)預(yù)判、架構(gòu)創(chuàng)新與資本的認(rèn)可

Q：現(xiàn)在看，字節(jié)和快手既有模型又有流量，獨(dú)立創(chuàng)業(yè)公司在這種格局下如何避免被邊緣化？你們真正的護(hù)城河是什么？
姚霆：這是一個(gè)特別好的問題。的確，大廠無論在資本、人才、算力，還是入口級(jí)能力上，都有天然優(yōu)勢。但我也覺得，大廠在某些條件下束縛會(huì)更多。因?yàn)樗骖欀鳡I業(yè)務(wù)、股東預(yù)期和估值邏輯，團(tuán)隊(duì)架構(gòu)通常也會(huì)更加龐大，不會(huì)像創(chuàng)業(yè)公司這樣靈活。

我反而覺得，在今天這個(gè)階段做AI，機(jī)會(huì)并不是完全不平等的。初創(chuàng)公司如果想抓住機(jī)會(huì)，我覺得至少有幾點(diǎn)要做好。第一，認(rèn)知一定要新。為什么我一直強(qiáng)調(diào)技術(shù)和產(chǎn)品迭代，本質(zhì)上是因?yàn)楸仨殞?duì)趨勢有預(yù)判。不能等到大廠把某種架構(gòu)做成熟了，我們?cè)偃?fù)制，那樣基本不會(huì)有機(jī)會(huì)。

因此，智象未來一直在做架構(gòu)創(chuàng)新，從2023年Unet開始，到DiT，到后來我們做到擴(kuò)散自回歸架構(gòu)Diffusion + Auto-Regressive，今天我們正在做走向全模態(tài)的全新架構(gòu)，我們每次還是精準(zhǔn)地踩住了整個(gè) AI技術(shù)迭代的突破口，有時(shí)候甚至?xí)I(lǐng)先國內(nèi)國際大廠三個(gè)月、六個(gè)月。

第二，產(chǎn)品認(rèn)知也必須持續(xù)更新。今天做產(chǎn)品和以前不一樣了。你一只眼要盯著當(dāng)下正在做的產(chǎn)品，另一只眼一定要看六個(gè)月以后產(chǎn)品形態(tài)會(huì)不會(huì)變。比如從去年年底開始，我們招聘產(chǎn)品經(jīng)理時(shí)，已經(jīng)把會(huì)不會(huì)用vibe-coding當(dāng)作考核項(xiàng)，因?yàn)檫@已經(jīng)成為新的工作方式。整個(gè)團(tuán)隊(duì)認(rèn)知都必須更新。

第三，速度非常關(guān)鍵。AI產(chǎn)品只要形成一個(gè)基本可用的穩(wěn)定版本，就應(yīng)該盡快推向市場。在我的定義里，一個(gè)版本如果用戶嘗試兩次能成功一次，或者三次能成功一次，我就認(rèn)為它已經(jīng)可以上線。因?yàn)樯墒疆a(chǎn)品天然會(huì)有幻覺和誤差，所以不能等到它像傳統(tǒng)軟件一樣完全穩(wěn)定才去發(fā)。上線以后，要靠用戶不斷地使用和反饋去迭代，這樣才有可能形成自己的優(yōu)勢。很多場景其實(shí)不是拍腦袋就能想出來的，只有用戶用起來，你才知道真實(shí)需求在哪里。

第四，組織架構(gòu)要非常靈活。今天在初創(chuàng)公司里，技術(shù)和產(chǎn)品的邊界已經(jīng)越來越模糊。很多產(chǎn)品本身也可以通過vibe coding去實(shí)現(xiàn)前端。組織不能按舊打法去運(yùn)轉(zhuǎn)，而要像打牌一樣，根據(jù)對(duì)手和市場變化去調(diào)整出牌順序、組合方式，甚至要把原本以為是“王炸”的牌拆開來打。

但我覺得最大的好消息是，這個(gè)時(shí)代變化實(shí)在太快，沒人能保證今天做出來的產(chǎn)品三個(gè)月后依然有價(jià)值。在這樣一個(gè)高度內(nèi)卷、快速演化的環(huán)境里，每個(gè)人都有機(jī)會(huì)，而不是只有大廠有機(jī)會(huì)。

Q：這兩天有個(gè)消息是Sora關(guān)停了。你先怎么看這件事？另外，國內(nèi)和海外在AI視頻模型上走法不太一樣，國內(nèi)更喜歡做完整平臺(tái)，海外更偏重模型能力。你覺得哪種路線的壁壘會(huì)更長久？
姚霆：從我的角度看，第一，Sora 原來的想法還是做一個(gè)非常通用的視頻生成模型，但它和垂直領(lǐng)域應(yīng)用之間，在目前階段還是相對(duì)脫離的。再加上它天然也沒有和自身業(yè)務(wù)深度耦合的生態(tài)，所以發(fā)生了現(xiàn)在的大調(diào)整。

第二，我覺得成本肯定是很大的原因。今天和互聯(lián)網(wǎng)時(shí)代不一樣，現(xiàn)在所有服務(wù)上線，背后其實(shí)都在持續(xù)跑大量GPU，燒 Token，成本是非常昂貴的。我們自己在做模型迭代的時(shí)候，一個(gè)非常重要的考慮因素就是最終推理成本。

這也是智象未來堅(jiān)持架構(gòu)創(chuàng)新的原因之一，通過架構(gòu)創(chuàng)新，如自回歸模型預(yù)先理解，DiT 僅需 5 步即可達(dá)成傳統(tǒng)百步生成的精細(xì)度。我們可以將單位視頻的推理成本大幅壓縮至原來的 1/10。每個(gè)版本的迭代，我們都會(huì)圍繞推理成本做大量工作，因?yàn)槿绻辉诩軜?gòu)階段考慮這些問題，后面服務(wù)根本沒法大規(guī)模跑起來。

你提到國內(nèi)外路線的問題，我覺得國外很多團(tuán)隊(duì)對(duì)架構(gòu)創(chuàng)新的信心更高，國內(nèi)則會(huì)更強(qiáng)調(diào)商業(yè)化應(yīng)用。對(duì)我們來說，架構(gòu)創(chuàng)新是非常重要的底層能力，因?yàn)槲覀儽緛砭褪羌夹g(shù)出身。梅老師帶著我和潘博士在微軟的時(shí)候，就一直希望做世界上最好的模型。雖然當(dāng)時(shí)做的是理解，但競爭對(duì)手就是谷歌、Facebook、CMU、伯克利這些團(tuán)隊(duì)，所以在我們的技術(shù)基因里，一直就有很強(qiáng)的模型架構(gòu)創(chuàng)新追求，我們從來沒有放棄模型上的創(chuàng)新。每次迭代，架構(gòu)創(chuàng)新始終是第一重要的事情。

Q：公司已經(jīng)成立快四年了，這些年AI行業(yè)發(fā)展非?？臁，F(xiàn)在回頭看，整個(gè)行業(yè)的競爭格局和你們最初的預(yù)想差距大嗎？有哪些地方是超出計(jì)劃、和團(tuán)隊(duì)設(shè)想不一樣的？
姚霆：我覺得第一，很多事情其實(shí)是在預(yù)期之內(nèi)的。比如整個(gè)生成賽道、多模態(tài)大模型賽道的發(fā)展上限和發(fā)展速度，基本都在我們的判斷范圍內(nèi)。從早期的MidJourney，到Sora、Runway、可靈等，一路走下來，整體趨勢沒有偏離預(yù)判。包括技術(shù)路線，從Unet到DiT，再到自回歸與DiT融合，再到今天做全模態(tài)，也都在我們的判斷之內(nèi)，甚至有些時(shí)候我們還會(huì)處在相對(duì)領(lǐng)先的位置。

但也有一些超出預(yù)期的地方，我覺得更多是在產(chǎn)品層面的突破。比如以前大家會(huì)討論，我是不是應(yīng)該做偏寫作的工具，或者做OpenClaw、OPC這樣的東西。最近我們也會(huì)反過來思考，像OpenClaw這種模式的發(fā)展速度，以及它所代表的可能性，可能比很多人預(yù)想得都快。它會(huì)給我一些啟發(fā)，讓我重新思考今天應(yīng)該怎樣去做一個(gè)創(chuàng)作型Agent。

比如現(xiàn)在大家都知道這類產(chǎn)品有安全問題，但我最近會(huì)想，為什么它會(huì)有安全問題？一個(gè)很核心的原因是，它和我共用一個(gè)載體。假設(shè)它是我的助理，它其實(shí)不應(yīng)該用我的手機(jī)替我發(fā)微信，它應(yīng)該有自己的“手機(jī)”，也就是自己的載體。如果它有自己的載體，也許沒有屏幕都沒關(guān)系，那么很多安全問題就會(huì)發(fā)生變化。也就是說，如果給OpenClaw這樣的系統(tǒng)一個(gè)適合它生長的新載體，它也許就能從co-worker走向co-creator。這個(gè)可能性，是超出我原來預(yù)期的。

Q：智象未來2026年最優(yōu)先級(jí)的戰(zhàn)略是什么？經(jīng)過四年發(fā)展，融資也到了新的輪次，投資人對(duì)智象未來的發(fā)展期待是什么？
姚霆：這是一個(gè)很大的問題。我覺得很多場景的爆發(fā)其實(shí)是帶有隨機(jī)性的，爆款本身也有隨機(jī)性。但從我的角度看，最優(yōu)先級(jí)的事情非常明確，就是建立一個(gè)端到端的創(chuàng)作智能體Agent平臺(tái)。

在這個(gè)平臺(tái)上，我們正在打造多個(gè)方向的“創(chuàng)作”智能體，包括個(gè)人創(chuàng)作、營銷相關(guān)創(chuàng)作，以及影視相關(guān)創(chuàng)作?，F(xiàn)在的思維模式和過去不太一樣。過去是分而治之，不同創(chuàng)作場景用不同工具；但接下來更可能變成“并而治之”，也就是底座統(tǒng)一，底層由Agent體系承接，上層再針對(duì)不同場景去實(shí)例化。

它的技術(shù)核心，就是一個(gè)全模態(tài)生成模型作為底座。這很像當(dāng)年做搜索引擎，你底下有海量網(wǎng)頁，而今天這些網(wǎng)頁變成了skills。關(guān)鍵問題變成，怎么在海量skills里找到最需要的信息，并把這些信息組合編排成好的Agent，再提供給上層服務(wù)。為什么我們引入“全模態(tài)”這個(gè)概念，就是因?yàn)槿绻Ｐ吞烊话盐谋?、圖像、視頻等模態(tài)打通了，那我只需要建一套索引，就可以處理所有模態(tài)的問題，也才能支持真正的端到端創(chuàng)作。不管用戶輸入什么，想得到什么，系統(tǒng)理論上都能夠完成。

1. 關(guān)于融資的問題，我們一直很順利，問題之后會(huì)有更多好消息與大家分享。對(duì)于定位和估值，我們更看重估值背后的底層邏輯。支撐我們?nèi)谫Y順利的核心邏輯有三點(diǎn)：1. 技術(shù)的持續(xù)領(lǐng)先與創(chuàng)新：不是曇花一現(xiàn)，而是具備長期的創(chuàng)新后勁。2. 產(chǎn)品價(jià)值的傳遞：能否真正為用戶創(chuàng)造價(jià)值，解決實(shí)際問題。3. 商業(yè)化驗(yàn)證：在當(dāng)前階段，商業(yè)化成果是硬指標(biāo)；而到了未來的C輪、D輪，則會(huì)進(jìn)一步考驗(yàn)規(guī)?；芰?。

總的來說，投資人看重的是智象未來在全模態(tài)技術(shù)上的深度積淀以及在生產(chǎn)力場景中的落地潛力，我們非常珍惜并看重投資人對(duì)我們的這種長期認(rèn)可.

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。