日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給鄭佳美
發(fā)送

0

大模型不再只是生成:智象未來CTO姚霆談AI如何開始“完成”一個(gè)“創(chuàng)作”

本文作者: 鄭佳美   2026-03-30 19:22
導(dǎo)語:智象未來全力構(gòu)建全模態(tài)底座:讓 AI 從“生成能力”走向“專業(yè)創(chuàng)作”。

過去一年,AI行業(yè)一個(gè)越來越清晰的變化是,真正拉開差距的,已經(jīng)不再只是某個(gè)模型單項(xiàng)能力是否更強(qiáng),而是誰能把“能力”組織成“任務(wù)”,再把“任務(wù)”沉淀為“系統(tǒng)”。

文生圖、圖生視頻、視頻生成、3D生成、動(dòng)作生成,這些曾經(jīng)被分別討論的技術(shù)模塊,正在被重新放回同一個(gè)問題之下:如果未來的模型不只是回答問題、生成內(nèi)容,而是能夠理解復(fù)雜意圖、調(diào)動(dòng)多種能力、完成端到端創(chuàng)作,那么大模型競爭的核心,就會(huì)從模型本身,轉(zhuǎn)向模型、Agent、skills與應(yīng)用場景之間的整體協(xié)同。

也正因此,“世界模型”之爭的真正分野,或許并不只在于誰更接近物理規(guī)律、誰更像現(xiàn)實(shí)世界的復(fù)刻,而在于誰能率先搭建出一套可運(yùn)行、可調(diào)用、可商業(yè)化的全模態(tài)生產(chǎn)系統(tǒng)。

在這樣的背景下,智象未來聯(lián)合創(chuàng)始人兼CTO姚霆對(duì)“世界模型”“全模態(tài)”“Agent平臺(tái)”的理解,提供了一個(gè)很有前瞻性的觀察樣本。相比單純討論視頻生成能力的優(yōu)劣,他更在意的是,模型如何從單點(diǎn)能力躍遷為創(chuàng)作底座,skills如何被高效而安全地管理、編排和組合,應(yīng)用又如何反過來塑造下一輪模型迭代。

這使得這場對(duì)話的意義,已經(jīng)不只是討論一家AI視頻公司的產(chǎn)品路徑,而是在更深層面上回應(yīng)一個(gè)行業(yè)共同面對(duì)的問題:當(dāng)技術(shù)紅利從“能不能生成”進(jìn)入“能不能真正完成任務(wù)”的階段之后,下一輪競爭的護(hù)城河,究竟會(huì)建在模型里,建在系統(tǒng)里,還是建在對(duì)未來工作與創(chuàng)作方式智能體的重新定義里。

大模型不再只是生成:智象未來CTO姚霆談AI如何開始“完成”一個(gè)“創(chuàng)作” 全球首創(chuàng)文生視頻:智象未來的技術(shù)原點(diǎn)與產(chǎn)業(yè)積淀

Q:請(qǐng)先介紹一下你們團(tuán)隊(duì)過往的經(jīng)歷,以及智象未來是怎么走到今天的。
姚霆:智象未來的核心團(tuán)隊(duì)最早來自微軟亞洲研究院,那時(shí)候,我們跟著梅濤老師(智象未來創(chuàng)始人),做了全球第一個(gè)從文生成視頻的工作研究,算是中國比較早一批做視覺、多媒體、視頻相關(guān)研究的人。當(dāng)時(shí)我們做得更偏理解,包括視頻內(nèi)容理解、動(dòng)作識(shí)別、圖像和視頻搜索等,也做了很多和搜索引擎相關(guān)的事情,比如Bing的視頻搜索,以及后來小冰相關(guān)的一些項(xiàng)目。那時(shí)候也做過一些可以算作生成的工作,比如根據(jù)圖像、視頻生成描述,從而驅(qū)動(dòng)用戶和小冰之間的聊天。

后來我們?cè)陔x開微軟加入京東,在京東平臺(tái)上做了很多商業(yè)化落地的項(xiàng)目工作。比如大家現(xiàn)在熟悉的京東 APP 首頁的以圖搜圖、拍照購這些應(yīng)用,背后做的是十億級(jí)圖像垂域搜索。我們也做了圖像、視頻審核,包括敏感人物、政治內(nèi)容、成人內(nèi)容等識(shí)別和處理技術(shù)。再往后,也參與了商品3D化、數(shù)字商城等相關(guān)工作,把商品做成3D資產(chǎn)。后期還研發(fā)了與物流分揀相關(guān)的機(jī)械臂視覺方案,這實(shí)際上是具身智能的前身形態(tài) :我們?cè)诰〇|物流倉里部署了兩套7×24小時(shí)穩(wěn)態(tài)運(yùn)營系統(tǒng),訓(xùn)練機(jī)械臂實(shí)現(xiàn)商品識(shí)別、抓取和tracking等。

到了2022年,看到GPT、ChatGPT,以及Midjourney這樣的圖像生成模型涌現(xiàn),讓我們這個(gè)團(tuán)隊(duì)看到了很大的場景想象空間,這個(gè)場景與我們的技術(shù)背景和產(chǎn)業(yè)實(shí)踐高度相關(guān),因此,2023年,梅老師帶著我們一起創(chuàng)立了智象未來,正式投入做自研多模態(tài)大模型和相關(guān)產(chǎn)品應(yīng)用。

我們比較早就定下了“1+3+N”的布局。這里的“1”是一個(gè)底層全模態(tài)世界模型底座,支撐上層的3個(gè)智能體出口:第一條是偏專業(yè)創(chuàng)作者的視頻創(chuàng)作工具,海外就是vivago,國內(nèi)的應(yīng)用叫智小象;第二條是和互動(dòng)營銷場景的應(yīng)用;第三條就是和AI影視創(chuàng)作相關(guān)。未來還會(huì)拓展出更多的智能體應(yīng)用。

從2023年開始,我們重點(diǎn)做圖像生成;我們也開源了HiDream-I1模型,通過開源去撬動(dòng)更多聲量,目前,智象未來ARR(年度經(jīng)常性收入)已達(dá)數(shù)千萬美金級(jí)別。整體來說,我們一路走到今天,既是在堅(jiān)持模型研發(fā),也是在不斷拓展商業(yè)化落地。

超越單項(xiàng)生成能力:全模態(tài)架構(gòu)如何驅(qū)動(dòng)端到端的任務(wù)交付

Q:現(xiàn)在大家對(duì)世界模型的定義并不統(tǒng)一。在你看來,一個(gè)合格的世界模型應(yīng)該如何定義,它的標(biāo)準(zhǔn)或維度是什么?
姚霆:智象未來對(duì)世界模型的理解,首先是承認(rèn)它的定義確實(shí)非常廣,而且不同階段差異很大。早期我覺得大致可以分成三類。第一類是以語言模型為主的世界模型,它更像是高層知識(shí)、世界知識(shí)的提煉和壓縮,所以它是high level的世界模型。第二類是中層表達(dá)學(xué)習(xí),例如Yan LeCun做的JEPA,更偏理解,理解之后可能還會(huì)做動(dòng)作預(yù)測。第三類則是和我們更相關(guān)的底層像素生成,或者說視頻生成模型,這一類我也認(rèn)為屬于世界模型的一種可能性。

但到了近期,世界模型的定義其實(shí)開始慢慢收斂了。我覺得收斂之后大概也可以分成三類。第一類,是在現(xiàn)有視頻生成模型中加入因果關(guān)系和物理規(guī)律,它本質(zhì)上還是視頻生成模型,只是因?yàn)榫邆溥@些能力,所以更接近世界模型。第二類,是根據(jù)用戶的指令,比如上下左右,去實(shí)時(shí)生成相應(yīng)場景,以視頻形式呈現(xiàn),像Genie-3這一類。第三類,是最近大家討論很多的World Action Model,它和具身智能更相關(guān),核心是根據(jù)用戶輸入同時(shí)生成視頻和動(dòng)作,包括英偉達(dá)在內(nèi),最近很多工作都和這個(gè)方向有關(guān)。

從我們自己的角度來看,我們現(xiàn)在雖然還是做視頻生成更多,但也會(huì)把它放在世界模型范疇下去理解。我們更關(guān)注兩個(gè)延伸方向。第一個(gè)是模型側(cè),我們認(rèn)為未來更重要的是用一個(gè)神經(jīng)網(wǎng)絡(luò)同時(shí)理解和生成文本、圖像、視頻、3D以及動(dòng)作。也就是說,它一定是端到端的全模態(tài)架構(gòu),而不是過去那種多模態(tài)拼接式方式。它們之間不應(yīng)該各自獨(dú)立編碼,而是統(tǒng)一編碼、統(tǒng)一tokenization。第二個(gè)是產(chǎn)品和系統(tǒng)側(cè)。最近大家在談Agent,我們會(huì)認(rèn)為Agentic app其實(shí)可以理解為一個(gè)平臺(tái)或載體,這個(gè)載體可能是PC,也可能是手機(jī),再乘上一個(gè)Harness,也就是對(duì)底層skills的管理、適配和組合能力,再加上一組skills。底層也許是OS,也許是OpenClaw,但它會(huì)是一種新的戰(zhàn)略形態(tài)。

如果真有一個(gè)很強(qiáng)大的全模態(tài)世界模型,那么用戶的輸入可以是任意模態(tài),單一也可以多個(gè)模態(tài)同時(shí)輸入,下游的skills也可以是各種模態(tài),而中間這個(gè)Harness對(duì)模態(tài)的管理、描述和編排,也應(yīng)該是全模態(tài)的。這樣才能真正端到端地完成用戶想創(chuàng)作的任務(wù)。

關(guān)于世界模型的標(biāo)準(zhǔn),我的理解有以下幾個(gè)維度。第一個(gè)是模型維度,我更看重世界模型的底座一定是全模態(tài)的。第二個(gè)是效果維度,它當(dāng)然要支持生成質(zhì)量、準(zhǔn)確度等常規(guī)標(biāo)準(zhǔn)。第三個(gè)是產(chǎn)品形態(tài)維度,我會(huì)更在意它是否能通過一個(gè)很好的Agentic方式去實(shí)現(xiàn)全模態(tài)創(chuàng)作需求。

從春晚“合肥七分鐘”到機(jī)器人訓(xùn)練:AI技術(shù)創(chuàng)新的更大可能

Q:如果這樣一套世界模型成立,它在具身智能、游戲或者數(shù)字孿生領(lǐng)域的實(shí)際價(jià)值和潛在價(jià)值會(huì)有多大?
姚霆:以具身智能為例,大家現(xiàn)在討論很多的是視頻模型和具身智能之間的關(guān)系。如果今天這個(gè)模型真的是全模態(tài)模型,那么它既可以作為視頻生成的底座,也可以作為具身智能的底座。它的核心在于,輸入和輸出都不再被限制。假如輸入是動(dòng)作,輸出既可以是Video,也可以是動(dòng)作;如果輸入是文本,輸出也可以是Video。這樣的話,整個(gè)模型就能夠支持多樣性的輸入和輸出。

如果放到具身場景里,它既可以用來生成數(shù)據(jù),也可以支持VLA模型預(yù)訓(xùn)練,甚至當(dāng)精度達(dá)到毫米級(jí)別的時(shí)候,也可以進(jìn)一步做后訓(xùn)練,甚至直接去做VLA或者action production。我覺得這會(huì)是一個(gè)非常好的基礎(chǔ)。

游戲方向會(huì)更加自然。因?yàn)橐坏┠憬o模型一個(gè)動(dòng)作,它就可以渲染出新的畫面,生成新的場景和視頻,這本質(zhì)上就是游戲和影視結(jié)合的互動(dòng)影游?;?dòng)影游里面大量需求就是,你給它一個(gè)新任務(wù),它會(huì)繼續(xù)延展新的內(nèi)容和新的可能性,所以不管是作為游戲,還是作為影視呈現(xiàn),它都很有發(fā)展應(yīng)用的空間。

Q:現(xiàn)在關(guān)于AI漫改和影視落地的話題很熱。你們?cè)谟耙暫吐姆矫娴纳虡I(yè)化客戶占比大概如何?從你們接觸的客戶來看,目前AI最有價(jià)值的場景是什么?
姚霆:目前,我們還是更注重“創(chuàng)作”這個(gè)事情。以前大家談生成,不管是圖像還是視頻,更多是把它當(dāng)作一種單點(diǎn)能力去看,所以經(jīng)常會(huì)陷入一個(gè)問題,就是到底終局是文生視頻更重要,還是圖生視頻更重要。比如Sora更強(qiáng)調(diào)文生視頻,早期的可靈則更強(qiáng)調(diào)圖生視頻,很多時(shí)候大家都在糾結(jié)到底誰代表終局。

在我看來,如果把“創(chuàng)作”當(dāng)作一個(gè)完整任務(wù)來理解,那么就不應(yīng)該只盯著底層能力到底是文生還是圖生,而應(yīng)該看這個(gè)系統(tǒng)能不能端到端地把用戶的創(chuàng)作任務(wù)完成。如果它能真正完成創(chuàng)作,這才是首要目標(biāo)。

在影視創(chuàng)作這一塊,我們核心做兩類事情。第一類是協(xié)同生產(chǎn)工具。第二類是內(nèi)容交付。智象的技術(shù)交付能力已在國家級(jí)舞臺(tái)上得到驗(yàn)證。在 2026 年央視馬年春晚合肥分會(huì)場 7 分鐘視頻,虛實(shí)融合視覺等呈現(xiàn)由智象大模型提供了 AI 能力支持。此外,我們很早就在AI影視方面布局,如2024年和亦莊合作過AIGC短劇《意向未來》,屬于國內(nèi)首批AIGC短劇之一。2025年我們又和安徽電視臺(tái)合作了一個(gè)項(xiàng)目,叫《量子湖傳說》,是12集偏漫劇。在AI漫改和影視落地方面,據(jù)不完全統(tǒng)計(jì)目前智象未來,已經(jīng)協(xié)助完成超過5000分鐘的AI短劇創(chuàng)作。工業(yè)級(jí)的 AI 短劇平臺(tái)幀贊已經(jīng)在內(nèi)測招募中,馬上就要正式上線。

當(dāng)然,除了創(chuàng)作,另外一個(gè)重要領(lǐng)域就是具身智能,具身智能的迭代高度依賴于高質(zhì)量、多維度的訓(xùn)練數(shù)據(jù) 。最近,智象未來與具身智能數(shù)據(jù)基礎(chǔ)設(shè)施企業(yè)諾亦騰機(jī)器人已達(dá)成戰(zhàn)略合作,希望共同攻克行業(yè)普遍面臨的高精度訓(xùn)練數(shù)據(jù)供給難題 。雙方將諾亦騰積累的真實(shí)運(yùn)動(dòng)捕捉數(shù)據(jù)與智象多模態(tài)大模型生成的仿真數(shù)據(jù)進(jìn)行深度融合 。為具身智能本體廠商提供規(guī)?;?biāo)準(zhǔn)化的 VLA(視覺-語言-動(dòng)作)模型預(yù)訓(xùn)練資源 。

在巨頭格局下快跑:技術(shù)預(yù)判、架構(gòu)創(chuàng)新與資本的認(rèn)可

Q:現(xiàn)在看,字節(jié)和快手既有模型又有流量,獨(dú)立創(chuàng)業(yè)公司在這種格局下如何避免被邊緣化?你們真正的護(hù)城河是什么?
姚霆:這是一個(gè)特別好的問題。的確,大廠無論在資本、人才、算力,還是入口級(jí)能力上,都有天然優(yōu)勢。但我也覺得,大廠在某些條件下束縛會(huì)更多。因?yàn)樗骖欀鳡I業(yè)務(wù)、股東預(yù)期和估值邏輯,團(tuán)隊(duì)架構(gòu)通常也會(huì)更加龐大,不會(huì)像創(chuàng)業(yè)公司這樣靈活。

我反而覺得,在今天這個(gè)階段做AI,機(jī)會(huì)并不是完全不平等的。初創(chuàng)公司如果想抓住機(jī)會(huì),我覺得至少有幾點(diǎn)要做好。第一,認(rèn)知一定要新。為什么我一直強(qiáng)調(diào)技術(shù)和產(chǎn)品迭代,本質(zhì)上是因?yàn)楸仨殞?duì)趨勢有預(yù)判。不能等到大廠把某種架構(gòu)做成熟了,我們?cè)偃?fù)制,那樣基本不會(huì)有機(jī)會(huì)。

因此,智象未來一直在做架構(gòu)創(chuàng)新,從2023年Unet開始,到DiT,到后來我們做到擴(kuò)散自回歸架構(gòu)Diffusion + Auto-Regressive,今天我們正在做走向全模態(tài)的全新架構(gòu),我們每次還是精準(zhǔn)地踩住了整個(gè) AI技術(shù)迭代的突破口,有時(shí)候甚至?xí)I(lǐng)先國內(nèi)國際大廠三個(gè)月、六個(gè)月。

第二,產(chǎn)品認(rèn)知也必須持續(xù)更新。今天做產(chǎn)品和以前不一樣了。你一只眼要盯著當(dāng)下正在做的產(chǎn)品,另一只眼一定要看六個(gè)月以后產(chǎn)品形態(tài)會(huì)不會(huì)變。比如從去年年底開始,我們招聘產(chǎn)品經(jīng)理時(shí),已經(jīng)把會(huì)不會(huì)用vibe-coding當(dāng)作考核項(xiàng),因?yàn)檫@已經(jīng)成為新的工作方式。整個(gè)團(tuán)隊(duì)認(rèn)知都必須更新。

第三,速度非常關(guān)鍵。AI產(chǎn)品只要形成一個(gè)基本可用的穩(wěn)定版本,就應(yīng)該盡快推向市場。在我的定義里,一個(gè)版本如果用戶嘗試兩次能成功一次,或者三次能成功一次,我就認(rèn)為它已經(jīng)可以上線。因?yàn)樯墒疆a(chǎn)品天然會(huì)有幻覺和誤差,所以不能等到它像傳統(tǒng)軟件一樣完全穩(wěn)定才去發(fā)。上線以后,要靠用戶不斷地使用和反饋去迭代,這樣才有可能形成自己的優(yōu)勢。很多場景其實(shí)不是拍腦袋就能想出來的,只有用戶用起來,你才知道真實(shí)需求在哪里。

第四,組織架構(gòu)要非常靈活。今天在初創(chuàng)公司里,技術(shù)和產(chǎn)品的邊界已經(jīng)越來越模糊。很多產(chǎn)品本身也可以通過vibe coding去實(shí)現(xiàn)前端。組織不能按舊打法去運(yùn)轉(zhuǎn),而要像打牌一樣,根據(jù)對(duì)手和市場變化去調(diào)整出牌順序、組合方式,甚至要把原本以為是“王炸”的牌拆開來打。

但我覺得最大的好消息是,這個(gè)時(shí)代變化實(shí)在太快,沒人能保證今天做出來的產(chǎn)品三個(gè)月后依然有價(jià)值。在這樣一個(gè)高度內(nèi)卷、快速演化的環(huán)境里,每個(gè)人都有機(jī)會(huì),而不是只有大廠有機(jī)會(huì)。

Q:這兩天有個(gè)消息是Sora關(guān)停了。你先怎么看這件事?另外,國內(nèi)和海外在AI視頻模型上走法不太一樣,國內(nèi)更喜歡做完整平臺(tái),海外更偏重模型能力。你覺得哪種路線的壁壘會(huì)更長久?
姚霆:從我的角度看,第一,Sora 原來的想法還是做一個(gè)非常通用的視頻生成模型,但它和垂直領(lǐng)域應(yīng)用之間,在目前階段還是相對(duì)脫離的。再加上它天然也沒有和自身業(yè)務(wù)深度耦合的生態(tài),所以發(fā)生了現(xiàn)在的大調(diào)整。

第二,我覺得成本肯定是很大的原因。今天和互聯(lián)網(wǎng)時(shí)代不一樣,現(xiàn)在所有服務(wù)上線,背后其實(shí)都在持續(xù)跑大量GPU,燒 Token,成本是非常昂貴的。我們自己在做模型迭代的時(shí)候,一個(gè)非常重要的考慮因素就是最終推理成本。

這也是智象未來堅(jiān)持架構(gòu)創(chuàng)新的原因之一,通過架構(gòu)創(chuàng)新,如自回歸模型預(yù)先理解,DiT 僅需 5 步即可達(dá)成傳統(tǒng)百步生成的精細(xì)度 。我們可以將單位視頻的推理成本大幅壓縮至原來的 1/10。每個(gè)版本的迭代,我們都會(huì)圍繞推理成本做大量工作,因?yàn)槿绻辉诩軜?gòu)階段考慮這些問題,后面服務(wù)根本沒法大規(guī)模跑起來。

你提到國內(nèi)外路線的問題,我覺得國外很多團(tuán)隊(duì)對(duì)架構(gòu)創(chuàng)新的信心更高,國內(nèi)則會(huì)更強(qiáng)調(diào)商業(yè)化應(yīng)用。對(duì)我們來說,架構(gòu)創(chuàng)新是非常重要的底層能力,因?yàn)槲覀儽緛砭褪羌夹g(shù)出身。梅老師帶著我和潘博士在微軟的時(shí)候,就一直希望做世界上最好的模型。雖然當(dāng)時(shí)做的是理解,但競爭對(duì)手就是谷歌、Facebook、CMU、伯克利這些團(tuán)隊(duì),所以在我們的技術(shù)基因里,一直就有很強(qiáng)的模型架構(gòu)創(chuàng)新追求,我們從來沒有放棄模型上的創(chuàng)新。每次迭代,架構(gòu)創(chuàng)新始終是第一重要的事情。

Q:公司已經(jīng)成立快四年了,這些年AI行業(yè)發(fā)展非??臁,F(xiàn)在回頭看,整個(gè)行業(yè)的競爭格局和你們最初的預(yù)想差距大嗎?有哪些地方是超出計(jì)劃、和團(tuán)隊(duì)設(shè)想不一樣的?
姚霆:我覺得第一,很多事情其實(shí)是在預(yù)期之內(nèi)的。比如整個(gè)生成賽道、多模態(tài)大模型賽道的發(fā)展上限和發(fā)展速度,基本都在我們的判斷范圍內(nèi)。從早期的MidJourney,到Sora、Runway、可靈等,一路走下來,整體趨勢沒有偏離預(yù)判。包括技術(shù)路線,從Unet到DiT,再到自回歸與DiT融合,再到今天做全模態(tài),也都在我們的判斷之內(nèi),甚至有些時(shí)候我們還會(huì)處在相對(duì)領(lǐng)先的位置。

但也有一些超出預(yù)期的地方,我覺得更多是在產(chǎn)品層面的突破。比如以前大家會(huì)討論,我是不是應(yīng)該做偏寫作的工具,或者做OpenClaw、OPC這樣的東西。最近我們也會(huì)反過來思考,像OpenClaw這種模式的發(fā)展速度,以及它所代表的可能性,可能比很多人預(yù)想得都快。它會(huì)給我一些啟發(fā),讓我重新思考今天應(yīng)該怎樣去做一個(gè)創(chuàng)作型Agent。

比如現(xiàn)在大家都知道這類產(chǎn)品有安全問題,但我最近會(huì)想,為什么它會(huì)有安全問題?一個(gè)很核心的原因是,它和我共用一個(gè)載體。假設(shè)它是我的助理,它其實(shí)不應(yīng)該用我的手機(jī)替我發(fā)微信,它應(yīng)該有自己的“手機(jī)”,也就是自己的載體。如果它有自己的載體,也許沒有屏幕都沒關(guān)系,那么很多安全問題就會(huì)發(fā)生變化。也就是說,如果給OpenClaw這樣的系統(tǒng)一個(gè)適合它生長的新載體,它也許就能從co-worker走向co-creator。這個(gè)可能性,是超出我原來預(yù)期的。

Q:智象未來2026年最優(yōu)先級(jí)的戰(zhàn)略是什么?經(jīng)過四年發(fā)展,融資也到了新的輪次,投資人對(duì)智象未來的發(fā)展期待是什么?
姚霆:這是一個(gè)很大的問題。我覺得很多場景的爆發(fā)其實(shí)是帶有隨機(jī)性的,爆款本身也有隨機(jī)性。但從我的角度看,最優(yōu)先級(jí)的事情非常明確,就是建立一個(gè)端到端的創(chuàng)作智能體Agent平臺(tái)。

在這個(gè)平臺(tái)上,我們正在打造多個(gè)方向的“創(chuàng)作”智能體,包括個(gè)人創(chuàng)作、營銷相關(guān)創(chuàng)作,以及影視相關(guān)創(chuàng)作?,F(xiàn)在的思維模式和過去不太一樣。過去是分而治之,不同創(chuàng)作場景用不同工具;但接下來更可能變成“并而治之”,也就是底座統(tǒng)一,底層由Agent體系承接,上層再針對(duì)不同場景去實(shí)例化。

它的技術(shù)核心,就是一個(gè)全模態(tài)生成模型作為底座。這很像當(dāng)年做搜索引擎,你底下有海量網(wǎng)頁,而今天這些網(wǎng)頁變成了skills。關(guān)鍵問題變成,怎么在海量skills里找到最需要的信息,并把這些信息組合編排成好的Agent,再提供給上層服務(wù)。為什么我們引入“全模態(tài)”這個(gè)概念,就是因?yàn)槿绻P吞烊话盐谋?、圖像、視頻等模態(tài)打通了,那我只需要建一套索引,就可以處理所有模態(tài)的問題,也才能支持真正的端到端創(chuàng)作。不管用戶輸入什么,想得到什么,系統(tǒng)理論上都能夠完成。

1. 關(guān)于融資的問題,我們一直很順利,問題之后會(huì)有更多好消息與大家分享 。對(duì)于定位和估值,我們更看重估值背后的底層邏輯。支撐我們?nèi)谫Y順利的核心邏輯有三點(diǎn):1. 技術(shù)的持續(xù)領(lǐng)先與創(chuàng)新:不是曇花一現(xiàn),而是具備長期的創(chuàng)新后勁 。2. 產(chǎn)品價(jià)值的傳遞:能否真正為用戶創(chuàng)造價(jià)值,解決實(shí)際問題 。3. 商業(yè)化驗(yàn)證:在當(dāng)前階段,商業(yè)化成果是硬指標(biāo);而到了未來的C輪、D輪,則會(huì)進(jìn)一步考驗(yàn)規(guī)?;芰?。

總的來說,投資人看重的是智象未來在全模態(tài)技術(shù)上的深度積淀以及在生產(chǎn)力場景中的落地潛力,我們非常珍惜并看重投資人對(duì)我們的這種長期認(rèn)可. 

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

大模型不再只是生成:智象未來CTO姚霆談AI如何開始“完成”一個(gè)“創(chuàng)作”

分享:
相關(guān)文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說