0
| 本文作者: 二維馬曉寧 | 2025-03-04 16:26 |
DeepSeek 以迅雷不及掩耳之勢(shì)出圈后,中國(guó)大部分的大模型團(tuán)隊(duì)都被打得措手不及,只有一家公司因?yàn)榈讓蛹夹g(shù)和 AGI 思想路徑與 DeepSeek 相近而暫時(shí)“逃過(guò)一劫”,這家公司就是:面壁智能。
作為中國(guó)最早的一批大模型團(tuán)隊(duì)之一,面壁智能成立于 2022 年 8 月,其創(chuàng)始團(tuán)隊(duì)從 2021 年就主力參與北京智源人工智能研究院的大模型項(xiàng)目“悟道”,訓(xùn)練出多個(gè)百億、千億參數(shù)規(guī)模的大模型,并成立大模型開源社區(qū)OpenBMB,是國(guó)內(nèi)最早提出“平民版大模型”、最早促進(jìn)大模型開源事業(yè)的團(tuán)隊(duì)之一。
但意料之外、又情理之中的是,盡管團(tuán)隊(duì)技術(shù)實(shí)力出色、對(duì) AGI 的理解深刻,其在 2022 年到 2023 年大模型浪潮剛起、國(guó)內(nèi)純種大模型團(tuán)隊(duì)并不多時(shí),卻遭到冷落與誤解,未能吃到首輪紅利。
2023 年,面壁智能在訓(xùn)練出千億參數(shù)規(guī)模的基礎(chǔ)模型后,由于早期融資少、且在探索商業(yè)化時(shí)發(fā)現(xiàn)千億模型難以落地,戰(zhàn)略決定轉(zhuǎn)向訓(xùn)練參數(shù)規(guī)模更小、算力更低、但性能更強(qiáng)的端側(cè)模型——雖在國(guó)內(nèi)一批大模型創(chuàng)業(yè)團(tuán)中打出差異化,但也錯(cuò)過(guò)了諸如 DeepSeek V3 這樣在與 Llama 3、GPT-4 等同級(jí)別的基礎(chǔ)大模型上驗(yàn)證“更低成本訓(xùn)練更強(qiáng)模型”的勝利。
面壁的發(fā)展提供了大模型創(chuàng)業(yè)熱潮中的另一視角。當(dāng) ChatGPT 引爆市場(chǎng)熱情后,資本陷入對(duì)標(biāo) OpenAI 的狂熱,對(duì)強(qiáng)調(diào)技術(shù)創(chuàng)新的差異化路線反應(yīng)冷淡。這種認(rèn)知滯后揭示了中國(guó)科技投資的深層困境:在技術(shù)演進(jìn)曲線上,相比成為先驗(yàn)的引領(lǐng)者,資本往往成為后驗(yàn)的追隨者。
2024 年,多位投資者對(duì)面壁智能的評(píng)價(jià)是:“這個(gè)團(tuán)隊(duì)的技術(shù)很好,但就是給人的感覺太陽(yáng)春白雪,如果在國(guó)內(nèi)做 To B 的話,我不知道他們能否有團(tuán)隊(duì)去跟 B 端的客戶老大哥們勾肩搭背、抽煙喝酒。”
DeepSeek 在硅谷掀桌,以及國(guó)產(chǎn)動(dòng)漫電影《哪吒 2》的大熱,使得 2025 年被稱為是“理想主義者的勝利”。那么,大模型圈中的典型理想主義者面壁智能,是否也迎來(lái)了他們所想象的勝利?
事實(shí)上,AGI 比我們想得更大,勝利的到來(lái)也或許更遙遠(yuǎn)。
不久前,雷峰網(wǎng) AI 科技評(píng)論也與面壁智能的創(chuàng)始人、清華大學(xué)副教授劉知遠(yuǎn)博士進(jìn)行了一次深入交流,可以作為勾勒技術(shù)理想主義的一個(gè)典型畫像。在交談中,劉知遠(yuǎn)多次引用毛主席所著的《論持久戰(zhàn)》來(lái)解釋他們?cè)凇罢鲬?zhàn)” AGI 路上的一些思考。他認(rèn)為,AGI 的勝利需要戰(zhàn)略上的持久戰(zhàn)、戰(zhàn)術(shù)上的速?zèng)Q戰(zhàn)。
在劉知遠(yuǎn)看來(lái),大模型的技術(shù)還遠(yuǎn)遠(yuǎn)沒有收斂,反而是在加速前進(jìn)。AGI 是一場(chǎng)關(guān)于“智力”的持久戰(zhàn),真正的勝利不在于短期估值的高低,而在于能否實(shí)事求是地追尋理想主義。
站在 2025 年的門檻回望,面壁智能的歷程折射出中國(guó)創(chuàng)新生態(tài)的復(fù)雜圖景。資本市場(chǎng)的認(rèn)知滯后、技術(shù)路線的搖擺爭(zhēng)議、商業(yè)化與理想主義的碰撞,這些挑戰(zhàn)共同構(gòu)成了中國(guó)攀登 AGI 高峰的必經(jīng)之路。
以下是 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng)) AI科技評(píng)論 與劉知遠(yuǎn)的對(duì)話全文,為方便閱讀,進(jìn)行了不改變?cè)獾奈淖终{(diào)整。
1
AI 資本寒冬的親歷者
AI 科技評(píng)論:記得 2023 年5 月采訪跟您交流時(shí),您就提到面壁的成立初衷是做“平民版大模型”、讓 AGI 普惠。能否談?wù)劽姹诘某闪⒈尘埃?/p>
劉知遠(yuǎn):2021 年我們?cè)谥窃醋鐾甑谝话妗拔虻馈蹦P椭缶陀辛艘虡I(yè)化的想法,很重要的原因是:從技術(shù)來(lái)講,我們認(rèn)為大模型已經(jīng)找到了一種通用地從數(shù)據(jù)學(xué)習(xí)知識(shí)的方案,已經(jīng)在邁向通用智能了。對(duì)于接下來(lái)怎么做,當(dāng)時(shí)我有兩個(gè)判斷:
第一個(gè)判斷是 AI 已經(jīng)具有商業(yè)化的能力,具有實(shí)際應(yīng)用的成熟度了。
歷史上就有相似的案例,譬如說(shuō)搜索引擎:它的研究大概在上個(gè)世紀(jì)六七十年代就開始了,在相當(dāng)于長(zhǎng)的一段時(shí)間里面,主要是由實(shí)驗(yàn)室來(lái)開展研究,因?yàn)榧夹g(shù)還不成熟,不足以去進(jìn)行商業(yè)化的應(yīng)用。
但是到了上個(gè)世紀(jì) 90 年代末,雅虎和 Google 這樣的公司出現(xiàn),就意味著搜索引擎技術(shù)已經(jīng)具備了商業(yè)化的價(jià)值,也有了大規(guī)模應(yīng)用的可能性。
在這種情況下,如果研究人員還躲在實(shí)驗(yàn)室、躲在高校去做研究,那就一定不能夠站在這個(gè)領(lǐng)域的前沿去看問(wèn)題了,因?yàn)閱?wèn)題已經(jīng)轉(zhuǎn)移到了大規(guī)模應(yīng)用層面,只有在企業(yè)才能找到最前沿的問(wèn)題。
2000 年之前,搜索引擎最前沿的技術(shù)主要是由學(xué)術(shù)界來(lái)提出的;2000 年之后,這一領(lǐng)域絕大部分有影響力的技術(shù),就變成了主要是由 Google 等企業(yè)提出的。
AGI 從業(yè)者也應(yīng)該看到這樣一個(gè)變化。我覺得我要有這樣的自覺性,就是前沿的問(wèn)題在哪,我就要做什么樣的事。
第二個(gè)判斷就是,大模型的技術(shù)特點(diǎn)已經(jīng)跟之前的 AI 技術(shù)有相當(dāng)大的不同。
現(xiàn)在的大模型是一個(gè)系統(tǒng)工程,要有數(shù)據(jù)、要有底層架構(gòu)、要做模型設(shè)計(jì)、要做模型訓(xùn)練。這樣的一個(gè)系統(tǒng)工程已經(jīng)不是學(xué)校實(shí)驗(yàn)室的學(xué)生單打獨(dú)斗能完成的工作了。
結(jié)合這兩個(gè)判斷,在 2021 年,我們認(rèn)為一定要成立一家公司,才能夠在 AGI 時(shí)代做出更大的貢獻(xiàn)。當(dāng)時(shí)就拿到了智源和智譜的投資,在 2022 年 8 月份正式成立面壁智能、想訓(xùn)練平民版大模型。
AI 科技評(píng)論:但一開始的融資并不順利,很多 VC 不 buy in 這個(gè)觀點(diǎn)。
劉知遠(yuǎn):我們一開始在融資上確實(shí)有比較大的挑戰(zhàn),最早去見投資人的時(shí)候,很多人尚不了解大模型是什么東西,有什么用處。后面從 2022 年下半年到今天,經(jīng)歷了三個(gè)分水嶺,過(guò)程中我們的認(rèn)知和能力也發(fā)生飛速蛻變。
第一個(gè)分水嶺就是 2022 年底 ChatGPT 出來(lái)。
我印象比較深的是,春節(jié)前后,A 股上的大模型概念股火了一把,人人都在談?wù)?ChatGPT, 大機(jī)構(gòu)挨個(gè)探尋國(guó)內(nèi)大模型團(tuán)隊(duì),包括我們。
2023 年的上半年,大模型公司都在融資,業(yè)內(nèi)認(rèn)為大模型融資的窗口期可能就那么一兩月的時(shí)間。而當(dāng)時(shí)面壁團(tuán)隊(duì)還處在非常早期的狀態(tài),主要是實(shí)驗(yàn)室的幾個(gè)學(xué)生。那個(gè)時(shí)候大家對(duì)我們最大的 concern(顧慮點(diǎn))是,團(tuán)隊(duì)商業(yè)化經(jīng)驗(yàn)不是特別豐富。這個(gè)階段我們拿到了知乎的風(fēng)投,知乎 CTO 李大海也加入我們擔(dān)任 CEO,為我們補(bǔ)足了開辦大型公司的經(jīng)驗(yàn)。但當(dāng)時(shí)花了比較多的時(shí)間來(lái)安排大海加入面壁的事情,商業(yè)化團(tuán)隊(duì)的鋪墊,一定程度上延緩了融資的整個(gè)節(jié)奏,錯(cuò)過(guò)了投資人最上頭的時(shí)刻。
現(xiàn)在反過(guò)來(lái)看的話,即使當(dāng)時(shí)不是這些,我覺得可能也不會(huì)有大的改變,因?yàn)楫?dāng)時(shí)投資人更想去看國(guó)內(nèi)哪個(gè)團(tuán)隊(duì)的模型可以去對(duì)標(biāo) OpenAI,會(huì)把這個(gè)對(duì)標(biāo)作為評(píng)價(jià)的標(biāo)準(zhǔn)。而當(dāng)時(shí)我們的敘事,特別強(qiáng)調(diào)高效,強(qiáng)調(diào)以更低的成本去訓(xùn)練大模型,這個(gè)事情對(duì)于投資人來(lái)講是沒有感知的。
到 2023 年的下半年我們接著去融資,大概八九月份的時(shí)候,明顯的感覺到整個(gè)市場(chǎng)對(duì)于大模型的態(tài)度有一些變化了:大家覺得該投的已經(jīng)投了,再出手的意愿就沒有那么強(qiáng)烈了。等2024 年我們做出來(lái)了端側(cè)模型,在全球算是出圈了,一定程度上也加強(qiáng)了大家的信心,比之前順了很多。大概是因?yàn)槲覀冏龀鰜?lái)了一些能夠讓大家有體感的東西。
AI 科技評(píng)論:投資人當(dāng)時(shí)的主要質(zhì)疑點(diǎn)是什么?
劉知遠(yuǎn):不同階段可能會(huì)有不同的質(zhì)疑,可能大模型投資會(huì)有一些 Mismatch(匹配錯(cuò)位)。
譬如說(shuō)高效訓(xùn)練。這次 DeepSeek 出圈,所有的投資人和券商都在分析什么是 DeepSeek 取得成功的關(guān)鍵技術(shù),比如 MoE、流水線并行、FP8 之類,但其實(shí)我們?cè)缭?2023 年初就在說(shuō)我們擁有非常強(qiáng)大的大模型的并行計(jì)算能力、全流程的高效處理能力。
投資人他們可能也很苦,DeepSeek 做出來(lái)后、他們會(huì)比較能夠 get 到模型高效訓(xùn)練的重要意義;沒做出來(lái)之前,他們就只能從人才隊(duì)伍等各個(gè)方面去研判一個(gè)團(tuán)隊(duì)到底能不能投。
在兩年前,大家很難 get 到我們可以讓模型加速多少倍這件事有什么意義、從商業(yè)上說(shuō)具有什么價(jià)值。大家的問(wèn)題還是,你們這些技術(shù)到底該怎么去商業(yè)化、怎么賺錢,而不是想問(wèn),你們是不是像 OpenAI 那樣去推進(jìn) AGI,在 AGI 時(shí)代這些技術(shù)到底會(huì)有什么樣的重要價(jià)值或者意義?但一些有希望的團(tuán)隊(duì),在發(fā)展早期,可能還沒什么錢、沒什么資源的時(shí)候,還是更需要去爭(zhēng)取理解和支持。
AI 科技評(píng)論:現(xiàn)在(匹配錯(cuò)位)這個(gè)問(wèn)題被糾正了嗎?
劉知遠(yuǎn):客觀上來(lái)講,即使是在學(xué)術(shù)界,絕大部分人其實(shí)也不能把握技術(shù)發(fā)展的脈絡(luò)或者趨勢(shì),會(huì)更相信眼前已經(jīng)看到的這些現(xiàn)狀。但高價(jià)值的人、高價(jià)值的團(tuán)隊(duì)和產(chǎn)品,會(huì)通過(guò)時(shí)間的檢驗(yàn),最終收獲到能夠跟他們相匹配的一個(gè)價(jià)值。
2
大模型還在快速演進(jìn)
AI 科技評(píng)論:面壁不在“大模型六小虎”之中,會(huì)遺憾嗎?
劉知遠(yuǎn):從融資估值排位看,顯然就進(jìn)不去了(笑)。
AI 科技評(píng)論:DeepSeek也不屬于六小虎。
劉知遠(yuǎn):對(duì)。DeepSeek 出來(lái)后,我最近參加一些政府與學(xué)校的座談會(huì),大家也會(huì)討論為什么“DeepSeek”不是六小虎、或者大公司做出來(lái)的?
但是我說(shuō)實(shí)話,既然是風(fēng)險(xiǎn)投資,就要允許出錯(cuò),允許有各種各樣的探索,也不能因?yàn)?DeepSeek 火了就覺得六小虎都不行。也許他們過(guò)兩三個(gè)月也會(huì)做出一個(gè)特別厲害的東西。我覺得還是要保持寬容的心態(tài)。中國(guó)未來(lái)一定不會(huì)只有 DeepSeek 這一家創(chuàng)新的公司,所以我覺得不要讓大家有那么大的壓力,要互相學(xué)習(xí)、不斷進(jìn)步。
譬如2023 年,很多人會(huì)覺得 ChatGPT 就應(yīng)該是人工智能的最終形態(tài)了,只要國(guó)內(nèi)有公司能夠有實(shí)力把這樣的一個(gè)模型給做出來(lái),那它就是可以被投的——實(shí)際上并非如此。
AI 科技評(píng)論:那你覺得你們的競(jìng)爭(zhēng)優(yōu)勢(shì)是什么?
劉知遠(yuǎn):我在很多場(chǎng)合都強(qiáng)調(diào)過(guò),我們的競(jìng)爭(zhēng)優(yōu)勢(shì)就是,我們認(rèn)為大模型技術(shù)還在快速地演進(jìn),最先進(jìn)的技術(shù)要么是我們做出來(lái),要么是別人做出來(lái)之后、我們能夠把技術(shù)快速地融合到我們的體系中。
我們會(huì)覺得,有一個(gè)具有創(chuàng)新能力的團(tuán)隊(duì),能夠持續(xù)不斷地站在最前沿,看看未來(lái)的路到底該怎么走,這是我們的優(yōu)勢(shì)。但是這點(diǎn)并不被多數(shù)人 buy in,一些人會(huì)覺得大模型只需要足夠多的錢、買到足夠多的算力,就能做出來(lái),這顯然是不對(duì)的。
AI 科技評(píng)論:你們?cè)缙谝灿?xùn)練過(guò)千億大模型,但后來(lái)是因?yàn)槿谫Y不夠、才轉(zhuǎn)去訓(xùn)端側(cè)小模型的嗎?
劉知遠(yuǎn):2023 年下半年,我們做出了一個(gè) GPT-3.5 級(jí)別的千億大模型,但之后決定去做端側(cè)模型。這是因?yàn)楦鶕?jù)我當(dāng)時(shí)的研判,國(guó)內(nèi)的這些一線大模型團(tuán)隊(duì),只要他們?cè)敢?,那么他們一定是可以在未?lái)的半年之內(nèi),也就是2024 年的 4 ~ 6 月份之間實(shí)現(xiàn) GPT-4 水平的模型。后來(lái)事實(shí)上也是如此。
沿著這個(gè)趨勢(shì),就一定會(huì)出現(xiàn)價(jià)格戰(zhàn)。果然,DeepSeek 發(fā)布 V2 后 API 的價(jià)格非常低,其他團(tuán)隊(duì)不得不加入,進(jìn)一步地壓縮了所有團(tuán)隊(duì)的盈利空間。所以這條路本身是有問(wèn)題的——指望 OpenAI 做出一個(gè)東西,然后我們?cè)趪?guó)內(nèi)復(fù)現(xiàn),從而占據(jù)國(guó)內(nèi) OpenAI 的生態(tài)位,這個(gè)邏輯是不通的,主要原因有幾個(gè):
一是國(guó)內(nèi)能復(fù)現(xiàn)的團(tuán)隊(duì)其實(shí)非常多,所以一定會(huì)導(dǎo)致惡性競(jìng)爭(zhēng);二是我們認(rèn)為更重要的是前沿技術(shù)的原始創(chuàng)新,確保團(tuán)隊(duì)永遠(yuǎn)站在 AGI 技術(shù)發(fā)展的最前沿才是最關(guān)鍵的。大模型的技術(shù)其實(shí)還遠(yuǎn)遠(yuǎn)沒有收斂,反而是在加速前進(jìn),所以這個(gè)時(shí)候應(yīng)該是要花更多的精力,去組建一個(gè)高效協(xié)同的大模型團(tuán)隊(duì),這也是我們這兩年的主旋律。
作為前沿技術(shù)導(dǎo)向的創(chuàng)業(yè)團(tuán)隊(duì),我們的優(yōu)勢(shì)在創(chuàng)新,不應(yīng)該去做重復(fù)性的工作。我們內(nèi)部就總結(jié)了兩句話,一個(gè)是叫“走先人一步的路”,一個(gè)是叫“打以少勝多的仗”,就是得考慮多幾步,確保每一場(chǎng)仗都能夠打贏。
AI 科技評(píng)論:最早支持你們的資本都是什么類型、什么風(fēng)格的?
劉知遠(yuǎn):我覺得我們的投資人都會(huì)比較務(wù)實(shí),跟我們的氣質(zhì)都比較像。我們不會(huì)去講一個(gè)特別讓大家心潮澎湃的故事,而是會(huì)去說(shuō)如何一步一步地抵達(dá) AGI。
這個(gè)務(wù)實(shí)不是實(shí)用主義的意思,而是說(shuō)他們會(huì)比較實(shí)事求是地考慮相關(guān)的問(wèn)題。不論是知乎、華為哈勃這樣的公司投資者,還是春華資本這樣的財(cái)務(wù)投資方,都有類似的特點(diǎn)。
他們會(huì)更加務(wù)實(shí)地去考慮大模型往前走的這么一小步需要什么。模型提供的智力,就跟芯片提供的算力、電源提供的電力一樣,是未來(lái)人類社會(huì)的基本需求。我們就是要把模型做得集成度越來(lái)越高、成本越來(lái)越低、算力越來(lái)越強(qiáng),讓更多的人能夠用得上這種高質(zhì)量的智力。
朱嘯虎說(shuō)可能接下來(lái)就要進(jìn)入到應(yīng)用的階段了,但我覺得還遠(yuǎn)遠(yuǎn)沒有。應(yīng)用當(dāng)然值得做,但我會(huì)覺得, AGI 技術(shù)的收斂還遠(yuǎn)遠(yuǎn)沒有完成,至少需要 3 到 5 年的時(shí)間,才能讓我們把模型構(gòu)造得質(zhì)量足夠高,成本足夠低,真正讓每個(gè)人都能用得起。這應(yīng)該是未來(lái)的一個(gè)發(fā)展方向。
我們不能夠一會(huì)兒相信這樣、一會(huì)兒相信那樣,還是要有戰(zhàn)略定力在。
3
戰(zhàn)略是持久戰(zhàn)、戰(zhàn)術(shù)是速?zèng)Q戰(zhàn)
AI 科技評(píng)論:怎樣理解戰(zhàn)略定力?
劉知遠(yuǎn):這個(gè)寒假我把毛主席的《論持久戰(zhàn)》又仔細(xì)看了一遍。我覺得,也許每一場(chǎng)仗你可以有非常多不同的打法,但你的戰(zhàn)略應(yīng)該是不能夠有太大的變動(dòng)的,AGI 就是如此。
一會(huì)今天是這樣,一會(huì)明天是那樣,那就說(shuō)明你對(duì)這件事情其實(shí)還沒想透、還沒想明白。就像《論持久戰(zhàn)》里說(shuō)的,解放戰(zhàn)爭(zhēng)時(shí)期,有些人今天贏了一場(chǎng)仗就覺得中國(guó)要大勝、輸了一場(chǎng)仗覺得中國(guó)要完了。這些觀點(diǎn)在很多領(lǐng)域都是存在的。
AI 科技評(píng)論:既然你們之前已經(jīng)做出了一個(gè)千億模型,最終因?yàn)橘Y源問(wèn)題選擇了端側(cè)模型這樣一個(gè)更具差異化的道路。如果面壁有更多的資源,你會(huì)考慮重新訓(xùn)練一個(gè)大模型,去驗(yàn)證你們的高效能力和目前的技術(shù)路線嗎?
劉知遠(yuǎn):跟 DeepSeek 對(duì)照一下,如果回到 2023 年下半年,我們有足夠多的算力、足夠多的資源,我們要去做大模型,那我們一定是要去做一個(gè)足夠高效的大模型。
在那么多團(tuán)隊(duì)都能夠?qū)崿F(xiàn) GPT-4 水平的模型能力的前提下,我們要做差異化的競(jìng)爭(zhēng),就是把這個(gè)模型做得足夠小、足夠高效,讓它的成本足夠低。另一方面,這個(gè)模型要用在哪些特殊的場(chǎng)景,擁有哪些特殊的能力上,我們跟其他的模型要有截然不同的區(qū)別。
如果做的都是一樣的模型,顯然就是不對(duì)的。學(xué)我者生,像我者死。到了大模型階段,不能簡(jiǎn)單地靠資源、靠鋪量、靠投放去參與競(jìng)爭(zhēng),這么做沒辦法取得最終的勝利。
AI 科技評(píng)論:那做出一樣模型的這些公司,他們是戰(zhàn)略上誤判,還是不夠?qū)嵤虑笫牵?/p>
劉知遠(yuǎn):我倒是覺得不是什么戰(zhàn)略上的誤判,只是對(duì)未來(lái)沒有多想幾步,或者多想幾步之后仍然做出的當(dāng)時(shí)最優(yōu)決策。這個(gè)是一個(gè)很自然的決定,對(duì)吧?因?yàn)?OpenAI 就是這么做的。但那么多家做出來(lái)之后,事情一直在變化,仍然會(huì)面臨一些現(xiàn)實(shí)的新局面(如價(jià)格戰(zhàn))。
AI 科技評(píng)論:像面壁這樣做端側(cè)模型的公司,能迎來(lái)像 DeepSeek 這樣的大爆發(fā)嗎?端云兩條路,最終能走向殊途同歸嗎?
劉知遠(yuǎn):不管是做端側(cè)模型,還是做云側(cè)更大體量的模型,技術(shù)體系基本上是一致的,都是要做數(shù)據(jù)治理、架構(gòu)設(shè)計(jì)、學(xué)習(xí)的算法等。就像是端側(cè)芯片和服務(wù)器芯片,光刻機(jī)體系是一致的一樣。我們做端側(cè)模型,對(duì)相關(guān)算法創(chuàng)新、數(shù)據(jù)治理會(huì)提出更高的要求,所以端側(cè)模型應(yīng)該更難做。
邁向 AGI 時(shí)代,就意味著全社會(huì)的算力就是分布式的,既有端側(cè)算力,又有云側(cè)算力。如果我們有更多的資源和支持,顯然我們也應(yīng)該去布局服務(wù)器端的人工智能。我們要探索出一條把云側(cè)和端側(cè)的人工智更好協(xié)同的道路。
AI 科技評(píng)論:在過(guò)去兩年,投資人對(duì)你們商業(yè)化能力的質(zhì)疑有改善了嗎?
劉知遠(yuǎn):大海加入之后,2023 年的下半年,由大海來(lái)牽頭去進(jìn)行融資后,這個(gè)面的質(zhì)疑就幾乎沒有了。最近這半年我們?cè)诙藗?cè)上做得比較好,現(xiàn)在各大汽車廠商都有非常多的承諾,感覺大家比較認(rèn)可(我們)。
AI 科技評(píng)論:六小虎中,你覺得哪一家大模型公司能活到最后?
劉知遠(yuǎn):雖然剛才說(shuō)了大模型投資的一些問(wèn)題,但我覺得過(guò)去的兩年時(shí)間,我自己也收獲非常大?;仡檭赡昵?,如果我是投資人,可能我也不會(huì)投這個(gè)團(tuán)隊(duì),這兩年我們自主成長(zhǎng)還是挺大的。
我剛才提到了毛主席的《論持久戰(zhàn)》,文中的觀點(diǎn)是,因?yàn)槲曳椒鶈T遼闊,但是相對(duì)弱小,所以中國(guó)的抗日戰(zhàn)爭(zhēng)一定是一個(gè)內(nèi)線防御的持久戰(zhàn)。我們現(xiàn)在判斷 AGI 的到來(lái),可能需要未來(lái)五年到十年的時(shí)間,也是一個(gè)持久戰(zhàn)。
戰(zhàn)略上是持久戰(zhàn),但是在戰(zhàn)術(shù)上,具體到打每一場(chǎng)仗、每一個(gè)具體的戰(zhàn)役,則要去主動(dòng)進(jìn)攻,包圍敵人,打出外線進(jìn)攻的速?zèng)Q戰(zhàn)。要主動(dòng)選擇戰(zhàn)場(chǎng)和時(shí)間,把局部的敵人以絕地的優(yōu)勢(shì)殲滅掉。這里的戰(zhàn)略和戰(zhàn)術(shù)恰恰是辯證的相對(duì)關(guān)系。
對(duì)應(yīng)到我們創(chuàng)業(yè)上,面壁之前、包括現(xiàn)在來(lái)說(shuō)還相對(duì)比較弱,資源比較少,那我們?cè)趺催~向AGI?我不可能現(xiàn)在哭著求別人,說(shuō)因?yàn)槲矣?AGI 的夢(mèng)想,所以你們一定要來(lái)支持我們。大家投或不投,都是正常的,我們還是要堅(jiān)持實(shí)現(xiàn)我們的夢(mèng)想。這就跟抗日戰(zhàn)爭(zhēng)一樣,是一個(gè)持久戰(zhàn)的過(guò)程。我們要做到,打的每一場(chǎng)仗,都是一個(gè)主動(dòng)進(jìn)攻,做到速?zèng)Q,做到殲滅。
也就是說(shuō),我們選擇了端側(cè),那我們就一定是在端側(cè)上迅速打出我們的聲音,得到進(jìn)一步的壯大,然后再去打下一場(chǎng)仗。通過(guò)一場(chǎng)接一場(chǎng)戰(zhàn)術(shù)上的勝利,最終贏得戰(zhàn)略上的成功。
如果融資多,如果有一場(chǎng)仗打得不好,其實(shí)會(huì)有非常大的影響。我們這個(gè)小團(tuán)隊(duì)當(dāng)然更不容易,但是只要打得漂亮,就可以贏得更多的資源,進(jìn)一步發(fā)展壯大。如果我們處處防御,處處被動(dòng),顯然也迎不來(lái)最終的勝利。
AI 科技評(píng)論:抗日戰(zhàn)爭(zhēng)是有一個(gè)很明確的目標(biāo),就是把日本侵略者趕出中國(guó),這就是勝利的終點(diǎn)。對(duì)您來(lái)說(shuō) AGI 勝利的終點(diǎn)在哪?
劉知遠(yuǎn):2021 年,當(dāng)時(shí)我們?cè)谥窃吹闹С窒氯シ趸姹诘臅r(shí)候,我們就搞了一個(gè)開源社區(qū)叫 OpenBMB。當(dāng)時(shí)我們給 OpenBMB 提出的 Slogan 就是,讓大模型飛入千家萬(wàn)戶。經(jīng)過(guò)這兩三年的探索和發(fā)展,我們進(jìn)一步豐富了這個(gè)內(nèi)涵,我們要“智周萬(wàn)物”,把大模型放在距離用戶最近的地方。
我們最內(nèi)核的精神沒有變化,就是我們認(rèn)為 AGI 帶來(lái)的智能革命,其內(nèi)在要求就是要讓這個(gè)大模型質(zhì)量足夠高、成本足夠低,能夠讓每個(gè)人用得上、用得起大模型。這是我們的一個(gè)基本判斷。
因?yàn)橹悄芨锩€沒到來(lái),所以我們很難預(yù)期它到底會(huì)對(duì)整個(gè)社會(huì)形態(tài)產(chǎn)生什么樣的影響,但是我們可以從歷史上大概推演出一點(diǎn)遠(yuǎn)景。這個(gè)歷史就是過(guò)去 80 年,我們整個(gè)人類社會(huì)所經(jīng)歷的信息革命歷史。
上個(gè)世紀(jì) 40 年代計(jì)算機(jī)剛剛發(fā)明的時(shí)候,一臺(tái)大型計(jì)算機(jī)重 2.7 噸,一間屋子才能放得下。由于構(gòu)造這個(gè)大型機(jī)的成本極高,一般人根本用不上、也用不起,只有國(guó)家級(jí)別才能夠裝備得了這樣的一個(gè)大型機(jī)。當(dāng)時(shí)的 IBM 就是大型機(jī)的巨頭。IBM 的董事長(zhǎng) Watson 曾說(shuō)過(guò),這個(gè)世界上不需要超過(guò)五臺(tái)計(jì)算機(jī),原因就是當(dāng)時(shí)大型機(jī)實(shí)在太昂貴,也只能在非常少的重要場(chǎng)合發(fā)揮作用。難道我們會(huì)說(shuō),大型機(jī)的出現(xiàn),標(biāo)志著信息革命的出現(xiàn)嗎?顯然不會(huì)。
一場(chǎng)革命,一定是讓這個(gè)社會(huì)上的每個(gè)人都能感知到革命的到來(lái),這才是真正的革命。所以我們覺得,信息革命的標(biāo)志應(yīng)該是上個(gè)世紀(jì) 80 年代個(gè)人計(jì)算機(jī)的出現(xiàn),以及智能手機(jī)的普及,能夠讓我們每個(gè)人都用得上、用得起這些廉價(jià)的高質(zhì)量算力。
以此為參照來(lái)看的話,我們會(huì)發(fā)現(xiàn),英偉達(dá)也好、OpenAI 也好,階段性對(duì)大模型的判斷,就是要越訓(xùn)越大,越訓(xùn)越強(qiáng),我覺得它大概的歷史地位就跟當(dāng)年的大型機(jī)一樣。今天我們也需要大型機(jī),每個(gè)國(guó)家都會(huì)有超級(jí)計(jì)算機(jī)來(lái)做天氣預(yù)報(bào)、做科學(xué)計(jì)算,但這不是每個(gè)人都需要的。
我們需要那種超級(jí)大的大模型,智力足夠強(qiáng),甚至能擁有超人的智力。但是智能革命的標(biāo)志應(yīng)該是,我們能夠建立起足夠廉價(jià)的、足夠高質(zhì)量的、每個(gè)人專屬的 AI 模型。
也許有人會(huì)認(rèn)為,端側(cè)模型的市場(chǎng)份額不會(huì)很大,所以端側(cè)模型顯得不那么重要。真的嗎?我并不這么認(rèn)為,但我也不會(huì)嘗試用沒實(shí)現(xiàn)的東西說(shuō)服他們。
DeepSeek 給我們帶來(lái)的啟示就是,只有這個(gè)東西做出來(lái)了,被大家看到了,大家才能感知到它的革命性。所以我們要做的就是通過(guò)一場(chǎng)又一場(chǎng)的勝利,把這件事情做出來(lái),讓大家真正感受到我們內(nèi)心的愿景。
AI 科技評(píng)論:從大型機(jī)到小型機(jī),你覺得這個(gè)過(guò)程會(huì)需要多久?
劉知遠(yuǎn):我覺得 AI 的發(fā)展跟計(jì)算機(jī)的發(fā)展一樣,一開始肯定是大型機(jī),大型機(jī)做出來(lái)后,再開始做小型化,芯片做得越來(lái)越小、算力越來(lái)越強(qiáng)。大型機(jī)發(fā)展到了一定的階段之后,開始有人去考慮商業(yè)化到底該怎么做的時(shí)候,慢慢找到了做 PC(個(gè)人電腦)的路子。有一本書叫《硅谷之火》, 就是講 80 年代的這段故事。
從技術(shù)路徑上來(lái)講,大模型肯定是某一些能力得先有人能做出來(lái)、然后我們?cè)偃タ紤]它的小型化。DeepSeek V3 就是對(duì) GPT-4 能力的一個(gè)復(fù)現(xiàn),它做了GPT-4的效果,但是算力要低 1/10。這顯然是大模型“小型化”的一個(gè)表現(xiàn),對(duì)應(yīng)的 R1 也是非常出圈。
OpenAI 發(fā)布的 o1 也可以看成是高階推理的大型機(jī),未來(lái)一定是要小型化,變成低成本、高質(zhì)量的模型。整個(gè)發(fā)展路徑在我來(lái)看非常清晰。
我提過(guò)一個(gè)叫“Densing Law”的概念,類似于大模型領(lǐng)域的“摩爾定律”。我們發(fā)現(xiàn),從 2023 年到 2024 年這兩年,全球開源的大模型能力密度大概是每 100 天翻一倍。就是說(shuō),如果當(dāng)前我訓(xùn)練出一個(gè)模型、它具備 GPT-4 的水平能力,那么過(guò)了 100 天之后,只需要一半的參數(shù)我就可以實(shí)現(xiàn)這個(gè)能力。
去年 12 月初我們發(fā)布了 Densing Law,現(xiàn)在去看 DeepSeek V3 就是這個(gè)定律的完美證明。2024年4月18日發(fā)布的 Llama 3-405B 是 4000 億參數(shù),如果按照 Densing Law 估算,經(jīng)過(guò) 3 個(gè)周期(即300天)就可以用 500億 激活參數(shù)實(shí)現(xiàn)該能力,而 DeepSeekV3 發(fā)布于2024年12月底,全部參數(shù) 6700 億采用 MOE 架構(gòu)激活參數(shù)為 370億。
4
看向未來(lái):戰(zhàn)爭(zhēng)與人才
AI 科技評(píng)論:這個(gè)春節(jié) DeepSeek 贏得了一場(chǎng)很漂亮的戰(zhàn)役,我們接下來(lái)要贏得什么戰(zhàn)役?
劉知遠(yuǎn):其實(shí) DeepSeek 這場(chǎng)戰(zhàn)役還是一場(chǎng)比較大的戰(zhàn)役,因?yàn)樗耐度肫鋵?shí)還是非常高的,模型訓(xùn)練有幾千萬(wàn)人民幣的投入,更不用說(shuō)前期的人力、實(shí)驗(yàn)算力的投入,肯定是要十倍預(yù)期,所以我覺得這是一場(chǎng)幾個(gè)億的小型戰(zhàn)爭(zhēng)。
面壁在 2024 年已經(jīng)打過(guò)幾場(chǎng)比較漂亮的戰(zhàn)斗,我們發(fā)布了 MiniCPM、叫“小鋼炮”,在國(guó)內(nèi)外的聲譽(yù)很高。去年的《經(jīng)濟(jì)學(xué)人》和最近的《MIT Technology Review》,都提到我們的模型以及我們的團(tuán)隊(duì)。我覺得從我們當(dāng)前資源的角度來(lái)看,這場(chǎng)仗打得非常好。
接下來(lái)要打類似于 DeepSeek 這樣的仗,我覺得還需要通過(guò)更多的戰(zhàn)斗勝利,不斷擴(kuò)大我們的影響力,積累更多的資源。所以我們并不謀求馬上去得到這樣一場(chǎng)大勝,這個(gè)目標(biāo)比較遠(yuǎn)大?,F(xiàn)在面壁要把當(dāng)前的資源做到極致利用,實(shí)事求是地要求自己。
DeepSeek 的成功對(duì)于大模型創(chuàng)業(yè)團(tuán)隊(duì)是個(gè)巨大的鼓舞,當(dāng)一定的資源、優(yōu)秀的青年人才團(tuán)隊(duì)、AGI使命感,賦能于一個(gè)正確的領(lǐng)導(dǎo)者,賦能于一個(gè)正確的戰(zhàn)略方向、一件正確的事,可以爆發(fā)出驚人的威力。我們的內(nèi)在自我要求,是通過(guò)對(duì)大模型本質(zhì)規(guī)律的掌握,去成為那個(gè)正確團(tuán)隊(duì)、正確方向,做正確的事。世界的走向浩浩湯湯,國(guó)家也在投入大量的基金,我們正值一個(gè)重大的歷史機(jī)遇,一旦我們能夠獲得更多的資源,我們肯定能夠更完備地組建大模型團(tuán)隊(duì),瞄著 AGI 需要我們完成的階段性目標(biāo)進(jìn)行攻堅(jiān),做出我們的貢獻(xiàn)。
這次 DeepSeek R1 做出的高階推理能力本身就是邁向 AGI 的一個(gè)重要能力,此外還需要很多種能力,比如定制模態(tài)具身、AI 終端的群體智能等等,還有這么多仗要打,所以我們還是覺得很有信心。
AI 科技評(píng)論:2025 年才剛開始,這一波熱潮之后,你覺得國(guó)內(nèi)的大模型,會(huì)往哪幾個(gè)方向去發(fā)展?面壁想要在當(dāng)中扮演一個(gè)什么樣的推動(dòng)力量?
劉知遠(yuǎn):很難說(shuō)都會(huì)在 2025 年實(shí)現(xiàn),但是我覺得肯定還是會(huì)有很多值得期待的,一個(gè)是高階推理,肯定會(huì)在 2025 年持續(xù)地去改進(jìn)。DeepSeek R1 的技術(shù)方案以及工程化,在 2025 年還會(huì)有很多可以改進(jìn)的地方,可以讓它更加高效。
高階推理會(huì)成為一個(gè)非常重要的話題,但是民眾以及投資的興趣可以會(huì)發(fā)生快速的衰減,就像 ChatGPT 剛出來(lái)的時(shí)候,大家也都為之一振,覺得非常 Amazing,但是只過(guò)了半年,大家就已經(jīng)習(xí)以為常,覺得沒什么大不了的,特別是很多團(tuán)隊(duì)迅速跟上了之后。所以如果只看 2025 年的話,我覺得大概率在 6 月前后,國(guó)內(nèi)會(huì)有非常多的團(tuán)隊(duì)都能做到 R1 的水平,我們也會(huì)在端側(cè)實(shí)現(xiàn)這個(gè)能力。
高階推理之后,有多模態(tài)、有具身、有群體智能,有小型化、有終端智能、底層算力和硬件的深度融合等,依次為支撐產(chǎn)生各種各樣的創(chuàng)新應(yīng)用,這是未來(lái)兩到三年的主旋律。
今年哪個(gè)點(diǎn)上會(huì)有突破,這件事情可能很難預(yù)期,但是兩到三年我會(huì)覺得還是非常明確的。我們團(tuán)隊(duì)肯定堅(jiān)持要做的就是模型的小型化、高效化、低成本,別人用 500 億參數(shù)才能做的模型,我們就要努力用 100 億體量之內(nèi)做出來(lái),爭(zhēng)取盡快能放在終端上跑起來(lái),讓他真正地離用戶更近,這是我們的一個(gè)基本思維方式。
AI 科技評(píng)論:以一個(gè)人工智能老師的身份角色,你怎么看人才的識(shí)別、人才的發(fā)展培養(yǎng),并且將之和整個(gè)公司的執(zhí)行緊密配合起來(lái)呢?
劉知遠(yuǎn):還是回到毛主席的《論持久戰(zhàn)》上來(lái)。其實(shí)戰(zhàn)略的重要意義就是要讓大家相信,戰(zhàn)略是用來(lái)統(tǒng)一思想的。我們相信抗日戰(zhàn)爭(zhēng)是一個(gè)通過(guò)持久戰(zhàn)可以達(dá)成的目標(biāo),這是我們統(tǒng)一全國(guó)人民思想的重要目標(biāo),軍民全體都為之而奮斗努力,大家才能更加主動(dòng)把每一場(chǎng)仗都打好。
我們以 AGI 為目標(biāo),去創(chuàng)建一家公司,顯然是要有一個(gè)非常清晰的、明確的、持久的戰(zhàn)略意圖。我們提到的 AI 終端、Densing Law、對(duì)端側(cè)大模型的預(yù)期、以及信息革命和智能革命的類比,其實(shí)都是希望能夠讓整個(gè)團(tuán)隊(duì)有一個(gè)清晰的戰(zhàn)略共識(shí)。只有這樣,大家才能達(dá)到高度協(xié)同,將來(lái)去打每一個(gè)具體的仗的時(shí)候,他就會(huì)知道,這場(chǎng)仗的目的是什么,有什么意義。如果我們?cè)趹?zhàn)略上反復(fù)橫跳,不僅投資人無(wú)所適從,整個(gè)團(tuán)隊(duì)都會(huì)人心渙散。
AGI 和光刻機(jī)一樣,是一個(gè)非常復(fù)雜的系統(tǒng)工具,需要大團(tuán)隊(duì)協(xié)作的組織模式,光靠組織創(chuàng)新可能很難做到,創(chuàng)業(yè)公司還是得讓大家思想上非常統(tǒng)一,目標(biāo)一致,才能做好協(xié)同的工作。
AI科技評(píng)論:那這些人才是哪來(lái)的?應(yīng)該從大廠挖,還是自己培養(yǎng)?
劉知遠(yuǎn):我是從 2013 年開始帶研究生,到今天應(yīng)該差不多十年的時(shí)間了。這么多年來(lái),我最大的感受就是,人的潛力是非常非常巨大的。如果你讓他掌握了一些知識(shí),讓他建立了一些自信,給他找到了一個(gè)讓他發(fā)自內(nèi)心幸福的目標(biāo),那么他的這個(gè)潛力一旦迸發(fā)出來(lái),力量是非常非常大的。
我認(rèn)為,如果是從大廠去挖那么兩三個(gè)人,這兩三個(gè)人只是見過(guò)的東西多一點(diǎn)、能力好像稍微出眾一點(diǎn),而本身在目標(biāo)上沒有那么地堅(jiān)定,不把 AGI 作為他的奮斗目標(biāo),那他也沒有那么強(qiáng)的動(dòng)力去做相關(guān)的工作。所以我不覺得我們應(yīng)該把主要精力放在挖人上。
我們要做的就是把大家的潛力挖掘出來(lái),把動(dòng)力激發(fā)出來(lái),一旦激發(fā)出來(lái),他們的能力就會(huì)發(fā)生裂變,像原子彈一樣迸發(fā)出非常強(qiáng)大的能量。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。