獨家對話劉知遠：AGI 是一場技術(shù)理想與商業(yè)現(xiàn)實的「持久戰(zhàn)」

本文作者：二維馬曉寧

2025-03-04 16:26

導(dǎo)語：這是一個與「朱嘯虎們」相反的 AGI 敘事。

DeepSeek 以迅雷不及掩耳之勢出圈后，中國大部分的大模型團隊都被打得措手不及，只有一家公司因為底層技術(shù)和 AGI 思想路徑與 DeepSeek 相近而暫時“逃過一劫”，這家公司就是：面壁智能。

作為中國最早的一批大模型團隊之一，面壁智能成立于 2022 年 8 月，其創(chuàng)始團隊從 2021 年就主力參與北京智源人工智能研究院的大模型項目“悟道”，訓(xùn)練出多個百億、千億參數(shù)規(guī)模的大模型，并成立大模型開源社區(qū)OpenBMB，是國內(nèi)最早提出“平民版大模型”、最早促進大模型開源事業(yè)的團隊之一。

但意料之外、又情理之中的是，盡管團隊技術(shù)實力出色、對 AGI 的理解深刻，其在 2022 年到 2023 年大模型浪潮剛起、國內(nèi)純種大模型團隊并不多時，卻遭到冷落與誤解，未能吃到首輪紅利。

2023 年，面壁智能在訓(xùn)練出千億參數(shù)規(guī)模的基礎(chǔ)模型后，由于早期融資少、且在探索商業(yè)化時發(fā)現(xiàn)千億模型難以落地，戰(zhàn)略決定轉(zhuǎn)向訓(xùn)練參數(shù)規(guī)模更小、算力更低、但性能更強的端側(cè)模型——雖在國內(nèi)一批大模型創(chuàng)業(yè)團中打出差異化，但也錯過了諸如 DeepSeek V3 這樣在與 Llama 3、GPT-4 等同級別的基礎(chǔ)大模型上驗證“更低成本訓(xùn)練更強模型”的勝利。

面壁的發(fā)展提供了大模型創(chuàng)業(yè)熱潮中的另一視角。當(dāng) ChatGPT 引爆市場熱情后，資本陷入對標(biāo) OpenAI 的狂熱，對強調(diào)技術(shù)創(chuàng)新的差異化路線反應(yīng)冷淡。這種認知滯后揭示了中國科技投資的深層困境：在技術(shù)演進曲線上，相比成為先驗的引領(lǐng)者，資本往往成為后驗的追隨者。

2024 年，多位投資者對面壁智能的評價是：“這個團隊的技術(shù)很好，但就是給人的感覺太陽春白雪，如果在國內(nèi)做 To B 的話，我不知道他們能否有團隊去跟 B 端的客戶老大哥們勾肩搭背、抽煙喝酒。”

DeepSeek 在硅谷掀桌，以及國產(chǎn)動漫電影《哪吒 2》的大熱，使得 2025 年被稱為是“理想主義者的勝利”。那么，大模型圈中的典型理想主義者面壁智能，是否也迎來了他們所想象的勝利？

事實上，AGI 比我們想得更大，勝利的到來也或許更遙遠。

不久前，雷峰網(wǎng)(公眾號：雷峰網(wǎng)) AI 科技評論也與面壁智能的創(chuàng)始人、清華大學(xué)副教授劉知遠博士進行了一次深入交流，可以作為勾勒技術(shù)理想主義的一個典型畫像。在交談中，劉知遠多次引用毛主席所著的《論持久戰(zhàn)》來解釋他們在“征戰(zhàn)” AGI 路上的一些思考。他認為，AGI 的勝利需要戰(zhàn)略上的持久戰(zhàn)、戰(zhàn)術(shù)上的速決戰(zhàn)。

在劉知遠看來，大模型的技術(shù)還遠遠沒有收斂，反而是在加速前進。AGI 是一場關(guān)于“智力”的持久戰(zhàn)，真正的勝利不在于短期估值的高低，而在于能否實事求是地追尋理想主義。

站在 2025 年的門檻回望，面壁智能的歷程折射出中國創(chuàng)新生態(tài)的復(fù)雜圖景。資本市場的認知滯后、技術(shù)路線的搖擺爭議、商業(yè)化與理想主義的碰撞，這些挑戰(zhàn)共同構(gòu)成了中國攀登 AGI 高峰的必經(jīng)之路。

以下是雷峰網(wǎng) AI科技評論與劉知遠的對話全文，為方便閱讀，進行了不改變原意的文字調(diào)整。

1
AI 資本寒冬的親歷者

AI 科技評論：記得 2023 年5 月采訪跟您交流時，您就提到面壁的成立初衷是做“平民版大模型”、讓 AGI 普惠。能否談?wù)劽姹诘某闪⒈尘埃?/p>

劉知遠：2021 年我們在智源做完第一版“悟道”模型之后就有了要商業(yè)化的想法，很重要的原因是：從技術(shù)來講，我們認為大模型已經(jīng)找到了一種通用地從數(shù)據(jù)學(xué)習(xí)知識的方案，已經(jīng)在邁向通用智能了。對于接下來怎么做，當(dāng)時我有兩個判斷：

第一個判斷是 AI 已經(jīng)具有商業(yè)化的能力，具有實際應(yīng)用的成熟度了。

歷史上就有相似的案例，譬如說搜索引擎：它的研究大概在上個世紀六七十年代就開始了，在相當(dāng)于長的一段時間里面，主要是由實驗室來開展研究，因為技術(shù)還不成熟，不足以去進行商業(yè)化的應(yīng)用。

但是到了上個世紀 90 年代末，雅虎和 Google 這樣的公司出現(xiàn)，就意味著搜索引擎技術(shù)已經(jīng)具備了商業(yè)化的價值，也有了大規(guī)模應(yīng)用的可能性。

在這種情況下，如果研究人員還躲在實驗室、躲在高校去做研究，那就一定不能夠站在這個領(lǐng)域的前沿去看問題了，因為問題已經(jīng)轉(zhuǎn)移到了大規(guī)模應(yīng)用層面，只有在企業(yè)才能找到最前沿的問題。

2000 年之前，搜索引擎最前沿的技術(shù)主要是由學(xué)術(shù)界來提出的；2000 年之后，這一領(lǐng)域絕大部分有影響力的技術(shù)，就變成了主要是由 Google 等企業(yè)提出的。

AGI 從業(yè)者也應(yīng)該看到這樣一個變化。我覺得我要有這樣的自覺性，就是前沿的問題在哪，我就要做什么樣的事。

第二個判斷就是，大模型的技術(shù)特點已經(jīng)跟之前的 AI 技術(shù)有相當(dāng)大的不同。

現(xiàn)在的大模型是一個系統(tǒng)工程，要有數(shù)據(jù)、要有底層架構(gòu)、要做模型設(shè)計、要做模型訓(xùn)練。這樣的一個系統(tǒng)工程已經(jīng)不是學(xué)校實驗室的學(xué)生單打獨斗能完成的工作了。

結(jié)合這兩個判斷，在 2021 年，我們認為一定要成立一家公司，才能夠在 AGI 時代做出更大的貢獻。當(dāng)時就拿到了智源和智譜的投資，在 2022 年 8 月份正式成立面壁智能、想訓(xùn)練平民版大模型。

AI 科技評論：但一開始的融資并不順利，很多 VC 不 buy in 這個觀點。

劉知遠：我們一開始在融資上確實有比較大的挑戰(zhàn)，最早去見投資人的時候，很多人尚不了解大模型是什么東西，有什么用處。后面從 2022 年下半年到今天，經(jīng)歷了三個分水嶺，過程中我們的認知和能力也發(fā)生飛速蛻變。

第一個分水嶺就是 2022 年底 ChatGPT 出來。

我印象比較深的是，春節(jié)前后，A 股上的大模型概念股火了一把，人人都在談?wù)?ChatGPT, 大機構(gòu)挨個探尋國內(nèi)大模型團隊，包括我們。

2023 年的上半年，大模型公司都在融資，業(yè)內(nèi)認為大模型融資的窗口期可能就那么一兩月的時間。而當(dāng)時面壁團隊還處在非常早期的狀態(tài)，主要是實驗室的幾個學(xué)生。那個時候大家對我們最大的 concern（顧慮點）是，團隊商業(yè)化經(jīng)驗不是特別豐富。這個階段我們拿到了知乎的風(fēng)投，知乎 CTO 李大海也加入我們擔(dān)任 CEO，為我們補足了開辦大型公司的經(jīng)驗。但當(dāng)時花了比較多的時間來安排大海加入面壁的事情，商業(yè)化團隊的鋪墊，一定程度上延緩了融資的整個節(jié)奏，錯過了投資人最上頭的時刻。

現(xiàn)在反過來看的話，即使當(dāng)時不是這些，我覺得可能也不會有大的改變，因為當(dāng)時投資人更想去看國內(nèi)哪個團隊的模型可以去對標(biāo) OpenAI，會把這個對標(biāo)作為評價的標(biāo)準(zhǔn)。而當(dāng)時我們的敘事，特別強調(diào)高效，強調(diào)以更低的成本去訓(xùn)練大模型，這個事情對于投資人來講是沒有感知的。

到 2023 年的下半年我們接著去融資，大概八九月份的時候，明顯的感覺到整個市場對于大模型的態(tài)度有一些變化了：大家覺得該投的已經(jīng)投了，再出手的意愿就沒有那么強烈了。等2024 年我們做出來了端側(cè)模型，在全球算是出圈了，一定程度上也加強了大家的信心，比之前順了很多。大概是因為我們做出來了一些能夠讓大家有體感的東西。

AI 科技評論：投資人當(dāng)時的主要質(zhì)疑點是什么？

劉知遠：不同階段可能會有不同的質(zhì)疑，可能大模型投資會有一些 Mismatch（匹配錯位）。

譬如說高效訓(xùn)練。這次 DeepSeek 出圈，所有的投資人和券商都在分析什么是 DeepSeek 取得成功的關(guān)鍵技術(shù)，比如 MoE、流水線并行、FP8 之類，但其實我們早在 2023 年初就在說我們擁有非常強大的大模型的并行計算能力、全流程的高效處理能力。

投資人他們可能也很苦，DeepSeek 做出來后、他們會比較能夠 get 到模型高效訓(xùn)練的重要意義；沒做出來之前，他們就只能從人才隊伍等各個方面去研判一個團隊到底能不能投。

在兩年前，大家很難 get 到我們可以讓模型加速多少倍這件事有什么意義、從商業(yè)上說具有什么價值。大家的問題還是，你們這些技術(shù)到底該怎么去商業(yè)化、怎么賺錢，而不是想問，你們是不是像 OpenAI 那樣去推進 AGI，在 AGI 時代這些技術(shù)到底會有什么樣的重要價值或者意義？但一些有希望的團隊，在發(fā)展早期，可能還沒什么錢、沒什么資源的時候，還是更需要去爭取理解和支持。

AI 科技評論：現(xiàn)在（匹配錯位）這個問題被糾正了嗎？

劉知遠：客觀上來講，即使是在學(xué)術(shù)界，絕大部分人其實也不能把握技術(shù)發(fā)展的脈絡(luò)或者趨勢，會更相信眼前已經(jīng)看到的這些現(xiàn)狀。但高價值的人、高價值的團隊和產(chǎn)品，會通過時間的檢驗，最終收獲到能夠跟他們相匹配的一個價值。

2
大模型還在快速演進

AI 科技評論：面壁不在“大模型六小虎”之中，會遺憾嗎？

劉知遠：從融資估值排位看，顯然就進不去了（笑）。

AI 科技評論：DeepSeek也不屬于六小虎。

劉知遠：對。DeepSeek 出來后，我最近參加一些政府與學(xué)校的座談會，大家也會討論為什么“DeepSeek”不是六小虎、或者大公司做出來的？

但是我說實話，既然是風(fēng)險投資，就要允許出錯，允許有各種各樣的探索，也不能因為 DeepSeek 火了就覺得六小虎都不行。也許他們過兩三個月也會做出一個特別厲害的東西。我覺得還是要保持寬容的心態(tài)。中國未來一定不會只有 DeepSeek 這一家創(chuàng)新的公司，所以我覺得不要讓大家有那么大的壓力，要互相學(xué)習(xí)、不斷進步。

譬如2023 年，很多人會覺得 ChatGPT 就應(yīng)該是人工智能的最終形態(tài)了，只要國內(nèi)有公司能夠有實力把這樣的一個模型給做出來，那它就是可以被投的——實際上并非如此。

AI 科技評論：那你覺得你們的競爭優(yōu)勢是什么？

劉知遠：我在很多場合都強調(diào)過，我們的競爭優(yōu)勢就是，我們認為大模型技術(shù)還在快速地演進，最先進的技術(shù)要么是我們做出來，要么是別人做出來之后、我們能夠把技術(shù)快速地融合到我們的體系中。

我們會覺得，有一個具有創(chuàng)新能力的團隊，能夠持續(xù)不斷地站在最前沿，看看未來的路到底該怎么走，這是我們的優(yōu)勢。但是這點并不被多數(shù)人 buy in，一些人會覺得大模型只需要足夠多的錢、買到足夠多的算力，就能做出來，這顯然是不對的。

AI 科技評論：你們早期也訓(xùn)練過千億大模型，但后來是因為融資不夠、才轉(zhuǎn)去訓(xùn)端側(cè)小模型的嗎？

劉知遠：2023 年下半年，我們做出了一個 GPT-3.5 級別的千億大模型，但之后決定去做端側(cè)模型。這是因為根據(jù)我當(dāng)時的研判，國內(nèi)的這些一線大模型團隊，只要他們愿意，那么他們一定是可以在未來的半年之內(nèi)，也就是2024 年的 4 ~ 6 月份之間實現(xiàn) GPT-4 水平的模型。后來事實上也是如此。

沿著這個趨勢，就一定會出現(xiàn)價格戰(zhàn)。果然，DeepSeek 發(fā)布 V2 后 API 的價格非常低，其他團隊不得不加入，進一步地壓縮了所有團隊的盈利空間。所以這條路本身是有問題的——指望 OpenAI 做出一個東西，然后我們在國內(nèi)復(fù)現(xiàn)，從而占據(jù)國內(nèi) OpenAI 的生態(tài)位，這個邏輯是不通的，主要原因有幾個：

一是國內(nèi)能復(fù)現(xiàn)的團隊其實非常多，所以一定會導(dǎo)致惡性競爭；二是我們認為更重要的是前沿技術(shù)的原始創(chuàng)新，確保團隊永遠站在 AGI 技術(shù)發(fā)展的最前沿才是最關(guān)鍵的。大模型的技術(shù)其實還遠遠沒有收斂，反而是在加速前進，所以這個時候應(yīng)該是要花更多的精力，去組建一個高效協(xié)同的大模型團隊，這也是我們這兩年的主旋律。

作為前沿技術(shù)導(dǎo)向的創(chuàng)業(yè)團隊，我們的優(yōu)勢在創(chuàng)新，不應(yīng)該去做重復(fù)性的工作。我們內(nèi)部就總結(jié)了兩句話，一個是叫“走先人一步的路”，一個是叫“打以少勝多的仗”，就是得考慮多幾步，確保每一場仗都能夠打贏。

AI 科技評論：最早支持你們的資本都是什么類型、什么風(fēng)格的？

劉知遠：我覺得我們的投資人都會比較務(wù)實，跟我們的氣質(zhì)都比較像。我們不會去講一個特別讓大家心潮澎湃的故事，而是會去說如何一步一步地抵達 AGI。

這個務(wù)實不是實用主義的意思，而是說他們會比較實事求是地考慮相關(guān)的問題。不論是知乎、華為哈勃這樣的公司投資者，還是春華資本這樣的財務(wù)投資方，都有類似的特點。

他們會更加務(wù)實地去考慮大模型往前走的這么一小步需要什么。模型提供的智力，就跟芯片提供的算力、電源提供的電力一樣，是未來人類社會的基本需求。我們就是要把模型做得集成度越來越高、成本越來越低、算力越來越強，讓更多的人能夠用得上這種高質(zhì)量的智力。

朱嘯虎說可能接下來就要進入到應(yīng)用的階段了，但我覺得還遠遠沒有。應(yīng)用當(dāng)然值得做，但我會覺得， AGI 技術(shù)的收斂還遠遠沒有完成，至少需要 3 到 5 年的時間，才能讓我們把模型構(gòu)造得質(zhì)量足夠高，成本足夠低，真正讓每個人都能用得起。這應(yīng)該是未來的一個發(fā)展方向。

我們不能夠一會兒相信這樣、一會兒相信那樣，還是要有戰(zhàn)略定力在。

3
戰(zhàn)略是持久戰(zhàn)、戰(zhàn)術(shù)是速決戰(zhàn)

AI 科技評論：怎樣理解戰(zhàn)略定力？

劉知遠：這個寒假我把毛主席的《論持久戰(zhàn)》又仔細看了一遍。我覺得，也許每一場仗你可以有非常多不同的打法，但你的戰(zhàn)略應(yīng)該是不能夠有太大的變動的，AGI 就是如此。

一會今天是這樣，一會明天是那樣，那就說明你對這件事情其實還沒想透、還沒想明白。就像《論持久戰(zhàn)》里說的，解放戰(zhàn)爭時期，有些人今天贏了一場仗就覺得中國要大勝、輸了一場仗覺得中國要完了。這些觀點在很多領(lǐng)域都是存在的。

AI 科技評論：既然你們之前已經(jīng)做出了一個千億模型，最終因為資源問題選擇了端側(cè)模型這樣一個更具差異化的道路。如果面壁有更多的資源，你會考慮重新訓(xùn)練一個大模型，去驗證你們的高效能力和目前的技術(shù)路線嗎？

劉知遠：跟 DeepSeek 對照一下，如果回到 2023 年下半年，我們有足夠多的算力、足夠多的資源，我們要去做大模型，那我們一定是要去做一個足夠高效的大模型。

在那么多團隊都能夠?qū)崿F(xiàn) GPT-4 水平的模型能力的前提下，我們要做差異化的競爭，就是把這個模型做得足夠小、足夠高效，讓它的成本足夠低。另一方面，這個模型要用在哪些特殊的場景，擁有哪些特殊的能力上，我們跟其他的模型要有截然不同的區(qū)別。

如果做的都是一樣的模型，顯然就是不對的。學(xué)我者生，像我者死。到了大模型階段，不能簡單地靠資源、靠鋪量、靠投放去參與競爭，這么做沒辦法取得最終的勝利。

AI 科技評論：那做出一樣模型的這些公司，他們是戰(zhàn)略上誤判，還是不夠?qū)嵤虑笫牵?/p>

劉知遠：我倒是覺得不是什么戰(zhàn)略上的誤判，只是對未來沒有多想幾步，或者多想幾步之后仍然做出的當(dāng)時最優(yōu)決策。這個是一個很自然的決定，對吧？因為 OpenAI 就是這么做的。但那么多家做出來之后，事情一直在變化，仍然會面臨一些現(xiàn)實的新局面（如價格戰(zhàn)）。

AI 科技評論：像面壁這樣做端側(cè)模型的公司，能迎來像 DeepSeek 這樣的大爆發(fā)嗎？端云兩條路，最終能走向殊途同歸嗎？

劉知遠：不管是做端側(cè)模型，還是做云側(cè)更大體量的模型，技術(shù)體系基本上是一致的，都是要做數(shù)據(jù)治理、架構(gòu)設(shè)計、學(xué)習(xí)的算法等。就像是端側(cè)芯片和服務(wù)器芯片，光刻機體系是一致的一樣。我們做端側(cè)模型，對相關(guān)算法創(chuàng)新、數(shù)據(jù)治理會提出更高的要求，所以端側(cè)模型應(yīng)該更難做。

邁向 AGI 時代，就意味著全社會的算力就是分布式的，既有端側(cè)算力，又有云側(cè)算力。如果我們有更多的資源和支持，顯然我們也應(yīng)該去布局服務(wù)器端的人工智能。我們要探索出一條把云側(cè)和端側(cè)的人工智更好協(xié)同的道路。

AI 科技評論：在過去兩年，投資人對你們商業(yè)化能力的質(zhì)疑有改善了嗎？

劉知遠：大海加入之后，2023 年的下半年，由大海來牽頭去進行融資后，這個面的質(zhì)疑就幾乎沒有了。最近這半年我們在端側(cè)上做得比較好，現(xiàn)在各大汽車廠商都有非常多的承諾，感覺大家比較認可（我們）。

AI 科技評論：六小虎中，你覺得哪一家大模型公司能活到最后？

劉知遠：雖然剛才說了大模型投資的一些問題，但我覺得過去的兩年時間，我自己也收獲非常大。回顧兩年前，如果我是投資人，可能我也不會投這個團隊，這兩年我們自主成長還是挺大的。

我剛才提到了毛主席的《論持久戰(zhàn)》，文中的觀點是，因為我方幅員遼闊，但是相對弱小，所以中國的抗日戰(zhàn)爭一定是一個內(nèi)線防御的持久戰(zhàn)。我們現(xiàn)在判斷 AGI 的到來，可能需要未來五年到十年的時間，也是一個持久戰(zhàn)。

戰(zhàn)略上是持久戰(zhàn)，但是在戰(zhàn)術(shù)上，具體到打每一場仗、每一個具體的戰(zhàn)役，則要去主動進攻，包圍敵人，打出外線進攻的速決戰(zhàn)。要主動選擇戰(zhàn)場和時間，把局部的敵人以絕地的優(yōu)勢殲滅掉。這里的戰(zhàn)略和戰(zhàn)術(shù)恰恰是辯證的相對關(guān)系。

對應(yīng)到我們創(chuàng)業(yè)上，面壁之前、包括現(xiàn)在來說還相對比較弱，資源比較少，那我們怎么邁向AGI？我不可能現(xiàn)在哭著求別人，說因為我有 AGI 的夢想，所以你們一定要來支持我們。大家投或不投，都是正常的，我們還是要堅持實現(xiàn)我們的夢想。這就跟抗日戰(zhàn)爭一樣，是一個持久戰(zhàn)的過程。我們要做到，打的每一場仗，都是一個主動進攻，做到速決，做到殲滅。

也就是說，我們選擇了端側(cè)，那我們就一定是在端側(cè)上迅速打出我們的聲音，得到進一步的壯大，然后再去打下一場仗。通過一場接一場戰(zhàn)術(shù)上的勝利，最終贏得戰(zhàn)略上的成功。

如果融資多，如果有一場仗打得不好，其實會有非常大的影響。我們這個小團隊當(dāng)然更不容易，但是只要打得漂亮，就可以贏得更多的資源，進一步發(fā)展壯大。如果我們處處防御，處處被動，顯然也迎不來最終的勝利。

AI 科技評論：抗日戰(zhàn)爭是有一個很明確的目標(biāo)，就是把日本侵略者趕出中國，這就是勝利的終點。對您來說 AGI 勝利的終點在哪？

劉知遠：2021 年，當(dāng)時我們在智源的支持下去孵化面壁的時候，我們就搞了一個開源社區(qū)叫 OpenBMB。當(dāng)時我們給 OpenBMB 提出的 Slogan 就是，讓大模型飛入千家萬戶。經(jīng)過這兩三年的探索和發(fā)展，我們進一步豐富了這個內(nèi)涵，我們要“智周萬物”，把大模型放在距離用戶最近的地方。

我們最內(nèi)核的精神沒有變化，就是我們認為 AGI 帶來的智能革命，其內(nèi)在要求就是要讓這個大模型質(zhì)量足夠高、成本足夠低，能夠讓每個人用得上、用得起大模型。這是我們的一個基本判斷。

因為智能革命還沒到來，所以我們很難預(yù)期它到底會對整個社會形態(tài)產(chǎn)生什么樣的影響，但是我們可以從歷史上大概推演出一點遠景。這個歷史就是過去 80 年，我們整個人類社會所經(jīng)歷的信息革命歷史。

上個世紀 40 年代計算機剛剛發(fā)明的時候，一臺大型計算機重 2.7 噸，一間屋子才能放得下。由于構(gòu)造這個大型機的成本極高，一般人根本用不上、也用不起，只有國家級別才能夠裝備得了這樣的一個大型機。當(dāng)時的 IBM 就是大型機的巨頭。IBM 的董事長 Watson 曾說過，這個世界上不需要超過五臺計算機，原因就是當(dāng)時大型機實在太昂貴，也只能在非常少的重要場合發(fā)揮作用。難道我們會說，大型機的出現(xiàn)，標(biāo)志著信息革命的出現(xiàn)嗎？顯然不會。

一場革命，一定是讓這個社會上的每個人都能感知到革命的到來，這才是真正的革命。所以我們覺得，信息革命的標(biāo)志應(yīng)該是上個世紀 80 年代個人計算機的出現(xiàn)，以及智能手機的普及，能夠讓我們每個人都用得上、用得起這些廉價的高質(zhì)量算力。

以此為參照來看的話，我們會發(fā)現(xiàn)，英偉達也好、OpenAI 也好，階段性對大模型的判斷，就是要越訓(xùn)越大，越訓(xùn)越強，我覺得它大概的歷史地位就跟當(dāng)年的大型機一樣。今天我們也需要大型機，每個國家都會有超級計算機來做天氣預(yù)報、做科學(xué)計算，但這不是每個人都需要的。

我們需要那種超級大的大模型，智力足夠強，甚至能擁有超人的智力。但是智能革命的標(biāo)志應(yīng)該是，我們能夠建立起足夠廉價的、足夠高質(zhì)量的、每個人專屬的 AI 模型。

也許有人會認為，端側(cè)模型的市場份額不會很大，所以端側(cè)模型顯得不那么重要。真的嗎？我并不這么認為，但我也不會嘗試用沒實現(xiàn)的東西說服他們。

DeepSeek 給我們帶來的啟示就是，只有這個東西做出來了，被大家看到了，大家才能感知到它的革命性。所以我們要做的就是通過一場又一場的勝利，把這件事情做出來，讓大家真正感受到我們內(nèi)心的愿景。

AI 科技評論：從大型機到小型機，你覺得這個過程會需要多久？

劉知遠：我覺得 AI 的發(fā)展跟計算機的發(fā)展一樣，一開始肯定是大型機，大型機做出來后，再開始做小型化，芯片做得越來越小、算力越來越強。大型機發(fā)展到了一定的階段之后，開始有人去考慮商業(yè)化到底該怎么做的時候，慢慢找到了做 PC（個人電腦）的路子。有一本書叫《硅谷之火》，就是講 80 年代的這段故事。

從技術(shù)路徑上來講，大模型肯定是某一些能力得先有人能做出來、然后我們再去考慮它的小型化。DeepSeek V3 就是對 GPT-4 能力的一個復(fù)現(xiàn)，它做了GPT-4的效果，但是算力要低 1/10。這顯然是大模型“小型化”的一個表現(xiàn)，對應(yīng)的 R1 也是非常出圈。

OpenAI 發(fā)布的 o1 也可以看成是高階推理的大型機，未來一定是要小型化，變成低成本、高質(zhì)量的模型。整個發(fā)展路徑在我來看非常清晰。

我提過一個叫“Densing Law”的概念，類似于大模型領(lǐng)域的“摩爾定律”。我們發(fā)現(xiàn)，從 2023 年到 2024 年這兩年，全球開源的大模型能力密度大概是每 100 天翻一倍。就是說，如果當(dāng)前我訓(xùn)練出一個模型、它具備 GPT-4 的水平能力，那么過了 100 天之后，只需要一半的參數(shù)我就可以實現(xiàn)這個能力。

去年 12 月初我們發(fā)布了 Densing Law，現(xiàn)在去看 DeepSeek V3 就是這個定律的完美證明。2024年4月18日發(fā)布的 Llama 3-405B 是 4000 億參數(shù)，如果按照 Densing Law 估算，經(jīng)過 3 個周期(即300天)就可以用 500億激活參數(shù)實現(xiàn)該能力，而 DeepSeekV3 發(fā)布于2024年12月底，全部參數(shù) 6700 億采用 MOE 架構(gòu)激活參數(shù)為 370億。

4
看向未來：戰(zhàn)爭與人才

AI 科技評論：這個春節(jié) DeepSeek 贏得了一場很漂亮的戰(zhàn)役，我們接下來要贏得什么戰(zhàn)役？

劉知遠：其實 DeepSeek 這場戰(zhàn)役還是一場比較大的戰(zhàn)役，因為它的投入其實還是非常高的，模型訓(xùn)練有幾千萬人民幣的投入，更不用說前期的人力、實驗算力的投入，肯定是要十倍預(yù)期，所以我覺得這是一場幾個億的小型戰(zhàn)爭。

面壁在 2024 年已經(jīng)打過幾場比較漂亮的戰(zhàn)斗，我們發(fā)布了 MiniCPM、叫“小鋼炮”，在國內(nèi)外的聲譽很高。去年的《經(jīng)濟學(xué)人》和最近的《MIT Technology Review》，都提到我們的模型以及我們的團隊。我覺得從我們當(dāng)前資源的角度來看，這場仗打得非常好。

接下來要打類似于 DeepSeek 這樣的仗，我覺得還需要通過更多的戰(zhàn)斗勝利，不斷擴大我們的影響力，積累更多的資源。所以我們并不謀求馬上去得到這樣一場大勝，這個目標(biāo)比較遠大?，F(xiàn)在面壁要把當(dāng)前的資源做到極致利用，實事求是地要求自己。

DeepSeek 的成功對于大模型創(chuàng)業(yè)團隊是個巨大的鼓舞，當(dāng)一定的資源、優(yōu)秀的青年人才團隊、AGI使命感，賦能于一個正確的領(lǐng)導(dǎo)者，賦能于一個正確的戰(zhàn)略方向、一件正確的事，可以爆發(fā)出驚人的威力。我們的內(nèi)在自我要求，是通過對大模型本質(zhì)規(guī)律的掌握，去成為那個正確團隊、正確方向，做正確的事。世界的走向浩浩湯湯，國家也在投入大量的基金，我們正值一個重大的歷史機遇，一旦我們能夠獲得更多的資源，我們肯定能夠更完備地組建大模型團隊，瞄著 AGI 需要我們完成的階段性目標(biāo)進行攻堅，做出我們的貢獻。

這次 DeepSeek R1 做出的高階推理能力本身就是邁向 AGI 的一個重要能力，此外還需要很多種能力，比如定制模態(tài)具身、AI 終端的群體智能等等，還有這么多仗要打，所以我們還是覺得很有信心。

AI 科技評論：2025 年才剛開始，這一波熱潮之后，你覺得國內(nèi)的大模型，會往哪幾個方向去發(fā)展？面壁想要在當(dāng)中扮演一個什么樣的推動力量？

劉知遠：很難說都會在 2025 年實現(xiàn)，但是我覺得肯定還是會有很多值得期待的，一個是高階推理，肯定會在 2025 年持續(xù)地去改進。DeepSeek R1 的技術(shù)方案以及工程化，在 2025 年還會有很多可以改進的地方，可以讓它更加高效。

高階推理會成為一個非常重要的話題，但是民眾以及投資的興趣可以會發(fā)生快速的衰減，就像 ChatGPT 剛出來的時候，大家也都為之一振，覺得非常 Amazing，但是只過了半年，大家就已經(jīng)習(xí)以為常，覺得沒什么大不了的，特別是很多團隊迅速跟上了之后。所以如果只看 2025 年的話，我覺得大概率在 6 月前后，國內(nèi)會有非常多的團隊都能做到 R1 的水平，我們也會在端側(cè)實現(xiàn)這個能力。

高階推理之后，有多模態(tài)、有具身、有群體智能，有小型化、有終端智能、底層算力和硬件的深度融合等，依次為支撐產(chǎn)生各種各樣的創(chuàng)新應(yīng)用，這是未來兩到三年的主旋律。

今年哪個點上會有突破，這件事情可能很難預(yù)期，但是兩到三年我會覺得還是非常明確的。我們團隊肯定堅持要做的就是模型的小型化、高效化、低成本，別人用 500 億參數(shù)才能做的模型，我們就要努力用 100 億體量之內(nèi)做出來，爭取盡快能放在終端上跑起來，讓他真正地離用戶更近，這是我們的一個基本思維方式。

AI 科技評論：以一個人工智能老師的身份角色，你怎么看人才的識別、人才的發(fā)展培養(yǎng)，并且將之和整個公司的執(zhí)行緊密配合起來呢？

劉知遠：還是回到毛主席的《論持久戰(zhàn)》上來。其實戰(zhàn)略的重要意義就是要讓大家相信，戰(zhàn)略是用來統(tǒng)一思想的。我們相信抗日戰(zhàn)爭是一個通過持久戰(zhàn)可以達成的目標(biāo)，這是我們統(tǒng)一全國人民思想的重要目標(biāo)，軍民全體都為之而奮斗努力，大家才能更加主動把每一場仗都打好。

我們以 AGI 為目標(biāo)，去創(chuàng)建一家公司，顯然是要有一個非常清晰的、明確的、持久的戰(zhàn)略意圖。我們提到的 AI 終端、Densing Law、對端側(cè)大模型的預(yù)期、以及信息革命和智能革命的類比，其實都是希望能夠讓整個團隊有一個清晰的戰(zhàn)略共識。只有這樣，大家才能達到高度協(xié)同，將來去打每一個具體的仗的時候，他就會知道，這場仗的目的是什么，有什么意義。如果我們在戰(zhàn)略上反復(fù)橫跳，不僅投資人無所適從，整個團隊都會人心渙散。

AGI 和光刻機一樣，是一個非常復(fù)雜的系統(tǒng)工具，需要大團隊協(xié)作的組織模式，光靠組織創(chuàng)新可能很難做到，創(chuàng)業(yè)公司還是得讓大家思想上非常統(tǒng)一，目標(biāo)一致，才能做好協(xié)同的工作。

AI科技評論：那這些人才是哪來的？應(yīng)該從大廠挖，還是自己培養(yǎng)？

劉知遠：我是從 2013 年開始帶研究生，到今天應(yīng)該差不多十年的時間了。這么多年來，我最大的感受就是，人的潛力是非常非常巨大的。如果你讓他掌握了一些知識，讓他建立了一些自信，給他找到了一個讓他發(fā)自內(nèi)心幸福的目標(biāo)，那么他的這個潛力一旦迸發(fā)出來，力量是非常非常大的。

我認為，如果是從大廠去挖那么兩三個人，這兩三個人只是見過的東西多一點、能力好像稍微出眾一點，而本身在目標(biāo)上沒有那么地堅定，不把 AGI 作為他的奮斗目標(biāo)，那他也沒有那么強的動力去做相關(guān)的工作。所以我不覺得我們應(yīng)該把主要精力放在挖人上。

我們要做的就是把大家的潛力挖掘出來，把動力激發(fā)出來，一旦激發(fā)出來，他們的能力就會發(fā)生裂變，像原子彈一樣迸發(fā)出非常強大的能量。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

二維馬曉寧

編輯

發(fā)私信

當(dāng)月熱門文章