與大模型交手近 1500 天，智源仍在堅持原始創(chuàng)新

本文作者：王悅

2024-06-20 15:49

導語：令人驚艷的東西不能只出現(xiàn)在大洋的彼岸。

2024 上半年， OpenAI 的成果從世界模擬器 Sora，到首個實現(xiàn)多模態(tài) in 到多模態(tài) out 的 GPT-4o ，仍在強勢推進著邁向 AGI 的節(jié)奏。面對技術上的差距，追趕 OpenAI ——是這場人工智能革命浪潮發(fā)展至今， AI 界仍在追求的目標和努力的方向。

但其實，當下的 AI 技術尚處于高速迭代的過程，依然有非常多有挑戰(zhàn)性的問題沒有被解決，而其中的研究趨勢和范式也不一定只有 OpenAI 才能引領。國內對人工智能對研究不應是亦步亦趨，也不應止于 OpenAI。

幾乎與 OpenAI 同期捕捉到大模型的機遇，2018 即年成立的北京智源人工智能研究院推出我國首個大模型「悟道」，并一直承擔著中國在人工智能行業(yè)原始創(chuàng)新的角色。一位悟道大模型的早期參與者告訴 AI 科技評論，「眼光和魄力」力是智源在在本次大模型浪潮中的可貴之處，甚至在最開始國內大模型起步階段，智源會毫不猶豫地給予經費和算力支持。

如今的智源已走過 6 個年頭，在第六屆北京智源大會上值得注意的是，不同于以往從悟道 1.0 到 3.0 所推出的系列模型，本次智源推出了大模型全家桶，分別是大語言模型系列、多模態(tài)模型系列、具身智能大模型、生物計算大模型。這背后的原因是，今年 2 月王仲遠接任智源研究院院長，帶領智源團隊基于大模型通往 AGI 的技術路徑的研判，對未來三到五年的戰(zhàn)略規(guī)劃進行了重新的梳理和判斷。

與大模型交手近 1500 天，智源仍在堅持原始創(chuàng)新

「智源不會去做各企業(yè)已經在做的、重復性事情，而是去做原始性的創(chuàng)新，要去攻克的是業(yè)界的關鍵痛點抑或是前沿技術的熱點，真正為中國去做技術突破?！怪窃慈斯ぶ悄苎芯吭涸洪L王仲遠說道。

基于這一理念，在具身智能、生物計算等十分前沿的領域中，智源起到提前布局的開創(chuàng)性引領作用，打出了「人無我有」的先手，推出了具身大模型，在機器人泛化動作執(zhí)行和智能大小腦決策控制等方面取得了多項世界級突破性成果。在國內發(fā)展尚不成熟的生物計算大模型中，智源研發(fā)了全原子生物分子模型OpenComplex 2。

在國內爭相突破萬億語言模型的節(jié)奏下，智源能做到「人有我優(yōu)」，研發(fā)了全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T。多模態(tài)大模型層面，智源并沒有采用 DiT 架構，而是押注自回歸路線研發(fā)了原生多模態(tài)世界模型 Emu 3，同時也推出了輕量級圖文多模態(tài)模型系列 Bunny-3B/4B/8B。

正如智譜 CEO 張鵬在智源大會上所說，智源從最早被定義成為 NGO 的偏新型研發(fā)機構，發(fā)展到今天已成為國內甚至國際人工智能領域的一面旗幟。智源也已經為中國人工智能界奠定了研究基礎，培養(yǎng)了諸多當下業(yè)界中的頂尖人才，使得后人能夠站在巨人的肩膀上進一步看到更廣闊的 AI 世界。

而當下的智源亦堅持初衷，不懈怠腳步。「令人驚艷的東西不能只出現(xiàn)在大洋的彼岸?！雇踔龠h說道。

一、0-1 的原始性創(chuàng)新

「大模型的思潮和很多技術都是從智源發(fā)展起來的?！拱俅ㄖ悄軇?chuàng)始人王小川在 2024 智源大會上說道。

當下，非營利性科研組織站位使得智源既有技術高度，又有智庫的角色，能更多的進行0-1的原始性創(chuàng)新。

解決萬億參數(shù)模型的收斂痛點

萬億參數(shù)模型，是今年各大模型廠商的必爭之地。

模型規(guī)模的提升，帶來了模型精度的提升，但因為參數(shù)量規(guī)模過大，也對模型的訓練帶來了極大的挑戰(zhàn)，包括內存需求大、網絡通信量大、訓練或推理性能低等問題，常常難以收斂。因此，今年市面上見到的更多為稀疏激活模型，較少有單體稠密的萬億參數(shù)模型。

可以說，現(xiàn)在的大模型生態(tài)格局中，缺少一個單體稠密萬億參數(shù)模型。王仲遠告訴 AI 科技評論，智源在做的事是解決這一痛點，當某家廠商需要訓練萬億乃至更大規(guī)模參數(shù)模型的時候，無需從頭去解決收斂等一系列問題，開源社區(qū)中有一個好的初始化的版本，這時再基于更強的算力和數(shù)據(jù)量即可對模型進行進一步迭代，不再從頭造輪子。

巨大算力消耗是大參數(shù)模型無法避開的問題。對此，智源聯(lián)合中國電信人工智能研究院開發(fā)了基于模型生長和損失預測等關鍵技術，推出全球首個低碳單體稠密萬億語言模型 Tele-FLM-1T能夠提高訓練效率，降低能耗，實現(xiàn)低碳生長。該模型與百億級的 52B 版本，千億級的 102B 版本共同構成Tele-FLM系列模型。

僅以業(yè)界普通訓練方案9%的算力資源，基于112臺A800服務器，用4個月完成3個模型總計2.3Ttokens的訓練，成功訓練出萬億稠密模型 Tele-FLM-1T。模型訓練全程做到了零調整零重試，算力能效高且模型收斂性和穩(wěn)定性好。

目前，TeleFLM系列模型已經全面開源了52B版本，核心技術（生長技術、最優(yōu)超參預測）、訓練細節(jié)（loss曲線、最優(yōu)超參、數(shù)據(jù)配比和Grad Norm等）均開源，Tele-FLM-1T版本即將開源。

Tele-FLM-52B 版本開源地址https://huggingface.co/CofeAI/Tele-FLM

Tele-FLM-Chat 試用（純模型單輪對話版）地址https://modelscope.cn/studios/FLM/ChatFLM

并且，生長策略也為大模型訓練提供了其他可能性，王仲遠透露，將會將其用于異構芯片的異構計算上，基于此訓練 MoE 模型。

不走 DiT 架構的多模態(tài)模型

今年，比萬億參數(shù)模型更火的趨勢是多模態(tài)大模型。而其中在文生視頻這一層面上，國內外主流的研究方式均以 Sora 的 DiT 架構為主，而智源卻沒有跟隨 OpenAI 。

「DiT 當然能達到一個可用的產品級的模型，這是毫無疑問的。但如果瞄準的目標是真正為 AGI 而使用的多模態(tài)大模型，我們會認為自回歸路線才是更佳的技術路線。」王仲遠如是判斷。

基于此，智源研發(fā)了原生多模態(tài)世界模型 Emu 3，最開始即是為統(tǒng)一的多模態(tài)生成和理解而設計，采用智源自研的多模態(tài)自回歸技術路徑，既統(tǒng)一了視頻、圖像、文字，也統(tǒng)一了生成和理解。目前，Emu3在持續(xù)訓練中，經過安全評估之后將逐步開源。

「這個技術路線真的很難，但這也恰恰是適合智源研究院來做的。但同時，我們在做原始創(chuàng)新的時候要尊重科學規(guī)律，也接受它失敗的可能性，但即使失敗也是非常有意義的?！?/p>

同時，為適應智能端側的應用，智源研究院推出了輕量級圖文多模態(tài)模型系列 Bunny-3B/4B/8B，該模型系列采用靈活架構，可支持多種視覺編碼器和語言基座模型。多個榜單的綜合結果表明，Bunny-8B 的多模態(tài)能力可達到 GPT-4o 性能的 87%。目前，Bunny 模型參數(shù)、訓練代碼、訓練數(shù)據(jù)已全部開源。

開源地址：https://github.com/BAAI-DCAI/Bunny

FlagOpen，打造大模型時代的Linux

一直以來，智源的大模型開源有兩條線同時進行：一條線是進行智源所研發(fā)的悟道系列大模型的開源；第二條線是將整個大模型技術體系開源，包括模型、工具、算法代碼的開源等，建立了 FlagOpen。

時至今日，F(xiàn)lagOpen 的開源更多需要滿足不斷攀升的訓練和推理計算需求，應對大規(guī)模AI系統(tǒng)和平臺面臨的集群內或集群間異構計算、高速互聯(lián)、彈性穩(wěn)定的技術挑戰(zhàn)。于是，智源研究院推出了面向大模型、支持多種異構算力的智算集群軟件棧 FlagOS。

FlagOS 融合了智源長期深耕的面向多元 AI 芯片的關鍵技術，包括異構算力智能調度管理平臺九鼎、支持多元AI異構算力的并行訓推框架 FlagScale、支持多種AI芯片架構的高性能算子庫 FlagAttention和 FlagGems，集群診斷工具 FlagDiagnose 和 AI 芯片評測工具FlagPerf。

FlagOS 如同“操作系統(tǒng)”一樣，集異構算力管理、算力自動遷移、并行訓練優(yōu)化、高性能算子于一體。向上支撐大模型訓練、推理、評測等重要任務，向下管理底層異構算力、高速網絡、分布式存儲。

目前，F(xiàn)lagOS已支持了超過50個團隊的大模型研發(fā)，支持8種芯片，管理超過4600個AI加速卡，穩(wěn)定運行20個月，SLA超過99.5%，幫助用戶實現(xiàn)高效穩(wěn)定的集群管理、資源優(yōu)化、大模型研發(fā)。FlagOS的推出將為中國新一代智算中心的建設提供助力，顯著提升智算集群的能力水平，加速大模型產業(yè)的發(fā)展。

二、「人無我有」的先手

「大模型變化得非?？欤渲写_實有部分工作是商業(yè)公司沒有動力、也沒有資源做的事?！姑姹谥悄?CEO 李大海在 2024 智源大會上探討道。

針對萬億參數(shù)模型、多模態(tài)模型等相對主流且有共識的項目，各大廠商花費較大力氣尚可一試，但在在具身智能、生物計算等十分前沿的領域中，并不是任何一家都具備「想做就能做」的條件。對此，智源會打出「人無我有」的先手。

當下，我們會將大模型視作通用人工智能的基礎、數(shù)字世界的智能體。未來，數(shù)字世界的智能體也會逐漸進入到物理世界，其方法有二：一是進入到硬件設備中，也就是具身智能；二是進入到微觀世界，即和生命分子相關，是生物計算大模型。

具身智能大模型

智源研究院具身智能創(chuàng)新中心在機器人泛化動作執(zhí)行和智能大小腦決策控制等方面取得了多項世界級突破性成果。

在具身智能通用抓取能力方面研發(fā)了泛化抓取技術ASGrasp，針對跨任意形狀和材質的泛化難題，智源率先突破95%的真機實驗成功率，從而實現(xiàn)了全球領先的商業(yè)級動作執(zhí)行水平。借助這項技術，即使在復雜光線透射、反射的情況下，機器人依然能夠準確感知包括透明、高反光物體的形狀和姿態(tài)，并預測出高成功率的抓取位姿。

在分級具身大模型系統(tǒng)方面，智源研發(fā)了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統(tǒng) SAGE。該系統(tǒng)有效結合了三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識，使大模型驅動的機器人能夠在任務執(zhí)行失敗時能夠重新思考并再次嘗試新的交互方式。

并且，智源還研發(fā)了全球首個能做到開放指令控制六自由度物體拿取放置的大模型系統(tǒng)Open6DOR。該系統(tǒng)不僅像谷歌RT系列大模型一樣按照自然語言指令中的要求將物體放到指定位置，還能夠進一步對物體的姿態(tài)進行精細化控制。

在面向技術終局的端到端具身大模型層面，智源發(fā)布了全球首個端到端基于視頻的多模態(tài)具身導航大模型 NaVid。該模型可直接將機器人視角的視頻和用戶的自然語言指令作為輸入，端到端輸出機器人的移動控制信號。雷峰網雷峰網雷峰網(公眾號：雷峰網)

針對新一輪的具身智能熱，王仲遠也提出了一些冷思考，要用客觀理性的態(tài)度來看待前沿技術，能夠去接受它存在周期并持續(xù)投入知道跨越周期。

生物計算大模型

此外，智源研究院，還探索了生成式人工智能應用于分子生物學中的應用。智源研究院研發(fā)的全原子生物分子模型OpenComplex 2，是世界領先的大分子結構預測模型，能有效預測蛋白質、RNA、DNA、糖類、小分子等復合物。在生物分子結構預測領域國際競賽CAMEO（Continous Automated Model EvaluatiOn）中，OpenComplex 連續(xù)2年穩(wěn)居賽道第一，并獲得了CASP（Critical Assessment of Techniques for Protein Structure Prediction）15 的RNA自動化賽道預測冠軍。

OpenComplex 2 是基于全原子建模的生命分子基礎模型，科研人員發(fā)現(xiàn)不僅可以預測大分子的穩(wěn)定結構，還初步具備預測分子多構型以及折疊過程的能力?；谶@樣的能力，生命科學家可以進一步探索蛋白質的生物學功能。目前，智源已和研究伙伴在多項重要疾病上展開了研究，提供成藥性和分子機理研究。

智源研究院構建了全球首個實時孿生心臟計算模型，可實現(xiàn)高精度的前提下生物時間/仿真時間比小于1。實時心臟計算模型是虛擬心臟科學研究的開端，是孿生心臟走向臨床應用的基礎?；谶@一模型，智源將創(chuàng)新性地采用物理-數(shù)據(jù)雙驅動模型，融合第一性原理和人工智能方法，從亞細胞級、細胞級、器官級、軀干級仿真出一個“透明心臟”，且能根據(jù)患者的臨床數(shù)據(jù)，構建出反映患者的個性化生理病理的孿生心臟，從而進行藥物篩選、治療方案優(yōu)化、術前規(guī)劃等臨床應用。

三、AI 研究的新范式

「要是三年前問我還需要多長時間可以實現(xiàn) AGI，我可能會回答50年，但這幾年隨著大模型的發(fā)展，我認為這個數(shù)字可以除以 2，20年左右即可能實現(xiàn)?！乖?024智源大會的現(xiàn)場，中國工程院院士、清華大學智能產業(yè)研究院（AIR）院長張亞勤笑著說道。

圖片

具體來看，信息智能領域 0 至 5 年內，即可在對語言、圖像、聲音和視頻的理解、生成等方面通過新圖靈測試；物理智能領域 0 至 10年內，能實現(xiàn)大模型在物理環(huán)境中的理解與操作能力；生物智能領域 0 至 20 年內，都會聚焦人體、腦機接口、生物體、制藥和生命科學，實現(xiàn)大模型與生物體連結的生物智能。

AGI 的加速來臨，也側面要求 AI 有新范式的變動。單純靠 Scaling Law ，做不到 AGI。

在 Sora 及Dall-E團隊負責人阿迪蒂亞·拉梅什（Aditya Ramesh）與紐約大學助理教授謝賽寧的交流過程中，也從技術的角度傳遞出技底層技術的變化：AI 行業(yè)正在從依賴手工標注的深度學習模型轉向能夠通過自然語言和描述性文本重建視覺內容的高級模型。

快速流變的同時， AI 帶來的失控風險和安全問題也需提上日程。對此，零一萬物創(chuàng)始人李開復博士表示，如果我們越來越依賴Reward model ，完全讓 AI 自己找路徑的話，發(fā)生失控的概率或許會增高，但中長期來看，需要嘗試用“以子之矛攻子之盾”——用更好的技術解決技術帶來的挑戰(zhàn)。

盡管到如今 AI 發(fā)展面臨諸多可能性與挑戰(zhàn)，但回顧 2020 年開始悟道模型的研發(fā)，智源至少是在亞洲地區(qū)最早投入，而且真的投入去做大模型的機構?！缸畛醭闪⒅窃础⒆鑫虻赖老敕ㄊ欠浅ｋy得、非常領先的，今后 AI 研究的視野也會更寬廣，智源也會成為促進中國 AI 生態(tài)繁榮的平臺?！?/p>

AGI 還有很長的路要走。王仲遠預判，GPT-4 之后的突破難度會更大，對算力資源、核心算法的要求都會更高，彼時將不是追趕的過程，而是突破的過程。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

王悅

主筆

發(fā)私信

當月熱門文章