對話 HiDream.ai 梅濤：做一家對標 MJ 和 SD 的公司，比扎堆做 LLM 機會更大｜AGI十人談

本文作者：李揚霞

2023-07-20 19:32

導語：AI創(chuàng)業(yè)門檻提高，視覺基礎模型非做不可。

梅濤2002年底就進入了微軟，博士5年，他有3年半都在微軟度過。2006年他拿到博士畢業(yè)證后，繼續(xù)回到微軟工作，直到12年后才離開微軟亞洲研究院。

他說：“在微軟加起來總共15年，不管是技術的價值觀還是公司的文化都是在這邊形成的，第一份工作對一個人的影響很重要?！?/p>

而在京東5年的經(jīng)歷，他確實學到了很多經(jīng)驗，彌補了自己從技術到產(chǎn)業(yè)化的不足。

春節(jié)前走的時候，梅濤很坦然的對劉強東說：“我待了5年，想出去做點事情。”劉強東也很贊同。在最近一次梅濤給劉強東回信中，他講述了最近公司的一些進展，劉強東也對梅濤送上了由衷的恭喜。

在創(chuàng)業(yè)初期，梅濤獲得最大幫助就是科大的校友，科大人可以說是聚是一團火，散是滿天星。

梅濤公司第一輪投資有15個人是科大校友，他們組成了一個合伙人LLP來支持他。

甚至，梅濤公司會議室的桌子椅子，也是上一個科大人公司搬過來直接捐贈給他們的。

梅濤雖然為人低調，但朋友很多，這些校友無一不在幫助梅濤，包括出謀劃策去融錢、發(fā)展公司、搞業(yè)務、搞客戶。

“科大人幫科大人的故事就是這么來的，科大人才密度很高，所以我們科大人幫助科大人很有成效。我非常感激母校中國科技大學。”梅濤有些動容的說。

“我自己有個夢想，就是在中國做一家具有硅谷創(chuàng)新精神的公司?！?/p>

如今大模型的大潮到了，梅濤也開啟了他的創(chuàng)業(yè)之路，成立了HiDream.ai 。梅濤告訴AI科技評論，HiDream.ai 要在基礎模型上超越Stable Diffusion最新版本，而在產(chǎn)品上則要趕超Midjourney。

這是國內(nèi)第一家喊出來對標Stable Diffusion和Midjourney而且真正希望做到的公司。

在AIGC領域，做圖像生成的基礎模型中，開源的Stable Diffusion無疑是最好的，因為有很多人來做貢獻；而在產(chǎn)品上，由于Midjourney 最早通過社區(qū)用戶積累了獨有的用戶反饋，數(shù)據(jù)的輪子已經(jīng)轉起來了，同時配合高質量數(shù)據(jù)集，形成了自己的競爭壁壘。

梅濤告訴AI科技評論，要對標就要對標最好的，這個領域要卷就要跟國外卷，直接做基礎模型底層的正面競爭。目前HiDream.ai 已經(jīng)在開發(fā)一個生成式視覺多模態(tài)基礎模型，該模型不僅能夠支持文生圖，還能支持文生視頻、圖生視頻以及文生 3D 等功能。

梅濤認為，必須自己做多模態(tài)基礎模型，因為沒有模型就沒有核心壁壘。

對話 HiDream.ai 梅濤：做一家對標 MJ 和 SD 的公司，比扎堆做 LLM 機會更大｜AGI十人談

1
對標MJ和SD，不在國內(nèi)卷

AI科技評論：聽說你前段時間在找算力？

梅濤：前段時間是在找算力，那個時候確實比較辛苦一些，現(xiàn)在算力問題解決了，已經(jīng)在用了。

AI科技評論：你現(xiàn)在創(chuàng)業(yè)在哪個階段了？

梅濤：我是春節(jié)前兩天離開京東，三月初注冊了智象未來科技有限公司。

我們現(xiàn)在做的就是AIGC（人工智能生成內(nèi)容），主要是生成式多模態(tài)基礎模型以及其應用，主要應用會面向設計師來使用，例如游戲設計師、營銷設計師、繪畫設計師等。

在AIGC的路上，我們可以說是一路狂奔。三月注冊公司，四月中旬第一輪融資就結束了，五月初基本的算力資源和核心人員都已經(jīng)到位，六月底數(shù)據(jù)和模型的規(guī)模都已經(jīng)達到了60億，七八月份我們就會發(fā)布第一版產(chǎn)品。我們的辦公室也從亞運村的一個百平米的公寓搬到了現(xiàn)在的中關村。

AI科技評論：目前很多創(chuàng)業(yè)者都在往應用方面走，為什么要堅持做一個基礎模型？

梅濤：因為如果沒有基礎模型，就肯定沒有自己的核心壁壘；另外不自己做，就要用開源的模型或者調用別人的模型，就會相當依賴別人的技術。

我們堅持做一個底層的多模態(tài)基礎模型，并不一定要做很大，因為視覺領域生成式基礎模型參數(shù)能做到100 億就已經(jīng)很大了，目前最大也就是十幾億或者二、三十億。

從五月份到現(xiàn)在八個禮拜，我們已經(jīng)做到了60億規(guī)模，目前已經(jīng)上線了一款應用了，不過還在內(nèi)測階段，想先在B端客戶推廣使用。

AI科技評論：在算法方面，你們目前能達到什么程度？

梅濤：ChatGPT這個模型它的天花板很高，今天它能做到 1750 億，未來它也能做到1萬億。因為它的模型能力很強，它能夠記住很多知識。當前的視覺模型本身天花板比較低，現(xiàn)在我們給他喂很多的數(shù)據(jù)，它也只能做到大概十幾個億的參數(shù)規(guī)模。

我們現(xiàn)在做的第一個事情是，給模型打很強的補丁，增強它的記憶能力，讓它能夠記住更多的信息。另外，我們會在算法層面做很多技術的改進，如encoder、decoder等。

如果今天讓我去做大語言模型，我覺得沒有機會，因為通用的大語言模型確實是大公司做更有優(yōu)勢。而視覺領域的多模態(tài)基礎模型，以及基于此的很多應用對創(chuàng)業(yè)公司來說還是有很多機會的。

AI科技評論：國內(nèi)在圖片或者視頻領域大家其實拉不開差距，你為什么覺得有機會？

梅濤：所以我們不跟國內(nèi)比，直接對標國外Midjourney和 Stable Diffusion，目前我們已經(jīng)把Stable Diffusion的最新版本甩在后面了，現(xiàn)在正在追趕Midjourney的最新版。

雖然我們起跑的時候晚了一點，但是我們跑得很快。因為我們有一個很強的團隊，剛好是十一個人，可以組成一支足球隊，團隊都是類似于像華為天才少年這樣級別的選手。而我自己本人在這個領域做了十幾年，我們勤奮、腦子也不笨，我相信我們公司以后會跑的越來越快、走的越來越穩(wěn)的。

AI科技評論：國內(nèi)幾乎沒有這樣說自己直接對標這兩家公司，為什么敢把Midjourney和 Stable Diffusion作為對標對象？

梅濤：我們對標的是 Stable Diffusion這種基礎模型，以及Midjourney這樣的應用。我們是國內(nèi)唯一一家愿意對標Midjourney這種現(xiàn)象級產(chǎn)品的公司，而這個空間還是挺大的。

第一，Midjourney是一個小公司，但是它的數(shù)據(jù)其實很不錯，數(shù)據(jù)的輪子已經(jīng)轉起來了，行業(yè)壁壘已經(jīng)形成；

第二，Midjourney做文生圖，但這個領域也只是滿足專業(yè)設計師這個小眾群體，只是作為找尋靈感的工具，還沒有正式進入設計師真正的工作流程；

我們的優(yōu)勢在于不僅做文生圖，還做文生視頻、圖生視頻、文生3D等，多種模態(tài)可以隨意切換?，F(xiàn)在公司的能力還沒有被釋放出來，但是過去兩個月的實踐證明，在這么短的時間我們就快要追趕上Midjourney了。

我們要對標最好的，而不是關在國內(nèi)的市場做淺層技術的內(nèi)卷，一定要走到全球，做Global Market Player。

AI科技評論：你們的產(chǎn)品打算什么時候推出？

梅濤：七八月份，我們也在內(nèi)測，想先在B端客戶內(nèi)部的設計師使用，然后再投到社區(qū)里傳播。因為生成式AI的產(chǎn)品一定是體驗為主，就是用戶覺得好不好。舉例說你跟 ChatGPT 對話，如果把ChatGPT比喻成一個“高中生”，再來一個低版本的 GPT 3. 0，那你面對的就像一個“小學生”，你肯定就不太愿意跟他對話了。

所以我們一定要把產(chǎn)品打磨到很不錯的程度才會去公開發(fā)布?；镜狡甙嗽路菥涂梢赃_到Midjourney V4版本的水平了，趕上它V5 版本甚至未來的V6版本估計得Q4左右。

AI科技評論：您現(xiàn)在做產(chǎn)品會不會結合Stable Diffusion和Midjourney的一些特點？

梅濤：Stable Diffusion和Midjourney就是其中兩道菜，并不是滿漢全席。而我們知道什么菜用什么組合，用什么佐料。

Stable Diffusion 本來是一個開源的模型，它有文字開源、圖片開源，并不是專一在某一個行業(yè)里面把產(chǎn)品功能或應用做得最好；Midjourney 它本身沒有特別突出的底層模型能力，他們把數(shù)據(jù)玩的挺好，模型也訓練的不錯，但他們工程師中做基礎算法研究的人很少，基礎模型的創(chuàng)新性長期看競爭力有限。

AI科技評論：做大模型，數(shù)據(jù)是一個問題，現(xiàn)在您這邊怎么解決的？

梅濤：因為我們啟動的比Midjourney要晚一點，Midjourney他現(xiàn)在比較好，他的模型和數(shù)據(jù)已經(jīng)滾動起來了。我們實際上現(xiàn)在已經(jīng)累積了 60 多億的數(shù)據(jù)。

我們做多模態(tài)基礎模型的時候，實際上是需要圖片和文本的配對的。它不像語言模型可以直接從文本數(shù)據(jù)中拿一個詞出來，就可以做自監(jiān)督學習。我們實際上是需要文本和圖片的配對，這種配對的話要求很精準的，而且配對關系很難找。

目前基本上所有的開源、閉源模型都用到了50億規(guī)模的數(shù)據(jù)集，都是基于開源數(shù)據(jù)做的。而我們還有 20 多億的自有數(shù)據(jù)，所以在數(shù)據(jù)上我們不輸他們，只不過他們的輪子已經(jīng)轉起來了，用戶反饋也有了。

我們會在垂直領域上線，很快我們也會積累一些原始數(shù)據(jù)。我認為真正影響大模型的只有數(shù)據(jù)和算法，因為算力大家都會有。

2
AI創(chuàng)業(yè)門檻提高，主要看誰的效果好

AI科技評論：Midjourney有很多外包人員，你怎么看待他們這條路子？

梅濤：確實Midjourney有60多個外包或顧問，現(xiàn)在這個階段的創(chuàng)業(yè)就是這樣，它跟AI 1.0創(chuàng)業(yè)時代的四小龍不一樣，那個模式商業(yè)BD能力會很重要，因為他做 ToB ToG，搞定客戶的能力是關鍵。

我們不準備走他們那種創(chuàng)業(yè)故事的路子。我們這波創(chuàng)業(yè)的，技術門檻會很高，誰做得好用誰的。比如以前人臉識別一個單子下來十幾個供應商都在那里投標，這里面看的不是模型，而是是哪個公司的綜合解決方案的能力，包括技術、市場和服務?，F(xiàn)在的模式下，更多的是看產(chǎn)品體驗、生成的內(nèi)容質量等。

AI科技評論：包括AI四小龍在內(nèi)的一些人工智能公司也開始做大模型，您怎么看？

梅濤：其實現(xiàn)在一些公司做的普遍都還是判別式的大模型，而不是生成式的大模型，兩種模型不太一樣，兩個一起做可能會起到一些互補作用。

例人臉識別、目標檢測就是判別式的模型。我們現(xiàn)在做的是純生成式的基礎模型，這個門檻很高，不是隨便一個使用過Stable Diffusion開源模型的團隊就可以創(chuàng)業(yè)了。首先得有高密度的人才，并且懂Transformer 架構，所以現(xiàn)在真正想做、能做基礎大模型的公司相對還是比較少的。

AI科技評論：判別式和生成式模型的區(qū)別在哪里？

梅濤：判別模型和生成模型底層的編碼器可能是一樣的，但是上面的任務層是完全不一樣的。比方判別式模型追求的是準確率；生成式模型則追求的是相關性、創(chuàng)意、真實感，對于準確率容錯率高，是一個有創(chuàng)意的領域。

AI科技評論：以前有做過類似生成模型的嘗試嗎？

梅濤：以前這種深層次的東西，我們想做，但是沒想到確實能做出來。我之前在微軟時候就做過圖生文、相當于看圖說話。后來2017年就開始做文字生成視頻，文字生成圖片。但那個時候技術不成熟，真實感、質量很差，比如畫一只鳥，當時我們很難控制它，覺得技術離產(chǎn)業(yè)化比較遠，所以沒有繼續(xù)進行下去。

如今真正的大模型出來了，機會真的來了，以前只能做ToB，現(xiàn)在也可以做ToC。我們公司之前也做過一個案例，就是利用生成模型，進行工業(yè)殘次品的檢測。

AI科技評論：您認為工業(yè)質檢是生成式AI應用場景的一個突破口嗎？

梅濤：我認為質檢不是生成式AI的主要市場。在創(chuàng)業(yè)之前我也調研過，這個行業(yè)天花板不是特別高，而且市場相對來說比較細分，包括其中幾家上市公司，面向ToB 和ToG行業(yè)，毛利率一直不是很好。

此外，這個行業(yè)是高度的定制化，很難突破“通用性”和“標準化”這兩個難題。

我們產(chǎn)品的場景更加聚焦于視覺內(nèi)容生成，比如游戲和電商領域的設計和營銷環(huán)節(jié)。

3
把技術產(chǎn)品化是“使命感”使然

AI科技評論：對于未來你覺得能做到什么樣的程度？

梅濤：模型的訓練我們會有很多條技術路徑，我們會放出很多匹“馬”出去，但到底哪匹馬能走到終點，我現(xiàn)在也不太好確定，也許這一匹馬折了，再放一匹馬出去。比如圖片或者視頻。

AI科技評論：對于開源您怎么看？

梅濤：現(xiàn)在很多人開源了，但是我覺得真正應該思考的是怎么樣去擁抱開源？怎么去跟開源共存？

因為所有人都能夠參與的開源生態(tài)，其廣度絕對是超過任何一個大公司的，因為每個人都可以在上面貢獻，迭代速度特別快。所以說不管是創(chuàng)業(yè)公司也好還是大公司也好，都得想辦法跟開源社區(qū)能夠一起成長。

我們公司打算把一些偏研究的算法和與核心產(chǎn)品有差異化的開源一些出來。其實之前在微軟和京東就已經(jīng)開源了很多框架，當時點贊率也挺高的。

AI科技評論：國內(nèi)外對待開源有何不同？

梅濤：國內(nèi)做開源的公司基本很少，而且是很難的一件事情。

首先，國內(nèi)公司的開源文化和氛圍還有待建設。

其次，開源有開源的協(xié)議，如果用了開源的東西，就要貢獻你的開源模型；作為開源社區(qū)的受益者，你也要遵守這些規(guī)則。

我的價值觀就是：只要用了開源的東西，就要遵從開源社區(qū)的游戲規(guī)則，也要反哺社區(qū)，否則開源社區(qū)沒有未來，也無法形成正循環(huán)。我們國內(nèi)的公司包括個人都應該思考怎么跟開源社區(qū)共存。

AI科技評論：關于融資，現(xiàn)在進展到什么情況了？

梅濤：現(xiàn)在正在做第二輪天使輪的融資，預計這一輪很快就會結束。投資的具體情況會等到真正交割的時候透露，我不喜歡搞煙霧彈。

AI科技評論：目前人員擴張計劃如何？

梅濤：短期內(nèi)會保持在 25-30 個核心人員左右。從現(xiàn)在開始到明年年底，初步估計核心員工也不會超過 50 個人。我們不是 ToB 的公司，做 ToC 不需要那么多人。

現(xiàn)在主要缺的是產(chǎn)品經(jīng)理、工程師、運營人員等。尤其是產(chǎn)品經(jīng)理，一定得是一個很多元化的選手，產(chǎn)品方向不對會把大部隊帶偏。

AI科技評論：對于招聘人員有什么標準？

其實看一個人的標準主要看是不是有夢想，還有是否愿意來創(chuàng)業(yè)公司發(fā)展，年輕有想法，動手能力也得強，然后我們一起投身進來干事情。

AI科技評論：您平時比較低調、嚴謹，您覺得主要受誰影響？

梅濤：我是在微軟待了 12 年，在京東待了 5 年，其實受到的影響都是很大的，開復、亞勤、宏江、Harry、世鵬、芮勇等都是我以前的同事，從微軟出來的人，價值觀、使命感還是挺強的。包括最近我和同時也在創(chuàng)業(yè)的周明老師聊天，我們這一波人對于把技術產(chǎn)品化從而創(chuàng)造社會價值，有一種使命感。而京東幫我跨過了從技術到產(chǎn)品再到商業(yè)化這兩個Gap。

我個人的特點是喜歡厚積薄發(fā)、長期主義。我覺得一個人不是說跑得多快，也不是說他跑步的時候有人給他敲鑼打鼓了他就可以跑的很遠，我覺得最后要看你能不能堅持有韌性，這樣才能跑得遠一點。

而我看到，國外技術迭代太快了；如果長期這樣下去，國內(nèi)就要被甩開了。所以我必須自己出來做這個事情。（雷峰網(wǎng)(公眾號：雷峰網(wǎng))雷峰網(wǎng)）

本文作者：李揚霞，微信Dec9102。長期聚焦網(wǎng)絡安全領域，同時關注AIGC、大模型等內(nèi)容，對以上領域感興趣的讀者歡迎添加作者微信。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。詳情見轉載須知。