對(duì)話中科深智成維忠：數(shù)字人的關(guān)鍵是交互，交互的關(guān)鍵是大模型

本文作者：王悅

2023-07-31 14:46

導(dǎo)語：“有的數(shù)字人企業(yè)半年沒接到單，很正常?！?

作者丨王悅

編輯丨董子博

“今年的數(shù)字人市場(chǎng)迎來了天翻地覆的變化?！敝锌粕钪莿?chuàng)始人成維忠對(duì)目前國內(nèi)的數(shù)字人市場(chǎng)如是評(píng)價(jià)。

過去，國內(nèi)數(shù)字人企業(yè)真正做技術(shù)的并不多，大部分以IP打造為主。

出道即巔峰的虛擬美妝達(dá)人柳夜熙，一條視頻成本百萬，可現(xiàn)今抖音單條視頻平均只有20萬，后勁不足，不復(fù)往昔繁華。

風(fēng)靡一時(shí)的 A-SOUL 曾是虛擬女團(tuán)天花板，一時(shí)風(fēng)光無限好。然而，5月10 日，其運(yùn)營團(tuán)隊(duì)突然宣布旗下成員珈樂進(jìn)入直播休眠，瞬間打破全部幻想。

“有的企業(yè)半年沒接到單，很正常。”

從現(xiàn)狀和收效來看，主打人設(shè)和劇情并不是長(zhǎng)遠(yuǎn)發(fā)展的模式，技術(shù)定力或許是數(shù)字人企業(yè)未來生存的關(guān)鍵所在。

中科深智成立七年多的時(shí)間以來，一直專注于 3D 虛擬人技術(shù)領(lǐng)域。成維忠一直相信，人是未來 3D 交互的重中之重，而這種與“人”的交互，則必須通過 AI 和大模型來完成。

目前，公司的工作重心在自己研發(fā)的 CLAP （對(duì)比性語言 - 動(dòng)作預(yù)處理模型）算法上。這種跨模態(tài)訓(xùn)練可以通過文本去設(shè)置動(dòng)作表情，再通過聲音去生成動(dòng)作表情。在這一點(diǎn)上，中科深智是國內(nèi)起步較早的一家企業(yè)。

5月10日，中科深智發(fā)布了兩個(gè)大模型，分別包含200億和20億參數(shù)，以針對(duì)不同用戶的不同需求。成維忠表示，200億和20億兩個(gè)參數(shù)版本模型，在實(shí)際應(yīng)用場(chǎng)景時(shí)，實(shí)則與千億模型的效果，實(shí)際表現(xiàn)差異不大。

大模型公布后，中科深智還會(huì)再將 transformer 進(jìn)行算法升級(jí)，從 language model 升級(jí)到 large language model，從傳統(tǒng)的語言解析升級(jí)到大語言模型，完成后，虛擬人的語言和表情等效果都會(huì)提升。

將數(shù)字人和多模態(tài)大模型雙劍合璧，不僅是兩項(xiàng)技術(shù)的結(jié)合，更是1+1>2的相輔相成。

一方面，數(shù)字人可以作為更易用的 C 端入口，為大模型提供語音、動(dòng)作、情感等豐富的多模態(tài)數(shù)據(jù)，形成 “User in the loop”的模式，為大模型形成“數(shù)據(jù)飛輪”；另一方面，憑借大模型強(qiáng)大的內(nèi)容理解和生成能力，數(shù)字人也能得到“靈魂”，用更強(qiáng)大的“內(nèi)在”來驅(qū)動(dòng)更好的用戶交互。

近日，AI科技評(píng)論與中科深智創(chuàng)始人成維忠進(jìn)行了一次對(duì)話，探討了中科深智在數(shù)字人領(lǐng)域一路走來的探索歷程。從最初選擇 3D 虛擬人的堅(jiān)定，到關(guān)鍵核心技術(shù)的攻艱，再到大模型發(fā)布，以及未來的場(chǎng)景落地，每一步，都是中國數(shù)字人企業(yè)發(fā)展的寫照。

以下是AI科技評(píng)論和成維忠的對(duì)談實(shí)錄，雷峰網(wǎng)在不改變?cè)獾那疤嵯?，進(jìn)行了調(diào)整和編輯：

交互是虛擬人的第一性

AI科技評(píng)論：從今年的市場(chǎng)狀況來看，交互性低的IP型數(shù)字人目前來看并不是一個(gè)很好的生意。未來，這種頹勢(shì)會(huì)反彈嗎？

成維忠：不會(huì)反彈，只會(huì)更艱難。不論什么風(fēng)格的虛擬人，它與傳統(tǒng)動(dòng)畫的分野是很清晰的。傳統(tǒng)動(dòng)畫是離線的，不注重非實(shí)時(shí)互動(dòng)的，發(fā)展線路很窄，而虛擬人追求與用戶的實(shí)時(shí)互動(dòng)，如果做不到注定要被淘汰。

IP型數(shù)字人出現(xiàn)后開始吸引粉絲，用傳統(tǒng)CG方式來做。其實(shí)這只有資本的價(jià)值，沒有落地產(chǎn)品價(jià)值，從根本上講與傳統(tǒng)動(dòng)畫沒有差別。做到現(xiàn)在來看，他們的處境很艱難，這是可以預(yù)見的。

其實(shí)，這種困境的原因在于第一性原理沒看清楚，有粉絲當(dāng)然很好，長(zhǎng)得漂亮也好，但是虛擬人首要的是跟用戶之間的互動(dòng)，沒有這一點(diǎn)，整個(gè)生意是走不下去的。

AI科技評(píng)論：近幾年，人們對(duì)虛擬人的關(guān)注有哪些變化？

成維忠：最早大家比較關(guān)注虛擬人的形象，前年和去年上半年都關(guān)注虛擬人的動(dòng)作，去年下半年開始關(guān)注實(shí)時(shí)交互性。

數(shù)字人的交互性推動(dòng)我們做語言的解析，也就是從輸入端到最后的成像端，形成一個(gè)端到端的解決方案，我們認(rèn)為技術(shù)公司需要干這個(gè)事，如果不是端到端的解決方案，將來可能會(huì)有較大的問題。

AI科技評(píng)論：語言解析具體是怎么做的？

成維忠：從語言的解析部分來看，其實(shí)最關(guān)鍵的是動(dòng)作和表情生成技術(shù)，其底層都是 transformer 。我們做 transformer 很早， 2020 年初，就把整個(gè)的動(dòng)作、表情生成作為工作的重心，然后底層用的就是 transformer 的算法。

幾年的過程中，我們一直關(guān)注基于 transformer 的自然語言處理的發(fā)展。早期谷歌的 Bert 出來，效果比較好，在這個(gè)過程當(dāng)中我們也所借鑒。

在做動(dòng)作表情生成的時(shí)候，我們有自己的算法叫 CLAP 算法。最開始做 CLAP 算法的時(shí)候，大廠也沒開始做這種跨模態(tài)訓(xùn)練，我們其實(shí)很恐慌。因?yàn)橐ㄟ^文本去設(shè)置動(dòng)作表情，然后通過聲音、音速、節(jié)奏去生成動(dòng)作表情，沒人做這個(gè)事，可供借鑒的文章也很少，這種探索是非常痛苦的。

直到 OpenAI 在2021年公布了 DALL-E，也是基于 transformer 語言，二者的邏輯有相似之處，給我們吃了定心丸。

AI科技評(píng)論：2020年的時(shí)候，針對(duì)哪種語言架構(gòu)比較好這一問題是沒有定論的，直到ChatGPT 出來之后，transformer 才變成業(yè)界的一個(gè)共識(shí)。為什么中科深智最早在2019年就開始關(guān)注 transformer？

成維忠：其實(shí)關(guān)注 transformer 前，中科深智從2016年是主做動(dòng)作捕捉的。

動(dòng)捕做到2019年，出現(xiàn)兩個(gè)大問題：其一，動(dòng)作捕捉在未來的元宇宙或相關(guān)應(yīng)用中是細(xì)分的垂直市場(chǎng)，今年如果有些公司他的重心還是在動(dòng)捕方面，那他們一定是極端困難的；其二，虛擬人或元宇宙的技術(shù)，本質(zhì)在于 XR+AI，所處時(shí)期不同，發(fā)展的側(cè)重點(diǎn)也不同，兩部分都是不可或缺的。

2019年我們也發(fā)現(xiàn)動(dòng)捕與新出現(xiàn)的 AI 融合度很低，這促使我們?nèi)ニ伎歼x什么樣的技術(shù)路徑。隨后，標(biāo)桿的事件發(fā)生，即GPT-2上線，就完全轉(zhuǎn)到 transformer 上來，我的合伙人宋健敏銳地覺察到這個(gè)方向很好，之前我們也有類似的架構(gòu)，但是學(xué)習(xí)效率很低、成本高、對(duì)團(tuán)隊(duì)的要求也高，但GPT-2很好的解決了學(xué)習(xí)效率的問題，所以就一直順著這個(gè)方向做。

AI科技評(píng)論：中科深智的數(shù)字人目前有哪些可以落地的商業(yè)場(chǎng)景？

成維忠：從商業(yè)化的角度來看，我們始終覺得交互是最重要的。順著這個(gè)思路，選擇了兩個(gè)場(chǎng)景：一是 SaaS 產(chǎn)品，去找大的存量市場(chǎng)，將虛擬人做成中間性很強(qiáng)的產(chǎn)品，比如電商，直接交付給客戶就可以立刻使用；二是賦能傳統(tǒng)的集成商或承包商，幫他們做用戶界面升級(jí)，將圖形界面升級(jí)成虛擬人，比如銀行。

AI科技評(píng)論：除此之外，還有哪些比較有前景的落地場(chǎng)景？

成維忠：如果把數(shù)字人看做 AUI，那么現(xiàn)在所有的互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)都可以升級(jí)，體量是很龐大的。我們今年的工作重心除了算法迭代之外，還會(huì)針對(duì)數(shù)字人交互性的特點(diǎn)，形成多種解決方案。站在交互的角度來講，其本身又可以分為多種方式，比如語音助手和垂直領(lǐng)域落地，它是交互與業(yè)務(wù)流的結(jié)合，跟它的 RPA 之間有深度鏈接，中科深智目前還在研究和探索，背后的市場(chǎng)很大。

大模型是數(shù)字人的信號(hào)輸入

AI科技評(píng)論：有人說大語言模型是大廠的菜，對(duì)于小公司來說，用就行了。您如何看待這種說法？

成維忠：其實(shí)并不是這樣的，今年二月份的時(shí)候，我們對(duì)這個(gè)問題就看得很明白了。一方面，小公司如果不拿到大語言模型的開源代碼，就無法實(shí)現(xiàn)跨模態(tài)訓(xùn)練；另一方面，我們的客戶希望做定制和私有化部署，如果沒有大語言模型，也無法實(shí)現(xiàn)這一要求。所以，從二月份開始，我們決定做自己的大語言模型，過去多年的積累也會(huì)讓我們的步伐比較快。

AI科技評(píng)論：有用戶反饋，目前市面上的大模型無法滿足他們的要求。中科深智做的大模型能否滿足驅(qū)動(dòng)數(shù)字人的要求？

成維忠：起步階段，我們就對(duì)國內(nèi)外主流的大模型進(jìn)行測(cè)試，發(fā)現(xiàn)幾個(gè)問題：第一是調(diào)用的速度不能滿足虛擬人的實(shí)時(shí)交互要求，其實(shí)響應(yīng)速度的問題從原理上來說是解決不了的；第二是國外的模型對(duì)于中文的支持度很差，國內(nèi)的模型雖然調(diào)用的速度快，但是在開放性方面存在問題。

而客戶的要求首先則是算力消耗要低，國內(nèi)用戶對(duì)這點(diǎn)很敏感，按照現(xiàn)在各家的報(bào)價(jià)來推理，我們的用戶是用不起的。

AI科技評(píng)論：今年3月， ChatGPT 的 API 開放之后，價(jià)格是下降了90%的。

成維忠：但對(duì)用戶來說需要頻繁地使用它，其實(shí)還是很貴的。所以推理的成本和推理的速度是我的客戶考慮的點(diǎn)。

這也是我們做了200億和20億參數(shù)模型的原因。200億參數(shù)的推理用的是一張 V100 顯卡，20億參數(shù)模型用了一張3090顯卡，而且有在其中加冗余，在暴力測(cè)試的過程中，3060的顯卡就可以把模型跑起來。

而且，除了成本和推理速度問題，客戶并不關(guān)心大模型是否能夠解數(shù)學(xué)題、下棋，最關(guān)鍵的是你寫出來的中文是不是靠譜，不能帶翻譯腔。

第三點(diǎn)就是私有化部署的問題。當(dāng)下用戶在使用的時(shí)候，實(shí)際使用更多的還是大模型的泛化能力，能得到的內(nèi)容，和自己平時(shí)的 Know how 差不多，最終技術(shù)進(jìn)步的結(jié)果用戶很難感知到；而我們發(fā)現(xiàn)了這個(gè)問題，對(duì)應(yīng)設(shè)計(jì)了兩個(gè)模型——20億參數(shù)和200億參數(shù)。

其實(shí)，大家會(huì)有擔(dān)心，參數(shù)量小了，模型效果會(huì)不會(huì)很差。而在5月10日的發(fā)布會(huì)上，我們把20億的模型和ChatGPT、文心一言進(jìn)行了對(duì)比。實(shí)測(cè)之后證明，效果肯定會(huì)稍微差一點(diǎn)，但從使用的角度來看是足夠的。

所以，針對(duì)中小客戶，首推使用一張3090顯卡的20億參數(shù)模型，它的響應(yīng)速度很快。

AI科技評(píng)論：20億參數(shù)模型的能力還是非常強(qiáng)的。那大語言模型和數(shù)字人結(jié)合，有哪些創(chuàng)新的形式嗎？

成維忠：后面，我們會(huì)發(fā)布一個(gè)虛擬直播帶貨的產(chǎn)品，叫全能智播，直播間中是真人主播和虛擬主播一起帶貨。虛擬主播連接大模型，真實(shí)主播可以給虛擬主播下指令，都是用大模型來驅(qū)動(dòng)的。它不僅僅是主播的功能，還是集成了助播、場(chǎng)控、運(yùn)營及客服功能于一體的全能數(shù)字人，真正站在商家角度考慮，達(dá)到降本增效的作用。

AI科技評(píng)論：抖音目前還是希望接著去挖真人主播的潛力，數(shù)字人是他們的優(yōu)先級(jí)嗎？

成維忠：我們是第一家做虛擬直播的，也是第一家鼓勵(lì)做虛擬直播商用推廣的。目前，不同的平臺(tái)對(duì)這個(gè)事情的看法是不太一樣的，抖音、天貓、淘寶、京東總體上對(duì)虛擬直播持謹(jǐn)慎的態(tài)度，因?yàn)樗麄儠?huì)假設(shè)，如果虛擬直播發(fā)展太快了，會(huì)不會(huì)對(duì)真人直播造成沖擊。

從長(zhǎng)期來說，我覺得平臺(tái)對(duì)于虛擬直播、虛擬人應(yīng)該是開放形態(tài)。從根本上來講，平臺(tái)是拒絕不了虛擬主播這件事的，一方面，大模型對(duì)電商的支撐會(huì)越來越厲害，但是大語言模型跟真人之間還是要通過虛擬人結(jié)合，如果到那個(gè)時(shí)間點(diǎn)平臺(tái)仍然把規(guī)則卡得很死就等于把上升空間卡掉了。另一方面，把規(guī)則定清晰就可以了。

長(zhǎng)期來看，我對(duì)它是持樂觀態(tài)度的，也仍然需要去探索怎么樣跟平臺(tái)、商家、用戶找到共贏的方式。

AI科技評(píng)論：這樣看起來，其實(shí)大模型就是為數(shù)字人提供了一個(gè)新的生產(chǎn)力的空間？

成維忠：其實(shí)，大模型是數(shù)字人的一種輸入方式。我們核心的 CLAP 算法可以支持多種驅(qū)動(dòng)，比如動(dòng)作的傳感器，把信號(hào)輸入到 CLAP 中也可以生成動(dòng)作表情。除此之外，也可以用攝像頭、動(dòng)物傳感器作為 CLAP 算法的輸入。

大模型是它輸入方式的一種，這種輸入方式很重要，我們認(rèn)為，未來很多的場(chǎng)景都是以大模型為主的，這就是為什么我們把它作為重心的原因。

3D虛擬人的長(zhǎng)期主義者

AI科技評(píng)論：公司成立之初，在3D超寫實(shí)和 DeepFake 兩條路中，為什么選擇前者？

成維忠：我們公司于2016年4月份成立，到現(xiàn)在為止七年多的時(shí)間里，從大方向上來講，我們只做了一件事，就是3D虛擬人。

當(dāng)初選擇這一方向的原因也比較簡(jiǎn)單，主要是基于對(duì)行業(yè)發(fā)展的兩個(gè)預(yù)測(cè)：一是，傳統(tǒng)互聯(lián)網(wǎng)向下一步發(fā)展所采用的底層技術(shù)會(huì)發(fā)生較大的變化，過去是以圖文為主的2D方式，而下一代的發(fā)展會(huì)過渡到3D技術(shù)；二是，在純3D內(nèi)容環(huán)境中，必然涉及人、貨、場(chǎng)三大部分，我們認(rèn)為人是其中最關(guān)鍵的因素。因?yàn)槿绻瓿扇藱C(jī)交互的話，不會(huì)像現(xiàn)在這樣，人和靜態(tài)的3D環(huán)境交互，中間一定需要交互的介質(zhì)，而人就是3D交互的介質(zhì)。

在這樣的兩個(gè)預(yù)判之下，2016年成立公司之初，我們就決定將3D的數(shù)字人當(dāng)做今后發(fā)展的立足點(diǎn)。在行業(yè)中，有這樣的定位，而且是偏技術(shù)的公司，我們應(yīng)該是相對(duì)早的。

AI科技評(píng)論：在中國確實(shí)沒有太多做數(shù)字人技術(shù)的公司，很多都是拿技術(shù)套產(chǎn)品，走的是產(chǎn)品化和工程化的思路，并不以技術(shù)見長(zhǎng)。

成維忠：是的。甚至有一些公司的重心都不是在做工程化和產(chǎn)品化，而是做虛擬數(shù)字人IP。這種其實(shí)用不到數(shù)字人技術(shù)，更多的是傳統(tǒng)的 CG 動(dòng)畫技術(shù)，只不過被冠以數(shù)字人的形式，但從行業(yè)的角度來講，真正做數(shù)字人技術(shù)的公司還是很少的。

AI科技評(píng)論：之前了解到一些做虛擬數(shù)字人IP的公司，他們計(jì)劃把公司下半年的戰(zhàn)略重心從數(shù)字人轉(zhuǎn)到數(shù)字空間上，主要還是因?yàn)闋I收不是特別好，甚至有的數(shù)字人公司已經(jīng)半年沒有接到訂單了，這種情況是否屬實(shí)？

成維忠：根據(jù)我的了解，這種情況蠻多的，今年的數(shù)字人市場(chǎng)迎來了天翻地覆的變化。

類似于把戰(zhàn)略重心從數(shù)字人轉(zhuǎn)到數(shù)字空間上這樣的做法，其背后的原因主要是當(dāng)下政策對(duì)元宇宙項(xiàng)目有很多積極的引導(dǎo)，其傾向于宏大場(chǎng)景的產(chǎn)品。針對(duì)這一做法，我們也有思考過是否要從場(chǎng)景入手，中間有過動(dòng)搖，但最終決定不改變方向。

不改變的主要原因有兩點(diǎn)：一方面，從長(zhǎng)遠(yuǎn)看，公司成立之初的兩個(gè)判斷依然成立。如果有一天元宇宙真的落地了，人仍是最關(guān)鍵的因素；另一方面，中科深智還是對(duì)人工智能交互關(guān)注得比較多，去年我們就感知到，未來虛擬人和場(chǎng)景的結(jié)合只是一方面，更多的是與各種人工智能的結(jié)合，虛擬人就能滿足人機(jī)交互的需要。

所以這也是為什么大語言模型出現(xiàn)后，我們能夠在短時(shí)間內(nèi)跟上。大語言模型出現(xiàn)之后，人機(jī)交互發(fā)生了很大變化，這一領(lǐng)域可以將虛擬人的技術(shù)優(yōu)勢(shì)發(fā)揮出來。

AI科技評(píng)論：中科深智目前的工作重點(diǎn)在哪，是如何側(cè)重的？

成維忠：中科深智現(xiàn)在的工作重心在 CLAP 上，等大模型公布后還會(huì)再從 transformer 算法升級(jí)，從 language model 升級(jí)到 large language，在 CLAP 基礎(chǔ)上的兩個(gè)L，從傳統(tǒng)的語言解析升級(jí)到大語言模型，完成后虛擬人的語言和表情等功能都會(huì)提升。

（未來，雷峰網(wǎng)(公眾號(hào)：雷峰網(wǎng))會(huì)關(guān)注更多數(shù)字人賽道優(yōu)秀創(chuàng)業(yè)者，歡迎和本文作者：s1060788086，交流認(rèn)知，互通有無。）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門文章

對(duì)話中科深智成維忠：數(shù)字人的關(guān)鍵是交互，交互的關(guān)鍵是大模型

對(duì)話中科深智成維忠：數(shù)字人的關(guān)鍵是交互，交互的關(guān)鍵是大模型