日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給王悅
發(fā)送

0

對(duì)話中科深智成維忠:數(shù)字人的關(guān)鍵是交互,交互的關(guān)鍵是大模型

本文作者: 王悅 2023-07-31 14:46
導(dǎo)語:“有的數(shù)字人企業(yè)半年沒接到單,很正常。”

作者丨王悅

編輯丨董子博

“今年的數(shù)字人市場(chǎng)迎來了天翻地覆的變化?!敝锌粕钪莿?chuàng)始人成維忠對(duì)目前國內(nèi)的數(shù)字人市場(chǎng)如是評(píng)價(jià)。

過去,國內(nèi)數(shù)字人企業(yè)真正做技術(shù)的并不多,大部分以IP打造為主。

出道即巔峰的虛擬美妝達(dá)人柳夜熙,一條視頻成本百萬,可現(xiàn)今抖音單條視頻平均只有20萬,后勁不足,不復(fù)往昔繁華。

風(fēng)靡一時(shí)的 A-SOUL 曾是虛擬女團(tuán)天花板,一時(shí)風(fēng)光無限好。然而,5月10 日,其運(yùn)營團(tuán)隊(duì)突然宣布旗下成員珈樂進(jìn)入直播休眠,瞬間打破全部幻想。

“有的企業(yè)半年沒接到單,很正常。”

從現(xiàn)狀和收效來看,主打人設(shè)和劇情并不是長遠(yuǎn)發(fā)展的模式,技術(shù)定力或許是數(shù)字人企業(yè)未來生存的關(guān)鍵所在。

中科深智成立七年多的時(shí)間以來,一直專注于 3D 虛擬人技術(shù)領(lǐng)域。成維忠一直相信,人是未來 3D 交互的重中之重,而這種與“人”的交互,則必須通過 AI 和大模型來完成。

目前,公司的工作重心在自己研發(fā)的 CLAP (對(duì)比性語言 - 動(dòng)作預(yù)處理模型)算法上。這種跨模態(tài)訓(xùn)練可以通過文本去設(shè)置動(dòng)作表情,再通過聲音去生成動(dòng)作表情。在這一點(diǎn)上,中科深智是國內(nèi)起步較早的一家企業(yè)。

5月10日,中科深智發(fā)布了兩個(gè)大模型,分別包含200億和20億參數(shù),以針對(duì)不同用戶的不同需求。成維忠表示,200億和20億兩個(gè)參數(shù)版本模型,在實(shí)際應(yīng)用場(chǎng)景時(shí),實(shí)則與千億模型的效果,實(shí)際表現(xiàn)差異不大。

大模型公布后,中科深智還會(huì)再將 transformer 進(jìn)行算法升級(jí),從 language model 升級(jí)到 large language model,從傳統(tǒng)的語言解析升級(jí)到大語言模型,完成后,虛擬人的語言和表情等效果都會(huì)提升。

將數(shù)字人和多模態(tài)大模型雙劍合璧,不僅是兩項(xiàng)技術(shù)的結(jié)合,更是1+1>2的相輔相成。

一方面,數(shù)字人可以作為更易用的 C 端入口,為大模型提供語音、動(dòng)作、情感等豐富的多模態(tài)數(shù)據(jù),形成 “User in the loop”的模式,為大模型形成“數(shù)據(jù)飛輪”;另一方面,憑借大模型強(qiáng)大的內(nèi)容理解和生成能力,數(shù)字人也能得到“靈魂”,用更強(qiáng)大的“內(nèi)在”來驅(qū)動(dòng)更好的用戶交互。

近日,AI科技評(píng)論與中科深智創(chuàng)始人成維忠進(jìn)行了一次對(duì)話,探討了中科深智在數(shù)字人領(lǐng)域一路走來的探索歷程。從最初選擇 3D 虛擬人的堅(jiān)定,到關(guān)鍵核心技術(shù)的攻艱,再到大模型發(fā)布,以及未來的場(chǎng)景落地,每一步,都是中國數(shù)字人企業(yè)發(fā)展的寫照。

以下是AI科技評(píng)論和成維忠的對(duì)談實(shí)錄,雷峰網(wǎng)在不改變?cè)獾那疤嵯?,進(jìn)行了調(diào)整和編輯:


交互是虛擬人的第一性

AI科技評(píng)論:從今年的市場(chǎng)狀況來看,交互性低的IP型數(shù)字人目前來看并不是一個(gè)很好的生意。未來,這種頹勢(shì)會(huì)反彈嗎?

成維忠:不會(huì)反彈,只會(huì)更艱難。不論什么風(fēng)格的虛擬人,它與傳統(tǒng)動(dòng)畫的分野是很清晰的。傳統(tǒng)動(dòng)畫是離線的,不注重非實(shí)時(shí)互動(dòng)的,發(fā)展線路很窄,而虛擬人追求與用戶的實(shí)時(shí)互動(dòng),如果做不到注定要被淘汰。

IP型數(shù)字人出現(xiàn)后開始吸引粉絲,用傳統(tǒng)CG方式來做。其實(shí)這只有資本的價(jià)值,沒有落地產(chǎn)品價(jià)值,從根本上講與傳統(tǒng)動(dòng)畫沒有差別。做到現(xiàn)在來看,他們的處境很艱難,這是可以預(yù)見的。

其實(shí),這種困境的原因在于第一性原理沒看清楚,有粉絲當(dāng)然很好,長得漂亮也好,但是虛擬人首要的是跟用戶之間的互動(dòng),沒有這一點(diǎn),整個(gè)生意是走不下去的。

AI科技評(píng)論:近幾年,人們對(duì)虛擬人的關(guān)注有哪些變化?

成維忠:最早大家比較關(guān)注虛擬人的形象,前年和去年上半年都關(guān)注虛擬人的動(dòng)作,去年下半年開始關(guān)注實(shí)時(shí)交互性。

數(shù)字人的交互性推動(dòng)我們做語言的解析,也就是從輸入端到最后的成像端,形成一個(gè)端到端的解決方案,我們認(rèn)為技術(shù)公司需要干這個(gè)事,如果不是端到端的解決方案,將來可能會(huì)有較大的問題。

AI科技評(píng)論:語言解析具體是怎么做的?

成維忠:從語言的解析部分來看,其實(shí)最關(guān)鍵的是動(dòng)作和表情生成技術(shù),其底層都是 transformer 。我們做 transformer 很早, 2020 年初,就把整個(gè)的動(dòng)作、表情生成作為工作的重心,然后底層用的就是 transformer 的算法。

幾年的過程中,我們一直關(guān)注基于 transformer 的自然語言處理的發(fā)展。早期谷歌的 Bert 出來,效果比較好,在這個(gè)過程當(dāng)中我們也所借鑒。

在做動(dòng)作表情生成的時(shí)候,我們有自己的算法叫 CLAP 算法。最開始做 CLAP 算法的時(shí)候,大廠也沒開始做這種跨模態(tài)訓(xùn)練,我們其實(shí)很恐慌。因?yàn)橐ㄟ^文本去設(shè)置動(dòng)作表情,然后通過聲音、音速、節(jié)奏去生成動(dòng)作表情,沒人做這個(gè)事,可供借鑒的文章也很少,這種探索是非常痛苦的。

直到 OpenAI 在2021年公布了 DALL-E,也是基于 transformer 語言,二者的邏輯有相似之處,給我們吃了定心丸。

AI科技評(píng)論:2020年的時(shí)候,針對(duì)哪種語言架構(gòu)比較好這一問題是沒有定論的,直到ChatGPT 出來之后,transformer 才變成業(yè)界的一個(gè)共識(shí)。為什么中科深智最早在2019年就開始關(guān)注 transformer?

成維忠:其實(shí)關(guān)注 transformer 前,中科深智從2016年是主做動(dòng)作捕捉的。

動(dòng)捕做到2019年,出現(xiàn)兩個(gè)大問題:其一,動(dòng)作捕捉在未來的元宇宙或相關(guān)應(yīng)用中是細(xì)分的垂直市場(chǎng),今年如果有些公司他的重心還是在動(dòng)捕方面,那他們一定是極端困難的;其二,虛擬人或元宇宙的技術(shù),本質(zhì)在于 XR+AI,所處時(shí)期不同,發(fā)展的側(cè)重點(diǎn)也不同,兩部分都是不可或缺的。

2019年我們也發(fā)現(xiàn)動(dòng)捕與新出現(xiàn)的 AI 融合度很低,這促使我們?nèi)ニ伎歼x什么樣的技術(shù)路徑。隨后,標(biāo)桿的事件發(fā)生,即GPT-2上線,就完全轉(zhuǎn)到 transformer 上來,我的合伙人宋健敏銳地覺察到這個(gè)方向很好,之前我們也有類似的架構(gòu),但是學(xué)習(xí)效率很低、成本高、對(duì)團(tuán)隊(duì)的要求也高,但GPT-2很好的解決了學(xué)習(xí)效率的問題,所以就一直順著這個(gè)方向做。

AI科技評(píng)論:中科深智的數(shù)字人目前有哪些可以落地的商業(yè)場(chǎng)景?

成維忠:從商業(yè)化的角度來看,我們始終覺得交互是最重要的。順著這個(gè)思路,選擇了兩個(gè)場(chǎng)景:一是 SaaS 產(chǎn)品,去找大的存量市場(chǎng),將虛擬人做成中間性很強(qiáng)的產(chǎn)品,比如電商,直接交付給客戶就可以立刻使用;二是賦能傳統(tǒng)的集成商或承包商,幫他們做用戶界面升級(jí),將圖形界面升級(jí)成虛擬人,比如銀行。

AI科技評(píng)論:除此之外,還有哪些比較有前景的落地場(chǎng)景?

成維忠:如果把數(shù)字人看做 AUI,那么現(xiàn)在所有的互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)都可以升級(jí),體量是很龐大的。我們今年的工作重心除了算法迭代之外,還會(huì)針對(duì)數(shù)字人交互性的特點(diǎn),形成多種解決方案。站在交互的角度來講,其本身又可以分為多種方式,比如語音助手和垂直領(lǐng)域落地,它是交互與業(yè)務(wù)流的結(jié)合,跟它的 RPA 之間有深度鏈接,中科深智目前還在研究和探索,背后的市場(chǎng)很大。


大模型是數(shù)字人的信號(hào)輸入

AI科技評(píng)論:有人說大語言模型是大廠的菜,對(duì)于小公司來說,用就行了。您如何看待這種說法?

成維忠:其實(shí)并不是這樣的,今年二月份的時(shí)候,我們對(duì)這個(gè)問題就看得很明白了。一方面,小公司如果不拿到大語言模型的開源代碼,就無法實(shí)現(xiàn)跨模態(tài)訓(xùn)練;另一方面,我們的客戶希望做定制和私有化部署,如果沒有大語言模型,也無法實(shí)現(xiàn)這一要求。所以,從二月份開始,我們決定做自己的大語言模型,過去多年的積累也會(huì)讓我們的步伐比較快。

AI科技評(píng)論:有用戶反饋,目前市面上的大模型無法滿足他們的要求。中科深智做的大模型能否滿足驅(qū)動(dòng)數(shù)字人的要求?

成維忠:起步階段,我們就對(duì)國內(nèi)外主流的大模型進(jìn)行測(cè)試,發(fā)現(xiàn)幾個(gè)問題:第一是調(diào)用的速度不能滿足虛擬人的實(shí)時(shí)交互要求,其實(shí)響應(yīng)速度的問題從原理上來說是解決不了的;第二是國外的模型對(duì)于中文的支持度很差,國內(nèi)的模型雖然調(diào)用的速度快,但是在開放性方面存在問題。

而客戶的要求首先則是算力消耗要低,國內(nèi)用戶對(duì)這點(diǎn)很敏感,按照現(xiàn)在各家的報(bào)價(jià)來推理,我們的用戶是用不起的。

AI科技評(píng)論:今年3月, ChatGPT 的 API 開放之后,價(jià)格是下降了90%的。

成維忠:但對(duì)用戶來說需要頻繁地使用它,其實(shí)還是很貴的。所以推理的成本和推理的速度是我的客戶考慮的點(diǎn)。

這也是我們做了200億和20億參數(shù)模型的原因。200億參數(shù)的推理用的是一張 V100 顯卡,20億參數(shù)模型用了一張3090顯卡,而且有在其中加冗余,在暴力測(cè)試的過程中,3060的顯卡就可以把模型跑起來。

而且,除了成本和推理速度問題,客戶并不關(guān)心大模型是否能夠解數(shù)學(xué)題、下棋,最關(guān)鍵的是你寫出來的中文是不是靠譜,不能帶翻譯腔。

第三點(diǎn)就是私有化部署的問題。當(dāng)下用戶在使用的時(shí)候,實(shí)際使用更多的還是大模型的泛化能力,能得到的內(nèi)容,和自己平時(shí)的 Know how 差不多,最終技術(shù)進(jìn)步的結(jié)果用戶很難感知到;而我們發(fā)現(xiàn)了這個(gè)問題,對(duì)應(yīng)設(shè)計(jì)了兩個(gè)模型——20億參數(shù)和200億參數(shù)。

其實(shí),大家會(huì)有擔(dān)心,參數(shù)量小了,模型效果會(huì)不會(huì)很差。而在5月10日的發(fā)布會(huì)上,我們把20億的模型和ChatGPT、文心一言進(jìn)行了對(duì)比。實(shí)測(cè)之后證明,效果肯定會(huì)稍微差一點(diǎn),但從使用的角度來看是足夠的。

所以,針對(duì)中小客戶,首推使用一張3090顯卡的20億參數(shù)模型,它的響應(yīng)速度很快。

AI科技評(píng)論:20億參數(shù)模型的能力還是非常強(qiáng)的。那大語言模型和數(shù)字人結(jié)合,有哪些創(chuàng)新的形式嗎?

成維忠:后面,我們會(huì)發(fā)布一個(gè)虛擬直播帶貨的產(chǎn)品,叫全能智播,直播間中是真人主播和虛擬主播一起帶貨。虛擬主播連接大模型,真實(shí)主播可以給虛擬主播下指令,都是用大模型來驅(qū)動(dòng)的。它不僅僅是主播的功能,還是集成了助播、場(chǎng)控、運(yùn)營及客服功能于一體的全能數(shù)字人,真正站在商家角度考慮,達(dá)到降本增效的作用。

AI科技評(píng)論:抖音目前還是希望接著去挖真人主播的潛力,數(shù)字人是他們的優(yōu)先級(jí)嗎?

成維忠:我們是第一家做虛擬直播的,也是第一家鼓勵(lì)做虛擬直播商用推廣的。目前,不同的平臺(tái)對(duì)這個(gè)事情的看法是不太一樣的,抖音、天貓、淘寶、京東總體上對(duì)虛擬直播持謹(jǐn)慎的態(tài)度,因?yàn)樗麄儠?huì)假設(shè),如果虛擬直播發(fā)展太快了,會(huì)不會(huì)對(duì)真人直播造成沖擊。

從長期來說,我覺得平臺(tái)對(duì)于虛擬直播、虛擬人應(yīng)該是開放形態(tài)。從根本上來講,平臺(tái)是拒絕不了虛擬主播這件事的,一方面,大模型對(duì)電商的支撐會(huì)越來越厲害,但是大語言模型跟真人之間還是要通過虛擬人結(jié)合,如果到那個(gè)時(shí)間點(diǎn)平臺(tái)仍然把規(guī)則卡得很死就等于把上升空間卡掉了。另一方面,把規(guī)則定清晰就可以了。

長期來看,我對(duì)它是持樂觀態(tài)度的,也仍然需要去探索怎么樣跟平臺(tái)、商家、用戶找到共贏的方式。

AI科技評(píng)論:這樣看起來,其實(shí)大模型就是為數(shù)字人提供了一個(gè)新的生產(chǎn)力的空間?

成維忠:其實(shí),大模型是數(shù)字人的一種輸入方式。我們核心的 CLAP 算法可以支持多種驅(qū)動(dòng),比如動(dòng)作的傳感器,把信號(hào)輸入到 CLAP 中也可以生成動(dòng)作表情。除此之外,也可以用攝像頭、動(dòng)物傳感器作為 CLAP 算法的輸入。

大模型是它輸入方式的一種,這種輸入方式很重要,我們認(rèn)為,未來很多的場(chǎng)景都是以大模型為主的,這就是為什么我們把它作為重心的原因。


3D虛擬人的長期主義者

AI科技評(píng)論:公司成立之初,在3D超寫實(shí)和 DeepFake 兩條路中,為什么選擇前者?

成維忠:我們公司于2016年4月份成立,到現(xiàn)在為止七年多的時(shí)間里 ,從大方向上來講,我們只做了一件事,就是3D虛擬人。

當(dāng)初選擇這一方向的原因也比較簡單,主要是基于對(duì)行業(yè)發(fā)展的兩個(gè)預(yù)測(cè):一是,傳統(tǒng)互聯(lián)網(wǎng)向下一步發(fā)展所采用的底層技術(shù)會(huì)發(fā)生較大的變化,過去是以圖文為主的2D方式,而下一代的發(fā)展會(huì)過渡到3D技術(shù);二是,在純3D內(nèi)容環(huán)境中,必然涉及人、貨、場(chǎng)三大部分,我們認(rèn)為人是其中最關(guān)鍵的因素。因?yàn)槿绻瓿扇藱C(jī)交互的話,不會(huì)像現(xiàn)在這樣,人和靜態(tài)的3D環(huán)境交互,中間一定需要交互的介質(zhì),而人就是3D交互的介質(zhì)。

在這樣的兩個(gè)預(yù)判之下,2016年成立公司之初,我們就決定將3D的數(shù)字人當(dāng)做今后發(fā)展的立足點(diǎn)。在行業(yè)中,有這樣的定位,而且是偏技術(shù)的公司,我們應(yīng)該是相對(duì)早的。

AI科技評(píng)論:在中國確實(shí)沒有太多做數(shù)字人技術(shù)的公司,很多都是拿技術(shù)套產(chǎn)品,走的是產(chǎn)品化和工程化的思路,并不以技術(shù)見長。

成維忠:是的。甚至有一些公司的重心都不是在做工程化和產(chǎn)品化,而是做虛擬數(shù)字人IP。這種其實(shí)用不到數(shù)字人技術(shù),更多的是傳統(tǒng)的 CG 動(dòng)畫技術(shù),只不過被冠以數(shù)字人的形式,但從行業(yè)的角度來講,真正做數(shù)字人技術(shù)的公司還是很少的。

AI科技評(píng)論:之前了解到一些做虛擬數(shù)字人IP的公司,他們計(jì)劃把公司下半年的戰(zhàn)略重心從數(shù)字人轉(zhuǎn)到數(shù)字空間上,主要還是因?yàn)闋I收不是特別好,甚至有的數(shù)字人公司已經(jīng)半年沒有接到訂單了,這種情況是否屬實(shí)?

成維忠:根據(jù)我的了解,這種情況蠻多的,今年的數(shù)字人市場(chǎng)迎來了天翻地覆的變化。

類似于把戰(zhàn)略重心從數(shù)字人轉(zhuǎn)到數(shù)字空間上這樣的做法,其背后的原因主要是當(dāng)下政策對(duì)元宇宙項(xiàng)目有很多積極的引導(dǎo),其傾向于宏大場(chǎng)景的產(chǎn)品。針對(duì)這一做法,我們也有思考過是否要從場(chǎng)景入手,中間有過動(dòng)搖,但最終決定不改變方向。

不改變的主要原因有兩點(diǎn):一方面,從長遠(yuǎn)看,公司成立之初的兩個(gè)判斷依然成立。如果有一天元宇宙真的落地了,人仍是最關(guān)鍵的因素;另一方面,中科深智還是對(duì)人工智能交互關(guān)注得比較多,去年我們就感知到,未來虛擬人和場(chǎng)景的結(jié)合只是一方面,更多的是與各種人工智能的結(jié)合,虛擬人就能滿足人機(jī)交互的需要。

所以這也是為什么大語言模型出現(xiàn)后,我們能夠在短時(shí)間內(nèi)跟上。大語言模型出現(xiàn)之后,人機(jī)交互發(fā)生了很大變化,這一領(lǐng)域可以將虛擬人的技術(shù)優(yōu)勢(shì)發(fā)揮出來。

AI科技評(píng)論:中科深智目前的工作重點(diǎn)在哪,是如何側(cè)重的?

成維忠:中科深智現(xiàn)在的工作重心在 CLAP 上,等大模型公布后還會(huì)再從 transformer 算法升級(jí),從 language model 升級(jí)到 large language,在 CLAP 基礎(chǔ)上的兩個(gè)L,從傳統(tǒng)的語言解析升級(jí)到大語言模型,完成后虛擬人的語言和表情等功能都會(huì)提升。

(未來,雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))會(huì)關(guān)注更多數(shù)字人賽道優(yōu)秀創(chuàng)業(yè)者,歡迎和本文作者:s1060788086,交流認(rèn)知,互通有無。)


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

對(duì)話中科深智成維忠:數(shù)字人的關(guān)鍵是交互,交互的關(guān)鍵是大模型

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說