0
| 本文作者: 郭思 | 2023-08-31 10:09 |

編者按:2023 年 8月14日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節(jié)大酒店正式開幕。論壇由GAIR研究院、雷峰網(公眾號:雷峰網)、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。
大會共開設10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領域的變革創(chuàng)新。此次大會是在大模型技術爆炸時代,首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。在第一天的“GPT時代的杰出貢獻者”專場上,Zoom CTO黃學東以“無限的人類聯(lián)系與生產力的前沿”為題發(fā)表了大會報告。
黃學東是美國國家工程院、美國藝術與科學院院士,IEEE/ACM Fellow。他指出,移動電話、互聯(lián)網與 Facebook 分別用了 16 年、7 年與 4 年半才達到 1 個億的用戶量,但 ChatGPT 只用了 3 個月,由此可見其革命性。
如今,全球的大模型呈現(xiàn)「百模大戰(zhàn)」的局面,這無疑反映了科技圈對 AI 的敏銳與激情。但在黃學東看來,AI 在工業(yè)界的落地應用應考慮「集成式 AI」的實踐與可能。古語有云,「三個臭皮匠頂個諸葛亮」。
黃學東表示,這一思想在 AI 商業(yè)化落地中也有其用武之地。這也是黃學東離開其工作 30 年的老東家微軟、轉而加入 Zoom深耕人工智能應用的機會。現(xiàn)在大模型發(fā)展存在百花齊放的局面,即參與者往往過分高估自家成果,而沒有面向外界進行合理的整合。例如,此前,很多公司內部的各項 AI 模型如語音、計算機視覺、翻譯等功能都十分強大,但沒有像 OpenAI 一樣整合出一套統(tǒng)一的基礎模型ChatGPT。作為一家應用型產品企業(yè),Zoom 注重 AI 模型的集成與融通,用新一代聯(lián)邦學習融合了 OpenAI、Anthropic、Meta 等等多家模型的功能接口,由此完成比原有模型更好更強大的用戶落地服務。
在與潘毅院士的對話中,潘毅院士問及「未來人工智能將泛化出怎樣的能力,是否可以擁有像人類軍事家一樣的指揮能力」,黃學東院士則認為,人們常常高估技術的短期效力,而低估其長期影響——瓦特在發(fā)明蒸汽機,麥克斯韋建立電磁理論時,都沒有想到會對未來產生如此大的效應,今天大模型的發(fā)展也是如此,我們暫時只能看到短期影響,而大模型對于人類的影響可能會深遠,而在那時候,一切皆有可能?!?/p>
以大模型為中心,多模態(tài)聯(lián)合發(fā)展的技術趨勢在未來兩年將會成為現(xiàn)實,GPT的出現(xiàn)并非一個偶然事件,而是一個歷史必然。在當下,我們都應該注重三個臭皮匠的聯(lián)合融合能力,這樣才能贏過更多的諸葛亮為人工智能應用落地做貢獻。”黃學東院士答道。
以下為黃學東院士的現(xiàn)場演講以及與潘毅院士的對話內容,雷峰網作了不改變原意的編輯及整理
接下來我跟大家分享一下我在微軟 30 多年的一些工作經驗和教訓。首先給大家展示一張很有意思的圖片,這張圖(如下圖)描述了過去千年來,人類社會的進步基本上是以技術來驅動。其中一個重要的里程碑就是印刷術的發(fā)明,因為在中世紀時期,教會掌控一切。德國古登堡發(fā)明金屬活字印刷機,推動《圣經》的大規(guī)模印刷,人們對于《圣經》的理解不需要通過教會來解釋。與此同時馬丁路德發(fā)明了新教,這兩件事基本上讓歐洲從中世紀進入了現(xiàn)代文明。所以印刷術的發(fā)明極大地推動了人類生產力的解放。
此后,蘇格蘭人瓦特發(fā)明了蒸汽機,有了蒸汽動力以后,人們不再需要靠人工或者馬夫來進行交通運輸,解放了人類生產力,全球的 GDP 有了一個小小的進步。
1873年,另外一個蘇格蘭人麥克斯韋(Maxwell)建立電磁理論,再次推動了工業(yè)革命。后來,蘇格蘭人貝爾發(fā)明了電話,通訊行業(yè)有一個新的革命。而在今天,一個來自蘇格蘭愛丁堡大學的畢業(yè)生 Geoffrey Hinton推動了人工智能的再次進步。
所以在人類革命的過程中,除開德國人發(fā)明了金屬活字印刷機,從電磁理論、蒸汽機到人工智能,還有電報和電話的發(fā)明,蘇格蘭人對世界革命作出了非常巨大的貢獻。(當然還包括亞當斯密——另一個奠定了經濟學的全球基礎的蘇格蘭人)。
我有幸在蘇格蘭求學過一段時間,博士學位在蘇格蘭完成,這段分享也回敬我個人在蘇格蘭所受的教育。微軟看到 GPT 4. 0 ,表現(xiàn)非常驚艷,就決定了做 Bing Chat。去年 11 月份,OpenAI 將 Chat GPT 放出來,實際上它是基于比較弱的GPT 3. 5系統(tǒng)。我在微軟工作期間是Azure AI 的CTO,在過去五年做了很多事情,大力推動了人工智能的工業(yè)化落地,包括在業(yè)界實現(xiàn)第一個媲美人類的對話的語音識別系統(tǒng),后來又做了可以媲美人類的機器翻譯系統(tǒng),還有推出達到人類水平的計算機視覺系統(tǒng),這些都是一步步往前走的。不過值得一提的是,這些都是用一個具體的模型來解決某一個具體問題。
如果要讓這個模型去做別的事兒,馬上就不行了。而GPT的成功之處就在于,它在某一個領域可以做得很好,換一個領域也可以做同樣的事情,所以盡管微軟自己的人工智能取得了不錯的成就,并且都已產業(yè)化變成了API,讓大家可以訪問,但還是沒有到達 ChatGPT 出來就一炮打紅的效果。GPT 一個模型可以干所有的事情,不僅僅如此,它只花了3個月就達到了1億的月活用戶,而互聯(lián)網用了7 年,移動電話花了 16 年。GPT4.0 更牛。中國人很喜歡考試,隋朝就推出了科舉考試,有幾千年的考試文化基因,為了驗證GPT 4. 0 的表現(xiàn),我們可以讓GPT去考試看一看。
這個圖是美國律師證的考試,最右邊那個表格后面有個平均成績 68 分,這代表著一個人類考生在這個考試中能考68 平均分。法律考試其實很難,需要運用到知識推理以及各種常識來評判法律上的諸多問題。
GPT 4.0參加這個考試,大大超過了平均人類考生的水平,達到75.7的高分,不僅如此,GPT 4.0也可以參加醫(yī)學考試,它能超過人類的水平。按照這個標準,如果 GPT 4.0參加高考,可能會把清華北大的學生都淘汰,這是一個人工智能發(fā)展史上的歷史性的時刻。
下面這張表總結了整個 GPT4.0 產生過程的四個階段,第一個階段叫做 Pretraining,用到了現(xiàn)如今基本上能用到的所有數(shù)據(jù)。Pretraining的時候,大模型通過數(shù)據(jù)基本上看到了全互聯(lián)的知識和信息。為什么人類做題做不過GPT?因為GPT記性好,而人的記性是有限的。然后再到算法層面,大語言模型這一點其實非常簡單,IBM 70 年代就做了這大語言模型,但是他做的時候比較簡單粗暴,只用了一個所謂的n-gram,就是讓機器看過去 n 個字,猜下一個字是什么東西。
他為什么要做這件事情?因為語音識別歧義性很高。這個方法可以幫助提高語音識別的性能。所以今天的人工智能其實要歸功于 IBM 的語音識別成果。
后來IBM 研究人員這些人把語音識別的技術拿去做機器翻譯,把那些傳統(tǒng)規(guī)則的方法基本上打得落花流水,一炮打紅,再一次證明統(tǒng)計方法就是牛。所謂今天的大語音模型不過就是把機器翻譯的技術用到預測未來應該講什么話。這個解釋很簡單,人一聽就明白,也就是將大家提出的問題用機器的翻譯方法轉變?yōu)橄氲玫降拇鸢福╤istory to future)。
預訓練大模型需要非常大的數(shù)據(jù)來進行訓練。如今因為有整個網絡的數(shù)據(jù),所以模型的「大」根本不是問題。越大發(fā)現(xiàn)效率越高。當然錢和時間也燒得嚴重。這個做完以后,還需要一些更高質量的數(shù)據(jù)來微調語言模型,再進一步跟人類的價值對齊。比如模型產生了不同的結果,一個機器翻譯系統(tǒng)翻譯出 10 個不同的結果人們需要來對比一下哪個結果最好,最符合人們的預期需求。
通過這些步驟,我們就得到了GPT一個非常驚艷的結果,一個模型可以基本搞定你想做的任何事情,這是個很了不起的工程成就和研究突破。過去沒有人覺得可以用一個很大的基礎模型來做那么多事情。OpenAI 超越了微軟自己的人工智能。在大模型出來之前,微軟基本上是語音方面有一個產品,視覺方面有一個,機器翻譯有一個,這些東西從單獨的性價比來說都比Open AI做要好,但是微軟內部沒有搞出一個統(tǒng)一的模型能搞定所有東西,這也是GPT革命性突破之處。
現(xiàn)如今,GPT 4.0 還沒有第二個可以替代的方案,但是就像人一樣,人一驕傲就喜歡吹牛或者幻想。GPT 4.0 也有幻想的問題。比如我問「What is Azure Cognitive Services Z-code and holistic representation towards integrative Al?」(什么是Azure認知服務 Z-code?)他回答沒有,一本正經胡說八道。
所以我們現(xiàn)在還不敢完全相信GPT。歷史上很多類似的故事,有些人一旦做得很成功,變成神了,就沒人敢挑戰(zhàn),這時候問題就會出現(xiàn),GPT4.0 變成眾人眼中的神,也出現(xiàn)幻象問題了。我今天所說的言論,大家也應該挑戰(zhàn)我。但估計我講的基本上都對,到現(xiàn)在為止潘主席還沒有把我趕下臺(笑)。接下來。我再簡單介紹一下微軟人工智能的歷史。
1995年,微軟視窗95在工業(yè)界是一個高光時刻,那時候很多小年輕還沒出生,當時我們推出了 Speech API,是 Windows 95 的一部分,然后 2015 年,微軟與時俱進推出了云服務API,當時項目名字叫牛津計劃 (Oxford Project)。從微軟95的 SAPI 到Azure AI 的人工智能認知服務API,整整花了 20 年。我十分有幸,在微軟不僅僅組織了微軟視窗95 SAPI的推出,也組織了微軟云Azure AI的推出。從 2015 年推出來到如今我離開微軟,整個微軟認知服務部門已經進入商業(yè)盈利狀態(tài)。
所以各位如果想要找一個投資者說給你投錢,他說人工智能不一定會賺錢,你可以用微軟的例子反駁,當然微軟也做了 30 年才開始賺錢(笑)。接下來這張圖總結了從 2018 年到 2023 年期間一些基礎模型的狀態(tài),大家可以看到模型訓練數(shù)據(jù)越大,參數(shù)越大性能往往也會越好。
在2019年左右,大家對GPT 1. 0 并不感冒。GPT 1.0 到 2.0,模型變大了很多,性能也提升非常多。但是還是沒多少人看得起GPT 2.0。此后從 GPT 2. 0 到 3. 5,模型繼續(xù)變大,GPT 3.5 確實可以做很多事情,但要真正跟其他的 AI 來PK,單獨性能基本上 PK不過。比如翻譯性能差不多,但是微軟在線服務比GPT便宜 10 倍。后面的 GPT 4.0,參數(shù)規(guī)模越來越大,越來越貴,性能越來越好。
所以未來兩年以內的技術趨勢肯定是以大模型為中心,多模態(tài)聯(lián)合工作。下面這個視頻我給大家簡單介紹一下微軟AI現(xiàn)在可以達到的效果,畫面角落有一個數(shù)字人,神態(tài)和講話都和我一模一樣,這是用微軟現(xiàn)有的 API 做出來的。這個視頻是一段從網上抓下來的視頻,某一個游客的越野車開到非洲的森林里面,碰到了河馬,今天自動駕駛汽車開到那肯定全遭殃,因為沒有一個通用的計算機視覺模型。
所有這一切全是人工智能自動生成,現(xiàn)在的AI已經可以做到,將任何一段視頻放進來,機器可以將視頻里面發(fā)生的事情總結下來,并用數(shù)字人的聲音完全描述剛剛發(fā)生的事情?,F(xiàn)在我剛剛離開微軟,在Zoom上了將近一個半月班,大家問我為什么要離開微軟去Zoom?我覺得 Zoom 是這個世界上最好的能連接人們的視頻通訊公司。
來新加坡之前,福布斯雜志對世界上所有的視頻會議應用解決方案從 1 到 5分進行了評比, Zoom得分 4. 9 分。相比之下,其它的軟件拿了3點多分,從這可以看出 Zoom 今天的江湖地位。Zoom是一個應用公司。
Zoom的AI提出的就是「三個臭皮匠」理論,來自中國古語「三個臭皮匠,頂個諸葛亮」。其實不僅僅我這樣想,波音公司在生產 787 的時候也采用了同樣的方法,一個龐大的波音787 也是通過各個國家的零部件拼湊而來。今天Zoom整合了 GPT 4、Anthropic、Google和Meta等大語言模型。我們就要把這些眾多的「臭皮匠」拿過來,整合起來變成 Zoom 的 AI 模型,解決我們的實際問題。這是我們正在做的工作。未來大家很快能看到一個不僅僅是4. 9 分的Zoom,有可能是一個超越 5. 0分的Zoom,謝謝大家。,
潘毅:很高興跟老同學做對話。這個我們首先來聊一下黃院士最近的工作。黃院士,您剛剛所說把三個臭皮匠湊成一個諸葛亮,那么你認為這個理論未來是否是一個重要的發(fā)展趨勢?
黃學東:為什么美國聯(lián)邦政府還算比較有效率?它最大的好處是有一個糾錯機型。我們不能把所有的雞蛋放在一個籃子里面,放在一個籃子里很危險,在今天,盡管你想雞蛋放到一個籃子也放不下,因為GPT 4. 0 雖然現(xiàn)在是業(yè)界最強大的語言模型,但實際上它去做一個真正落地,它還是缺了一條腿。在這樣一個情況下,大模型公司百模大戰(zhàn)的現(xiàn)象當然令人高興,但我們其實也不需要百模,我們只需要把四五個大語言模型拿過來聯(lián)邦整合,每一個人有自己的一個應用場景,把臭皮匠捏起來,這樣的效果和成本肯定最好。Federated learning這是一個老的學術概念,但是Federated AI 2. 0,這是 Zoom 正在推的新概念。
據(jù)我所知,現(xiàn)在業(yè)界基本上還沒有人能把 Anthropic 、llama 2 和 GPT 4. 0 揉合在一起,這樣結合的模型能比GPT價格便宜,性能比所有模型都要好,因為他們都是臭皮匠,合在一起肯定超過諸葛亮。這也是我為什么要離開微軟來到 Zoom 的主要原因。Zoom做AI,不是為了寫詩,也不是要去寫代碼,Zoom有具體的應用場景。(順帶提一句微軟的 Codex Git Hub 做的非常好。在座的程序員要小心,再過幾年GPT 5 出來的時候,程序會寫得更好。)
潘毅:微軟很強大,二十幾萬人,但是在中國和新加坡,還有很多很小的企業(yè),他們沒有足夠的資金和GPU 。這些小公司怎么做到既考慮到自己的利益又能跟 GPT 配合起來?這方面,你有什么建議?
黃學東:所有的公司和學校都可以借鑒三個「臭皮匠」理論,因為小公司有很多模型,其中最好的還是能把這個大模型通過「臭皮匠」模式整合起來,再利用自己的數(shù)據(jù),做成一個「諸葛亮」,就像zoom一樣。我們要知道GPT的出現(xiàn)不是偶然現(xiàn)象,而是歷史的必然,我們要好好把握這個機會。
潘毅:現(xiàn)在人工智能這么普及, ChatGPT 這么廣泛,怎么解決數(shù)據(jù)的隱私問題?
黃學東:這個問題問的太好了,這也是 Zoom 最近碰到一個事情 。Zoom 現(xiàn)在已經宣布,不會從任何會議(包括音頻、視頻和對話 等形式)里面拿取數(shù)據(jù)去訓練人工智能模型。用戶在使用Zoom 的時候,可以絕對放心,所有的數(shù)據(jù)是安全的。Zoom 在做兩件事情,保護數(shù)據(jù)隱私,加快聯(lián)邦人工智能2.0落地,這是公司最重要的戰(zhàn)略決策。
潘毅:假如把人類頂尖軍事家的思想都放到 AI 里面去,今后 AI 能不能超越人類的指揮的能力?
黃學東:我們很難預測AI 發(fā)展速度有多快,人們通常會高估短期內技術能做什么事情,但是低估了技術發(fā)展 10 年、 20 年后對社會的貢獻。借用我演講的第一張圖來回答,以 1000 年的視野來看,社會的進步曲線呈指數(shù)級上升趨勢,在德國古登堡發(fā)明金屬活字印刷機的時,社會發(fā)展還比較緩慢,而在蒸汽機發(fā)明之時,人類文明有了一個很大的提高。但在今天,人工智能是一個絕對的加速器,其所帶來的社會進步會超越了大部分人的想象。瓦特絕對沒有想象蒸汽機發(fā)明對社會進步的貢獻。麥克斯威爾也絕對沒有想象電磁理論可以推動社會如此大的進步,包括這個貝爾發(fā)明的電話對社會的溝通也起到了他想象不到的巨大作用。人工智能現(xiàn)在只是一個非常非常早期的階段,人工智能加上基因工程技術加持之下,我們每個人都可以變成更好的自我,不僅活得長、活得幸福、活得快樂,而且可以心想事成,整個社會也會有光明的前景。
潘毅:接下來,我想提一個私人的問題,最近我在元宇宙方面首次提出來把生命帶入元宇宙,也就是把神經的鏈接數(shù)字化,真正體現(xiàn)人的永生。因為現(xiàn)在數(shù)字細胞已經產生了,那么你對于怎么體現(xiàn)這個數(shù)字人「神」態(tài)的問題以及對于元宇宙的發(fā)展有什么想法?
黃學東:我覺得其實現(xiàn)在 AI 已經可以跟大家開玩笑,也會在特定情形下表現(xiàn)得害羞。所以我覺得情感計算這件事情,在我們可預見的 10 年之內肯定會發(fā)生。
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。