下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

本文作者：李梅

2022-08-05 19:23

導語：算法的迭代事實上變成了數(shù)據(jù)的迭代。

作者 | 李梅

編輯 | 陳彩嫻

今年年初，知名 AI 學者吳恩達在接受 IEEE Spectrum 的采訪中，呼吁大家將目光從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心。深度學習問世以來，隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)趨于固定和成熟，轉(zhuǎn)而尋找改進數(shù)據(jù)的方法，已經(jīng)成了 AI 研發(fā)的新出口。

近日，2021 年吳文俊人工智能科學進步一等獎獲得者、云天勵飛首席科學家王孝宇博士，在人工智能產(chǎn)業(yè)年會上作了題為“ Towards Automated Artificial Intelligence”的主題報告。報告中，王孝宇博士詳述了AutoML/AutoAI 的三個發(fā)展階段，并介紹了他在云天勵飛主導開發(fā)的自動化 AI 模型生產(chǎn)平臺 YMIR。

王孝宇，現(xiàn)任云天勵飛首席科學家，此前曾任 Snap 研究院計算機視覺主席，NEC 美國研究院研究科學家。本科畢業(yè)于中國科技大學，后相繼在美國密蘇里大學獲得統(tǒng)計學碩士與電子計算機工程博士，主要研究領(lǐng)域為計算機視覺、機器學習與數(shù)據(jù)挖掘等，是目前國內(nèi)唯一一位在系統(tǒng)、芯片、算法三個方向獲得吳文俊人工智能科技進步獎的 AI 學者。

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

AI 科技評論對王孝宇博士在吳文俊獎大會上的報告作了不改原意的整理，并圍繞 AutoAI 對王孝宇博士進行了一次深入對話。

1 AutoML/AutoAI 的三個階段

第一階段：模型設(shè)計、調(diào)參自動化

當前，很多學者都已經(jīng)注意到，學術(shù)界或者工業(yè)界的優(yōu)秀人才所聚焦的研發(fā)，花費太多時間用于模型結(jié)構(gòu)設(shè)計以及調(diào)參，但實際上它本不應該成為研究的主要內(nèi)容。所以，有沒有一種自動化的方法，讓深度學習的網(wǎng)絡(luò)架構(gòu)在面對一個問題的時候，能自主的演化其架構(gòu)？

今年，關(guān)心這個問題的學者們共同發(fā)起了第一屆“自動化機器學習國際會議”（International Conference on Automated Machine Learning，AutoML Conference 2022），會議近期于2022年7月25日-7月27日在巴爾的摩舉辦。

在大會上，學者們概括出了自動化機器學習所涵蓋的 10 個主題：

Neural Architecture Search（NAS）
Hyperparameter Optimization（HPO）
Combined Algorithm Selection and Hyperparameter Optimization（CASH）
Automated Data Mining
Automated Reinforcement Learning（AutoRL）
Meta-Learning and Learning to Learn
Bayesian Optimization for AutoML
Evolutionary Algorithm for AutoML
Multi-Objective Optimization for AutoML
AutoAI（including Algorithm Configuration and Selection）

NAS 研究的是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動搜索和設(shè)計。Hyperparameter Optimization （超參數(shù)優(yōu)化）自動化的目標是在我們訓練神經(jīng)網(wǎng)絡(luò)的時候，不必再去費時挑參數(shù)，去考慮哪一個參數(shù)好一點、哪一個參數(shù)差一點，而是可以自動預測和尋找。CASH 是個更難的問題，指我們要解決一個具體問題時，可以自動化地選擇哪些機器學習方法，而不是自己手動設(shè)計。

第二階段：簡單模型訓練的軟件化

如果說第一階段的自動化主要面向?qū)I(yè)的算法研究人員，第二階段的系統(tǒng)化則面向一般的AI從業(yè)人員。他的主要目標是在給定標注好的數(shù)據(jù)的情況下，通過可視化的操作界面實現(xiàn)模型的訓練。但第二階段只是個美好的故事，很難實際應用，因為他缺乏對算法在實際場景中不斷迭代的支持。

第三階段：數(shù)據(jù)迭代自動化

在算法設(shè)計自動化的基礎(chǔ)上，正在發(fā)生一些變化。在去年的 NeurIPS 會議上，知名人工智能科學家吳恩達舉辦了一個 workshop，討論“模型和數(shù)據(jù)到底哪一個更重要”。在設(shè)計化的工業(yè)生產(chǎn)中，他的觀點是，以模型為中心（Model-centric）的技術(shù)研發(fā)已經(jīng)轉(zhuǎn)化成以數(shù)據(jù)為中心（Data-centric）的技術(shù)研發(fā)。

模型和數(shù)據(jù)之間的關(guān)系可以這樣類比（這是我個人的理解，不代表其他人的看法）：模型和數(shù)據(jù)分別類比為一個人的 IQ 和知識儲備。假設(shè)一個人天生的 IQ 很高，如果從小就把他養(yǎng)在家里，永遠不跟社會打交道，也不讓他學習新的知識，那么他還是會成長為一個很笨的人。而即使一個人資質(zhì)平平，但如果他見過全世界各地的事物，去過歐美留學，在中國做過實際的工業(yè)化生產(chǎn)，看過很多設(shè)計的案例，那么他可能比那個 IQ 高的人更厲害。所以如果這樣理解，模型就有點類似于 IQ，數(shù)據(jù)就有點類似于知識。二者同等重要，但到后面你會發(fā)現(xiàn)知識越來越重要，因為只有親歷過你才能知道，“知道”比“不知道”更重要。

在工業(yè)化大規(guī)模發(fā)展中，大家正在慢慢地從模型為中心的生產(chǎn)轉(zhuǎn)化為以數(shù)據(jù)為中心。下圖顯示的是吳恩達所做的一些實驗對比：

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

我們可以看到，當我們有了一個基礎(chǔ)算法之后，我們可從兩個維度來提高它的性能，一是以模型為中心的方法，即想盡各種辦法提高模型設(shè)計的復雜度、技術(shù)含量等；二是以數(shù)據(jù)為中心的方法，比如加數(shù)據(jù)（加數(shù)據(jù)也是有一些科學方法的，并不是加了數(shù)據(jù)后性能一定會提高）、檢查數(shù)據(jù)有沒有問題等等。他發(fā)現(xiàn)，以數(shù)據(jù)為中心的方法比以模型為中心的方法能更多地提高性能。我們自己做模型生產(chǎn)時也得到這樣一個結(jié)論：越到后面，數(shù)據(jù)的迭代越來越重要。因為所有模型的服務實際上是針對某一個特定場景，使用的是特定的數(shù)據(jù)。

在我們過去八年的實踐中，我們發(fā)現(xiàn)，算法的迭代事實上變成了數(shù)據(jù)的迭代。另外一個維度看，到現(xiàn)在為止，我們已經(jīng)研發(fā)了大量算法模型，但從來沒有一個模型是搜集了一次數(shù)據(jù)、調(diào)整一次參數(shù)就不用再調(diào)整了，很多模型都迭代了 5-6 年，迭代的主要內(nèi)容就是數(shù)據(jù)。因為我們解決不同的需求時，會遇到不同場景下的泛化性問題，我們碰到的問題越來越不一樣。這并不是算法不一樣的問題，而是場景不一樣，要處理的數(shù)據(jù)也不一樣，所以我們要不停地更新迭代數(shù)據(jù)，才能夠滿足不同場景應用的需求。

既然算法迭代已經(jīng)變成了數(shù)據(jù)迭代，那么有沒有辦法把數(shù)據(jù)的迭代也自動化呢？如果算法設(shè)計可以自動化，那數(shù)據(jù)迭代也可以自動化，所以端到端地完成自動化的 AI 模型生產(chǎn)平臺就逐漸成為可能。

而數(shù)據(jù)迭代的自動化需要技術(shù)的支持，同時還需要系統(tǒng)層級的支持。

2 YMIR：自動化 AI 模型生產(chǎn)平臺

為什么要做AI模型生產(chǎn)的平臺化？如今，有自動化 AI 模型生產(chǎn)平臺需求的，已經(jīng)不僅僅是谷歌、微軟、Meta、IBM、蘋果等大公司了，我們國內(nèi)就有不少房地產(chǎn)公司開始投入 AI。他們都有人才的需求，自動化的 AI 可以降低他們的成本。地產(chǎn)公司、物業(yè)公司，以及像寧德時代這樣做電池的公司，都在慢慢引入 AI 來解決實際問題。

為什么會這樣？因為：“AI 是新時代的電力”。AI 是一個非?；A(chǔ)的能力，可以提高我們做事情的效率，AI 并不改變行業(yè)，但是可以提升所在行業(yè)的生產(chǎn)效率，所以這種影響是全方位的，已經(jīng)慢慢地波及到非技術(shù)類公司了。更不用說現(xiàn)在廣泛的制造業(yè)，制造過程中的很多環(huán)節(jié)都可以利用到 AI 的能力。如果想提高自己的國際競爭力，提升自己的生產(chǎn)質(zhì)量，就需要 AI 的能力去賦能生產(chǎn)。

但問題又來了，我們沒有這么多 AI 人才，我們需要更scalable的方法進行AI的研發(fā)。因此我們就做了 YMIR 這樣一個自動化模型生產(chǎn)系統(tǒng)。

YMIR 是一個開源的、公益性的 AI 模型生產(chǎn)平臺，是我們和國際知名高校以及硅谷科技公司一起聯(lián)合發(fā)起的國際開源項目。我們還邀請到了多家美國科技巨頭公司的首席AI官擔任我們的項目顧問。該項目已經(jīng)在 GitHub 上開源。

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

Github 地址：https://github.com/industryessentials/ymir

YMIR：覆蓋模型生產(chǎn)全流程，聚焦模型的快速迭代能力

有了這些技術(shù)的支持之后，我們打造了一個工程化的系統(tǒng) YMIR。YMIR 覆蓋模型生產(chǎn)全流程，聚焦在模型的快速迭代上。我們不是訓練出一個模型就結(jié)束了，而是把模型（通過數(shù)據(jù)）迭代到能夠滿足現(xiàn)實場景的需求為止。

下圖是整個技術(shù)的框架，左邊是模型生產(chǎn)的初期階段，包括數(shù)據(jù)的準備、數(shù)據(jù)的標注、模型的訓練，右邊是一個迭代的過程，包括準備挖掘數(shù)據(jù)、數(shù)據(jù)標注、更新訓練集、再次做模型的訓練。

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

研發(fā)實踐：算法生產(chǎn)效率提升 6 倍，算法人員需求降 1/10

我們做了很多大規(guī)模研發(fā)實驗，來看看在實際生產(chǎn)的時候，它到底能不能解決問題。我們做了大概 6 個月的跟蹤，投入了 10 個標注人員，他們要么是高中生，要么是職業(yè)院校畢業(yè)的學生，當然也有算法人員。我們目前不能完全脫離算法人員，在面對一個問題的時候，怎么將其分解成技術(shù)實現(xiàn)，這還需要算法人員介入。同時，我們還需要算法人員給標注人員做一些簡單的系統(tǒng)培訓。算法人員投入 0.3 左右，即他們花費一天中的 30% 的時間去做這些事，其余時間他們還要做算法研發(fā)、標注文檔的審核、模型迭代情況的查看以及發(fā)現(xiàn)模型的問題。

我們標注的圖片總數(shù)是75萬，標注圖片框數(shù) 100 萬。標注人員的工作內(nèi)容的 90% 用在標注上，把要檢測的物體標注出來，10%的時間是用在操作 YMIR 系統(tǒng)上。我們在 3 個月的時間里，使用 10 個標注人員、0.3 個算法人員，生產(chǎn)了 50 個算法，而且這些算法大部分能夠滿足實際應用的需求，比如應急事件中的滅火器檢測、消防栓檢測等城市治理的需求。有的算法都已經(jīng)達到 97% 的精度。

這是我們使用這套系統(tǒng)和不使用這套系統(tǒng)的投入時間對比：

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

周期都是三個月左右，沒有這套系統(tǒng)的時候，算法人力的投入大概是36人/天，標注人員的投入是24人/天，模型生產(chǎn)了六個算法。在投入了這一套系統(tǒng)之后，我們在相同的時間周期內(nèi)可以生產(chǎn)51個算法，生產(chǎn)效率大概是17個算法/月，而以前是3個算法/月。使用自動化平臺后，算法生產(chǎn)效率提升了 6 倍，但是算法人員的需求降為原來的 1/10。（公眾號:雷峰網(wǎng)）

3 對話王孝宇

AI 科技評論：云天勵飛是一家算法公司，為什么會研究 AutoAI ?

王孝宇：我們不是一家單純生產(chǎn)算法的公司，我們?yōu)榭蛻籼峁┒说蕉说腁I解決方案。

同時我們意識到我們國家技術(shù)智能化、信息化的基礎(chǔ)還比較薄弱。我們希望5年之后，公司都認識到 AI 的重要性，投入去做AI升級的時候，自動化的AI平臺將為他們節(jié)約大量的成本，并成為AI大規(guī)模普及的催化劑。而當AI成為不可或缺的部分的時候，才有平臺化的硬件、平臺化的生產(chǎn)力工具、平臺化的服務的機會。我們希望YMIR AutoAI系統(tǒng)能推動行業(yè)的進步，并促使公司進入下一代人工智能技術(shù)及服務的研發(fā)。

AI 科技評論：您提到 AutoML 經(jīng)歷了三個發(fā)展階段，它們的本質(zhì)不同在什么地方？

王孝宇：第一階段主要是在學術(shù)的范疇，比如學者們發(fā)起AutoML Conference 2022，大家主要在探索算法模型設(shè)計的哪些環(huán)節(jié)能夠用自動化的方式去完成，以及用何種方式去實現(xiàn)自動化，比如如何實現(xiàn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索、超參數(shù)優(yōu)化、混合算法選擇等等。

第二階段是打造出自動化的算法模型生產(chǎn)系統(tǒng)，把第一階段積累的方法論沉淀為平臺和系統(tǒng)，以低代碼甚至零代碼的方式實現(xiàn)自動化算法模型訓練。但這類平臺并沒有把模型迭代的過程落實到系統(tǒng)中去，沒有覆蓋真正模型訓練的完整生產(chǎn)周期，所以滿足不了工業(yè)化生產(chǎn)的需求，我把這個階段的 AutoML 定位成一個「玩具」，玩一玩可以，但是不能真正用到實際任務中。因為沒有任何一個工業(yè)化生產(chǎn)的模型只訓練一次技術(shù)就可以了，它是需要迭代的。

而我們正在做的是第三階段的 AutoML，即打造面向產(chǎn)業(yè)應用的自動化模型訓練平臺。據(jù)我們的市場調(diào)研，YMIR 是市場上唯一一個覆蓋模型生產(chǎn)的全生命周期的系統(tǒng)，它可以真正地用到工業(yè)化生產(chǎn)中?？梢哉J為，早期的 AutoML 偏向于純技術(shù)，而 YMIR 更強調(diào)實際的工業(yè)應用。我們做的是一個產(chǎn)品系統(tǒng)，所以我們考慮的不僅是技術(shù)的問題，還有工程和系統(tǒng)的問題。

AI 科技評論：AutoML 和 AutoAI 兩個概念有什么區(qū)別？

王孝宇：我認為，我們比較合適將 AutoML 的概念限制在它的第一階段，它專注于技術(shù)。Machine Learning 也只是人工智能技術(shù)之一，生產(chǎn)系統(tǒng)其實并不是傳統(tǒng)意義的 AutoML ，只是我們現(xiàn)在還找不到一個合適的詞去概括它。相比較而言， AutoAI 能更好地概括我們現(xiàn)在做的事情。

AI 科技評論：為什么說數(shù)據(jù)越來越重要？

王孝宇：數(shù)據(jù)和算法等技術(shù)是相輔相成的。而最終技術(shù)如果要滿足應用需求，數(shù)據(jù)到位是不可或缺的一環(huán)。

算法可以將AI模型精度從 50% 提高到 60%，但還是不能最終解決應用中實際的問題，而數(shù)據(jù)可以將AI系統(tǒng)精度從 60% 提高到 90%。因為模型的設(shè)計逐漸趨同、技術(shù)趨向成熟，這時數(shù)據(jù)的迭代變得比技術(shù)本身更重要。算法技術(shù)一直都很重要，但往往落地的臨門一腳，需要數(shù)據(jù)來推動。

AI 科技評論：現(xiàn)在已經(jīng)有別的 AI 模型生產(chǎn)平臺聲稱其訓練一個模型只需要十幾分鐘，您怎么看？

王孝宇：模型要真正能部署到現(xiàn)實系統(tǒng)中去、真正能跑起來才有用。宣傳訓練一個模型需要多短的時間是沒有意義的，因為真正耗時間的是數(shù)據(jù)。模型訓練可能只需要十幾分鐘，但百萬的數(shù)據(jù)標注也需要花費一個月。在一個模型的全生產(chǎn)周期中，我們首先要對問題進行定義，之后收集數(shù)據(jù)，再去訓練模型。將訓練完的模型用到現(xiàn)實的場景中，看是否存在什么問題，然后再次收集大量的數(shù)據(jù)去做迭代，這個迭代的過程是很長的。

我們的很多算法人員將 90% 的時間都用在數(shù)據(jù)的處理上，只有 10% 的時間用來寫代碼和研發(fā)模型結(jié)構(gòu)。互聯(lián)網(wǎng)的數(shù)據(jù)相對容易獲得，但也需要大量的工作，因為數(shù)據(jù)的噪聲很大，尤其是隨著這一波人工智能的應用場景慢慢下沉到線下，數(shù)據(jù)的噪聲變得更大。例如傳統(tǒng)企業(yè)中質(zhì)檢員拍攝的圖像數(shù)據(jù)、數(shù)據(jù)標注質(zhì)量也會因為質(zhì)檢員的個人素質(zhì)差異而不同。

AI 科技評論：YMIR 平臺包含數(shù)據(jù)的自動標注嗎？

王孝宇：我們提供預標注。所謂的“自動標注”是一個偽概念，最起碼在現(xiàn)階段沒有一個平臺可以真正做到完全自動標注，現(xiàn)在還需要人去介入，比如說做井蓋檢測時，我們提前給井蓋畫一個檢測框。如果畫對了，標注人員就直接過審；如果沒對，標注人員還要再修改。

AI 科技評論：為什么你們目前還沒有選擇將 YMIR 商業(yè)化、而是免費開源？

王孝宇：我們國內(nèi)的消費市場發(fā)展的非常好，因為有良好的移動互聯(lián)網(wǎng)基礎(chǔ)。而我們 ToB 服務的企業(yè)相較發(fā)達國家差距巨大，我想相當一部分原因是我們沒有良好的企業(yè)信息化基礎(chǔ)和企業(yè)服務生態(tài)。我們其實是一個底層的布道者角色，想要促進企業(yè)服務生態(tài)的繁榮。所以我們的平臺是完全開源的，無論你是個人用還是把它商業(yè)化都是免費的。這的確有些理想主義，但我們認為，整個行業(yè)好，我們就好，這是一種長期主義。（公眾號：雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

李梅

編輯

發(fā)私信

當月熱門文章

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心