首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

本文作者： camel

2019-10-27 21:22

導(dǎo)語：一個嶄新的高水平交流平臺

雷鋒網(wǎng)AI科技評論按：近年來，隨著中國的學(xué)術(shù)實(shí)力不斷增強(qiáng)，越來越多的學(xué)術(shù)頂會移步中國，例如IJCAI、IROS、EMNLP、ICDM等學(xué)術(shù)頂會今年都在國內(nèi)舉辦。而針對多智能體系統(tǒng)而舉辦的國際分布式人工智能會議（Distributed AI，DAI）則更進(jìn)一步的代表，不僅僅首屆會議選址中國，且其發(fā)起人中多數(shù)也都是華人學(xué)者。

其中南洋理工大學(xué)安波（大會共同主席）、清華大學(xué)唐平中（程序委員會共同主席）、南京大學(xué)高陽（Workshop 主席）、MSRA 秦濤（工業(yè)論壇主席）、南京大學(xué)俞揚(yáng)（贊助主席）、天津大學(xué)郝建業(yè)（宣傳主席）都在組織者之列，圖靈獎得主姚期智院士也擔(dān)任大會名譽(yù)主席并將做主旨報(bào)告。

之所以由華人推動并成立這個會議，其背后則是我國分布式人工智能的研究群體日益壯大，工業(yè)界的應(yīng)用越來越頻繁，國內(nèi)學(xué)術(shù)界迫切需要舉辦一個新的高水平交流平臺。

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

2019年10月13-15日，第一屆國際分布式AI大會在北京國家會議中心成功召開。雷鋒網(wǎng)了解到，本次會議共有 1 個workshop、2個tutorial、3個特邀主旨報(bào)告、3個工業(yè)主旨報(bào)告、6個工業(yè)特邀報(bào)告以及48個oral演講。本次會議，作為首屆DAI會議，共接收37篇投稿論文，其中13篇被收錄（長論文 11 篇、短論文 3 篇）。此外，為了豐富本次會議的內(nèi)容，會議組織方也邀請了來自AAAI，AAMAS，IJCAI，NeurIPS，ICML，ACL，KDD等頂會的35篇論文做口頭報(bào)告。

一、德?lián)?amp;圍棋，全天講解

會議從13日開始，上下午分別有一個tutorial。有意思的是，上午tutorial的講者是著名德?lián)銩I研究者Noam Brown，而下午的講者是在圍棋AI領(lǐng)域極為著名的華人學(xué)者田淵棟。

德?lián)銩I大師：Noam Brown

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

Noam Brown 是Facebook人工智能實(shí)驗(yàn)室的研究科學(xué)家，他在計(jì)算博弈論和機(jī)器學(xué)習(xí)方面成果顯著，最為著名的則是2017年研發(fā)了雙人無限撲克Libratus ，以及2019年研發(fā)了多人無限撲克Pluribus，分別戰(zhàn)勝了人類頂級玩家，轟動一時(shí)。其中，Libratus 也被《科學(xué)》雜志列入 12 項(xiàng)年度突破性科學(xué)成果之一，Pluribus 則登上《科學(xué)》雜志的封面。

在tutorial中，Brown講述了“不完美信息”情況下的游戲AI。在傳統(tǒng)游戲AI（例如國際象棋、圍棋等），所有的信息對于博弈雙方來講都是已知的，人工智能所需做的是盡可能快地搜尋最優(yōu)解，隨著AlphaGo在圍棋上的突破，完美信息游戲AI已經(jīng)達(dá)到了巔峰。但在現(xiàn)實(shí)世界中的諸多決策往往是不完全展現(xiàn)在參與者面前的，例如撲克，我們并不知道對手手中牌的信息。Brown在tutorial中首先解釋了為什么過去用于完美信息游戲的策略（搜索算法）在不完美信息游戲中會崩潰，然后介紹了集中克服相應(yīng)挑戰(zhàn)的新算法，特別是涵蓋虛擬游戲和反事實(shí)后悔最小化算法（counterfactual regret minimization algorithms），以及用于不完美信息游戲的搜索技術(shù)。

圍棋AI大師：田淵棟

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

田淵棟則從強(qiáng)化學(xué)習(xí)的角度對游戲AI中的方法、工具、應(yīng)用以及其他等方面做了全面回顧。田淵棟是Facebook在圍棋研究領(lǐng)域的負(fù)責(zé)人，在今年初田淵棟將基于AlphaZero研究工作而開發(fā)的ELF OpenGo 預(yù)訓(xùn)練模型與代碼完全開源，成為圍棋AI的首次開源，極大地促進(jìn)了圍棋AI的廣泛研究和應(yīng)用。

在tutorial中，田淵棟對最新的強(qiáng)化學(xué)習(xí)方法（A3C，APE-X，R2D2，SAC，自學(xué)習(xí)等）及其在游戲和其他應(yīng)用中的用法進(jìn)行了廣泛的回顧，并提出了一個全新的強(qiáng)化學(xué)習(xí)工具ReLA。田淵棟介紹說，ReLAx與之前他們開源所使用的ELF相比，在PyTorch C++ API中能夠利用本機(jī)向量支持，具有高效的批處理功能，且能夠執(zhí)行并行網(wǎng)絡(luò)轉(zhuǎn)發(fā)。田淵棟在隨后通過更加詳細(xì)的應(yīng)用案例講解了ReLA的應(yīng)用，值得游戲AI研發(fā)的人員仔細(xì)研究。

二、特邀主旨報(bào)告

本次會議的另一大亮點(diǎn)是由姚期智、Victor R. Lesser、劉鐵巖組成的特邀主旨報(bào)告陣容。

姚期智：Fintech: A Meeting of Minds Between Computer Science and Economics

姚期智是世界著名的計(jì)算機(jī)學(xué)家，2000年圖靈獎得主。其主要研究方向?yàn)橛?jì)算理論及其在密碼學(xué)和量子計(jì)算中的應(yīng)用。其在1995年便提出了分布式量子計(jì)算模型，后來成為分布式量子算法和量子通訊協(xié)議安全性的基礎(chǔ)。在本次會議中，姚期智作為首個特邀報(bào)告嘉賓做了主題為《Fintech: A Meeting of Minds Between Computer Science and Economics》的報(bào)告。

姚期智認(rèn)為金融科技可以看做是數(shù)字時(shí)代經(jīng)濟(jì)學(xué)和計(jì)算機(jī)科學(xué)的一次融合，在金融科技的主要技術(shù)基礎(chǔ)包含了計(jì)算機(jī)科學(xué)的可靠分布式計(jì)算和密碼學(xué)以及金融學(xué)方面的有效金融活動機(jī)制等。在報(bào)告中，姚期智從以上的角度，探討了拍賣以及區(qū)塊鏈領(lǐng)域的一些最新工作。例如是否可以從競標(biāo)者愿意支付的拍賣中獲得更多收益？當(dāng)投標(biāo)人比其他人更具風(fēng)險(xiǎn)承受能力時(shí)會有更多的收入嗎？他隨后還介紹了有關(guān)區(qū)塊鏈費(fèi)用的一些最新結(jié)果。他認(rèn)為這些結(jié)果有助于揭示經(jīng)濟(jì)學(xué)中的寫結(jié)構(gòu)性問題，而這些問題的答案在以往并不明顯。以下是姚期智在演講最后的總結(jié)：

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

Victor R. Lesser：Reflections on DAI History and Coordination Technology

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

Victor R. Lesser 可謂是多智能體系統(tǒng)領(lǐng)域的創(chuàng)始人之一。他的重點(diǎn)研究領(lǐng)域包括復(fù)雜 AI 系統(tǒng)的控制和組織等，在多智能體和「黑板」系統(tǒng)等領(lǐng)域做出了突出貢獻(xiàn)。他曾擔(dān)任 AAAI 創(chuàng)始 Fellow、IEEE Fellow、多智能體系統(tǒng)國際會議（ICMAS）的首屆主席、國際智能體及多智能體系統(tǒng)協(xié)會（IFAAMAS）創(chuàng)始主席等；2007 年，為了表彰他在多智能體系統(tǒng)領(lǐng)域做出的杰出貢獻(xiàn)，IFAAMAS 還專門設(shè)立了以他的名字命名的「Victor Lesser 杰出論文獎」。此外，他還獲得了 2009 年 IJCAI「卓越研究獎」等重要獎項(xiàng)。作為多智能體系統(tǒng)領(lǐng)域的創(chuàng)始人，Lesser的報(bào)告主題為《Reflections on DAI History and Coordination Technology》，全面回顧了分布式AI和協(xié)作技術(shù)的研究歷史。

Lesser 回顧說，上世紀(jì) 70 年代后期，分布式人工智能這個新領(lǐng)域開始興起，研究內(nèi)容包括分布式問題求解、規(guī)劃、組織控制、協(xié)商、協(xié)作等。最早在1980年 MIT 舉辦首次分布式人工智能研討會，當(dāng)時(shí)僅有 22 人參加；直到1995年才舉辦第一個相關(guān)的國際性會議ICMAS（International Conference on Multi-Agent Systems）。隨后分布式AI的研究逐漸蓬勃發(fā)展。Lesser列舉了80年代人們對分布式AI的看法，并指出當(dāng)時(shí)“Agents' Views can be uncertain, incomplete and Out-of-Date”，盡管這么多年已經(jīng)過去，用戶的帶寬呈指數(shù)增長，agent仍然必須應(yīng)對有限且過時(shí)的網(wǎng)絡(luò)狀態(tài)視圖。隨后Lesser講述了他個人對于協(xié)作在多智能體中的作用。并強(qiáng)調(diào)說“協(xié)作過去是、現(xiàn)在是、將來也將仍然是分布式AI中重要且具有挑戰(zhàn)性的問題”。

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

劉鐵巖：Towards AI-powered Industrial Digital Transformations

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

劉鐵巖是微軟亞洲研究院副院長，IEEE Fellow。作為機(jī)器學(xué)習(xí)和信息檢索領(lǐng)域的知名專家，他近年來在深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、分布式機(jī)器學(xué)習(xí)等方面也頗有建樹。值得一提的是，他帶領(lǐng)的微軟團(tuán)隊(duì)就在不久前為 AI 領(lǐng)域帶來了一項(xiàng)突破性的成果——世界最強(qiáng)的麻將 AI「Suphx」在日本在線麻將競技平臺「天鳳」晉級十段。不過他在本次報(bào)告中并沒有介紹他們所研制的麻將AI，而是以主題為《Towards AI-powered Industrial Digital Transformations》介紹了微軟亞洲研究院如何利用人工智能幫助傳統(tǒng)企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型。

劉鐵巖首先介紹了他們與共同基金公司AMC和保險(xiǎn)公司中國太平在AI投資方面的合作，據(jù)劉鐵巖介紹，他們開發(fā)的AI投資模型實(shí)現(xiàn)了超額的回報(bào)以及非常好的風(fēng)險(xiǎn)控制。隨后他介紹了微軟亞洲研究院與世界上最大的海洋運(yùn)輸公司東方海外的合作，其發(fā)明的“競爭性強(qiáng)化學(xué)習(xí)”的技術(shù)解決了他們在空容器重新放置的問題，極大地降低了東方海外的運(yùn)營成本。劉鐵巖介紹說，隨著AI技術(shù)的發(fā)展，將會有越來越多的行業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型，AI科學(xué)家和領(lǐng)域?qū)＜覒?yīng)當(dāng)充分合作以共同促進(jìn)世界的進(jìn)步。

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

除了以上三位大會特邀主旨報(bào)告外，會議還邀請了螞蟻金服副總裁漆遠(yuǎn)、微軟亞洲軟件技術(shù)中心首席科學(xué)家姜大昕、滴滴出行副總裁葉杰平分別就分布式AI在各自行業(yè)的應(yīng)用做了特邀分享：

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

螞蟻金服副總裁漆遠(yuǎn)

報(bào)告主題：Multi-agent Machine Learning for All-Inclusive Finance

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

微軟亞洲研究院軟件技術(shù)中心首席科學(xué)家姜大昕

報(bào)告主題：Question Answering in Bing

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

滴滴出行副總裁葉杰平

報(bào)告主題：AI for Transportation

三、最佳論文

本屆 DAI 大會在14日晚宴上宣布了最佳論文獎與最佳論文榮譽(yù)提名獎項(xiàng)。

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

最佳論文獎

本屆最佳論文獲獎?wù)邽?Weixun Wang、Jianye Hao、Yixi Wang、Matthew E. Taylor 。其中 Weixun Wang、Jianye Hao、Yixi Wang 來自天津大學(xué)，Matthew E. Taylor 來自華盛頓州大學(xué)。

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)?、圍?AI 頂級研究者齊聚

標(biāo)題：Achieving Cooperation Through Deep Multiagent Reinforcement Learning in Sequential Prisoner's Dilemmas

作者：Weixun Wang, Jianye Hao, Yixi Wang, Matthew E. Taylor

論文地址：http://www.adai.ai/dai/paper/29.pdf

該論文考慮了一個多智能體交互的問題?？紤]到真實(shí)世界更多的是一個多智能體問題，采用傳統(tǒng)的「感知」方法是不夠的，需要多智能體研究來更好地模擬真實(shí)情況。迭代囚徒困境已經(jīng)指導(dǎo)了社會困境問題方面的研究多年。然而，這一問題只分成了兩種原子行為：合作和對抗。在真實(shí)世界的囚徒困境中，這些選擇可能會有所延伸，而且不同的策略可能會帶來一連串連鎖反應(yīng)，從而影響合作的程度。在本文中，研究者提出了一種名為序列囚徒困境（SPD）的問題，以便更好地捕捉前述特征。

在文章中，作者提出了一個深度多智能體強(qiáng)化學(xué)習(xí)方法，可以探索在 SPD 問題中相互合作的演變過程。研究者的方法分為兩步：第一步是線下過程，通過不同的合作級別整合策略，然后訓(xùn)練一個合作等級檢測網(wǎng)絡(luò)。第二步是在線過程，一個智能體基于檢測到的對方的合作等級，逐漸調(diào)整并選擇自身的策略。研究者認(rèn)為，他們提出的方法可以在兩個有代表性的二維 SPD 問題中展示：「蘋果-梨」問題和「水果收集」問題。實(shí)驗(yàn)結(jié)果說明，研究提出的方法可以讓智能體避免被具有掠奪性的對手剝削，同時(shí)和有合作意向的對手達(dá)成合作。

最佳論文榮譽(yù)提名獎

本屆 DAI 大會最佳論文榮譽(yù)提名獎授予給谷歌研究院（Google Research）的 Song Zuo，他從線性規(guī)劃的新穎視角解讀了邁爾森的最優(yōu)拍賣理論。

首屆國際分布式AI會議在京召開，姚期智、Lesser坐鎮(zhèn)，德?lián)洹?AI 頂級研究者齊聚

標(biāo)題：Rediscovery of Myerson's Auction via Primal-Dual Analysis

作者：Song Zuo

論文地址：http://www.adai.ai/dai/paper/36.pdf

最優(yōu)拍賣理論是由邁爾森（Myerson）于 1981 年提出的，該理論力圖解決在給定信息分布的情況下，如何設(shè)計(jì)出某種制度來最大限度地激勵經(jīng)濟(jì)活動的參與人，也就是最優(yōu)合同的設(shè)計(jì)問題。2007年Myerson憑借這套理論獲得了該年度的諾貝爾經(jīng)濟(jì)學(xué)獎。

在這篇文章中，作者用完全不同的方法（線性變成和原始對偶分析）重新發(fā)現(xiàn)了Myerson的最優(yōu)拍賣。具體來說，他同時(shí)考慮了貝葉斯（貝葉斯激勵兼容+貝葉斯個人理性）和支配策略（支配策略激勵+事后個人比例）的實(shí)現(xiàn)方式，其中所有購買者都具有加法估值和準(zhǔn)線性公用事業(yè)和所有估值均分布在有限支持下。當(dāng)購買者價(jià)值為一維且獨(dú)立分布時(shí)，可以直接證明貝葉斯實(shí)施線性程序的雙重目標(biāo)不超過主導(dǎo)策略實(shí)施線性程序的雙重目標(biāo)。換句話說，在貝葉斯和主導(dǎo)策略實(shí)施下的最優(yōu)收入是相同的。

據(jù)論文作者觀察，若把雙重計(jì)劃解釋為最大化的虛擬福利，便可將Myerson的最優(yōu)拍賣直接解釋為“主導(dǎo)策略”線性計(jì)劃。此外，作者還描述了BIC = DSIC的充分必要條件，即貝葉斯實(shí)現(xiàn)的最佳收益等于主導(dǎo)策略實(shí)現(xiàn)的最佳收益（BRev = DRev）。條件是當(dāng)且僅當(dāng)獨(dú)立于虛擬價(jià)值函數(shù)的 DSIC 和后 IR 虛擬福利達(dá)到最大值時(shí)才能獲得最優(yōu) DSIC 收益 DR-EV（一個買家的虛擬價(jià)值獨(dú)立于其他買家的估價(jià)）。

雷鋒網(wǎng)報(bào)道。

中國學(xué)術(shù)力量不容小覷，首屆華人帶頭的國際分布式人工智能學(xué)術(shù)會議將于北京召開

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。