ICPR 2018 上，阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識別研討會

本文作者：汪思穎

2018-08-27 16:32

導(dǎo)語：目前深度學(xué)習(xí)在 OCR 領(lǐng)域的局限性仍比較大，不規(guī)則排列的文字檢測與識別仍非常棘手，深度學(xué)習(xí)模型的泛化能力有限，非拉丁文識別依舊是難點(diǎn)。這些都值得研究和思考。

阿里巴巴圖像和美團(tuán)隊(duì)

AI影響因子

活動

企業(yè)：阿里巴巴

操作：舉辦研討會

事項(xiàng)：

雷鋒網(wǎng) AI 科技評論按，日前，第 24 屆國際模式識別大會 ICPR 2018 在北京國家會議中心召開，這也是其創(chuàng)辦以來第一次在中國內(nèi)地召開。講者包括南京大學(xué)周志華教授，香港科技大學(xué)權(quán)龍教授，福特汽車公司高級技術(shù)主管 K. Venkatesh Prasad，牛津大學(xué) Alison Noble 教授。除了陣容強(qiáng)大的講者，這次會議還包括多個(gè)研討會、講習(xí)班等，其中不乏中國企業(yè)和高校的身影。

ICPR 2018 上，阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識別研討會

會議首日，阿里巴巴「圖像和美」團(tuán)隊(duì)聯(lián)手華中科技大學(xué)、中科院自動化所共同舉辦首屆 Deep Learning for Document Analysis and Recognition 研討會。此外，阿里巴巴「圖像和美」團(tuán)隊(duì)聯(lián)合華南理工大學(xué)共同舉辦的 ICPR MTWI 2018 挑戰(zhàn)賽也在當(dāng)天進(jìn)行了報(bào)告和頒獎，這一挑戰(zhàn)賽基于阿里標(biāo)注并公開的 MTWI 數(shù)據(jù)集，這是現(xiàn)有難度最大、內(nèi)容最豐富的網(wǎng)絡(luò)圖片 OCR 數(shù)據(jù)集，也是阿里首個(gè)公開的 OCR 數(shù)據(jù)集。阿里巴巴「圖像和美」團(tuán)隊(duì)由于這一系列活動，在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應(yīng)加分。

Deep Learning for Document Analysis and Recognition 研討會主席王永攀目前是阿里巴巴「圖像和美」團(tuán)隊(duì)讀光 OCR 負(fù)責(zé)人，她對雷鋒網(wǎng) AI 科技評論表示，舉辦此次研討會的原因有二，「一方面，希望向大家展示阿里在 OCR 上的一系列工作；另一方面，想把阿里關(guān)注 OCR 這件事情告訴大家，吸引到更多的學(xué)者教授來關(guān)注阿里所關(guān)注的問題?！?/p>

她進(jìn)一步說道，阿里 OCR 團(tuán)隊(duì)對外發(fā)聲并不多，但實(shí)際上，在阿里集團(tuán)內(nèi)部，讀光 OCR 的應(yīng)用已經(jīng)非常廣泛，早在 2016 年，他們就已經(jīng)實(shí)現(xiàn)了大規(guī)模的集團(tuán)內(nèi)系統(tǒng)。目前，讀光 OCR 在辦公自動化、文檔電子化、數(shù)據(jù)智能等場景均有應(yīng)用。

華中科技大學(xué)白翔教授也是此次研討會主席，負(fù)責(zé)部分講者的邀請以及程序上的安排。他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺與模式識別、深度學(xué)習(xí)，已在相關(guān)領(lǐng)域一流國際期刊和會議如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上發(fā)表論文 30 余篇。

對于與阿里攜手舉辦這次研討會的契機(jī)，他表示，此前他曾與阿里「圖象和美」團(tuán)隊(duì)進(jìn)行過一次學(xué)術(shù)交流，阿里在 OCR 產(chǎn)品落地方面所取得的成績令他印象深刻。「王永攀和阿里巴巴的小伙伴成功將我之前的工作 CRNN 落地于中文識別，在網(wǎng)絡(luò)文本識別上取得了 90% 以上的驚人識別精度。這在 CRNN 原著論文里也不曾做到?！?/p>

但他們雙方都感到 OCR 的實(shí)際需求和學(xué)術(shù)研究之間存在著兩大方面鴻溝：1）現(xiàn)有的公開 OCR 測試集并不能完全反映實(shí)際應(yīng)用里面臨的一些瓶頸問題；2）工業(yè)界一直有在關(guān)注學(xué)界關(guān)于 OCR 的研究進(jìn)展，但面對面交流的機(jī)會太少，影響了 OCR 產(chǎn)業(yè)化的進(jìn)程。

針對以上問題，他們經(jīng)過多次反復(fù)協(xié)商，共同完成了 ICPR 2018 MTWI 挑戰(zhàn)賽和 OCR 學(xué)術(shù)研討會?！阜浅８吲d阿里巴巴起到了表率作用，免費(fèi)開放一大批數(shù)據(jù)給學(xué)界，并參與組織了一次成功的學(xué)術(shù)研討會。希望這次成功的嘗試是未來工業(yè)界與學(xué)術(shù)界更加緊密合作的一個(gè)良好開端。」白翔如是表示。

這次研討會的報(bào)告嘉賓有 IAPR 主席 Simone Marinai 副教授、華南理工大學(xué)金連文教授、海得拉巴信息技術(shù)國際研究所（IIIT Hyderabad）C.V.Jawahar 教授、碼隆首席科學(xué)家黃偉林、阿里高級算法專家趙華廈、阿里讀光 OCR 負(fù)責(zé)人王永攀，討論內(nèi)容涉及文檔圖像分析、端到端識別、信息提取等多個(gè)話題。

王永攀表示，希望能和大家一起合作，讓這次研討會發(fā)揮實(shí)際意義，讓更多 OCR 產(chǎn)品與技術(shù)走出去。

研討會特別設(shè)立圓桌討論環(huán)節(jié)，議題是深度學(xué)習(xí)在 OCR 和 DAR 上的未來發(fā)展趨勢。對于這些問題，王永攀、白翔也與雷鋒網(wǎng) AI 科技評論進(jìn)行了更進(jìn)一步的探討。以下為問答環(huán)節(jié)：

問：文字識別任務(wù)場景眾多，例如手寫、場景、文檔，追求端到端統(tǒng)一的解決方案是否可行？是否有必要？

王永攀：在特定場景，端到端的方案是可行的，但可能不是最優(yōu)解法。端到端的方法看起來比較優(yōu)雅，但是會導(dǎo)致更大的不確定性，比如可能會導(dǎo)致問題定義不清，網(wǎng)絡(luò)參數(shù)和訓(xùn)練數(shù)據(jù)都會劇增。我們也在嘗試一些端到端的方案，端到端的本質(zhì)是打破算法之間的壁壘。以文字識別為例，端到端表面上看似乎是去掉了檢測的流程，直接由整圖得到文字內(nèi)容，實(shí)際上這是一個(gè)試圖打破檢測和識別壁壘甚至矛盾的過程。在研究者意識到檢測和識別之間有不可調(diào)和的矛盾時(shí)，當(dāng)他們試圖解決這個(gè)矛盾的過程中，會誕生出很多新的思想和方法。我們覺得在嘗試打破檢測識別壁壘這條道路上走下去是沒問題的，至于最終是不是端到端反而不那么重要。

深度學(xué)習(xí)目前取得的突破也得益于數(shù)據(jù)集的發(fā)展，基于此，圓桌討論上也提出如下問題：為了促進(jìn)學(xué)術(shù)發(fā)展，學(xué)術(shù)界需要哪些數(shù)據(jù)集，需要什么樣的數(shù)據(jù)集？怎樣才能激勵(lì)數(shù)據(jù)擁有方提供數(shù)據(jù)？

王永攀：首先，我們認(rèn)為數(shù)據(jù)集不僅是數(shù)據(jù)，構(gòu)建數(shù)據(jù)集是一個(gè)系統(tǒng)工程，「圖像和美」團(tuán)隊(duì)在《視覺求索》上發(fā)表的文章「如何做一個(gè)實(shí)用的圖像數(shù)據(jù)集」對數(shù)據(jù)集的建立有系統(tǒng)的描述：

數(shù)據(jù)集奠定的技術(shù)發(fā)展，建立系統(tǒng)的數(shù)據(jù)集是學(xué)術(shù)界和工業(yè)界共同的話題。

構(gòu)建一個(gè)數(shù)據(jù)集，首先要考慮數(shù)據(jù)集的知識價(jià)值和應(yīng)用價(jià)值，知識價(jià)值有的時(shí)候可以理解為學(xué)術(shù)價(jià)值，指的是該數(shù)據(jù)集是否映射特定的知識點(diǎn)，這些知識點(diǎn)是否值得去研究。應(yīng)用價(jià)值是指數(shù)據(jù)集能否解決實(shí)際需求。其次，從知識價(jià)值和應(yīng)用價(jià)值角度出發(fā)，才能做好數(shù)據(jù)收集、標(biāo)注、標(biāo)準(zhǔn)制定等后續(xù)工作。我們所構(gòu)建的 MTWI 數(shù)據(jù)集，來源于真實(shí)的工業(yè)界，側(cè)重收集那些具有普適性難點(diǎn)的數(shù)據(jù)。所以，在我們看來，無論是學(xué)術(shù)界的數(shù)據(jù)集還是工業(yè)界的數(shù)據(jù)集都要考慮到對方的需求，不能只看研究知識點(diǎn)，也不能只解決工業(yè)應(yīng)用問題。

未來工業(yè)界和學(xué)術(shù)界要有更多的交流，學(xué)術(shù)界了解技術(shù)落地時(shí)遇到的新問題，工業(yè)界去學(xué)習(xí)如何把問題抽象成通用的知識難點(diǎn)。最后說一點(diǎn)，我們應(yīng)該鼓勵(lì)更多的數(shù)據(jù)持有者貢獻(xiàn)非機(jī)密數(shù)據(jù)，也希望數(shù)據(jù)使用者能讓數(shù)據(jù)提供者有知情權(quán)，尊重知識產(chǎn)權(quán)。

OCR 涉及文字識別與文本理解，與計(jì)算機(jī)視覺（CV）以及自然語言處理（NLP）緊密相關(guān)，那么 CV 和 NLP 該如何結(jié)合，兩個(gè)領(lǐng)域應(yīng)該如何建立長效合作？

王永攀：視覺是捕捉信息最常用最直接的方式，而語言是人類對信息進(jìn)行抽象思維的媒介，對于大量的真實(shí)的人工智能應(yīng)用來說，兩者是密不可分的前后步驟。文字識別和文檔分析就是一個(gè)典型的案例。然而 CV 和 NLP 現(xiàn)在是完全獨(dú)立的研究領(lǐng)域，各自都有大量問題沒有解決，沒有強(qiáng)烈的意愿進(jìn)行合作，因此如何建立長效合作機(jī)制是一個(gè)很困難的問題，也是我們一直在探索的方向。

要想解決這個(gè)問題，我們認(rèn)為首先需要有一批勇敢的跨界研究者，他們熟悉兩個(gè)領(lǐng)域的問題和方法，能夠定義清楚背后的理論問題，進(jìn)而還可以清晰地劃分出 CV 和 NLP 適用的邊界。這樣才能降低門檻，吸引到更多的參與者，包括那些專精 CV 或 NLP 領(lǐng)域的研究者。

其次還需要逐漸完善跨界研究的基礎(chǔ)設(shè)施，例如公開的有挑戰(zhàn)性的數(shù)據(jù)集和競賽，長期的學(xué)術(shù)討論會議，以及從研究到產(chǎn)業(yè)化的落地渠道等。只有這樣才能讓合作變得長久。

目前阿里在實(shí)踐中對傳統(tǒng)算法和深度學(xué)習(xí)算法的使用情況如何？

王永攀：現(xiàn)在主流的偏應(yīng)用的方法基本上都是深度學(xué)習(xí)，傳統(tǒng)方法更多的是做研究，或者做 baseline。當(dāng)涉及到一個(gè)新問題時(shí)，我們可能會先用傳統(tǒng)方式去嘗試，看傳統(tǒng)方法是否能解決這個(gè)問題，然后再做 baseline。這時(shí)候，如果傳統(tǒng)方法能做到 70%，我們會用深度學(xué)習(xí)的方法嘗試能不能把結(jié)果提升到更高，如 80%、90% 以上。

此外，傳統(tǒng)方法對我們還具有很多借鑒意義。深度學(xué)習(xí)方法很多時(shí)候是一個(gè)黑盒子，確定輸入，約束好輸出，實(shí)際上中間并不知道發(fā)生了什么。在這樣一個(gè)情況下，我們很難去提升。通過傳統(tǒng)方法，我們基本上可以理清問題的脈絡(luò)，有一些可以分析借鑒的部分。

目前將深度學(xué)習(xí)用于 OCR 的局限性有哪些？在 OCR 領(lǐng)域，有哪些值得我們研究和思考的問題？

白翔：目前深度學(xué)習(xí)在 OCR 領(lǐng)域的局限性仍然比較大，當(dāng)前有幾個(gè)比較迫切的方向值得我們深入思考：

1）不規(guī)則排列的文字檢測與識別仍然非常棘手。如果不結(jié)合足夠的先驗(yàn)知識，僅僅通過大量的標(biāo)注樣本學(xué)習(xí)并不能徹底解決。

2）深度學(xué)習(xí)模型的泛化能力有限。這一問題在文本檢測任務(wù)上尤為明顯，現(xiàn)有的方法基本是在與測試場景相關(guān)的數(shù)據(jù)上進(jìn)行訓(xùn)練，更換一個(gè)場景可能會完全沒有辦法使用。

3）非拉丁文識別，尤其是中文識別仍然是難點(diǎn)問題，這反映在中文的長短效應(yīng)、樣本類別多、相近漢字的細(xì)粒度差別等方面。

（完）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。