日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

ICPR 2018 上,阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識別研討會

本文作者: 汪思穎 2018-08-27 16:32
導(dǎo)語:目前深度學(xué)習(xí)在 OCR 領(lǐng)域的局限性仍比較大,不規(guī)則排列的文字檢測與識別仍非常棘手,深度學(xué)習(xí)模型的泛化能力有限,非拉丁文識別依舊是難點(diǎn)。這些都值得研究和思考。
活動
企業(yè):阿里巴巴
操作:舉辦研討會
事項(xiàng):

雷鋒網(wǎng) AI 科技評論按,日前,第 24 屆國際模式識別大會 ICPR 2018 在北京國家會議中心召開,這也是其創(chuàng)辦以來第一次在中國內(nèi)地召開。講者包括南京大學(xué)周志華教授,香港科技大學(xué)權(quán)龍教授,福特汽車公司高級技術(shù)主管 K. Venkatesh Prasad,牛津大學(xué) Alison Noble 教授。除了陣容強(qiáng)大的講者,這次會議還包括多個(gè)研討會、講習(xí)班等,其中不乏中國企業(yè)和高校的身影。

ICPR 2018 上,阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識別研討會

會議首日,阿里巴巴「圖像和美」團(tuán)隊(duì)聯(lián)手華中科技大學(xué)、中科院自動化所共同舉辦首屆 Deep Learning for Document Analysis and Recognition 研討會。此外,阿里巴巴「圖像和美」團(tuán)隊(duì)聯(lián)合華南理工大學(xué)共同舉辦的 ICPR MTWI 2018 挑戰(zhàn)賽也在當(dāng)天進(jìn)行了報(bào)告和頒獎,這一挑戰(zhàn)賽基于阿里標(biāo)注并公開的 MTWI 數(shù)據(jù)集,這是現(xiàn)有難度最大、內(nèi)容最豐富的網(wǎng)絡(luò)圖片 OCR 數(shù)據(jù)集,也是阿里首個(gè)公開的 OCR 數(shù)據(jù)集。阿里巴巴「圖像和美」團(tuán)隊(duì)由于這一系列活動,在雷鋒網(wǎng)旗下學(xué)術(shù)頻道 AI 科技評論數(shù)據(jù)庫產(chǎn)品「AI 影響因子」上有相應(yīng)加分。

Deep Learning for Document Analysis and Recognition 研討會主席王永攀目前是阿里巴巴「圖像和美」團(tuán)隊(duì)讀光 OCR 負(fù)責(zé)人,她對雷鋒網(wǎng) AI 科技評論表示,舉辦此次研討會的原因有二,「一方面,希望向大家展示阿里在 OCR 上的一系列工作;另一方面,想把阿里關(guān)注 OCR 這件事情告訴大家,吸引到更多的學(xué)者教授來關(guān)注阿里所關(guān)注的問題?!?/p>

她進(jìn)一步說道,阿里 OCR 團(tuán)隊(duì)對外發(fā)聲并不多,但實(shí)際上,在阿里集團(tuán)內(nèi)部,讀光 OCR 的應(yīng)用已經(jīng)非常廣泛,早在 2016 年,他們就已經(jīng)實(shí)現(xiàn)了大規(guī)模的集團(tuán)內(nèi)系統(tǒng)。目前,讀光 OCR 在辦公自動化、文檔電子化、數(shù)據(jù)智能等場景均有應(yīng)用。

華中科技大學(xué)白翔教授也是此次研討會主席,負(fù)責(zé)部分講者的邀請以及程序上的安排。他的主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺與模式識別、深度學(xué)習(xí),已在相關(guān)領(lǐng)域一流國際期刊和會議如 PAMI、IJCV、CVPR、ICCV、ECCV、NIPS、ICML、ICDAR 上發(fā)表論文 30 余篇。

對于與阿里攜手舉辦這次研討會的契機(jī),他表示,此前他曾與阿里「圖象和美」團(tuán)隊(duì)進(jìn)行過一次學(xué)術(shù)交流,阿里在 OCR 產(chǎn)品落地方面所取得的成績令他印象深刻。「王永攀和阿里巴巴的小伙伴成功將我之前的工作 CRNN 落地于中文識別,在網(wǎng)絡(luò)文本識別上取得了 90% 以上的驚人識別精度。這在 CRNN 原著論文里也不曾做到?!?/p>

但他們雙方都感到 OCR 的實(shí)際需求和學(xué)術(shù)研究之間存在著兩大方面鴻溝:1)現(xiàn)有的公開 OCR 測試集并不能完全反映實(shí)際應(yīng)用里面臨的一些瓶頸問題;2)工業(yè)界一直有在關(guān)注學(xué)界關(guān)于 OCR 的研究進(jìn)展,但面對面交流的機(jī)會太少,影響了 OCR 產(chǎn)業(yè)化的進(jìn)程。

針對以上問題,他們經(jīng)過多次反復(fù)協(xié)商,共同完成了 ICPR 2018 MTWI 挑戰(zhàn)賽和 OCR 學(xué)術(shù)研討會?!阜浅8吲d阿里巴巴起到了表率作用,免費(fèi)開放一大批數(shù)據(jù)給學(xué)界,并參與組織了一次成功的學(xué)術(shù)研討會。希望這次成功的嘗試是未來工業(yè)界與學(xué)術(shù)界更加緊密合作的一個(gè)良好開端。」白翔如是表示。

這次研討會的報(bào)告嘉賓有 IAPR 主席 Simone Marinai 副教授、華南理工大學(xué)金連文教授、海得拉巴信息技術(shù)國際研究所(IIIT Hyderabad)C.V.Jawahar 教授、碼隆首席科學(xué)家黃偉林、阿里高級算法專家趙華廈、阿里讀光 OCR 負(fù)責(zé)人王永攀,討論內(nèi)容涉及文檔圖像分析、端到端識別、信息提取等多個(gè)話題。

王永攀表示,希望能和大家一起合作,讓這次研討會發(fā)揮實(shí)際意義,讓更多 OCR 產(chǎn)品與技術(shù)走出去。

研討會特別設(shè)立圓桌討論環(huán)節(jié),議題是深度學(xué)習(xí)在 OCR 和 DAR 上的未來發(fā)展趨勢。對于這些問題,王永攀、白翔也與雷鋒網(wǎng) AI 科技評論進(jìn)行了更進(jìn)一步的探討。以下為問答環(huán)節(jié):

問:文字識別任務(wù)場景眾多,例如手寫、場景、文檔,追求端到端統(tǒng)一的解決方案是否可行?是否有必要?

王永攀:在特定場景,端到端的方案是可行的,但可能不是最優(yōu)解法。端到端的方法看起來比較優(yōu)雅,但是會導(dǎo)致更大的不確定性,比如可能會導(dǎo)致問題定義不清,網(wǎng)絡(luò)參數(shù)和訓(xùn)練數(shù)據(jù)都會劇增。我們也在嘗試一些端到端的方案,端到端的本質(zhì)是打破算法之間的壁壘。以文字識別為例,端到端表面上看似乎是去掉了檢測的流程,直接由整圖得到文字內(nèi)容,實(shí)際上這是一個(gè)試圖打破檢測和識別壁壘甚至矛盾的過程。在研究者意識到檢測和識別之間有不可調(diào)和的矛盾時(shí),當(dāng)他們試圖解決這個(gè)矛盾的過程中,會誕生出很多新的思想和方法。我們覺得在嘗試打破檢測識別壁壘這條道路上走下去是沒問題的,至于最終是不是端到端反而不那么重要。

深度學(xué)習(xí)目前取得的突破也得益于數(shù)據(jù)集的發(fā)展,基于此,圓桌討論上也提出如下問題:為了促進(jìn)學(xué)術(shù)發(fā)展,學(xué)術(shù)界需要哪些數(shù)據(jù)集,需要什么樣的數(shù)據(jù)集?怎樣才能激勵(lì)數(shù)據(jù)擁有方提供數(shù)據(jù)?

王永攀:首先,我們認(rèn)為數(shù)據(jù)集不僅是數(shù)據(jù),構(gòu)建數(shù)據(jù)集是一個(gè)系統(tǒng)工程,「圖像和美」團(tuán)隊(duì)在《視覺求索》上發(fā)表的文章「如何做一個(gè)實(shí)用的圖像數(shù)據(jù)集」對數(shù)據(jù)集的建立有系統(tǒng)的描述:

數(shù)據(jù)集奠定的技術(shù)發(fā)展,建立系統(tǒng)的數(shù)據(jù)集是學(xué)術(shù)界和工業(yè)界共同的話題。

構(gòu)建一個(gè)數(shù)據(jù)集,首先要考慮數(shù)據(jù)集的知識價(jià)值和應(yīng)用價(jià)值,知識價(jià)值有的時(shí)候可以理解為學(xué)術(shù)價(jià)值,指的是該數(shù)據(jù)集是否映射特定的知識點(diǎn),這些知識點(diǎn)是否值得去研究。應(yīng)用價(jià)值是指數(shù)據(jù)集能否解決實(shí)際需求。其次,從知識價(jià)值和應(yīng)用價(jià)值角度出發(fā),才能做好數(shù)據(jù)收集、標(biāo)注、標(biāo)準(zhǔn)制定等后續(xù)工作。我們所構(gòu)建的 MTWI 數(shù)據(jù)集,來源于真實(shí)的工業(yè)界,側(cè)重收集那些具有普適性難點(diǎn)的數(shù)據(jù)。所以,在我們看來,無論是學(xué)術(shù)界的數(shù)據(jù)集還是工業(yè)界的數(shù)據(jù)集都要考慮到對方的需求,不能只看研究知識點(diǎn),也不能只解決工業(yè)應(yīng)用問題。

未來工業(yè)界和學(xué)術(shù)界要有更多的交流,學(xué)術(shù)界了解技術(shù)落地時(shí)遇到的新問題,工業(yè)界去學(xué)習(xí)如何把問題抽象成通用的知識難點(diǎn)。最后說一點(diǎn),我們應(yīng)該鼓勵(lì)更多的數(shù)據(jù)持有者貢獻(xiàn)非機(jī)密數(shù)據(jù),也希望數(shù)據(jù)使用者能讓數(shù)據(jù)提供者有知情權(quán),尊重知識產(chǎn)權(quán)。

OCR 涉及文字識別與文本理解,與計(jì)算機(jī)視覺(CV)以及自然語言處理(NLP)緊密相關(guān),那么 CV 和 NLP 該如何結(jié)合,兩個(gè)領(lǐng)域應(yīng)該如何建立長效合作?

王永攀:視覺是捕捉信息最常用最直接的方式,而語言是人類對信息進(jìn)行抽象思維的媒介,對于大量的真實(shí)的人工智能應(yīng)用來說,兩者是密不可分的前后步驟。文字識別和文檔分析就是一個(gè)典型的案例。然而 CV 和 NLP 現(xiàn)在是完全獨(dú)立的研究領(lǐng)域,各自都有大量問題沒有解決,沒有強(qiáng)烈的意愿進(jìn)行合作,因此如何建立長效合作機(jī)制是一個(gè)很困難的問題,也是我們一直在探索的方向。

要想解決這個(gè)問題,我們認(rèn)為首先需要有一批勇敢的跨界研究者,他們熟悉兩個(gè)領(lǐng)域的問題和方法,能夠定義清楚背后的理論問題,進(jìn)而還可以清晰地劃分出 CV 和 NLP 適用的邊界。這樣才能降低門檻,吸引到更多的參與者,包括那些專精 CV 或 NLP 領(lǐng)域的研究者。

其次還需要逐漸完善跨界研究的基礎(chǔ)設(shè)施,例如公開的有挑戰(zhàn)性的數(shù)據(jù)集和競賽,長期的學(xué)術(shù)討論會議,以及從研究到產(chǎn)業(yè)化的落地渠道等。只有這樣才能讓合作變得長久。

目前阿里在實(shí)踐中對傳統(tǒng)算法和深度學(xué)習(xí)算法的使用情況如何?

王永攀:現(xiàn)在主流的偏應(yīng)用的方法基本上都是深度學(xué)習(xí),傳統(tǒng)方法更多的是做研究,或者做 baseline。當(dāng)涉及到一個(gè)新問題時(shí),我們可能會先用傳統(tǒng)方式去嘗試,看傳統(tǒng)方法是否能解決這個(gè)問題,然后再做 baseline。這時(shí)候,如果傳統(tǒng)方法能做到 70%,我們會用深度學(xué)習(xí)的方法嘗試能不能把結(jié)果提升到更高,如 80%、90% 以上。

此外,傳統(tǒng)方法對我們還具有很多借鑒意義。深度學(xué)習(xí)方法很多時(shí)候是一個(gè)黑盒子,確定輸入,約束好輸出,實(shí)際上中間并不知道發(fā)生了什么。在這樣一個(gè)情況下,我們很難去提升。通過傳統(tǒng)方法,我們基本上可以理清問題的脈絡(luò),有一些可以分析借鑒的部分。

目前將深度學(xué)習(xí)用于 OCR 的局限性有哪些?在 OCR 領(lǐng)域,有哪些值得我們研究和思考的問題?

白翔:目前深度學(xué)習(xí)在 OCR 領(lǐng)域的局限性仍然比較大,當(dāng)前有幾個(gè)比較迫切的方向值得我們深入思考:

1)不規(guī)則排列的文字檢測與識別仍然非常棘手。如果不結(jié)合足夠的先驗(yàn)知識,僅僅通過大量的標(biāo)注樣本學(xué)習(xí)并不能徹底解決。

2)深度學(xué)習(xí)模型的泛化能力有限。這一問題在文本檢測任務(wù)上尤為明顯,現(xiàn)有的方法基本是在與測試場景相關(guān)的數(shù)據(jù)上進(jìn)行訓(xùn)練,更換一個(gè)場景可能會完全沒有辦法使用。

3)非拉丁文識別,尤其是中文識別仍然是難點(diǎn)問題,這反映在中文的長短效應(yīng)、樣本類別多、相近漢字的細(xì)粒度差別等方面。

(完)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

ICPR 2018 上,阿里巴巴舉辦首屆深度學(xué)習(xí)文本分析與識別研討會

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說