日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
國(guó)際 正文
發(fā)私信給AI科技評(píng)論
發(fā)送

0

深度解讀谷歌SyntaxNet:全新TensorFlow自然語(yǔ)言處理模型

本文作者: AI科技評(píng)論 2016-05-17 18:36
導(dǎo)語(yǔ):SyntaxNet用來(lái)做什么?帶來(lái)多大進(jìn)步?下一步是什么?

今年夏天,雷鋒網(wǎng)將在深圳舉辦一場(chǎng)盛況空前的“全球人工智能與機(jī)器人創(chuàng)新大會(huì)”(簡(jiǎn)稱GAIR)。大會(huì)現(xiàn)場(chǎng),雷鋒網(wǎng)將發(fā)布“人工智能&機(jī)器人Top25創(chuàng)新企業(yè)榜”榜單。目前,我們正在四處拜訪人工智能、機(jī)器人領(lǐng)域的相關(guān)公司,從而篩選最終入選榜單的公司名單。如果你的公司也想加入我們的榜單之中,請(qǐng)聯(lián)系:2020@leiphone.com。

深度解讀谷歌SyntaxNet:全新TensorFlow自然語(yǔ)言處理模型

圖片來(lái)源:spaCy

編者注:spaCy是一個(gè)免費(fèi)開源代碼庫(kù),Matthew Honnibal是spaCy公司創(chuàng)始人及CTO。他在本科時(shí)學(xué)習(xí)語(yǔ)言學(xué),從未想到未來(lái)自己會(huì)成為程序員。Honnibal獲得悉尼大學(xué)計(jì)算機(jī)科學(xué)PHD學(xué)位并進(jìn)行研究員工作后,在2014年離開學(xué)術(shù)界開始編寫spaCy。本文中,Hobbibal深度解讀了谷歌的自然語(yǔ)言處理模型。

上周,谷歌開源了其基于人工智能系統(tǒng)Tensorflow的自然語(yǔ)言解析模型分析庫(kù)SyntaxNet。在過(guò)去的兩年時(shí)間里,谷歌研究人員利用這個(gè)分析庫(kù)發(fā)布了一系列神經(jīng)網(wǎng)絡(luò)分析模型。自從SyntaxNet發(fā)布以來(lái),筆者就一直關(guān)注它,當(dāng)然也一直也期待這個(gè)軟件能夠開源。不過(guò),本文嘗試圍繞本次開源的相關(guān)背景做一些探討,比如本次開源有什么新料,開源又有何重要意義?
在自然語(yǔ)言文本處理庫(kù)中(比如spaCy),SyntaxNet提供了非常重要的模型。如果你把自然語(yǔ)言處理的概念”縮小”一點(diǎn),就會(huì)意識(shí)到,這種你正在關(guān)注的技術(shù)可以拓展計(jì)算機(jī)的應(yīng)用范圍。即便是現(xiàn)在,你依然無(wú)法編寫軟件去控制一輛汽車,也無(wú)法用你的語(yǔ)氣來(lái)回復(fù)電子郵件,更無(wú)法用軟件來(lái)分析客戶反饋,或?yàn)橐?guī)避重大商業(yè)風(fēng)險(xiǎn)去監(jiān)測(cè)全球新聞。誠(chéng)然,自然語(yǔ)言處理無(wú)法操控?zé)o人駕駛汽車,但等下先,語(yǔ)言是人類最與眾不同的能力,人類已經(jīng)不可避免地掌握了這種技能,但是自然語(yǔ)言處理技術(shù)也很優(yōu)秀,我們甚至難以預(yù)測(cè)它的潛力。谷歌搜索就是一種自然語(yǔ)言處理應(yīng)用,所以你會(huì)發(fā)現(xiàn)這項(xiàng)技術(shù)其實(shí)已經(jīng)在改變世界。不過(guò),在筆者看來(lái),自然語(yǔ)言處理還有很大發(fā)展空間。

 在更大的價(jià)值鏈里,SyntaxNet其實(shí)算是一種較低級(jí)別的技術(shù),它就像是一個(gè)改良的鉆頭,鉆頭本身無(wú)法給你石油,石油本身無(wú)法給你提供能量和塑料,能量和塑料本身也無(wú)法自動(dòng)形成某種產(chǎn)品。但如果整個(gè)價(jià)值鏈的瓶頸是石油開采效率,那么大幅提高鉆頭技術(shù)(雖然是一種底層技術(shù))也是非常重要的。

 在筆者看來(lái),在自然語(yǔ)言處理中語(yǔ)法解析就是一個(gè)瓶頸技術(shù),如果它有四、五年時(shí)間做優(yōu)化改進(jìn),將會(huì)對(duì)自然語(yǔ)言處理產(chǎn)生巨大影響。現(xiàn)在你可能會(huì)說(shuō),我之所以覺(jué)得這是個(gè)問(wèn)題,是因?yàn)檫@項(xiàng)技術(shù)正從學(xué)術(shù)研究轉(zhuǎn)變?yōu)樯虡I(yè)化應(yīng)用。但我所能說(shuō)的就是,這其實(shí)是一種逆轉(zhuǎn)因果關(guān)系:正是因?yàn)槲依斫鈫?wèn)題的重要性,所以我投入其中,而不是相反。

 好了,我知道即便某個(gè)技術(shù)遇到瓶頸,但也無(wú)法否定其重要性。SyntaxNet如何向前邁一大步呢?如果你已經(jīng)在Stanford CoreNLP中使用了神經(jīng)網(wǎng)絡(luò)模型,那么可以肯定的是,你正在使用的其實(shí)是一種算法,在設(shè)計(jì)層面上這種模型和算法其實(shí)是完全一致的,但在細(xì)節(jié)上卻不一樣。使用spaCy語(yǔ)法解析模型也是如此。從概念上講,SyntaxNet的貢獻(xiàn)可能會(huì)讓人覺(jué)得沒(méi)那么大,畢竟它主要用于試驗(yàn),優(yōu)化和改進(jìn)。然而,如果谷歌不做這項(xiàng)工作,可能就沒(méi)有人會(huì)去做。可以說(shuō),SyntaxNet為神經(jīng)網(wǎng)絡(luò)模型打開了一扇窗,人們從中看到了一個(gè)充滿各種想法創(chuàng)意的美麗風(fēng)景,研究人員也正忙于探索這一切。當(dāng)然啦,行業(yè)內(nèi)也會(huì)有一種偏見(jiàn),認(rèn)為SyntaxNet會(huì)讓研究人員看上去(感覺(jué)上)更聰明??赡?,我們最終會(huì)有一個(gè)非常準(zhǔn)確的語(yǔ)法分析模型,但是這個(gè)模型無(wú)法實(shí)現(xiàn)正確的假設(shè)(當(dāng)然在系統(tǒng)設(shè)計(jì)的角度準(zhǔn)確性是十分重要的),繼而導(dǎo)致未來(lái)神經(jīng)網(wǎng)絡(luò)模型的發(fā)展越來(lái)越慢。在CoreNLP模型說(shuō)明推出后的六個(gè)月,首個(gè)SyntaxNet論文才發(fā)布出來(lái),他們使用了更大的網(wǎng)絡(luò),更好的激活函數(shù),以及不同的優(yōu)化方法,不僅如此,SyntaxNet還應(yīng)用了更具原則性的定向搜索方法,進(jìn)而取代了目前更多工作。使用 LSTM模型可以實(shí)現(xiàn)同樣準(zhǔn)確的并行工作,而不是按照SyntaxNet論文里描述的那樣,同時(shí)發(fā)布前饋網(wǎng)絡(luò)。

 SyntaxNet用來(lái)做什么?

 SyntaxNet語(yǔ)法解析器可以描述一個(gè)句子的語(yǔ)法結(jié)構(gòu),幫助其他應(yīng)用程序理解這個(gè)句子。自然語(yǔ)言會(huì)產(chǎn)生很多意想不到的歧義,人們通??梢岳米约旱闹R(shí)過(guò)濾掉那些產(chǎn)生歧義的。舉個(gè)大家比較喜歡的例子:

 他們吃了加鳳尾魚的披薩(They ate the pizza with anchovies)

                                             深度解讀谷歌SyntaxNet:全新TensorFlow自然語(yǔ)言處理模型

圖片來(lái)源:spaCy

正確的語(yǔ)法分析是將“with”和“pizza”聯(lián)系在一起,也就是他們吃了加鳳尾魚的披薩;

深度解讀谷歌SyntaxNet:全新TensorFlow自然語(yǔ)言處理模型

圖片來(lái)源:spaCy

而不正確的語(yǔ)法分析是將“with”和“eat”聯(lián)系在一起,他們和鳳尾魚一起吃了披薩。


深度解讀谷歌SyntaxNet:全新TensorFlow自然語(yǔ)言處理模型

圖片來(lái)源:spaCy

如果你想要更形象地感受這個(gè)技術(shù),不妨可以看下我們的displaCy demo,或是看一個(gè)簡(jiǎn)明的,基于規(guī)則方法的例子,去了解語(yǔ)法樹是如何計(jì)算出來(lái)的?!皢卧~與單詞”關(guān)系熟也可以用來(lái)識(shí)別一些簡(jiǎn)單的語(yǔ)法語(yǔ)義,這樣可以便于擴(kuò)展形成“單詞包”技術(shù)(比如word2vec,它是一個(gè)將單詞轉(zhuǎn)換成向量形式的工具。可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,來(lái)表示文本語(yǔ)義上的相似度。)舉個(gè)例子,我們解析去年Reddit論壇上的每一個(gè)評(píng)論,相比于嚴(yán)格限制空格分割單詞的方法,使用word2vec顯然更有幫助,因?yàn)楹笳呖梢苑治龆陶Z(yǔ),實(shí)體和單詞生成一個(gè)很不錯(cuò)的概念圖。

 SyntaxNet是一個(gè)訓(xùn)練和運(yùn)行句法依賴解析的模型庫(kù)。這個(gè)模型可以較好地權(quán)衡語(yǔ)義分析速度和準(zhǔn)確度??赡苁菫榱孙@得更時(shí)髦些,谷歌給這個(gè)模型起了個(gè)很酷的名字——Parsey McParseface。希望他們能夠繼續(xù)延續(xù)這種時(shí)髦的命名方式,我覺(jué)得未來(lái)應(yīng)該有個(gè)更好的方式,讓模型發(fā)展時(shí)間軸顯得更清楚一些,自然語(yǔ)言處理技術(shù)也應(yīng)如此。

 SyntaxNet帶來(lái)多大進(jìn)步?

 雖然打上了“當(dāng)今世界上最準(zhǔn)確的語(yǔ)義分析”標(biāo)簽,但Parsey McParseface其實(shí)只比最近的相關(guān)語(yǔ)義分析研究領(lǐng)先了一點(diǎn)點(diǎn)而已,如今的語(yǔ)義分析模型使用了更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)架構(gòu),但有更多限制性的參數(shù)調(diào)整。因此,很多相似的技術(shù)也將不再會(huì)局限在學(xué)術(shù)圈。另一方面,如果你關(guān)心這種模型是否能夠?qū)崒?shí)在在做一些事情,那么現(xiàn)實(shí)可能會(huì)讓你有些失望了,目前這些技術(shù)還無(wú)法真正去“做事”。自從去年SyntaxNet論文發(fā)布之后,筆者本人一直在斷斷續(xù)續(xù)的研究神經(jīng)網(wǎng)絡(luò)模型spaCy,但是效果并不太好,我們想要讓spaCy便于安裝,我們想要它在單CPU上快速運(yùn)行,我們還想要它保持多線程,不過(guò)所有這些要求目前都很難實(shí)現(xiàn)。

 對(duì)于語(yǔ)義分析基準(zhǔn),Parsey McParseface在每秒600個(gè)單詞的速度下,準(zhǔn)確度可以超過(guò)94%。同樣地,spaCy每秒識(shí)別1.5萬(wàn)字的精準(zhǔn)度為92.4%。這個(gè)準(zhǔn)確度可能聽上去不是很高,但對(duì)于應(yīng)用程序來(lái)說(shuō),其實(shí)已經(jīng)算非常好的了。

 任何預(yù)測(cè)系統(tǒng),通常最重要的考慮因素就是基準(zhǔn)預(yù)測(cè)的差異,而不是絕對(duì)進(jìn)度。一個(gè)預(yù)測(cè)天氣的模型,今天和昨天的準(zhǔn)確度可能是一樣的,但是它不會(huì)增加任何價(jià)值。關(guān)于依存關(guān)系語(yǔ)法分析,大約80%的依賴關(guān)系都很簡(jiǎn)單明確,這意味著,一個(gè)只正確預(yù)測(cè)那種依附關(guān)系的系統(tǒng)正在注入少量額外信息,這種能力不是只查看每個(gè)單詞就能做到的,而是要考慮詞和詞之間的關(guān)系。

 總而言之,我認(rèn)為在目前人工智能的大趨勢(shì)下,Parsey McParseface是一個(gè)非常好的里程碑。重要的是,它可以實(shí)現(xiàn)多快的速度,以及能實(shí)現(xiàn)多么先進(jìn)的自然語(yǔ)言處理技術(shù)。我覺(jué)得以前有很多想法不能實(shí)現(xiàn),但是肯定會(huì)有那一刻的到來(lái),一瞬間所有都變得可行了。

 下一步是什么?

 最讓我興奮的是,通過(guò)Parsey McParseface模型設(shè)計(jì),自然語(yǔ)言處理技術(shù)有了一個(gè)非常清晰的方向,這時(shí)你可能會(huì)說(shuō):“好的,如果它有作用就太好了?!?004年,語(yǔ)義分析領(lǐng)域的領(lǐng)軍人物之一 Joakim Nivre表示,這種類型的語(yǔ)法解析器可以一次性讀句子,繼而減少錯(cuò)誤理解。它適用于任何狀態(tài)表達(dá),任何行為集合,任何概率模型架構(gòu)。舉個(gè)例子,如果你解析一個(gè)語(yǔ)音識(shí)別系統(tǒng)的輸入,你可以讓語(yǔ)法解析器優(yōu)化語(yǔ)音識(shí)別器,在基于句法環(huán)境下猜測(cè)對(duì)方要說(shuō)的話。如果你使用知識(shí)庫(kù),那么可以擴(kuò)展?fàn)顟B(tài)表達(dá),使其中包含你的目標(biāo)語(yǔ)義,讓它學(xué)習(xí)語(yǔ)法。

 聯(lián)合模型和半監(jiān)督學(xué)習(xí)一直是自然語(yǔ)言理解研究最完美的體現(xiàn)。從來(lái)沒(méi)有人懷疑它們的優(yōu)點(diǎn)——但是如果沒(méi)有一個(gè)具體的方法,這些技術(shù)也只是陳詞濫調(diào)罷了。很明顯,理解一個(gè)句子需要正確地拆分單詞,但這樣做會(huì)帶來(lái)很多問(wèn)題,更難以找到一個(gè)滿意的解決方案。此外,一個(gè)自然語(yǔ)言理解系統(tǒng)應(yīng)該可以利用現(xiàn)有的大量未標(biāo)注文本,這同樣需要不同類型的模型支持。我認(rèn)為,針對(duì)上述兩個(gè)問(wèn)題,一個(gè)過(guò)渡的神經(jīng)網(wǎng)絡(luò)模型能夠給出答案。你可以學(xué)習(xí)任何架構(gòu),你看到的文本越多,你學(xué)習(xí)的就越多,而且神經(jīng)網(wǎng)絡(luò)模型也不需要添加任何新參數(shù)。

 顯然,我們想要在Parsey McParseface和spaCy模型之間構(gòu)建一座橋梁,這樣在spaCy應(yīng)用程序接口的支持下,你才能使用更加準(zhǔn)確的模型。不過(guò),對(duì)于任何單獨(dú)用例,讓這種技術(shù)真正發(fā)揮作用總是會(huì)出現(xiàn)一些變數(shù)。特別是每一個(gè)應(yīng)用程序中總會(huì)存在不同類型的文本,如果數(shù)據(jù)模型能調(diào)整到域,準(zhǔn)確度才能夠有實(shí)質(zhì)提升,比如一些完整編輯的文本,像財(cái)務(wù)報(bào)告,你必須要讓語(yǔ)義分析模型把“市值”這個(gè)詞考慮成決定性指標(biāo),才能更好地理解全文;但是如果在理解Twitter上的推文時(shí),你讓語(yǔ)義分析模型將“市值”理解成決定性指標(biāo),通常是沒(méi)有什么意義的。

 我們的目標(biāo)就是要提供一系列預(yù)先訓(xùn)練模式,去解決這一問(wèn)題,讓語(yǔ)義分析模型適應(yīng)不同的語(yǔ)言和風(fēng)格。我們也有一些令人非常興奮的想法,盡可能輕松地幫助每個(gè)用戶訓(xùn)練屬于自己的自定義模型。我們認(rèn)為,在自然語(yǔ)言處理中,算法總是沖在最前面,而數(shù)據(jù)往往滯后。我們希望解決這個(gè)問(wèn)題。

 

via spaCy

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)