日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開發(fā)者 正文
發(fā)私信給MrBear
發(fā)送

0

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

本文作者: MrBear 編輯:汪思穎 2018-04-04 10:31
導(dǎo)語:計(jì)算機(jī)視覺入門到精通,可能比你想象的更簡單!

雷鋒網(wǎng) AI 研習(xí)社按,在日前結(jié)束的 Kaggle「Statoil/C-CORE Iceberg Classifier Challenge」(冰山圖像分類大賽)中,由 David Austin 和 Weimin Wang 組成的隊(duì)伍一舉拔得頭籌,獲得 25000 美元獎金。據(jù)介紹,他們的解決方案能有效應(yīng)用于實(shí)際生活,保證艦船在危險(xiǎn)的水域更加安全地航行,降低船和貨物的損傷,避免人員傷亡。

據(jù) Kaggle 官網(wǎng)介紹,這次冰川圖像分類大賽是 Kaggle 上最火的圖像分類競賽——擁有史上最多參賽隊(duì)伍。而在所有數(shù)據(jù)競賽中,本次比賽熱度位列第 7。

不久前,外媒對 David Austin 進(jìn)行了一次深入采訪,在采訪中,他們討論了以下問題:

  • 冰山圖像分類競賽是什么;

  • 冠軍方案中的處理方法、核心算法以及相關(guān)技術(shù);

  • 在競賽中遇到的最大的難題及解決方案;

  • 對想?yún)⒓?Kaggle 比賽的人的建議。

以下是具體的采訪內(nèi)容,雷鋒網(wǎng) AI 研習(xí)社編譯整理:

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 1:Kaggle 冰山分類挑戰(zhàn)賽的任務(wù)目標(biāo)是建立一個圖像分類器,將輸入衛(wèi)星圖像劃分為冰山或者船

問:你好,David,十分感謝你能接受我的采訪,也恭喜你們在冰山圖像分類挑戰(zhàn)賽中取得第一名的好成績。你是如何對計(jì)算機(jī)視覺和深度學(xué)習(xí)產(chǎn)生興趣的呢?

答:在過去兩年里,我對深度學(xué)習(xí)的興趣與日俱增。因?yàn)槲铱吹饺藗兝盟鼜臄?shù)據(jù)中獲得了難以置信的結(jié)果。我對深度學(xué)習(xí)領(lǐng)域的前沿研究和實(shí)際應(yīng)用都很感興趣,我認(rèn)為 Kaggle 是一個非常棒的平臺。通過比賽,我能保持對前沿技術(shù)的掌控能力,可以在合適的場景下嘗試新的技術(shù)。

問:你在參加這次比賽之前,在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)背景如何?你之前參加過其他 Kaggle 競賽嗎?

答:大概十年前,我首次接觸機(jī)器學(xué)習(xí),那時(shí)我開始學(xué)習(xí)梯度提升樹和隨機(jī)森林相關(guān)知識并將其應(yīng)用到分類問題中。近幾年,我開始更廣泛地關(guān)注深度學(xué)習(xí)和計(jì)算機(jī)視覺。不到一年前,我開始參加 Kaggle 競賽,這是提升技能的一種方式,本次比賽是我第三次參加 Kaggle 競賽。

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 2:冰山

問:能再談?wù)劚椒诸愄魬?zhàn)賽嗎?是什么驅(qū)使你參加了本次比賽?

答:冰山分類挑戰(zhàn)賽是一個圖像二分類問題,這個比賽要求參賽者在衛(wèi)星圖像中將船和冰山區(qū)分開來。這項(xiàng)工作在能源勘探領(lǐng)域尤為重要,它讓我們能夠識別并且避開類似浮冰這樣的威脅。

本次比賽的數(shù)據(jù)有兩個特別有意思的地方:

  • 首先,數(shù)據(jù)集規(guī)模相當(dāng)小,訓(xùn)練集中只有 1604 張圖片。這樣一來,從硬件的角度來說,參與競賽的門檻很低。然而,另一方面,使用有限的數(shù)據(jù)完成圖像分類任務(wù)又是十分困難的。

  • 其次,如果用肉眼去觀察這些圖片,它們看上去就像電視屏幕上出現(xiàn)的「雪花」圖——一堆亂七八糟的噪點(diǎn)。人類用肉眼完全不可能看出來哪些圖像是船,哪些圖像是冰山。

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 3:人眼很難準(zhǔn)確判斷輸入圖片是「冰山」還是「船」

要讓人類僅憑肉眼準(zhǔn)確地區(qū)分圖片類別十分困難。我認(rèn)為這是一個很好的契機(jī)——測試深度學(xué)習(xí)和計(jì)算機(jī)視覺能夠做到人類做不到的事情。

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 4: 冠軍團(tuán)隊(duì)采用集成的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

問:接下來,讓我們討論稍微技術(shù)性一些的問題。能介紹一下你們優(yōu)勝策略中所使用的數(shù)據(jù)處理方法、算法和相關(guān)技術(shù)嗎?

答:好的,總體上我們的數(shù)據(jù)處理方法和大多數(shù)傳統(tǒng)的計(jì)算機(jī)視覺問題中所使用的方法很相似。我們都會事先花費(fèi)一些時(shí)間去理解數(shù)據(jù)。

使用無監(jiān)督學(xué)習(xí)方法是一種我最喜歡的技術(shù),通過學(xué)習(xí)這些模式,我們可以決定接下來將要使用什么樣的深度學(xué)習(xí)方法。

在這個任務(wù)中,標(biāo)準(zhǔn)的 KNN(K 最近鄰算法)就能夠識別出幫助定義模型結(jié)構(gòu)的關(guān)鍵信號。我們使用了一個十分龐大的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含超過 100 個改造過的卷積神經(jīng)網(wǎng)絡(luò)和類似于 VGG 的結(jié)構(gòu),然后我們使用 greedy blending 策略和兩層結(jié)合了其他的圖像特征的集成學(xué)習(xí)算法將模型結(jié)果融合起來。

這聽起來是個很復(fù)雜的方法。但是請記住!這里的目標(biāo)函數(shù)是要最小化對數(shù)損失誤差。在這個任務(wù)中,我們僅僅像這樣加入了一些模型,因?yàn)樗鼈兡軌蛟诓话l(fā)生過擬合的情況下減小對數(shù)損失。所以,這又是一個很好的例子,說明了將許多弱機(jī)器學(xué)習(xí)模型集成之后的威力。

我們最后再次訓(xùn)練了許多和之前一樣的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),但是這里我們僅僅是使用了一開始通過無監(jiān)督學(xué)習(xí)挑選出的原始數(shù)據(jù)的子集作為輸入,這同樣也提高了我們模型的性能。

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖5:過擬合是它們在本次比賽中遇到的最棘手的問題

問:對于你們來說,本次比賽中遇到的最大難題是什么?

答:在比賽中最困難的部分當(dāng)屬驗(yàn)證模型沒有過擬合。

說實(shí)話,這個數(shù)據(jù)集對于圖像分類問題來說是相當(dāng)小的,所以我們擔(dān)心過擬合會是一個很大的問題。為此,得確保所有的模型都要經(jīng)過4折交叉驗(yàn)證,盡管這會增加計(jì)算開銷,但是卻能降低過擬合的風(fēng)險(xiǎn)。尤其是在處理像對數(shù)損失這樣非常嚴(yán)格的損失函數(shù)時(shí),需要時(shí)刻注意過擬合問題。

問:訓(xùn)練模型需要花費(fèi)多長時(shí)間呢?

答:盡管我們選用的卷積神經(jīng)網(wǎng)絡(luò)規(guī)模巨大,并且在所有的模型訓(xùn)練過程中都使用了4折交叉驗(yàn)證,訓(xùn)練過程僅僅花費(fèi)了一到兩天。沒有交叉驗(yàn)證的單個模型可以在幾分鐘內(nèi)完成訓(xùn)練。

問:如果要你選出一項(xiàng)本次比賽中你所使用的最重要的技術(shù)或者小竅門,你會選什么呢?

答:毫無疑問,最重要的步驟當(dāng)屬預(yù)先進(jìn)行的探索性分析,從而對數(shù)據(jù)有更好的了解。

探索性分析的結(jié)果表明,有一個圖像數(shù)據(jù)之外的特征中非常重要,它能夠幫助消除數(shù)據(jù)中大量的噪聲。

在我看來,我們在計(jì)算機(jī)視覺或者深度學(xué)習(xí)問題中最容易忽視的步驟之一,就是需要事先理解數(shù)據(jù),并且利用這些知識幫助我們做出最佳設(shè)計(jì)選擇。

現(xiàn)成的算法如今更加易于獲得和引用,我們往往會不假思索、簡單粗暴地將這些算法應(yīng)用于待解決的問題上。然而我們卻沒有真正想清楚這些算法是不是這一任務(wù)的最佳選擇,或者沒有想清楚在訓(xùn)練之前或之后是否需要對數(shù)據(jù)進(jìn)行一些適當(dāng)?shù)奶幚砉ぷ鳌?/p>

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

圖 6:優(yōu)勝解決方案用到了 Tensorflow、Keras、XGBoost 框架

問:本次比賽中,你選擇了哪些工具和程序庫?

答:就我個人而言,我認(rèn)為 TensorFlow 和 Keras 是最好用的,因此在處理深度學(xué)習(xí)問題時(shí),我會傾向于選擇它們。

至于 stacking 和 boosting 兩種集成學(xué)習(xí)方法,我使用 XGBoost 去實(shí)現(xiàn),這也是因?yàn)槲覍λ苁煜ひ约八呀?jīng)被證實(shí)有好的運(yùn)算結(jié)果。

比賽中,我使用了我的 dl4cv 虛擬環(huán)境(這是計(jì)算機(jī)視覺深度神經(jīng)網(wǎng)絡(luò)中用到的 Python 虛擬環(huán)境),并且將 XGBoost 加入其中。

問:對于初次參加 Kaggle 競賽的新手們,你有什么好的建議嗎?

答:Kaggle 有著很棒的社區(qū)文化,其上的比賽是依靠這個機(jī)制運(yùn)行的。

社區(qū)中有很多供選手進(jìn)行討論的論壇,也有各種各樣討論的方式。如果參賽選手愿意,他們可以將自己的代碼分享出來。當(dāng)你試著學(xué)習(xí)通用的方法并將代碼應(yīng)用于具體問題上時(shí),這將十分有幫助。

當(dāng)我第一次參加 Kaggle 比賽時(shí),我花了幾個小時(shí)仔細(xì)閱讀了論壇中的文章以及其它高質(zhì)量的代碼,我發(fā)現(xiàn)這是學(xué)習(xí)的最佳途徑之一。

問:下一步的打算如何?

答:目前我手頭上有很多項(xiàng)目要去做,因此我將會忙上一段時(shí)間。還有一些 Kaggle 比賽看上去十分有趣,所以之后我很有可能再回來參與到其中。

問:如果讀者想要和你交流,你的聯(lián)系方式是什么呢?

答:最好方式的話,在我的 LinkedIn 用戶資料中有寫到。大家同樣可以通過 LinkedIn 聯(lián)系 Weimin Wang。同時(shí),我會參加 PyImageConf2018,如果大家想要和我當(dāng)面交流,那時(shí)候可以來找我。

via PyImageSearch

雷鋒網(wǎng) AI 研習(xí)社編譯整理。

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

Kaggle 冰山圖像分類大賽近日落幕,看冠軍團(tuán)隊(duì)方案有何亮點(diǎn)

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說