用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！

本文作者： AI研習(xí)社-譯站

2018-06-05 14:08

導(dǎo)語：直接使用 Python、OpenCV、以及 TensorFlow 來檢測視頻中的目標(biāo)

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的技術(shù)博客，原文 Detecting Pikachu in videos using Tensorflow Object Detection ，作者 Juan De Dios Santos。

翻譯 | 于志鵬整理 | 吳璇

在 TensorFlow 眾多功能和工具中，有一個(gè)名為 TensorFlow 目標(biāo)檢測 API 的組件。這個(gè)庫的功能正如它的名字，是用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)檢測視頻幀中目標(biāo)的能力，比如，一副圖像。

需要查看我之前的工作的話，點(diǎn)擊這里，我解釋了在安卓設(shè)備上采用 TensorFlow 識別皮卡丘的整個(gè)過程。此外，我也介紹了這個(gè)庫和它的不同架構(gòu)及其各自特點(diǎn)，以及演示如何使用 TensorBoard 評估訓(xùn)練過程。

數(shù)月之后，我開始著手優(yōu)化我之前訓(xùn)練的檢測比卡丘的模型，目的是直接使用 Python、OpenCV、以及 TensorFlow 來檢測視頻中的目標(biāo)。源代碼可以從我的 GitHub 中獲取。

用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！

比卡丘

這篇文章就是解釋我所使用的步驟。首先，我會描述我在最初的模型中發(fā)現(xiàn)的問題，以及我是如何優(yōu)化的。然后，我會講解如何使用這個(gè)新的經(jīng)過優(yōu)化的模型，我組建了一個(gè)視頻檢測系統(tǒng)。最后，你將會看到兩段檢測多個(gè)比卡丘的視頻。

但開始之前，這里有一個(gè)簡短的 gif，顯示了一些快速檢測。

用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！

比卡丘被檢測到

用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！

這就是比卡丘

模型優(yōu)化

如上面所述，在以前的工作中，我對比卡丘檢測模型做了初始的訓(xùn)練，這個(gè)模型的目的是在安卓設(shè)備或 Python notebook 上進(jìn)行皮卡丘檢測。然而，我對這個(gè)模型的性能并不安全滿意，這促使我優(yōu)化這個(gè)系統(tǒng)，因此，寫下了這篇文章。

我當(dāng)時(shí)主要關(guān)心的是用于構(gòu)建這個(gè)系統(tǒng)的比卡丘數(shù)量，230 個(gè)。其中 70% 用于訓(xùn)練，而剩余 30% 用于測試。所以，用于訓(xùn)練的數(shù)量不多，雖然這在技術(shù)上不是問題（因?yàn)槟Ｐ褪窃趫?zhí)行「okayish」），但我在訓(xùn)練集里增加了 70 張圖片（總數(shù)依然不是很多，不過總比沒有要好）。

結(jié)果是，由于我現(xiàn)在擁有更多的圖片，我不得不擴(kuò)展這個(gè)模型的訓(xùn)練，而不是從零開始。我使用了早期模型的訓(xùn)練檢查點(diǎn)，然后從檢查點(diǎn)開始繼續(xù)進(jìn)行；前者訓(xùn)練了 15000 次，而新的則訓(xùn)練了 20000 次。下面兩幅圖表顯示了總體的損失和精度 (從 TensorBoard 中獲得）；很明顯，從 15000 次到 20000 次沒有太多改變（特別是在損失方面）。

用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！

損失

用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！

精度

我做的最后一個(gè)（也是小的）修正是修改了 Android 應(yīng)用的檢測閾值。默認(rèn)值是 0.6，增加到 0.85。

這個(gè)優(yōu)化改變了什么嗎? 即使將我的確認(rèn)偏差放在一邊，我也會說，是的。我注意到了一個(gè)細(xì)小的優(yōu)化。我注意到的最大變化是，Android 應(yīng)用中誤報(bào)的數(shù)量有所減少，因?yàn)槟切┪矬w看起來像黃色的斑點(diǎn)；當(dāng)然，這可能也是因?yàn)殚撝翟黾恿恕?/p>

現(xiàn)在，使用最新的和優(yōu)化后的模型，在視頻中檢測比卡丘。繼續(xù)之前，我需要說明，我將忽略模型凍結(jié)和導(dǎo)入的整個(gè)過程，因?yàn)槲抑暗墓ぷ髦幸炎隽私獯稹?/p>

從視頻中檢測

從視頻中進(jìn)行目標(biāo)檢測并不像聽到的那么困難或奇特。從外行角度，我們可以講視頻是一組按順序排列的圖像，所以從視頻中進(jìn)行目標(biāo)檢測和在正常圖像中進(jìn)行檢測是非常相似的。為什么非常相似？好吧，由于視頻的性質(zhì)，在將視頻輸入檢測模型之前，視頻幀的處理和準(zhǔn)備需要多個(gè)步驟。我將在下面的章節(jié)中將對此做出解釋，另外在解釋下檢測過程，以及如何創(chuàng)建一個(gè)新的視頻來顯示它們。

我的大部分代碼都是基于 TensorFlow 目標(biāo)檢測 repo 提供的 Python notebook 實(shí)現(xiàn)的。這些代碼完成了大部分困難的工作，因?yàn)樗ê芏喙δ?，可以簡化檢測過程。我建議你可以看下我的 Script，并作為你閱讀下面這幾個(gè)段落的指導(dǎo)。

從高層視角看，這段代碼包括三個(gè)主要任務(wù)：

加載資源

首先，必須加載凍結(jié)的模型、數(shù)據(jù)標(biāo)簽和視頻。為簡單起見，我推薦了一個(gè)簡短、中等大小的視頻，因?yàn)樘幚硗暾侩娪靶枰芏鄷r(shí)間。

遍歷視頻

這個(gè)腳本的主要功能是基于一個(gè)循環(huán)，遍歷視頻的每一幀。每次遍歷過程中，讀取幀，并改變其色彩空間。接著，執(zhí)行實(shí)際檢測過程，就是尋找所有那些漂亮的黃色皮卡丘。結(jié)果是，返回皮卡丘所在位置的邊界坐標(biāo)（如果找到的話）和檢測結(jié)果的置信度。隨后，只要置信度高于給定的閾值，將會創(chuàng)建一個(gè)視頻幀的副本，其中包含了皮卡丘位置的邊界框。對于這個(gè)項(xiàng)目，我設(shè)置的置信度閾值非常低，20%，因?yàn)槲野l(fā)現(xiàn)檢測誤報(bào)數(shù)很低，所以決定冒性能的風(fēng)險(xiǎn)來檢測到更多的皮卡丘。

創(chuàng)建新的視頻

在前面的步驟中，使用新創(chuàng)建的幀副本重新組成一個(gè)新的視頻，這些幀攜帶了檢測的邊界框。為創(chuàng)建這個(gè)視頻，需要用到 VideoWriter 對象，每次遍歷時(shí)，幀的副本都會被寫入這個(gè)對象（不含聲音）。

結(jié)果和討論

這兩個(gè)視頻顯示了模型的運(yùn)行過程：

第一個(gè)視頻的檢測非常好。盡管皮卡丘在整個(gè)視頻中一直舉著番茄醬瓶子，在大多數(shù)場景中這個(gè)模型都能探測到。另一方面，在時(shí)間 0:22 時(shí)有一個(gè)沒有被檢測到，此外，「大鐮刀」（綠螳螂的樣子）打碎了番茄醬瓶的鏡頭（0:40 到 0:44）是誤報(bào)。

在第二個(gè)視頻上，這個(gè)模型的性能并沒有在第一個(gè)視頻上表現(xiàn)的那么好，主要問題是視頻中出現(xiàn)了兩個(gè)皮卡丘的場景。這種情況下，模型貌似將兩個(gè)皮卡丘作為一個(gè)來檢測，而不是分別檢測。一個(gè)明顯的例子是在 0:13 的時(shí)候，兩個(gè)皮卡丘在互相拍打 (悲傷的場景 :(，我知道)。

總結(jié)與回顧

在這篇文章中，我介紹了如何使用 TensorFlow 目標(biāo)檢測庫在視頻中檢測比卡丘。文章開頭，介紹了一些我之前的工作，使用模型的早期版本在安卓設(shè)備上進(jìn)行目標(biāo)檢測。至于模型，盡管它做了該做的工作，但也有一些我想要解決的問題；這些優(yōu)化使我完成了這個(gè)項(xiàng)目并建立了一個(gè)用于視頻的檢測模型。

新的模型如預(yù)想的那樣工作。當(dāng)然，或多或少也有一些不足之處，導(dǎo)致誤判，或者沒有檢測到比卡丘，但模型還是完成了它應(yīng)該做的工作。作為以后的工作方向，我會為訓(xùn)練集合增加更多不同角度的比卡丘圖像。例如，側(cè)視和后視圖像，增加數(shù)據(jù)的多樣性，以獲得優(yōu)異的性能。

感謝閱讀。我希望這篇指導(dǎo)文章對你能有所幫助。

來源 https://towardsdatascience.com/detecting-pikachu-in-videos-using-tensorflow-object-detection-cd872ac42c1d

用 TensorFlow 目標(biāo)檢測 API 發(fā)現(xiàn)皮卡丘！