網(wǎng)絡(luò)直播被嚴(yán)查，機(jī)器如何幫助鑒別小黃圖？

本文作者：圖普科技

2016-04-22 13:09

導(dǎo)語：文化部嚴(yán)查直播，平臺如何才能不被列入“黑名單”？

雷鋒網(wǎng)按：作者系機(jī)器識別領(lǐng)域從業(yè)人員。

（圖片來源：3lian.com）

近日，文化部將19家不合規(guī)定的直播平臺列入查處名單。

作為新型的社交互動平臺，網(wǎng)絡(luò)直播與傳統(tǒng)的視頻網(wǎng)站不同，當(dāng)用戶上傳內(nèi)容后，傳統(tǒng)的視頻網(wǎng)站會進(jìn)行審核，符合標(biāo)準(zhǔn)后才可上傳成功，而網(wǎng)絡(luò)直播都是實時播出的，如果有人在網(wǎng)上傳播不良信息或者發(fā)布違規(guī)內(nèi)容，即使被查處，也是播出之后的事情。

雖然，大多數(shù)直播企業(yè)會選擇人工審核的方式對直播內(nèi)容進(jìn)行實時監(jiān)管，但是在過去的一年多里，“直播造人門”、“直播脫衣門”等事件仍然頻繁發(fā)生。某直播平臺負(fù)責(zé)人曾表示，視頻直播從技術(shù)不需要“上傳”這個步驟，當(dāng)手機(jī)按下攝影功能鍵，云端會同步抓取、同步存儲、同步傳遞，“延遲不會超過2秒”。在這個過程中，平臺面臨的困惑是“無法掌控直播下一秒會發(fā)生什么”，所以只能依靠人力進(jìn)行24小時輪班審核，但是人工審核存在的問題較多，直播內(nèi)容監(jiān)管風(fēng)險依舊存在。

直播內(nèi)容監(jiān)管存在哪些風(fēng)險？

第一：網(wǎng)絡(luò)直播規(guī)模龐大，人工審核成本高

2015年直播平臺接近200家，用戶數(shù)量已經(jīng)達(dá)到2億，大型直播平臺每日高峰時間會有3000－4000千個直播“房間”同時在線，用戶數(shù)可達(dá)兩三百萬人次，如果全部用人工對4000路視頻同時進(jìn)行審核，為了保證“無漏網(wǎng)之魚”，至少需要上百人同時工作，并且每位工作人員需要配備1-2臺監(jiān)控設(shè)備。其實直播視頻內(nèi)容的違規(guī)比例占比不高，僅0.04%，甚至更低，但為了做到“無漏網(wǎng)之魚”，企業(yè)需要投入大量的人力、物力和財力進(jìn)行監(jiān)管，運營成本壓力增加。

第二：直播流量聚焦夜晚，人工審核效率低

網(wǎng)絡(luò)直播白天跟晚上的“房間數(shù)”不同，目前，白天直播流量峰值是數(shù)百路視頻，晚上可以飆升到數(shù)千路。但“三班倒”的審核人員，夜晚疲勞，人眼識別精確度降低，出現(xiàn)誤判漏判的概率上漲，審核效率降低，難以達(dá)到網(wǎng)絡(luò)直播的內(nèi)容監(jiān)管需求。

因此，網(wǎng)絡(luò)直播行業(yè)的內(nèi)容監(jiān)管不能只依賴人工，可以采用機(jī)器識別結(jié)合人工審核的新型審核模式。

目前，據(jù)我所知的，國內(nèi)能夠為網(wǎng)絡(luò)直播企業(yè)的違規(guī)內(nèi)容過濾提供這種模式的主要有圖普科技的“智能審核機(jī)器人”，阿里的“阿里綠網(wǎng)”、騰訊的“萬象優(yōu)圖”等。

機(jī)器識別的工作原理

機(jī)器識別原理的圖像識別技術(shù)是如何像人腦一樣認(rèn)識、學(xué)習(xí)圖像特征的呢？其核心是深度學(xué)習(xí)理論(Deep Learning)。深度學(xué)習(xí)就是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下簡稱 ANN)。要了解 ANN，讓我們先來看看人類的大腦是如何工作的。：

網(wǎng)絡(luò)直播被嚴(yán)查，機(jī)器如何幫助鑒別小黃圖？

（人腦的視覺處理系統(tǒng) via:Simon Thorpe)

上圖所表達(dá)的，就是人理解外界視覺信息的過程。

從視網(wǎng)膜(Retina)出發(fā),經(jīng)過低級的 V1 區(qū)提取邊緣特征,到V2 區(qū)的基本形狀或目標(biāo)的局部,再到高層的整個目標(biāo)（如判定為一張人臉），以及到更高層的 PFC(前額葉皮層)進(jìn)行分類判斷等。也就是說高層的特征是低層特征的組合, 從低層到高層的特征表達(dá)越來越抽象和概念化，也即越來越能表現(xiàn)語義或者意圖。

深度學(xué)習(xí)，恰恰就是通過組合低層特征形成更加抽象的高層特征（或?qū)傩灶悇e）。然后在這些低層次表達(dá)的基礎(chǔ)上，通過線性或者非線性組合，來獲得一個高層次的表達(dá)。此外，不僅圖像存在這個規(guī)律，聲音也是類似的。

現(xiàn)在來看深度學(xué)習(xí)的簡易模型。

網(wǎng)絡(luò)直播被嚴(yán)查，機(jī)器如何幫助鑒別小黃圖？

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)與深度神經(jīng)網(wǎng)絡(luò)

深度學(xué)習(xí)的一個主要優(yōu)勢在于可以利用海量訓(xùn)練數(shù)據(jù)（即大數(shù)據(jù)），在學(xué)習(xí)的過程中不斷提高識別精度，但是仍然對計算量有很高的要求。而近年來，得益于計算機(jī)速度的提升、大規(guī)模集群技術(shù)的興起、GPU 的應(yīng)用以及眾多優(yōu)化算法的出現(xiàn)，耗時數(shù)月的訓(xùn)練過程可縮短為數(shù)天甚至數(shù)小時，深度學(xué)習(xí)才逐漸可以用于工業(yè)化。

對于開發(fā)團(tuán)隊來說，做該領(lǐng)域的產(chǎn)品困難在于如何獲取大規(guī)模已標(biāo)注數(shù)據(jù)、集成有 GPU 的計算集群以及針對自己的項目調(diào)參數(shù)，團(tuán)隊需要不斷地輸入新數(shù)據(jù),持續(xù)迭代以提高機(jī)器識別準(zhǔn)確率。

審核直播，機(jī)器能做什么？

利用深度學(xué)習(xí)算法設(shè)計的智能程序能通過快速迭代擁有強大的學(xué)習(xí)能力，并與視頻直播、社交網(wǎng)絡(luò)、云計算等領(lǐng)域企業(yè)合作，積累大量圖片和視頻數(shù)據(jù)，克服智能程序設(shè)計中的大數(shù)據(jù)壁壘，得到高精度的智能識別結(jié)果。

例如“鑒黃機(jī)器人”，通過將大量人工標(biāo)注好的色情圖片和正常圖片來訓(xùn)練機(jī)器認(rèn)識、學(xué)習(xí)這兩類圖片的特征，然后自動提取出可能是色情圖片和正常圖片的特征，當(dāng)機(jī)器再“看到”相似特征的圖片時，即可自動識別出來，當(dāng)數(shù)據(jù)量越大，提取特征越準(zhǔn)確，識別精確度越高。上文提到的圖普科技的審核原理也是如此。

因此，新型審核方式的原理就是：

企業(yè)根據(jù)自身需求，利用自動截圖程序?qū)χ辈ギ嬅娑〞r（建議6-10s）進(jìn)行實時截圖，發(fā)送到圖像識別云服務(wù)平臺，機(jī)器自動識別后將結(jié)果分為確定和復(fù)審兩部分，確認(rèn)部分的識別精確度達(dá)到或超過人工，無需復(fù)審，對于復(fù)審部分，機(jī)器會根據(jù)可能性排序，人工再根據(jù)概率從高到低來審核。

相對傳統(tǒng)的純?nèi)斯徍说哪Ｊ?，這種新型審核模式的優(yōu)勢主要在于：

第一：改變傳統(tǒng)付費模式，成本更低，計費更靈活

直播企業(yè)只需要按圖片調(diào)用量付費，比如直播平臺某日有推廣活動，導(dǎo)致流量較大，需要審核力度較大，付費較多，但活動結(jié)束后，審核量減少，費用也會隨之減少，不需要固定每日的付費額度。

第二：機(jī)器識別穩(wěn)定，效率高

機(jī)器識別模型可以針對不同的應(yīng)用場景訓(xùn)練機(jī)器，對于識別結(jié)果的確認(rèn)部分的審核精準(zhǔn)度達(dá)到99.5%，超過人眼準(zhǔn)確度，需要人工復(fù)審的部分僅占圖片總量的5%，隨著模型的不斷優(yōu)化，精確度還會繼續(xù)提升，復(fù)審率也就繼續(xù)降低。

并且成熟運作的智能審核機(jī)器人的圖片處理量日達(dá)3億張以上，單張圖片響應(yīng)時間小于0.2s，7x24h全天候服務(wù)。但是，如果純?nèi)斯徍?億張圖片，如果按照人眼每小時審核2萬張左右的圖片計算，則需要大約625天不停歇的工作才能審核完畢，相對人有限的精力，不停運轉(zhuǎn)的機(jī)器明顯更加穩(wěn)定可控，效率更高。

第三：機(jī)器識別更簡單安全

網(wǎng)絡(luò)直播采用人工審核時，需要給每個審核人員配備相關(guān)設(shè)備及空間，因此企業(yè)需要投入更多的運營成本，尤其對于創(chuàng)業(yè)的網(wǎng)絡(luò)直播企業(yè)，需要承受的經(jīng)濟(jì)壓力更大，而機(jī)器識別只需要通過API調(diào)用即可直接使用服務(wù)。

此外，每個企業(yè)都有專屬的ID賬號，其所有調(diào)用數(shù)據(jù)都會被定期清除，不會長期存留API界面，不同企業(yè)之間數(shù)據(jù)是隔離的，無法調(diào)看非本ID的數(shù)據(jù)，不用擔(dān)心企業(yè)信息泄漏，安全度更高。

據(jù)文化部透露，下一步將重點在經(jīng)營主體管理、事中事后監(jiān)管方面對網(wǎng)絡(luò)表演關(guān)鍵環(huán)節(jié)進(jìn)行規(guī)范，以及建立違規(guī)網(wǎng)絡(luò)直播平臺和違規(guī)“主播”警示名單和黑名單制度，加強行業(yè)自律。

所以，網(wǎng)絡(luò)直播企業(yè)在利用機(jī)器識別提高內(nèi)容監(jiān)管有效度的同時，還要加大對主播素質(zhì)培養(yǎng)和監(jiān)管力度，守住經(jīng)營的底線與紅線。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。