日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
政企安全 正文
發(fā)私信給又田
發(fā)送

0

假評論“捅了”馬蜂窩,辦事的真不是人?

本文作者: 又田 2018-10-23 08:22
導語:毫無疑問,馬蜂窩剛剛度過一個黑色周末

毫無疑問,馬蜂窩剛剛度過一個黑色周末。

10月20號微信公眾號“小聲比比”發(fā)表了一篇名為《獨家|估值175億的旅游獨角獸,是一座僵尸和水軍構成的鬼城》的文章,直指旅游網(wǎng)站馬蜂窩評論抓取抄襲其他旅游平臺,大量內(nèi)容和抽獎涉嫌造假。

假評論“捅了”馬蜂窩,辦事的真不是人?

作者宛如手提一把98K的剛槍王,一槍一靶,甩出了馬蜂窩與點評,攜程、藝龍、美團、Agoda、Yelp等網(wǎng)站評論對比圖,操作堪稱一流。

這篇文章以朋友圈為擴散中心,迅速開啟病毒式傳播,短時間內(nèi)達到10W+閱讀量。馬蜂窩隨后在10月22日也就是今天一早,發(fā)出了一則聲明稱,該自媒體文章所述的馬蜂窩用戶數(shù)量與事實和第三方機構數(shù)據(jù)都嚴重不符,并存在誤導傾向,已被查證為有組織攻擊行為,將采取法律手段維護自身權益。

假評論“捅了”馬蜂窩,辦事的真不是人?

圍觀口水戰(zhàn)

馬蜂窩與爆料自媒體的口水戰(zhàn)還在繼續(xù),圍觀群眾也保持著吃瓜激情,支持者有,吐槽者有,抖機靈甩段子的也有。

比如知乎用戶羅一覺提出了一個有意思的細節(jié),馬蜂窩的這些假評論,主要是在工作日、工作時間發(fā)出來的。而不是和別的正常網(wǎng)站一樣,集中在飯點、休息日。

假評論“捅了”馬蜂窩,辦事的真不是人?

假評論“捅了”馬蜂窩,辦事的真不是人?

這說明:

  1. 馬蜂窩在抄襲的時候,沒有考慮到正常用戶的行為方式。如果程序員稍微動一下腦筋,把抄好的評論在飯點發(fā)出去,那就沒這么大的問題。

  2. 這些評論很可能是員工在工作時間一個一個抄過來的,而不是有什么自動化的軟件在抄襲。因為程序應該是不需要休息的。而且從數(shù)據(jù)來看,一萬五千活躍用戶,有三四年的時間,完全是一個人工團隊可以進行的工作量。所以,在馬蜂窩就有一個團隊,十來上百人,每天的任務就是把別家的評論抄到自己家的網(wǎng)站上。我無法想象這種工作的枯燥程度,簡直就是《城市之光》里的工人。他們可能拿著最低工資,但他們的產(chǎn)出,卻是馬蜂窩估值100億+人民幣的核心競爭力。

另一位知乎網(wǎng)友Windfury則聊到一些技術問題,

馬蜂窩上的攻略雷同的太多了,就像搜索引擎搜編程問題一樣,結果大都是機器人的互相拷貝,一個后果是錯誤的引導被復制來復制去。

馬蜂窩的問題對用戶來說除了相似內(nèi)容太多,還有一個時效性問題,比如說很多景區(qū)當前在修路或者現(xiàn)在那個省份有票價優(yōu)惠,這對游客來說其實是很重要的信息,缺失了會導致行程出現(xiàn)嚴重問題,而這個問題在馬蜂窩現(xiàn)在這種社區(qū)模式下無法解決。

還有網(wǎng)友則認為爆料方是有備而來,

能把馬蜂窩,點評,攜程、藝龍、美團、Agoda、Yelp這些網(wǎng)站全部爬一遍,他背后的團隊技術實力肯定很強悍,肯定也花費了不少時間和金錢做這件事。不過我很好奇作者花費了這么多資源做這件事,僅僅是為了打假?我覺得原因沒那么簡單。

要么作者夸大了他的爬蟲數(shù)據(jù)量,要么作者也準備開一家馬蜂窩,手動狗頭。

也有網(wǎng)友認為這一連串都是套路,熟悉的配方多家使用,

沒有內(nèi)容來源→爬蟲扒其他網(wǎng)站→數(shù)據(jù)量暴增→報表好看→估值暴增→風投(人傻錢多)源源不斷→IPO→套現(xiàn)

知乎網(wǎng)友 Lincoin 認為機器人創(chuàng)造內(nèi)容,乃是業(yè)內(nèi)的常見操作,沒什么新鮮的。

淘寶剛上線的時候,缺少種子用戶(小白鼠),馬老板帶著員工自己買自家商品寫評論打分,創(chuàng)業(yè)初期都是這么過來的。但是「抄襲」的這么明顯,還當自家資產(chǎn)來賣,這確實就有點不厚道了。

微博網(wǎng)友:

馬蜂窩:我們不生產(chǎn)內(nèi)容,我們只是內(nèi)容的搬運工;

從螞蜂窩改到馬蜂窩,怪不得會捅馬蜂窩…… 

當然還有一些網(wǎng)友情不自禁甩出了諸多表情包

……

假評論“捅了”馬蜂窩,辦事的真不是人?

關于數(shù)據(jù)挖掘這事兒

事實上,數(shù)據(jù)挖掘這件事兒一直都存有爭議,一方面平臺認為利用技術爬取數(shù)據(jù)可以完善功能提高用戶使用感,另一方面卻被質疑爬取的數(shù)據(jù)是否侵犯作者權益。

也有人好奇報道中稱馬蜂窩2100萬條“真實點評”中,有1800萬條都是通過機器人從競品網(wǎng)站抄襲過來的,這是如何做到的。

來自邦盛科技機器防御專家告訴雷鋒網(wǎng)宅客頻道,目前平臺均是通過網(wǎng)絡機器人技術從其他網(wǎng)站爬取信息,并抄襲到自己的平臺。

網(wǎng)絡機器人,是一種按照一定的規(guī)則,自動地抓取網(wǎng)絡信息的程序或者腳本。當前大部分的網(wǎng)絡機器人是通過直接發(fā)起http請求的方式獲取網(wǎng)頁資源,無js引擎,會進行一定的偽裝,并使用動態(tài)IP來躲避反爬蟲措施。隨著網(wǎng)站防護能力的不斷提升,網(wǎng)絡爬蟲會逐漸向瀏覽器內(nèi)核型進化,從而具備執(zhí)行js的能力,并進一步的擬人化,增加被識別的難度。

總之,機器人創(chuàng)造內(nèi)容已經(jīng)不新鮮了,以馬蜂窩風波中的刷評為例,就是通過爬取競品的商家評論數(shù)據(jù),以預定義的一些隨機替換規(guī)則(比如稱謂,地點,時間等等)構造新的評論,最后利用馬蜂窩平臺設立的大批機器人賬號,發(fā)布在自己平臺的對應商家評論里。

當然,類似馬蜂窩去抓取其他網(wǎng)絡預訂同行的內(nèi)容數(shù)據(jù)這種情況在業(yè)內(nèi)很是常見,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡機器人也越來越普遍。

根據(jù)之前國外網(wǎng)絡安全公司的研究報告,50%左右的網(wǎng)絡流量來自網(wǎng)絡機器人,遍布各類網(wǎng)站,包括出行、社交、OTA、電商、招聘、銀行、政府等。例如出行類中的12306票務信息被各類搶票軟件瘋狂地爬取,高峰時刻每天的訪問量達到千億次。在社交類中,通過網(wǎng)絡爬蟲技術可以指揮一幫網(wǎng)絡機器人關注某人的微博、公眾號等,進行點贊、關注或者留言,制造大量的僵尸粉。

(因此諸多吃瓜群眾表示:知乎、微博大V軟文贊評都是刷的,大家彼此彼此。)

在問到最關鍵的被爬取內(nèi)容網(wǎng)站是否能發(fā)覺并采取反爬手段時,專家告訴我們,針對爬蟲,常規(guī)的反爬蟲手段包括驗證碼、HTTP Header校驗、代理IP識別等。

隨著爬蟲技術的演進,常規(guī)的反爬蟲手段已經(jīng)無法有效阻止爬蟲的訪問。近年來通過多維度、多層次的檢測,并輔以后端大數(shù)據(jù)分析來識別網(wǎng)絡機器人逐漸興起并成為主流。

利用設備指紋技術從設備維度定位網(wǎng)絡機器人,人機識別技術從操作行為判別機器人點擊和自動化點擊,而后端大數(shù)據(jù)實時分析技術可根據(jù)長周期數(shù)據(jù)進行復雜規(guī)則決策。綜合以上手段,可有效偵測爬蟲行為,保護網(wǎng)站的信息資產(chǎn)不被爬取和泄露。

手段想有都可以有,但平臺用不用就不知道了。

可惜,對于深陷輿論中心的馬蜂窩來說,黑色周末依然在延續(xù)。

參考來源:知乎

雷鋒網(wǎng)宅客頻道(微信公眾號:letshome),專注先鋒科技,講述黑客背后的故事,歡迎關注雷鋒網(wǎng)宅客頻道。

假評論“捅了”馬蜂窩,辦事的真不是人?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說