數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能，究竟有什么區(qū)別？

本文作者： AI研習(xí)社-譯站

2018-03-14 10:34

導(dǎo)語：一句話說明白，簡單，直接，有效

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的技術(shù)博客，原標(biāo)題What's the difference between data science, machine learning, and artificial intelligence，作者David Robinson。

翻譯 | 劉春雷楊恕權(quán) 整理 | 凡江吳璇

當(dāng)我向別人介紹我是數(shù)據(jù)科學(xué)家時，我常常被問到“數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)有什么區(qū)別”或者“這是否意味著你在從事人工智能工作？”類似問題我已經(jīng)回答過很多次，答案可以總結(jié)成“三原則”：

數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能，究竟有什么區(qū)別？

這些領(lǐng)域確實有很多重合，而且各自都有各自的說法，選擇哪一個看起來更像是一個市場問題。但是他們不可互換：這個領(lǐng)域的大部分專業(yè)人士，對如何把特定的工作分成數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能，都有自己的一套直覺，盡管它很難用語言描述出來。

所以在這篇文章中，我提出了一個關(guān)于相當(dāng)簡化的定義：

數(shù)據(jù)科學(xué)產(chǎn)生見解
機(jī)器學(xué)習(xí)做出預(yù)測
人工智能創(chuàng)造行為

需要明確的是，這不是一個充分的定義：不是所有符合定義的都屬于這個領(lǐng)域。（算命師做決策，但我們永遠(yuǎn)不會說他們在做機(jī)器學(xué)習(xí)?。┩瑯右?，這也不是決定一個人的角色或者工作頭銜的好方法（“我是一個數(shù)據(jù)科學(xué)家嗎？”），這是一個關(guān)注點和經(jīng)驗的問題。（任何工作都可以這樣描述：寫作是我工作的一部分，但我不是一個專業(yè)的作家）。

但我認(rèn)為這個定義是一種有效的方式，它可以來幫助你區(qū)別這三種類型的工作，這樣談?wù)撈饋頃r不會讓人覺得很傻。值得注意的是，我在討論成為一個描述主義者而不是規(guī)范主義者的方法：我感興趣的是這個領(lǐng)域的人如何使用這些術(shù)語而非術(shù)語本身。

數(shù)據(jù)科學(xué)產(chǎn)生見解

數(shù)據(jù)科學(xué)和其它兩個領(lǐng)域有所區(qū)別，是因為它的目標(biāo)是基于人類：能夠獲得洞察力和理解。Jeff Leek對數(shù)據(jù)科學(xué)可以實現(xiàn)的洞察類型有很好的定義，包括：描述性（“普通客戶有70％的更新機(jī)會”），探索性（“不同的銷售人員有不同的更新率”）和因果關(guān)系（“一個隨機(jī)實驗表明分配給Alice的客戶比分配給Bob的客戶更有可能更新）。

不是所有產(chǎn)生洞察力的科學(xué)都是數(shù)據(jù)科學(xué)（數(shù)據(jù)科學(xué)的經(jīng)典定義是統(tǒng)計學(xué)、軟件工程和領(lǐng)域?qū)I(yè)知識的組合）。但是我們可以用這個定義來區(qū)分ML和AI。主要區(qū)別在于，數(shù)據(jù)科學(xué)中總有人工介入：有人正在理解、洞察，看到數(shù)字，或者從結(jié)論中受益。 “我們的象棋游戲算法使用數(shù)據(jù)科學(xué)來決定下一步棋”或者“Google地圖使用數(shù)據(jù)科學(xué)來推薦駕駛方向”是毫無意義的。

數(shù)據(jù)科學(xué)的定義因此強(qiáng)調(diào)：

統(tǒng)計推斷
數(shù)據(jù)可視化
實驗設(shè)計
領(lǐng)域知識
交流

數(shù)據(jù)科學(xué)家可能會使用簡單的工具：他們可以報告百分比并根據(jù)SQL查詢制作線圖；也可以使用非常復(fù)雜的方法：他們可能會使用分布式數(shù)據(jù)存儲來分析數(shù)萬億條記錄，開發(fā)尖端的統(tǒng)計技術(shù)并構(gòu)建交互式可視化。無論他們使用什么，目標(biāo)都是為了更好地理解他們的數(shù)據(jù)。

機(jī)器學(xué)習(xí)做出預(yù)測

我認(rèn)為機(jī)器學(xué)習(xí)是關(guān)于預(yù)測的領(lǐng)域：“給定具有特定特征的實例X，預(yù)測Y”。這些預(yù)測可能是關(guān)于未來的（“預(yù)測這個病人是否會得敗血癥”），但它們也可能是對于計算機(jī)不明顯的特性（“預(yù)測這個圖像是否有鳥）”。幾乎所有的Kaggle比賽都可以被認(rèn)定為機(jī)器學(xué)習(xí)問題：他們提供一些訓(xùn)練數(shù)據(jù)，然后查看參賽者是否可以對新例子做出準(zhǔn)確的預(yù)測。

數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)之間有很多重疊。例如，邏輯回歸可以用來獲取關(guān)于關(guān)系的見解（“用戶越富有，他們購買我們產(chǎn)品的可能性越大，所以我們應(yīng)該改變我們的營銷策略”）并做出預(yù)測（“這個用戶有53 ％購買我們產(chǎn)品的可能性，所以我們應(yīng)該向他推薦我們的產(chǎn)品“）。

像隨機(jī)森林這樣的模型可解釋性稍差，而且更適合“機(jī)器學(xué)習(xí)”的描述，深度學(xué)習(xí)等方法是眾所周知的難解釋。如果你的目標(biāo)是獲得見解而不是做出預(yù)測，這可能會阻礙你。因此，我們可以想象一個數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的“譜”，其中可解釋模型傾向于數(shù)據(jù)科學(xué)，更多“黑盒子”模型則傾向于機(jī)器學(xué)習(xí)這一邊[source](https://xkcd.com/1838/)

大多數(shù)從業(yè)者可以在這兩個任務(wù)之間非常舒適地來回切換。我在工作中同時使用到機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)：我可以通過機(jī)器學(xué)習(xí)的方法，在Stack Overflow的業(yè)務(wù)資料上匹配一個模型來判定哪些用戶更有可能是在尋找一份工作，然后用數(shù)據(jù)科學(xué)來構(gòu)筑結(jié)論和可視化結(jié)果來驗證為什么這個模型有效。這是非常重要的方法來發(fā)現(xiàn)你模型中的缺點以及解決算法偏見。這也是數(shù)據(jù)科學(xué)經(jīng)常將機(jī)器學(xué)習(xí)發(fā)展為一個產(chǎn)品的原因。

人工智能創(chuàng)造行為

人工智能是目前為止這三個類中最古老和最廣為承認(rèn)的，但結(jié)果也是最具挑戰(zhàn)性來定義的。由于尋求資金和關(guān)注的學(xué)者、記者和創(chuàng)業(yè)者，人工智能也得到了大肆宣傳。

數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能，究竟有什么區(qū)別？

因為這也意味著一些本應(yīng)該被稱為人工智能的工作卻并不是按照這樣進(jìn)行描述的，這也引起了我的強(qiáng)烈反對。一些學(xué)者也在抱怨人工智能的作用：“人工智能是我們現(xiàn)在還無法做到的”。所以什么工作可以讓我們合理地描述人工智能？

一個定義“人工智能”的通用思路是一種自發(fā)代理行為執(zhí)行或者推薦行為行為 (e.g. Poole, Mackworth and Goebel 1998, Russell and Norvig 2003)。我認(rèn)為也屬于人工智能的系統(tǒng)包括：

人機(jī)博弈算法 (Deep Blue, AlphaGo)
機(jī)器人學(xué)和控制理論 (運(yùn)動規(guī)劃, 兩足機(jī)器人的步行行為)
優(yōu)化選擇 (谷歌地圖路徑選擇)
自然語言處理 (機(jī)器人2)
強(qiáng)化學(xué)習(xí)

此外，人工智能與其他領(lǐng)域也有很多交疊。深度學(xué)習(xí)因為橫跨機(jī)器學(xué)習(xí)和人工智能兩個領(lǐng)域，所以特別有趣。典型應(yīng)用例子就是訓(xùn)練數(shù)據(jù)然后作出預(yù)測，這已經(jīng)在人人機(jī)博弈算法中表現(xiàn)出巨大的成功，比如Alphago（與更早之前的人機(jī)博弈系統(tǒng)，如深藍(lán)相比，Alphago更聚焦于探索和優(yōu)化未知的解決方案空間）。

但這之間也有區(qū)別。如果我分析一些銷售數(shù)據(jù)，會發(fā)現(xiàn)來自特定行業(yè)的客戶比其他更多 (提取出一些調(diào)查結(jié)果), 輸出結(jié)果是一些數(shù)字和圖表，不是特定行為。(管理者可能會根據(jù)這些結(jié)論改變銷售策略，但這個行為不是自發(fā)性的) 這意味著我會將我的工作描述為數(shù)據(jù)科學(xué): 如果將提高銷售額的方法歸結(jié)于人工智能將會是很尷尬的說法。

請不要將經(jīng)受過算法訓(xùn)練的人都寫作具有人工智能能力的人
——Dave Gershgorn ?@davegershgorn 3:17 AM - Sep 19, 2017

人工智能與機(jī)器學(xué)習(xí)的差異更加微妙，從發(fā)展歷史來說，機(jī)器學(xué)習(xí)通常被認(rèn)為人工智能的一個子領(lǐng)域 (計算機(jī)視覺尤其是一個經(jīng)典人工智能問題)。但我認(rèn)為機(jī)器學(xué)習(xí)領(lǐng)域已經(jīng)與人工智能有較大割離，一定程度上是由于上面所提及的沖擊：大多數(shù)研究預(yù)測問題的人都不喜歡把自己描述成人工智能研究人員。 (很多重要的機(jī)器學(xué)習(xí)所取得的突破來自于數(shù)據(jù)分析，而這些數(shù)據(jù)在AI領(lǐng)域的其他領(lǐng)域很少出現(xiàn)。) 這意味著，如果你能把一個問題描述為“從Y中預(yù)測X”，我建議你完全避免使用“人工智能”這個詞。

數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能，究竟有什么區(qū)別？

案例研究：怎樣將這三者一起使用

假設(shè)我們正在開發(fā)一輛自動駕駛汽車，并且正在研究將車?？吭谕＼嚇?biāo)志處的特定問題。我們需要從這三個領(lǐng)域中獲得的技能。

機(jī)器學(xué)習(xí): 汽車必須使用它的攝像頭識別停車標(biāo)志。我們構(gòu)造一個包含數(shù)百萬街邊對象的照片數(shù)據(jù)集，然后訓(xùn)練一個算法來判斷那些照片中有停車標(biāo)注。
人工智能：一旦我們的汽車識別出停車標(biāo)志，它就需要決定什么時候采取剎車動作。太早或太晚應(yīng)用它們是危險的，我們需要它來處理不同的路況 (例如，需要識別一條光滑道路，并不足以較快地將速度降下來識到它的速度不夠快), 這就是控制理論范疇。
數(shù)學(xué)科學(xué)：在街頭測試中我們發(fā)現(xiàn)車的性能并不是足夠好，通過停車標(biāo)志來驅(qū)動停車還是會有一些疏漏。在分析街邊測試數(shù)據(jù)后，我們再次洞察到漏判率與每天的時間有關(guān)：在日出之前或日落之后更容易出現(xiàn)漏判停車標(biāo)志。我們意識到我們大多數(shù)訓(xùn)練數(shù)據(jù)僅都是大白天下的停車標(biāo)志，所以我們構(gòu)建了一個更好的數(shù)據(jù)集，包括夜間圖片然后在返回去進(jìn)行機(jī)器學(xué)習(xí)步驟。

通常將人工智能與能夠在不同的領(lǐng)域執(zhí)行任務(wù)的通用人工智能或者超過人類智力的超人工智能混為一談并沒有任何幫助。這對任何被描述為“人工智能”的系統(tǒng)都有不切實際的期望。
此處我提及到“機(jī)器人”是指用于解釋自然語言并以同樣方式回復(fù)的系統(tǒng)。這可以與用于提取數(shù)據(jù)的文本挖掘和用于分類文檔的文本分類相區(qū)分。

博客原址： http://varianceexplained.org/r/ds-ml-ai/

雷鋒網(wǎng)相關(guān)文章：

Must Know！數(shù)據(jù)科學(xué)家們必須知道的5種聚類算法

如何成為一名數(shù)據(jù)科學(xué)家？Yann LeCun 的建議也許能給你答案

更多文章，關(guān)注雷鋒網(wǎng)

添加雷鋒字幕組微信號（leiphonefansub）為好友

備注「我要加入」，To be an AI Volunteer ！

數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、人工智能，究竟有什么區(qū)別？