1
| 本文作者: 三川 | 2017-03-14 18:01 |

對于數(shù)據(jù)科學家這一職業(yè),你了解多少?
——這是個被大公司追捧的職位,供不應求,待遇特別高。職場里“數(shù)據(jù)科學家”的招聘相當火爆,各種線上線下的培訓課程野蠻生長。
這是大多數(shù)人對“數(shù)據(jù)科學家”的印象。
但是,怎樣才能成為數(shù)據(jù)科學家?或者說,一個合格的數(shù)據(jù)科學家需要具備哪些技能和素養(yǎng)?
具有十年從業(yè)經驗的亞馬遜資深數(shù)據(jù)分析師 Karolis Urbonas,經常被人請教這一問題。這促使他回顧自己的職業(yè)生涯——“我是怎么一步步走到現(xiàn)在的?”“我是怎么成為數(shù)據(jù)科學家的?”以及,從自我定位和自省的角度反思:“我是一名數(shù)據(jù)科學家嗎?”
自我反思的答案,被他總結成了這篇文章。由雷鋒網獻給想要入門數(shù)據(jù)科學的童鞋們。

Karolis Urbonas
Karolis Urbonas:我的職業(yè)生涯從投資公司的證券分析師起步,那時候主要用的還是 Excel;之后轉到銀行業(yè)做商務智能(BI,即 business inelligence);再之后去做咨詢;最后才來搞所謂的“數(shù)據(jù)科學”——開發(fā)預測模型,擺弄大數(shù)據(jù),寫代碼來做數(shù)據(jù)分析和機器學習。那時大多數(shù)人把這工作稱之為數(shù)據(jù)挖掘。
當數(shù)據(jù)科學變成一股熱潮,我開始試著思索,它和我一直在做的工作有什么不同。也許我應該學習一些新技能,成為真正的“數(shù)據(jù)科學家”,而不是一個“搞分析”的人?
和所有人一樣,我開始修習多門課程,讀很多書,修習數(shù)據(jù)科學專業(yè)(和大多數(shù)人一樣,沒有一樣是最終做到底的),寫了一堆代碼。我當時的目標并不只是成為數(shù)據(jù)科學家,而是成為下面這副數(shù)據(jù)科學韋恩圖中間的“那個”數(shù)據(jù)科學家:

這幅圖在數(shù)據(jù)科學圈子里稱得上是大名鼎鼎。三個大色塊分別是:綠色—數(shù)學、統(tǒng)計學知識,紫色—資深專家水平,粉色—黑客技術。中間的小色塊是三大領域的重合區(qū)域,分別代表:中上黃綠色塊—機器學習,右下墨綠色塊—傳統(tǒng)研究,左下紫色塊—危險地帶,中央灰色塊—數(shù)據(jù)科學家。
但我后來了解到,圖中央的那一撮“獨角獸”(中間“數(shù)據(jù)科學家”色塊里的這幫人在圈內被稱為獨角獸)在現(xiàn)實中極其稀少。即便真存在這種人,也大概會是對各個領域都有涉獵、但沒有一門精通的“通才”,而非專家。
如今,我在亞馬遜帶領一支極富才華的數(shù)據(jù)科學團隊,每天搞所謂的大數(shù)據(jù)。因此我已把自己看做是一名數(shù)據(jù)科學家。但我認為,這行的水太渾(指的信息方面)、尤其對于新人來說很多問題不夠清楚明白。當然,數(shù)據(jù)科學有很多高深復雜的分支,比如 AI 、機器人學、計算機視覺、語音識別等等(雷鋒網注:AI 出身的學者恐怕會把這些全都看做是 AI 的分支,學科視角不同)。鉆研這些領域全都需要相當高的技術、數(shù)學造詣,經常還需要一兩個 PhD 學位。但如果你只是想要進入幾年前被稱為商業(yè)/數(shù)據(jù)分析師的數(shù)據(jù)科學角色,并在企業(yè)工作,這是四條幫助你在這個行當生存下去的建議:
明確你的優(yōu)先目標和動機,客觀評估所掌握的技能,并據(jù)此設立現(xiàn)實的目標。
數(shù)據(jù)科學中有各種職業(yè)角色,清楚你現(xiàn)在的知識技能儲備,以給自己一個合理的定位十分重要。假設你是一個想要改變職業(yè)軌跡的 HR,或許你應該學習 HR 數(shù)據(jù)分析。假設你是律師,則可鉆研法學界的數(shù)據(jù)應用。事實上,現(xiàn)在所有的行業(yè)和商務職能都迫切需要更深層次的洞察力,數(shù)據(jù)科學技術正在被普遍地采用。
如果你已經有一份工作,可以想辦法理解工作中哪些環(huán)節(jié)可用數(shù)據(jù)優(yōu)化,哪些問題可利用數(shù)據(jù)解決,然后去學習怎么做。這會是一個逐步推進、相對漫長的過程。但你能保住飯碗,并且能從現(xiàn)實任務中學習。如果你是應屆生或者在校生,你學習數(shù)據(jù)科學的時機堪稱完美:你有大把機會找出自己最喜歡、最感興趣的領域——電影?音樂?汽車?普通人想象不出來這些行業(yè)雇傭了多少數(shù)據(jù)科學家。但最重要的,這些人都對所處領域心懷大愛。
打基礎。
數(shù)據(jù)科學的各個細分領域之間差異很大,但底層技能都是差不多的。有三個領域你必須學好,并打下牢固基礎:數(shù)據(jù)分析,統(tǒng)計學和寫代碼。你并不需要在每個學科都成為大師,但要牢固掌握這三個領域的基礎知識和技巧。
(a)關于數(shù)據(jù)分析
你需要理解基本的分析技巧,并進行大量練習——比如數(shù)據(jù)表是什么;怎么合并數(shù)據(jù)表;對于按照特定方式而組織的數(shù)據(jù),主流分析技巧是什么;怎么創(chuàng)建數(shù)據(jù)集的摘要視圖(summary views),怎么從中得出初步結論;探索性數(shù)據(jù)分析是什么;哪種可視化方法能幫你理解數(shù)據(jù)并從中學習。這些都很基礎,但相信我——掌握了這些之后,你就有了任何數(shù)據(jù)科學工作所必須的基本技能。
(b)關于統(tǒng)計學
要掌握統(tǒng)計學入門知識——比如,什么時候用平均數(shù),而什么時候要選擇中位數(shù);什么情況下用標準差,什么情況下用它完全沒意義;為什么平均值會“騙人”,但仍然是最常用的總計價值。我說“入門知識”
的時候,我真的指的是入門。除非你是個數(shù)學家,有志成為計量經濟學家——那么,請盡情學習高級統(tǒng)計學。如果你沒有數(shù)學專業(yè) PhD,你只需要花一些時間,保持耐心,直到對基礎統(tǒng)計學和概率論有一個不錯的掌握。
(c)寫代碼
學編程是最老套的建議,但的確很靠譜。
你應該從學習用 SQL 查詢數(shù)據(jù)庫開始——不管你信不信,數(shù)據(jù)科學團隊的大部分工作時間,是花費在數(shù)據(jù)的“ pulling”和準備上,而這需要通過 SQL 完成。你還需要學一門數(shù)據(jù)分析語言(從一門語言開始),R 或 Python 都很合適——對其中一門語言的掌握,會給你的職業(yè)選擇帶來很大不同,許多職位的招聘要求會有這兩門語言,雖然不是全部。一開始,你可以聚焦于學習語言的基礎,然后再專注鉆研如何用它來搞數(shù)據(jù)分析。另外,在這行立足并不需要你成為一個程序猿——你只需要知道怎么用程序語言來對數(shù)據(jù)進行分析和可視化。
數(shù)據(jù)科學是一門解決實際問題的學問——你需要找到問題并解決它。
職業(yè)生涯中我逐漸體會到,成為一名合格數(shù)據(jù)科學家的最基本要求,是要不停問問題,不停尋找需要解決的問題。我不建議你每時每刻都去尋找問題——這或許會對心理健康造成負面影響。但若下決定干這一行,你就要做好準備成為一個“問題解決專業(yè)戶”,并且像福爾摩斯或者柯南一樣鍥而不舍。
我建議從小問題開始,找出你的生命中能受益于數(shù)據(jù)分析的東西——你會為生活中的各種數(shù)據(jù)之豐富感到驚訝(即便是難以啟齒的數(shù)據(jù))?;蛟S你會開始分析你的購物習慣,找出你 email 中的情感流露模式,或者創(chuàng)建漂亮的圖表追蹤家鄉(xiāng)城市的財政狀況。數(shù)據(jù)科學家的責任是“質疑一切,不斷發(fā)問”:比如,這個市場營銷項目是否有效?有沒有值得注意的行業(yè)趨勢?公司產品是否表現(xiàn)不佳需要下馬?合作伙伴給的折扣是否合理?這些問題會成為數(shù)據(jù)科學家眼中的假設,需要用數(shù)據(jù)分析進行證實或者證偽。假設( hypotheses)是數(shù)據(jù)科學工作的原材料,你能解決、解釋的假設越多,你的能力越高。
開始實干,而不是把時間精力浪費在計劃“做什么”和“怎么做”上面。
這適用于任何學習活動,但對數(shù)據(jù)科學來說尤其貼切。新人們,請確保從學習的第一天開始你就在“做”。在這一行,把真正的學習晾在一邊,而只是“讀關于數(shù)據(jù)科學的東西”,“讀應該怎么做”,是個非常普遍、非常容易犯的錯誤(我自己一開始也是這樣)。很多人復制粘貼書里的數(shù)據(jù)分析代碼,然后在非常簡單的數(shù)據(jù)集上運行,把這作為練習。相信我,現(xiàn)實世界里你永遠不會遇到這么簡單的數(shù)據(jù)集。
對于你所掌握的知識和技能,確保把它們用于你所感興趣的領域,然后,你會體會到數(shù)據(jù)科學的奇妙之處:
寫下你的第一行代碼,看到它如何失敗,陷入僵局,不知道下一步怎么做,尋找解決方法,找了很多卻沒有一個管用,艱難地自己摸索,結果突然間闖到了下一階段……這一刻,你大叫一聲淚流滿面。
這才是真正的學習過程。
“ Learning by doing”,即從實踐中學習,是掌握數(shù)據(jù)科學的唯一方法。你學騎自行車的時候,并不是靠研讀《教你怎么騎自行車》,而是直接上去騎,是吧?差不多的道理在這里也適用。不管你學的是什么,要確保你立刻去用它,用真實數(shù)據(jù)解決真實問題。
“如果你花費過多時間思考一件事,你永遠也無法將它完成?!边@是李小龍的一句名言。雷鋒網按:雖然我們不鼓勵數(shù)據(jù)科學家讀雞湯,但是——你明白我的意思。
via cyborgus
相關文章:
八步拿下數(shù)據(jù)科學,攻克 “21世紀最性感的工作”
一張圖看懂數(shù)據(jù)科學;驚曝英特爾 72 核 Xeon Phi 處理速度 | AI 開發(fā)者頭條
數(shù)據(jù)科學入門難?老司機為你盤點 24 門精品課程
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。