抓取1400家公司的招聘資訊,發現數據工程師比數據科學家更有市場

編輯:小舟

「作為數據科學家,我還有機會嗎?」不,你更應該成為數據工程師。


數據無處不在,而且只會越來越多。在過去的 5-10 年內,數據科學已經吸引了越來越多的新人投身于此,

但如今數據科學的招聘狀況如何?亞馬遜 Alxea 團隊的機器學習科學家 Mihail Eric 收集了多家公司的招聘資訊后,在個人部落格中撰寫了一篇分析文章,闡述自己的思考。

數據勝于雄辯,他對自 2012 年以來 Y-Combinator 孵化的每家公司發布的數據領域職位進行了分析,研究問題包括:

在數據領域,公司最常招聘的職位是什么?

人們常討論的數據科學家的需求究竟有多大?

公司看中的這些技能是引發當今數據革命的技能嗎?

以下是部落格文章的主要內容:

方法

我選擇對 YC 風投公司進行分析,這些公司聲稱將某種數據作為其價值主張的一部分。

主要關注 YC 是因為其提供了易于搜索(可抓取)的公司目錄,此外,作為一個特別有遠見的孵化器,它已經為全球眾多領域的公司提供投資長達十年之久,我覺得他們為本次分析研究提供了一個具有代表性的市場樣本。但請注意,我沒有分析超大型科技公司,

我抓取了自 2012 年以來每家 YC 公司的首頁網址,建立起一個包含 1400 家公司的初始池,

為什么是從 2012 年開始呢?2012 年,AlexNet 在 ImageNet 競賽中獲獎,掀起了如今機器學習和數據建模的熱潮,最早的一批數據優先(data-first)公司由此誕生,

我對初始池執行了關鍵詞過濾,以減少需要瀏覽的公司量,具體而言,我只考慮了其網站至少包含以下術語之一的公司:AI、CV、NLP、自然語言處理、計算機視覺、人工智能、機器、ML、數據。同時不考慮那些網站鏈接故障的公司,

這樣的操作應該會產生大量錯誤的結果,我意識到將對各個網站進行更細粒度的手動檢查以了解相關角色,因此我盡可能地優先考慮高召回率。

在這個篩選過的資源池中,我遍歷了每個網站,找到了他們發布招聘資訊的位置,并記下了標題中包含數據、機器學習、NLP 或 CV 的所有職位。這讓我建立了一個來自大約 70 個不同公司的招聘職位的資源池,

也有點小失誤:其中我錯過了一些公司,有些網站雖然招聘資訊很少,但是其實正在招聘。此外,有些公司沒有正式的招聘頁面,但而是要求應聘者直接通過電子郵件與他們聯系。我忽略了這兩種類型的公司,它們不在本次分析研究中,

另一件事是,這項研究的大部分都是在 2020 年的最后幾個星期內完成的。隨著公司定期更新招聘頁面,開放的職位可能已經改變,但我認為這對得出的結論影響不大。

數據從業者應該負責什么?

在深入研究結果之前,值得花一些時間來搞清楚每種數據領域職位通常負責什么。我將花時間介紹以下四個職位:

數據科學家負責在統計和機器學習中使用各種技術來處理和分析數據,通常負責構建模型以探究從某些數據源中能夠學到的內容,但模型通常是原型級別而非生產級別;

數據工程師負責開發一套強大且可擴展的數據處理工具 / 平臺,必須熟悉 SQL / NoSQL 資料庫的整理和構建 / 維護 ETL 流水線;

機器學習(ML)工程師通常既負責訓練模型,又負責生產模型,他們需要熟悉一些高級 ML 框架,還必須能夠輕松構建模型的可擴展訓練,推理和部署流水線;

機器學習(ML)科學家致力于前沿研究,他們通常負責探索可以在學術會議上發表的新想法。在移交給 ML 工程師進行生產之前,機器學習科學家通常只需要對新的 SOTA 模型進行原型制作,

值得一提的是,與傳統數據科學家相比,開放數據工程師的職位增加了不少,在這種情況下,在公司雇用的原始量上,數據工程師比數據科學家多了大約 55%,而機器學習工程師的數量與數據科學家的數量大致相同。但如果查看各個職位的名稱,就會發現似乎有些重復,


我只通過合并職位來提供粗略的分類即在不同職位角色負責的內容大致相同的情況下將其合并為一個名稱。其中包括以下等價關系集:

NLP 工程師≈CV 工程師≈ML 工程師≈深度學習工程師(盡管領域可能不同,但職責大致相同)

ML 科學家≈深度學習≈ML 實習生

數據工程師≈數據架構師≈數據主管≈數據平臺工程師


按百分比描述的話是:


總體而言,合并會使差異更加明顯,開放數據工程師比數據科學家多大約 70%。此外,開放 ML 工程師比數據科學家多大約 40%,機器學習科學家的數量也只有數據科學家的大約 30%,

結論

與其他數據驅動型職位相比,數據工程師的需求越來越高,從某種意義上說,這代表了該方向正朝著更廣闊的領域發展。

5 到 8 年前,機器學習變得炙手可熱,各個公司需要的是能夠對數據進行分類的人才,但是之后 Tensorflow 和 PyTorch 等框架發展得很好,使得著手開始進行深度學習和機器學習的能力大眾化,隨之而來的是數據建模技能商品化。如今,發展瓶頸在于幫助公司獲得有關生產級別數據問題的機器學習和建模的意見,比如要考慮以下問題:

如何注釋數據?

如何處理和清理數據?

如何將其從 A 移到 B?

如何盡快完成這些任務?


所有的這些都意味著,職位要求具有良好的工程技能,偏向于數據的傳統軟體工程可能是我們目前真正需要的。但是否意味著您不應該學習數據科學?并不是,而是意味著競爭將更加艱難。對于正準備訓練成為數據科學人才的初學者來說,可用的職位將會越來越少。當然,有效地分析數據并從數據中提取可行見解的人一直需要,但這些見解必須是優秀的,

很明顯,公司經常需要混合型數據從業者,即可以構建和部署模型的人,或者更簡潔地說,可以使用 Tensorflow,但也可以從源代碼構建它的人,

本研究的另一個發現是 ML 研究職位非常少。機器學習研究傾向于獲得相當大的資源支持,因為這是頂尖級的研究,例如 AlphaGo 和 GPT-3,但是對于許多公司,尤其是早期公司而言,頂尖的 SOTA 技術可能不再是必需的,達到最佳模型性能的 90%,同時擴展到 1000 個以上的用戶,通常對他們來說更有價值,

但你可能會在工業界的研究實驗室里找到很多這樣的角色,他們可以在很長一段時間里承受資本密集型賭注,而不是在種子輪就開始做產業 demo 準備接 A 輪融資,

如果沒有其他問題,我認為最重要的是讓新來者對數據字段的期望合理并經過校準。我們必須承認,數據科學現在已經今非昔比,只有當我們知道自己身處何處時,我們才知道要去到哪里,

2 条回复 A文章作者 M管理員
  1. 第一學歷是985不?否則免談

  2. 數據工程師月薪5000,需求1000,數據科學家月薪10萬,需求50