机器学习研究也被大肆宣传,分析全球,1400,数据领域成为了新兴的

日期:2021-01-20 23:30:53   来源:互联网   编辑:小狐   阅读人数:972
CSDN 编者按在数据迅速膨胀及不断增多的如今,数据领域成为了新兴的 热门行业,而这个领域行情如何?在数据专家的众多岗位中,数据科学家和数据工程师谁更吃香?出品 CSDN(ID:CSDNnews)数据

CSDN 编者按在数据迅速膨胀及不断增多的如今,数据领域成为了新兴的 热门行业,而这个领域行情如何?在数据专家的众多岗位中,数据科学家和数据工程师谁更吃香?

出品 CSDN(ID:CSDNnews)

数据,无处不在,且在不断增加。在过去 5~10 年间,数据科学吸引了越来越多的新人,人们纷纷前来品尝这一禁果。

然而,如今的数据科学招聘市场的行情究竟如何呢?

在各家公司公开招聘的数据科学职位中,70% 面向的是数据工程师。在培训下一代数据与机器学习从业人员时,我们更加注重工程技能。

在从事面向数据专业人员的教育平台的工作期间,我思考了很多有关数据驱动(机器学习与数据科学)职位的市场的发展情况。

我曾与数十名数据领域新晋的佼佼者交谈过,其中不乏全球顶尖机构的学生,但我发现很多人未能真正理解哪些才是最重要的技术,他们并不清楚哪些技术能够帮助自己从人群中脱颖而出,并为自己的职业生涯做好准备。

机器学习研究也被大肆宣传,分析全球,1400,数据领域成为了新兴的(图1)

众所周知,数据科学家主要负责以下各项工作: 机器学习建模、可视化、数据的清理和处理(与 SQL 打交道)工程以及生产部署

但你给新手推荐的学习课程都有哪些?

数据胜于雄辩。因此,我决定分析一下 2012 年以来 Y-Combinator 发布的各家公司数据相关工作岗位的招聘信息。我研究的主要问题包括:

与数据相关的最常见的招聘岗位都有哪些?

我们讨论的数据科学家的市场需求有多大?

数据之初使用的技术是否至今仍然很流行?

我选择的分析对象是 Y-Combinator 孵化的一些公司,即声称要将某些数据工作作为其价值主张的一部分的公司。

另外,作为一个颇有远见的孵化器,十余年以来他们为来自全球各个领域的公司了大量资金,我认为他们的市场样本非常具有代表性,可供我分析。话虽如此,你应该对我所说的内容持保留态度,因为毕竟我没有分析大型科技公司。

我抓取了 2012 年以来每家 Y-Combinator 公司的首页 URL,拿到手的用于分析的公司大约有 1400 家。

为什么没有考虑 2012 年以前的数据?因为正是在这一年,AlexNet 赢得了 ImageNet 大赛,并掀起了机器学习与数据建模的热浪,且这股热浪一直延续至今。可以说,这个事件催生了最早的一批从事数据工作的公司。

这一步处理会产生大量的假阳性(即包含上述词语但实际上不从事数据工作的公司)吗?肯定会!但是,我希望尽可能提高召回率,因为我知道我可以手动检查各个网站的相关职位。

在过滤掉一些公司之后,我遍历了每个网站,找到了他们的招聘广告(通常在求职、工作或招聘页面中)并记录下了每个头衔中包含data(数据)machine learning(机器学习)NLP 或 CV 的职位。最后,我得到了大约 70 个正在招聘数据相关职位的公司。

我忽略了上述两种公司,所以他们不属于此次分析的一部分。

数据从业者的职责

在深入研究结果之前,我们先花点时间来澄清每个数据岗位常见的职责有哪些。我们将重点介绍以下四个职位,并简要说明他们的工作内容:

数据科学家:使用各种统计与机器学习的技术来处理和分析数据。通常负责构建模型,调查可以从数据源中学习到哪些内容,尽管大多数模型都是原型,而非生产级别。

数据工程师:一套健壮且可扩展的数据处理工具/平台。必须熟悉 SQL/NoSQL 数据库,以及构建/维护 ETL 流水线。

机器学习(ML)工程师:通常需要同时负责模型的训练与生产化。需要熟悉一些高级 ML 框架,此外还需要掌握构建可扩展的训练技术,以及模型的推理与部署流水线。

机器学习(ML)科学家:主要从事最尖端的研究。一般负责探索可以在学术会议上发布的新观点。通常只需要将最新的模型制作成原型,移交给 ML 工程师,将其投入生产。

与数据相关的职位有多少?

如果我们将各个公司正在招聘的数据相关职位的频率绘制成图表,结果会怎样?这个图表大致如下:

机器学习研究也被大肆宣传,分析全球,1400,数据领域成为了新兴的(图2)

最惹人注目的莫过于, 数据工程师的招聘岗位远远多于传统的数据科学家。在我们这个例子中,招聘数据工程师的公司的绝对数量要比招聘数据科学家的公司多大约 55%,而招聘机器学习工程师的公司数量与招聘数据科学家的公司大致相同。

我们可以做进一步的分析。看一看各个职位的头衔,似乎有很多重复。

我们可以通过合并职位来粗略地分类。也就是说,找出描述大致相同的职位,将其合并到一个头衔下。

这一步使用了以下等价关系:

NLP engineer ≈ CV engineer ≈ ML engineer ≈ Deep Learning engineer(NLP 工程师 ≈ CV 工程师 ≈ ML 工程师 ≈ 深度学习工程师。虽然领域可能不同,但职责大致相同)

ML scientist ≈ Deep Learning researcher ≈ ML intern(ML 科学家 ≈ 深度学习研究员 ≈ ML 实习岗位。其中 ML 实习岗位的描述非常注重研究)

Data engineer ≈ Data architect ≈ Head of data ≈ Data platform engineer(数据工程师 ≈ 数据架构 ≈ 数据总监 ≈ 数据平台工程师)

机器学习研究也被大肆宣传,分析全球,1400,数据领域成为了新兴的(图3)

如果你不喜欢绝对数量的话,那么可以看一看下面的百分比:

机器学习研究也被大肆宣传,分析全球,1400,数据领域成为了新兴的(图4)

我可以将 ML research engineer(MLL 研究工程师)归到 ML scientist(ML 科学家)或 ML engineer(ML 工程师)一栏,但是鉴于这是一个混合职位,所以我将其保留了下来。

总的来看,合并后的差异性更加显著! 开放的数据工程师职位比数据科学家多 70%;ML 工程师的职位也比数据科学家职位多 40%;此外,机器学习科学家的数量只有数据科学家的 30%。

重点总结

与其他数据专业人士相比,数据工程师的需求越来越高。从某种意义上说,这代表了更广阔领域的发展。

大约在 5~8 年前机器学习刚刚兴起的时候,各个公司都需要从事数据分类的。然而,随着 Tensorflow 和 PyTorch 等框架的出现,深度学习和机器学习的技术开始走向大众化。

这导致数据建模技能的需求增加。

如今,各个公司通过机器学习和建模洞悉产品的瓶颈集中在了数据的问题上。

如何标注数据?如何处理和清理数据?如何将数据从 A 移动到 B?如何快速完成这些日常工作?

所有这些工作都需要良好的工程技术。

虽然这些工作听起来很无聊,而且很没趣,但是侧重于数据的传统软件工程可能才是我们目前真正需要的。

多年以来,我们一直很迷恋数据专家的工作,他们通过出色的演示和媒体炒作为原始数据注入了生命力。想想看,你最后一次在科技网站上看到有关ETL流水线的文章,是多久以前的事?

我认为,在数据科学的培训与教育项目中,没有什么比数据工程得到的重视更少了。除了学习如何使用 linear_regression.fit 之外,我们也应该学习如何编写单元!

那么,是否意味着你不应该学习数据科学?其实不然。

这只是意味着竞争会越来越激烈。市场上数据科学的职位会越来越少,不足以为所有新手这样的机会。

但是,能够有效分析数据,并从中提取可行见解的需求依然存在。只不过,这些人的技术必须过关。

然而,很明显,市场上有大量的机器学习工程师职位,各个公司都需要混合型的数据人才:既能够构建模型,也能够部署模型。或者更直接地说,不仅能够使用 Tensorflow,而且还能够利用源代码构建模型的人。

另外有一点需要注意,机器学习研究的职位也不是很多。

机器学习研究也被大肆宣传,因为最尖端的技术都诞生于此,包括 AlphaGo、GPT-3 以及其他等等。

但是,对于许多公司来说,尤其是处于创业初期的公司,最尖端的新技术可能不是必需的。对于他们来说,把一个九成完美的模型扩展到上千名用户可能更有价值。

我并不是说机器学习研究并不重要。绝对没有这个意思。

但是,这类的职位可能大多出现在该行业的研究实验室内,因为这些机构有能力承担长时间的大量投资,而不像处于种子阶段的创业公司,在 A 轮融资中就需要向投资者证明,他们的产品非常适合市场。

我认为,让新手对数据领域建立合理且正确的期望,这一点无比重要。我们必须知道如今的数据科学已大不相同。我希望你能够通过这篇文章,对该领域的当前状况有所了解。只有了解自己身处何地,才能知道朝着何方前进。

THE END

☞ Deno 冲上榜首,Vue.js 首次屈居第二,Java 2020 年度“新起之秀”都有谁?

☞ 拒绝云服务商白嫖,Elasticsearch 和 Kibana 变更开源许可协议

本文相关词条概念解析:

数据

数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。

延伸 · 推荐

机器学习的自动化,他们发布了全球首个开源自动图学习工具包

人工智能应该是这几年发展最快、最显眼最受瞩目的领域了。特别是机器学习,这种已经比较成熟的子领域,基本算是深入渗透到了从专业科研到大众生活的各个领域。即便如此,AI领域的从业者,往往还是都具备有很高的专...

机器学习的流程,本文了关于机器学习的流程以及实践应用

导语: 机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习,也被称为预测分析;本文了关于机器学习的流程以及实践应用,我们一起来看一下。我所理解的机器学习是一种能够实现人工智能...

  • 网友评论
返回顶部