原文:
www.kdnuggets.com/2019/09/getting-hired-data-scientist-sought-data.html
评论
由 Hanif Samad, 数据科学家
获取关于我想成为的数据。(图片来源于 David S.A 来自 Pixabay)
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT 需求
在我撰写这篇文章时,我的《Towards Data Science》主页上每一篇热门文章都在讨论如何应用或学习数据科学中的某项特定技能。每一篇都是如此。最上面的是一些大方向的技能,比如 如何与利益相关者合作 和 如何成为数据工程师,接下来是一系列非常具体的技能,包括关于 批量梯度下降与随机梯度下降的区别、多类文本分类、Faster R-CNN 等等。作为一个专注于“分享概念、想法和代码”的 Medium 平台,看到这些学习资源在《Towards Data Science》的追随者中如此受欢迎并不令人惊讶,他们可能正在进行数据中心的项目和职业。但对于一个希望优先考虑关键内容的新手来说,这可能会迅速变得令人困惑。是否应该训练成为一个 Kaggle 大师?在图像识别或自然语言处理领域应用神经网络? 两者都不是?那 Kubernetes 呢?学习如何部署模型,因为这完全是关于 将模型投入生产 的?而 Hadoop 到底发生了什么呢?
我的 LinkedIn 个人资料将我描述为一名软件工程师和数据科学家。根据我的工作经历,这对中的前半部分可能更准确,因为我只曾在数据科学领域获得短期合同工作。由于自愿从早期的医疗统计学家职业中转行,我对在新加坡(我的工作所在地)找到全职数据科学家职位的尝试感到烦恼。我看到一些只有本科学位的熟人很容易获得职位,而我的医学统计硕士学位和通用组的网页开发证书似乎并没有带来我所希望的那一击(在Conway 韦恩图中,或者说是我认为的两个中的三个)。我对一些*“我是如何获得这样的职位”*类型的自我庆祝建议也变得越来越没有耐心,毕竟这些建议的样本量仅为 1。
我意识到的是,我把数据科学的实践与成为数据科学一部分的策略混为一谈。**令我惊讶的是,这两者原来并不相同。像大多数新手一样,我从杂乱无章的博客文章、数据科学职位要求的部分以及该领域的传闻中拼凑信息。这些来源以技能为重心,更不用说批评性和道德化的语气,认为数据科学家可以并且应该学习一大堆东西,这讽刺地使初学者陷入了无休止追逐最新技能的循环,而最有效的策略可能是先迅速找到一个相关的数据职位,然后再在工作中学习技能。
丹尼尔·卡尼曼会称这是一个受到可得性启发式影响的例子。我认为我需要获得 10 种早餐前不可能掌握的技能,因为这正是我对数据科学家形象的理解,而没有停下来考虑到可能有成千上万的数据科学家已经成功被聘用,而他们中的大多数(按定义)并不是超级明星。我需要的不是另一篇关于数据科学家所需顶尖技能的自我陶醉的帖子,而是有关成功转行数据科学的人的实际数据。他们之前在做什么?
我需要的是……有关成功转行数据科学的人的实际数据。
尽管有一些大规模的调查公开可用,关于谁是数据科学家的问题,我发现这些数据存在几个问题:
-
自我选择偏差。 由于这些调查与某些类型的组织有关,并且完全是自愿的,样本中可能会过度代表某种受访者群体。我发现 Kaggle 数据科学调查中热衷于 TensorFlow 的实践者过于突出,这可能与数据科学在商业中实际的实践方式非常不同。
-
受访者偏差。 由于完全是自愿的,并且对受访者没有反馈(你虚报自己不会受到任何后果),个别受访者可能更少受到打击来夸大他们的头衔、教育背景或其他数据。
-
市场代表性。 我的主要动机是找出在我的目标市场(新加坡)中实际被成功聘用为数据科学家的人的个人资料。从我所见,调查数据充斥着数据科学的志向者(主要是学生),关于在新加坡的实际数据科学家的具体数据很有限。
我毫不怀疑LinkedIn是我需要获取数据的地方。虽然可能仍存在一些选择偏差(LinkedIn 的算法可能没有向我展示一个真正随机的数据科学家样本¹),但我看到它在求职者和招聘行业中的广泛应用,作为内建的检查点,可以最大程度地减少受访者偏差并确保个人资料的真实性。LinkedIn 个人资料在某种程度上受到实际就业市场的压力。
此外,LinkedIn 允许我在搜索查询中指定我希望分析的个人资料地理位置,如果需要,可以限制在新加坡。但只有一个问题:获取数据本身。
关于爬取 LinkedIn 数据的合法性曾有一些争议。虽然最近的判例确定这些信息是公开的,因此任何人都可以提取,但法律地位远未确定。无论如何,当你尝试爬取 LinkedIn 数据时,会遇到几个障碍:
-
你将违反 LinkedIn 的用户协议。尽管这些合同的可执行性仍然模糊,但你有可能因违反服务条款而面临账号被暂停的风险。
-
LinkedIn 对你可以点击的个人资料数量设置了上限,你的小 selenium 机器人会很快达到这个上限(特别是如果你花很多时间只是调试抓取器的话)。
-
LinkedIn 一直在悄悄地频繁更改其 HTML 标签,使得基于任何当前标签属性的抓取有效期相当短。
可以说,我编写的抓取器在标签被替换并且代码过时之前,仍然有足够长的时间来获得一个相当大的数据集(1027 个 LinkedIn 个人资料)。(如果你想了解更多关于代码的内容,欢迎随时联系我²)。
使用搜索查询“Data Scientist AND Singapore”,我从 LinkedIn 的 People 部分提取了尽可能多的个人资料。我认为相关的只有三个数据元素:当前职位(职位名称和雇主名称)、教育背景(最近的学校和研究领域)和经历(职位、组织以及以前角色的持续时间)。将自己限制在这三个元素不仅节省了编写和调试抓取器的时间,还尝试减少不遵守 LinkedIn 服务条款可能带来的责任范围。
在筛选掉数据科学志向者、学生以及信息不足的个人资料后,我剩下了 869 个数据科学家个人资料。现在我可以问:目前在职的数据科学家有哪些共同特征?
从数据中最引人注目的发现,并且已在其他地方得到证实,是大多数(73%)在职的数据科学家拥有超过学士学位的学位。一个多数(44%)拥有硕士学位,而博士学位在数量上超过了学士学位(29% 对 21%)。仅有 6% 的数据科学家报告了一些形式的 MOOC、训练营或非传统认证作为其主要资格。这表明,潜在雇主信任高级学位所提供的信号,以满足数据科学家职位的复杂要求。这也否定了数据科学训练营或其他非传统认证项目可以替代这些学位的观点。
LinkedIn 上一组数据科学家报告的最新教育资格
数据中在计算机科学、数学与统计学以及工程学科构成数据科学职业基础的三位一体的普遍观念在某种程度上得到了验证。然而,存在差异。计算机科学远远超过所有其他单一领域,占所有研究学科的 14%。工程学是一个多样化的类别,包括化学、电子电气以及所谓的知识工程等不同领域,累计占研究学科的 22%。数学与统计学也以各种形式出现,包括应用数学、数学物理和统计学及应用概率,但似乎不如前者重要,累计只占研究学科的约 12%。在数据科学教育领域,商业分析及其他分析领域是一个意外的赢家,它们共同占有 15%的学科。这实际上是报告中最高学历为硕士学位的数据科学家的排名第一领域。
其他高度排名的领域包括物理学(3.5%)和信息技术(2.2%)。出现的图景是,虽然计算和工程相关领域在成为数据科学家的过程中持续相关,但数学和统计学正被以商业为导向的新兴分析领域(及其变种)所掩盖。尽管如此,还有非常长尾的其他领域代表了目前数据科学家所追求的广泛学科多样性。
LinkedIn 上的数据科学家样本报告的主要研究领域(尾部分布隐藏)。百分比是所有层级研究领域中的占比
在这个样本中,数据科学家的报告工作经验的模态年份在4–6 年之间,具体取决于其最高学历水平。这看起来非常明显,但值得重申的是,大多数数据科学家并不是从英雄式的大规模开放在线课程中直接毕业的大学生,这一点有时在关于如何进入该领域的博客文章中给人的印象。与其他开放职位一样,填补这些职位的平均人选往往是有经验的人员。
作为额外的趣闻,没有报告非传统认证程序的数据科学家是新聘用的,他们都有至少 1 年的工作经验。
LinkedIn 上的数据科学家样本报告的累计工作经验年限
另一个支持上述发现的数据点是,大多数数据科学家(76%)在当前职位上待了不到 2 年,其中有 42%的人待了不到一年。这表明,尽管大多数数据科学职位相对较新,但填补这些职位的人已经在求职市场上待了一段时间。
来自 LinkedIn 的样本数据显示的数据科学家在当前角色中的年限。‘0’表示 0–1 年(不包括在内)
了解数据科学家在当前职位之前做了什么是我想要获得的核心见解。也许并不令人惊讶(考虑到样本中大多数人拥有研究生学位),相当一部分(11%)报告说他们之前是科学家或研究员(包括研究助理和研究员)。另一个相当的部分(11%)报告说他们曾从事某种形式的软件工程职位,包括开发人员和解决方案架构师。还有一部分数据科学家之前是分析师(11%),包括数据分析师和系统分析师。有趣的是,实习生和培训生(11%)也是通往全面数据科学家角色的一个可行的前身,他们通常是数据科学或分析实习生。其他高度排名的前一个职位包括咨询(5%)、各种管理职位(5%)和数据科学讲师(3%)。
毫无悬念,已经成为数据科学家的人在争取新的数据科学职位时最具优势。样本中有 28%的人报告说他们的前一个职位是数据科学家。此外,这种 incumbency 优势似乎在增加——例如,1 年或更短时间内上任的雇员中,有 29%的人报告说他们的前一个职位是数据科学家,而在工作了 3 至 4 年的雇员中,仅有 12%报告说他们的前一个职位是数据科学家。
对我来说,值得注意的是统计学家和精算师在现有数据科学家的前一个角色中排名最末。
来自 LinkedIn 的样本数据显示的数据科学家最近的职位,按在当前角色中的年限分组。‘0’表示 0–1 年(不包括在内)
尽管资金充足且成熟的科技公司(如谷歌或亚马逊)往往成为数据科学家最向往的地方,但值得注意的是,在这个样本中,几乎一半(49%)的数据科学家来自那些不直接创造技术产品的地方。这些地方通常是金融和保险(11%)、咨询(9%)、政府(5%)、制造业(5%)和学术界(2.4%)。在科技类别中,代表性较强的行业包括运输(8%,主要由于新加坡的打车应用 Grab)、企业(8%,包括 IBM、SAP 和微软)、电子商务(5%)和金融(5%)。在这里,我们可以看到像 DBS 银行这样的金融机构招聘数据科学家与像Refinitiv这样的金融科技公司使用数据科学为这些机构创造技术产品之间的区别。
我将某些科技公司标记为AI & ML(6.5%)。这包括像DataRobot这样有实际自动化机器学习产品记录的公司,也包括像Amaris.AI这样的新兴公司。
如果数据科学家的非技术公司与技术公司之间的分界恰好符合其他地方提出的Type A 与 Type B 数据科学家分类,那将是太过便利了,因为这表明工作市场(至少在新加坡)在提供机会方面相当公平。不过,这将是一个有趣且有价值的假设进行验证。
从 LinkedIn 上的数据科学家样本报告的雇主类别
如果你对获得数据科学家职位很认真,与其为从随机博客文章中获取所需技能而烦恼,不如更好地了解谁确切地在这个领域取得了成功。最常见的特征组合可能是拥有计算机科学、工程、数学或分析学的硕士或博士学位;在行业中工作了约 4-6 年;并且曾在之前的工作中担任研究员、软件工程师、分析师或数据科学实习生²。**然而,不要犯认为这种组合构成了大多数数据科学家的谬误,因为这代表了概率的乘积(这些概率可能本身并不独立)。正如这篇文章和其他研究所指出的那样,数据科学家的背景非常多样,比软件工程师等其他职位更为广泛。然而,出现的趋势是某些特定的个人资料确实更受青睐,而你简历中“突出”的程度可能与其偏离这些个人资料的程度成正比。
最后,我要指出的是,尽管数据对从非传统认证如 MOOCs 和训练营获得的技能的必要性保持沉默,但它确实对这些技能的足够性有所暗示:它们显然是不足够的。研究生学位是你作为数据科学家前景的更好指标。这并不是说获得这些技能不重要;数据科学发展迅速,许多重要的算法和技术不会被传统学术课程涵盖。这只是暗示获得特定技能可能是在满足除你作为数据科学家即时可雇佣性之外的其他需求。
大量关于数据科学的专业课程层出不穷,这些课程似乎旨在利用那些一直被告知需要特定技能组合才能取得突破的求职者的不安。了解谁实际上被聘为数据科学家会给这些存在性考虑带来严酷的现实冲击。
¹ 如果有理由质疑数据的有效性,那就是怀疑样本的代表性。LinkedIn 仅显示与你有至少 3 层关系的个人资料,并且这些个人资料可能经过非随机算法排序(我的爬虫按顺序提取了顶部的个人资料结果)。可以说,我的网络中可能没有足够的中心节点来获得真正随机的数据科学家样本。获取来自其他 LinkedIn 账户的更多个人资料并进行敏感性分析将对这个问题提供更多的见解。
² 本文中的所有可视化(以及更多)已被整理到一个名为“谁是新加坡的数据科学家?”的 Tableau 故事中。如果你对数据或代码有任何实质性问题,请参考本文的答疑部分,或写邮件发送至admin@hanifsamad.com。
更新 2019 年 8 月 5 日:似乎对我用来抓取数据的代码有相当大的兴趣。我目前正在准备一篇后续文章,与那些有兴趣的读者分享。敬请关注。
个人简介: Hanif Samad 是一位来自新加坡的统计学家、软件工程师和数据科学家。他专注于值得解决的问题。
原文。经许可转载。
相关:
-
如果你是从开发者转行数据科学,这里是你最好的资源
-
成为一名超级数据科学家的 13 项技能
-
从数据分析师成长为数据科学家的秘密武器