原文:
www.kdnuggets.com/2018/12/learning-machine-learning-data-science.html
作者 Terran Melconian,企业家和顾问,以及 Trevor Bass,edX
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT 部门
图片由 Intersection Consulting 提供
当你想到“数据科学”和“机器学习”时,这两个术语是否混淆在一起,如同 Currier 和 Ives 或 Sturm 和 Drang?如果是这样,你来对地方了。本文将澄清两者之间的一些重要且常被忽视的区别,帮助你更好地专注于学习和招聘。
机器学习受到了媒体的大量炒作,而这些媒体有时对术语并不十分准确。在大众话语中,它已经超出了从业者的范围,涵盖了广泛的含义和影响。机器学习指的是一种特定形式的数学优化:通过训练数据或经验,使计算机在某个任务上表现更好,而无需明确编程。这通常表现为基于已知结果的过去案例建立一个模型,并将该模型应用于预测未来案例,寻找最小化数值“误差”或“成本”函数的方式,以表示预测与现实的偏差。
注意到一些重要的商业活动在机器学习的定义中没有出现:
-
评估数据是否适合某个目的
-
制定适当的目标
-
实施系统和流程
-
与不同利益相关者沟通
这些职能的需求促成了数据科学作为一个领域的认知。哈佛商业评论告诉我们,“数据科学家的关键技能不是构建和使用深度学习基础设施的能力。而是学习能力和良好的沟通能力,以回答商业问题,将复杂的结果向非技术相关者解释清楚。” 其他作者同意:“我们认为数据科学家的一个定义特征是其技能的广度——他们能够单独完成所有需要的步骤,至少是原型级别的,以获取新见解或构建数据产品。” 另一篇 HBR 文章确认,“从机器学习中获得价值并不是关于更复杂的算法——而是让它更易于使用……大多数公司面临的差距不是机器学习不起作用,而是他们难以实际使用它。”
机器学习是数据科学家的一项重要技能,但它只是其中之一。将机器学习视为数据科学的全部,就如同将会计视为运营一个盈利公司的全部。此外,数据科学中的技能差距主要体现在与机器学习互补的领域——商业敏感性、统计学、问题框架和沟通能力。
数据科学家需求高且不断增长已是不争的事实。尽管如此,许多最受炒作的数据科学教育编程往往集中在机器 学习 教学 中 的。
我们认为这是一个严重的问题。许多学生过于集中于机器学习教育,而忽视了更为均衡的课程。这不幸导致了大量准备不足的初级职业人士寻求数据科学职位。两位作者,以及他们在准备这篇文章时交谈过的几位数据科学招聘经理,都面试了许多宣称具备机器学习知识的候选人,但这些候选人对于基本统计学、偏差与方差或数据质量知之甚少,更不用说提出一个连贯的项目方案以实现商业目标了。
根据作者的经验,软件工程师似乎特别容易受到过于丰富的机器学习教育的诱惑。我们推测这是因为机器学习使用了与软件开发人员已经熟悉的思维方式相同的思维方式:算法化、收敛性思维与明确的目标。过于专业化的机器学习教育提供了更有趣工作的虚假承诺,而不需要任何基本的认知转变。遗憾的是,职场市场很少能兑现这一承诺,许多遵循这条道路的人发现他们无法从工程师转变为科学家。
数据科学要求学习一种不同的思维方式:通常是发散的,定义模糊的,并且需要在技术领域内外不断地转换。数据科学家本质上是通才,受益于广泛的教育而非深入的教育。跨学科研究比狭窄的专注更有前途。
大多数组织通过雇佣通才数据科学家而非机器学习专家将创造显著更多的价值。要理解为什么会这样,了解 可扩展 与 非可扩展 工作之间的区别是有帮助的。
创建通用机器学习算法是一项可扩展的工作——一旦有人设计并实现了一个算法,大家几乎无需复制成本即可使用它。当然,每个人都希望使用由最佳研究人员创造的最佳算法。大多数组织负担不起顶级算法设计师的薪资,其中许多人获得七位数的年薪。幸运的是,他们的许多工作通过研究论文、开源库和云 API 向公众开放。因此,世界上最优秀的机器学习算法设计师具有巨大的影响力,他们的工作使得使用这些算法的通才数据科学家也能产生相应的重大影响。
相反,数据科学是一项可扩展性较差的活动。它涉及了解特定公司的业务、需求和资产。大多数规模较大的组织需要他们自己的数据科学家。即使其他公司的数据科学家详细发布了他们的方法,也几乎可以肯定,问题和情况的某些方面会有所不同,因此方法不能完全照搬。
当然,除了数据科学之外,还有许多非常值得且有趣的职业道路。如果你更具体地考虑从事机器学习领域的职业,这里有一个行业的“黑暗秘密”:在大型公司中,机器学习工程师实际上自己做的机器学习工作非常少。相反,他们大部分时间都花在构建数据处理管道和模型部署基础设施上。如果你想要这些(通常非常优秀的)职位,我们仍然建议将你的教育重点放在机器学习算法的少部分内容上,而更多地关注通用工程、DevOps 实践和数据管道基础设施。
虽然世界上最好的机器学习专家可能在贡献人类知识的总和方面比世界上最好的数据科学家更有价值,但一位熟练的数据科学家可以在更广泛的情况中产生巨大的影响。就业市场反映了这一点。如果你在寻找工作,最好将机器学习教育作为均衡饮食的一部分来学习。如果你希望使你的公司更加数据驱动,你可能会发现雇佣一个通才效果最好。
与炒作相反,除了基础知识之外积累机器学习教育而不在互补领域提升技能,在就业市场上的回报会递减。
简介:Terran Melconian 曾领导过软件工程、数据仓储和数据科学团队,涵盖了从初创公司到行业巨头,包括 Google 和 TripAdvisor。他目前指导那些刚刚开始数据科学工作的新公司,并向软件工程师和业务分析师教授数据科学(不仅仅是机器学习!)。
Trevor Bass 是一位拥有十多年经验的数据科学家,曾构建出高度成功和创新的产品和团队。他目前是 edX 的首席数据科学家,edX 是一个在线学习平台和 MOOC 提供商,为全球各地的学习者提供世界顶级大学和机构的高质量课程。
资源:
相关: