Skip to content

Latest commit

 

History

History
201 lines (101 loc) · 11.5 KB

11-most-practical-data-science-skills-2022.md

File metadata and controls

201 lines (101 loc) · 11.5 KB

2022 年最实用的 11 项数据科学技能

原文:www.kdnuggets.com/2021/10/11-most-practical-data-science-skills-2022.html

评论

许多“数据科学入门”课程和文章,包括我自己的,往往强调统计学、数学和编程等基础技能。然而,最近我通过自己的经历发现,这些基础技能可能很难转化为使你具备就业能力的实际技能。


我们的前 3 个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全领域的职业轨道。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT


因此,我想创建一个独特的实用的技能列表,使你具备就业能力

我提到的前四项技能对于任何数据科学家都是绝对关键的,无论你专注于什么。以下技能(5–11)都是重要的技能,但根据你的专长,它们的使用情况会有所不同。

例如,如果你主要在统计学方面扎根,你可能会花更多时间在推断统计上。相反,如果你对文本分析更感兴趣,你可能会花更多时间学习自然语言处理,或者如果你对决策科学感兴趣,你可能会专注于解释性建模。你懂的。

话虽如此,让我们深入探讨我认为的 11 项最实用的数据科学技能:

1. 编写 SQL 查询与构建数据管道

学会编写健壮的 SQL 查询,并在像 Airflow 这样的工作流管理平台上调度它们,将使你作为数据科学家非常抢手,这就是为什么它是第 1 点。

为什么?原因有很多:

  1. 灵活性:公司喜欢不仅仅能建模数据的数据科学家。公司非常喜欢全栈数据科学家。如果你能介入并帮助构建核心数据管道,你将能够改进所收集的见解,构建更强的报告,并最终让每个人的工作变得更轻松。

  2. 独立性: 有时你会需要一个模型或数据科学项目所需的表格或视图,而这些表格或视图并不存在。能够为你的项目编写健壮的管道,而不是依赖数据分析师或数据工程师,将为你节省时间,并使你更有价值。

因此,作为数据科学家,你必须精通 SQL。这没有例外。

资源

2. 数据处理 / 特征工程

无论你是在构建模型、探索新特征,还是进行深入分析,你都需要知道如何处理数据。

数据处理指的是将数据从一种格式转换成另一种格式。

特征工程是一种数据处理,但特别指的是从原始数据中提取特征

你如何处理数据并不一定重要,无论是使用 Python 还是 SQL,但你应该能够以你喜欢的方式处理数据(当然是在可能的范围内)。

资源

3. 版本控制 / GitHub

当我说“版本控制”时,我特指GitHubGit。Git 是全球主要的版本控制系统,而 GitHub 本质上是一个基于云的文件和文件夹存储库。

尽管 Git 一开始不是最直观的技能,但它对于几乎所有与编码相关的角色都是必需的。为什么?

  • 它允许你与他人并行协作和处理项目

  • 它跟踪你代码的所有版本(以防你需要恢复到旧版本)

花时间学习 Git。这将对你大有裨益!

4. 讲故事(即沟通)

构建一个视觉上令人惊叹的仪表盘或一个准确率超过 95%的复杂模型是一回事。但如果你不能将项目的价值传达给他人,你将得不到应有的认可,最终,你的职业成功也不会如你所期望的那样。

讲故事指的是你如何传达你的见解和模型。从概念上讲,如果你把它想象成一本图画书,见解/模型就是图片,而“讲故事”指的是连接所有图片的叙述。

在科技领域,讲故事和沟通是被严重低估的技能。从我在职业生涯中的观察来看,这项技能区分了初级人员与高级人员和管理者。

5. 回归/分类

构建回归和分类模型,即预测模型,并不是你总是需要做的事情,但如果你是数据科学家,雇主会期望你掌握这方面的知识。

即使这不是你经常做的事情,你也必须擅长,因为你希望能够构建高性能的模型。举个例子,到目前为止,我只将两个机器学习模型投入生产,但它们是对业务有重大影响的关键模型。

因此,你应该对数据准备技术、增强算法、超参数调优和模型评估指标有一个良好的理解。

资源

6. 可解释的人工智能 / 可解释的机器学习

由于这些模型如何根据其输入生成预测并不清楚,许多机器学习算法曾经被视为“黑箱”。现在,由于可解释机器学习技术的广泛采用,如 SHAP 和 LIME,这种情况正在改变。

SHAP 和 LIME 是两种技术,它们不仅告诉你每个特征的重要性,还展示对模型输出的影响,类似于线性回归方程中的系数。

使用 SHAP 和 LIME,你可以创建解释性模型,同时更好地传达你预测模型背后的逻辑。

资源

7. A/B 测试(实验)

A/B 测试是一种实验形式,你比较两个不同的组,以根据给定指标查看哪一个表现更好。

A/B 测试可以说是企业界最实用和广泛使用的统计概念。为什么?A/B 测试允许你将数百或数千个小的改进累积起来,从而在时间推移中实现显著的变化和改进。

如果你对数据科学的统计方面感兴趣,那么 A/B 测试是必不可少的,需要理解和学习。

资源

8. 聚类

就个人而言,我在职业生涯中没有使用过聚类,但这是数据科学的一个核心领域,每个人至少应该对此有所了解。

聚类有许多有用的方面。你可以发现不同的客户细分,可以使用聚类来标记未标记的数据,甚至可以使用聚类来寻找模型的截断点。

下面是一些涵盖你应该了解的最重要的聚类技术的资源。

资源

9. 推荐系统

虽然我到现在为止还没有建立过推荐系统(但未来可能会有),但它是数据科学中最实际的应用之一。推荐系统之所以如此强大,是因为它们能够推动收入和利润。事实上,亚马逊声称 2019 年因其推荐系统提升了 29%的销售额

因此,如果你曾在需要做出选择选项非常多的公司工作,推荐系统可能是一个值得探索的有用应用。

10. 自然语言处理(NLP)

自然语言处理(NLP),即自然语言处理,是人工智能的一个分支,专注于文本和语音。与机器学习不同,我认为 NLP 还远未成熟,这也是它如此有趣的原因。

自然语言处理有很多应用场景……

  • 它可以用于情感分析,以了解人们对某个业务或业务产品的看法。

  • 它可以通过区分正面和负面评论来监控公司的社交媒体。

  • 自然语言处理是构建聊天机器人和虚拟助手的核心

  • 自然语言处理还用于文本提取(筛选文档)

总的来说,自然语言处理(NLP)在数据科学领域是一个非常有趣且有用的细分领域。

资源

11. 指标开发

最近,数据科学家已经承担了指标开发的责任,因为指标的呈现依赖于 1)计算指标所需的数据和 2)计算和输出指标的代码。

指标开发涉及几个方面:

  1. 这涉及选择团队或部门应使用的正确指标,以帮助他们监控目标。

  2. 这涉及澄清和建立任何需要做出的假设,以确保指标有效。

  3. 这涉及开发指标、编写代码,并建立一个周期性监控指标的管道。

我希望这能帮助指导你的学习,并为即将到来的一年提供一些方向。有很多东西要学,所以我建议你选择几个对你最有兴趣的技能,然后从那里开始。

请记住,这更多是基于轶事经验的观点文章,所以你可以根据自己的需要取舍。但一如既往,我祝你学习顺利!

相关:

了解更多相关话题