2022 年最实用的 11 项数据科学技能

原文：www.kdnuggets.com/2021/10/11-most-practical-data-science-skills-2022.html

许多“数据科学入门”课程和文章，包括我自己的，往往强调统计学、数学和编程等基础技能。然而，最近我通过自己的经历发现，这些基础技能可能很难转化为使你具备就业能力的实际技能。

我们的前 3 个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全领域的职业轨道。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT

因此，我想创建一个独特的、实用的技能列表，使你具备就业能力。

我提到的前四项技能对于任何数据科学家都是绝对关键的，无论你专注于什么。以下技能（5–11）都是重要的技能，但根据你的专长，它们的使用情况会有所不同。

例如，如果你主要在统计学方面扎根，你可能会花更多时间在推断统计上。相反，如果你对文本分析更感兴趣，你可能会花更多时间学习自然语言处理，或者如果你对决策科学感兴趣，你可能会专注于解释性建模。你懂的。

话虽如此，让我们深入探讨我认为的 11 项最实用的数据科学技能：

1. 编写 SQL 查询与构建数据管道

学会编写健壮的 SQL 查询，并在像 Airflow 这样的工作流管理平台上调度它们，将使你作为数据科学家非常抢手，这就是为什么它是第 1 点。

为什么？原因有很多：

灵活性：公司喜欢不仅仅能建模数据的数据科学家。公司非常喜欢全栈数据科学家。如果你能介入并帮助构建核心数据管道，你将能够改进所收集的见解，构建更强的报告，并最终让每个人的工作变得更轻松。
独立性： 有时你会需要一个模型或数据科学项目所需的表格或视图，而这些表格或视图并不存在。能够为你的项目编写健壮的管道，而不是依赖数据分析师或数据工程师，将为你节省时间，并使你更有价值。

因此，作为数据科学家，你必须精通 SQL。这没有例外。

资源

一个完整的 15 周课程，掌握数据科学中的 SQL
Mode SQL 教程

2. 数据处理 / 特征工程

无论你是在构建模型、探索新特征，还是进行深入分析，你都需要知道如何处理数据。

数据处理指的是将数据从一种格式转换成另一种格式。

特征工程是一种数据处理，但特别指的是从原始数据中提取特征。

你如何处理数据并不一定重要，无论是使用 Python 还是 SQL，但你应该能够以你喜欢的方式处理数据（当然是在可能的范围内）。

资源

机器学习的特征工程基础技术
发现特征工程，如何工程化特征以及如何做得更好 - 机器学习精粹

3. 版本控制 / GitHub

当我说“版本控制”时，我特指GitHub和Git。Git 是全球主要的版本控制系统，而 GitHub 本质上是一个基于云的文件和文件夹存储库。

尽管 Git 一开始不是最直观的技能，但它对于几乎所有与编码相关的角色都是必需的。为什么？

它允许你与他人并行协作和处理项目
它跟踪你代码的所有版本（以防你需要恢复到旧版本）

花时间学习 Git。这将对你大有裨益！

4. 讲故事（即沟通）

构建一个视觉上令人惊叹的仪表盘或一个准确率超过 95%的复杂模型是一回事。但如果你不能将项目的价值传达给他人，你将得不到应有的认可，最终，你的职业成功也不会如你所期望的那样。

讲故事指的是你如何传达你的见解和模型。从概念上讲，如果你把它想象成一本图画书，见解/模型就是图片，而“讲故事”指的是连接所有图片的叙述。

在科技领域，讲故事和沟通是被严重低估的技能。从我在职业生涯中的观察来看，这项技能区分了初级人员与高级人员和管理者。

5. 回归/分类

构建回归和分类模型，即预测模型，并不是你总是需要做的事情，但如果你是数据科学家，雇主会期望你掌握这方面的知识。

即使这不是你经常做的事情，你也必须擅长，因为你希望能够构建高性能的模型。举个例子，到目前为止，我只将两个机器学习模型投入生产，但它们是对业务有重大影响的关键模型。

因此，你应该对数据准备技术、增强算法、超参数调优和模型评估指标有一个良好的理解。

资源

2021 年你应该知道的所有机器学习算法
如何为机器学习模型准备数据

6. 可解释的人工智能 / 可解释的机器学习

由于这些模型如何根据其输入生成预测并不清楚，许多机器学习算法曾经被视为“黑箱”。现在，由于可解释机器学习技术的广泛采用，如 SHAP 和 LIME，这种情况正在改变。

SHAP 和 LIME 是两种技术，它们不仅告诉你每个特征的重要性，还展示对模型输出的影响，类似于线性回归方程中的系数。

使用 SHAP 和 LIME，你可以创建解释性模型，同时更好地传达你预测模型背后的逻辑。

资源

SHAP：在 Python 中解释任何机器学习模型
使用 LIME 理解模型预测

7. A/B 测试（实验）

A/B 测试是一种实验形式，你比较两个不同的组，以根据给定指标查看哪一个表现更好。

A/B 测试可以说是企业界最实用和广泛使用的统计概念。为什么？A/B 测试允许你将数百或数千个小的改进累积起来，从而在时间推移中实现显著的变化和改进。

如果你对数据科学的统计方面感兴趣，那么 A/B 测试是必不可少的，需要理解和学习。

资源

A/B 测试——统计测试的完整指南

8. 聚类

就个人而言，我在职业生涯中没有使用过聚类，但这是数据科学的一个核心领域，每个人至少应该对此有所了解。

聚类有许多有用的方面。你可以发现不同的客户细分，可以使用聚类来标记未标记的数据，甚至可以使用聚类来寻找模型的截断点。

下面是一些涵盖你应该了解的最重要的聚类技术的资源。

资源

数据科学家需要了解的 5 种聚类算法
Python 中的 10 种聚类算法 - 机器学习大师

9. 推荐系统

虽然我到现在为止还没有建立过推荐系统（但未来可能会有），但它是数据科学中最实际的应用之一。推荐系统之所以如此强大，是因为它们能够推动收入和利润。事实上，亚马逊声称 2019 年因其推荐系统提升了 29%的销售额。

因此，如果你曾在需要做出选择且选项非常多的公司工作，推荐系统可能是一个值得探索的有用应用。

10. 自然语言处理（NLP）

自然语言处理（NLP），即自然语言处理，是人工智能的一个分支，专注于文本和语音。与机器学习不同，我认为 NLP 还远未成熟，这也是它如此有趣的原因。

自然语言处理有很多应用场景……

它可以用于情感分析，以了解人们对某个业务或业务产品的看法。
它可以通过区分正面和负面评论来监控公司的社交媒体。
自然语言处理是构建聊天机器人和虚拟助手的核心
自然语言处理还用于文本提取（筛选文档）

总的来说，自然语言处理（NLP）在数据科学领域是一个非常有趣且有用的细分领域。

资源

每个数据科学家都应该知道的 10 种 NLP 技术

11. 指标开发

最近，数据科学家已经承担了指标开发的责任，因为指标的呈现依赖于 1）计算指标所需的数据和 2）计算和输出指标的代码。

指标开发涉及几个方面：

这涉及选择团队或部门应使用的正确指标，以帮助他们监控目标。
这涉及澄清和建立任何需要做出的假设，以确保指标有效。
这涉及开发指标、编写代码，并建立一个周期性监控指标的管道。

我希望这能帮助指导你的学习，并为即将到来的一年提供一些方向。有很多东西要学，所以我建议你选择几个对你最有兴趣的技能，然后从那里开始。

请记住，这更多是基于轶事经验的观点文章，所以你可以根据自己的需要取舍。但一如既往，我祝你学习顺利！

相关：

没有数据工程技能的数据科学家将面临严峻现实
我在数据科学职业生涯三年中学到的三个最重要的教训
数据科学在未来 10 年不会消失，但你的技能可能会

了解更多相关话题

2022 年最受欢迎的人工智能技能学习指南
KDnuggets 新闻 3 月 30 日：最受欢迎的编程入门…
KDnuggets 新闻 2022 年 3 月 16 日：学习数据科学基础及 5 个…
2022 年数据科学最佳学习资源
KDnuggets™新闻 22:n05，2 月 2 日：掌握机器学习的 7 个步骤…
2022 年报名的 8 个最佳数据科学课程，助力职业快速提升

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

11-most-practical-data-science-skills-2022.md

11-most-practical-data-science-skills-2022.md

2022 年最实用的 11 项数据科学技能

我们的前 3 个课程推荐

1. 编写 SQL 查询与构建数据管道

2. 数据处理 / 特征工程

3. 版本控制 / GitHub

4. 讲故事（即沟通）

5. 回归/分类

6. 可解释的人工智能 / 可解释的机器学习

7. A/B 测试（实验）

8. 聚类

9. 推荐系统

10. 自然语言处理（NLP）

11. 指标开发

了解更多相关话题

Files

11-most-practical-data-science-skills-2022.md

Latest commit

History

11-most-practical-data-science-skills-2022.md

File metadata and controls

2022 年最实用的 11 项数据科学技能

我们的前 3 个课程推荐

1. 编写 SQL 查询与构建数据管道

2. 数据处理 / 特征工程

3. 版本控制 / GitHub

4. 讲故事（即沟通）

5. 回归/分类

6. 可解释的人工智能 / 可解释的机器学习

7. A/B 测试（实验）

8. 聚类

9. 推荐系统

10. 自然语言处理（NLP）

11. 指标开发

了解更多相关话题