原文:
www.kdnuggets.com/2021/10/11-most-practical-data-science-skills-2022.html
评论
许多“数据科学入门”课程和文章,包括我自己的,往往强调统计学、数学和编程等基础技能。然而,最近我通过自己的经历发现,这些基础技能可能很难转化为使你具备就业能力的实际技能。
1. 谷歌网络安全证书 - 快速进入网络安全领域的职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT
因此,我想创建一个独特的、实用的技能列表,使你具备就业能力。
我提到的前四项技能对于任何数据科学家都是绝对关键的,无论你专注于什么。以下技能(5–11)都是重要的技能,但根据你的专长,它们的使用情况会有所不同。
例如,如果你主要在统计学方面扎根,你可能会花更多时间在推断统计上。相反,如果你对文本分析更感兴趣,你可能会花更多时间学习自然语言处理,或者如果你对决策科学感兴趣,你可能会专注于解释性建模。你懂的。
话虽如此,让我们深入探讨我认为的 11 项最实用的数据科学技能:
学会编写健壮的 SQL 查询,并在像 Airflow 这样的工作流管理平台上调度它们,将使你作为数据科学家非常抢手,这就是为什么它是第 1 点。
为什么?原因有很多:
-
灵活性:公司喜欢不仅仅能建模数据的数据科学家。公司非常喜欢全栈数据科学家。如果你能介入并帮助构建核心数据管道,你将能够改进所收集的见解,构建更强的报告,并最终让每个人的工作变得更轻松。
-
独立性: 有时你会需要一个模型或数据科学项目所需的表格或视图,而这些表格或视图并不存在。能够为你的项目编写健壮的管道,而不是依赖数据分析师或数据工程师,将为你节省时间,并使你更有价值。
因此,作为数据科学家,你必须精通 SQL。这没有例外。
资源
无论你是在构建模型、探索新特征,还是进行深入分析,你都需要知道如何处理数据。
数据处理指的是将数据从一种格式转换成另一种格式。
特征工程是一种数据处理,但特别指的是从原始数据中提取特征。
你如何处理数据并不一定重要,无论是使用 Python 还是 SQL,但你应该能够以你喜欢的方式处理数据(当然是在可能的范围内)。
资源
当我说“版本控制”时,我特指GitHub和Git。Git 是全球主要的版本控制系统,而 GitHub 本质上是一个基于云的文件和文件夹存储库。
尽管 Git 一开始不是最直观的技能,但它对于几乎所有与编码相关的角色都是必需的。为什么?
-
它允许你与他人并行协作和处理项目
-
它跟踪你代码的所有版本(以防你需要恢复到旧版本)
花时间学习 Git。这将对你大有裨益!
构建一个视觉上令人惊叹的仪表盘或一个准确率超过 95%的复杂模型是一回事。但如果你不能将项目的价值传达给他人,你将得不到应有的认可,最终,你的职业成功也不会如你所期望的那样。
讲故事指的是你如何传达你的见解和模型。从概念上讲,如果你把它想象成一本图画书,见解/模型就是图片,而“讲故事”指的是连接所有图片的叙述。
在科技领域,讲故事和沟通是被严重低估的技能。从我在职业生涯中的观察来看,这项技能区分了初级人员与高级人员和管理者。
构建回归和分类模型,即预测模型,并不是你总是需要做的事情,但如果你是数据科学家,雇主会期望你掌握这方面的知识。
即使这不是你经常做的事情,你也必须擅长,因为你希望能够构建高性能的模型。举个例子,到目前为止,我只将两个机器学习模型投入生产,但它们是对业务有重大影响的关键模型。
因此,你应该对数据准备技术、增强算法、超参数调优和模型评估指标有一个良好的理解。
资源
由于这些模型如何根据其输入生成预测并不清楚,许多机器学习算法曾经被视为“黑箱”。现在,由于可解释机器学习技术的广泛采用,如 SHAP 和 LIME,这种情况正在改变。
SHAP 和 LIME 是两种技术,它们不仅告诉你每个特征的重要性,还展示对模型输出的影响,类似于线性回归方程中的系数。
使用 SHAP 和 LIME,你可以创建解释性模型,同时更好地传达你预测模型背后的逻辑。
资源
A/B 测试是一种实验形式,你比较两个不同的组,以根据给定指标查看哪一个表现更好。
A/B 测试可以说是企业界最实用和广泛使用的统计概念。为什么?A/B 测试允许你将数百或数千个小的改进累积起来,从而在时间推移中实现显著的变化和改进。
如果你对数据科学的统计方面感兴趣,那么 A/B 测试是必不可少的,需要理解和学习。
资源
就个人而言,我在职业生涯中没有使用过聚类,但这是数据科学的一个核心领域,每个人至少应该对此有所了解。
聚类有许多有用的方面。你可以发现不同的客户细分,可以使用聚类来标记未标记的数据,甚至可以使用聚类来寻找模型的截断点。
下面是一些涵盖你应该了解的最重要的聚类技术的资源。
资源
虽然我到现在为止还没有建立过推荐系统(但未来可能会有),但它是数据科学中最实际的应用之一。推荐系统之所以如此强大,是因为它们能够推动收入和利润。事实上,亚马逊声称 2019 年因其推荐系统提升了 29%的销售额。
因此,如果你曾在需要做出选择且选项非常多的公司工作,推荐系统可能是一个值得探索的有用应用。
自然语言处理(NLP),即自然语言处理,是人工智能的一个分支,专注于文本和语音。与机器学习不同,我认为 NLP 还远未成熟,这也是它如此有趣的原因。
自然语言处理有很多应用场景……
-
它可以用于情感分析,以了解人们对某个业务或业务产品的看法。
-
它可以通过区分正面和负面评论来监控公司的社交媒体。
-
自然语言处理是构建聊天机器人和虚拟助手的核心
-
自然语言处理还用于文本提取(筛选文档)
总的来说,自然语言处理(NLP)在数据科学领域是一个非常有趣且有用的细分领域。
资源
最近,数据科学家已经承担了指标开发的责任,因为指标的呈现依赖于 1)计算指标所需的数据和 2)计算和输出指标的代码。
指标开发涉及几个方面:
-
这涉及选择团队或部门应使用的正确指标,以帮助他们监控目标。
-
这涉及澄清和建立任何需要做出的假设,以确保指标有效。
-
这涉及开发指标、编写代码,并建立一个周期性监控指标的管道。
我希望这能帮助指导你的学习,并为即将到来的一年提供一些方向。有很多东西要学,所以我建议你选择几个对你最有兴趣的技能,然后从那里开始。
请记住,这更多是基于轶事经验的观点文章,所以你可以根据自己的需要取舍。但一如既往,我祝你学习顺利!
相关: