Skip to content

Latest commit

 

History

History
133 lines (67 loc) · 14.7 KB

5-data-science-projects-learn-5-critical-data-science-skills.md

File metadata and controls

133 lines (67 loc) · 14.7 KB

学习 5 个数据科学项目,掌握 5 项关键的数据科学技能

原文:www.kdnuggets.com/2022/03/5-data-science-projects-learn-5-critical-data-science-skills.html

学习 5 项关键数据科学技能的 5 个数据科学项目

如果你想进入数据科学行业,拥有一些项目经验是很有帮助的。进行数据科学项目能帮助你发展成为数据科学家所需的技能。你还将拥有可以放在简历上和面试时讨论的成果,这对于展示你知道自己在做什么至关重要。


我们的三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业轨道。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织的 IT 需求


数据科学开发周期是任何数据科学项目的主要模式,无论是公司项目还是个人项目。要成为一名熟练的数据科学家,你需要对数据收集、清洗、建模和可视化感到得心应手。你未来的数据科学工作所使用的具体工具栈可能与我下面推荐的工具不同,但就像计算机科学世界中的其他事物一样,重要的是学习如何思考,而不是特定工具的语法或功能。毕竟,如果你能使用 Tableau 创建数据可视化,你会很快学会如何使用 Power BI,因为你已经熟悉了数据可视化的一般过程。

一次性熟悉整个数据科学开发周期可能会让人感到不知所措。周期的每一步都需要若干技能,同时开发所有的数据科学家技能将是一个令人沮丧且可能徒劳的过程。与其挣扎着一次性掌握所有技能,不如通过构建你的学习旅程来给自己一个提升。

你将面临的主要障碍是动力。我保持和激发动力的首选方法是选择一个主题或产品,当尝试将技能扩展到新领域时,思考一个实际产品(无论它看起来多么无用或不可销售),然后围绕这个想法进行整个周期。

跟随你的激情,利用这个机会找到你想要进入数据科学的原因和你生活其他方面之间的交集。如果你喜欢跑步,你可以找到一组比赛时间和训练计划的数据,以查看哪些训练计划能带来最大的改进。也许你对烘焙感兴趣,你想通过分析搜索引擎的关键词频率来弄清楚家庭烘焙爱好者对不同菜肴的受欢迎程度。

下面是五个迷你数据科学项目的概要,你可以尝试。每个项目都会教你一个你需要在简历上展示的技能。

1. 数据收集

类似于你开始烹饪一顿饭时,首先必须确保你已经准备好了所有需要的材料。产生任何类型的洞见的第一步是获取数据。找到适合你数据分析项目的相关数据,无论是个人项目还是工作项目,都是一个巨大的挑战。

API

你应该对使用API感到舒适。可以把 API 看作是两个程序之间的正式协议,比如一个网站的前端和保存及处理数据的服务器和数据库。API 会被发布到前端和后端,以便结构化它们之间的通信。REST API 非常流行,用于查询网络服务以获取数据。你可以使用类似 Google Trends API 的 API 来收集数据。

从数据库导入大数据

你会想在一个云服务(AWS、Azure 或 Google Cloud)上创建一个数据库并连接到它。所有大型云解决方案提供商都有广泛的免费层,非常适合爱好者数据科学家测试。由于大量的消费者、学生和企业使用这些大品牌产品,因此有很多有用的内容涵盖它们的免费层,包括详细的文档和大量的 Stack Overflow 问题。云服务正在成为现代数据科学的核心部分,所以现在了解它们是非常好的。

选择一个产品并创建一个数据库。亚马逊谷歌都提供了很好的文档来帮助你使用它们的免费数据库层。导入是一个相当简单的文档齐全的过程。谷歌甚至提供了技巧和窍门列表以获取最佳的数据导入策略,比如压缩数据以降低成本。

数据来源

有很多开源数据可以用于个人项目。确保避免使用那些已经过度使用的数据集,比如鸢尾花数据集。你希望你的项目在简历上引人注目。我收集了几个我喜欢的数据源,其中一个很有趣,一个更侧重于流行文化,还有一个包含更严肃的数据,例如人口统计和健康数据。

2. 数据清洗

5 个数据科学项目来学习 5 项关键的数据科学技能

数据清洗意味着数据本身是脏的。我从未在实际中遇到过真正干净的数据集,你也可能没有。数据清洗是数据科学的一个重要部分,因为脏数据会导致不准确的结果。脏数据可能包含重复项、过时、错误、不完整或不一致。你需要学习如何缓解这些问题。

根据 Tableau 的说法,数据清洗的五个步骤包括去除重复项、修复结构性问题、筛选不需要的异常值、处理缺失数据,以及验证清理后的数据集的质量。

如何清洗脏数据

记住,我们不是追求完美,而是追求足够好。在最大努力和可能过度修正的数据集与草率完成数据清洗过程之间找到平衡。

Database Trends and Applications 提供了一份很棒的指南,帮助你逐步了解数据清洗过程。最重要的是要记住在清洗数据的过程中记录每一次更改。当处理不完整的数据时,例如,你需要做出一些假设,然后根据这些假设做决定。如果你没有记录你的假设以及替换或删除逻辑,你将错过在获得更多信息或理解后重新引入这些数据的机会。

如果你想了解一些具体的脏数据示例,Foresight BI 整理了不同类型脏数据的练习。选择五个对你来说最具挑战性的练习,试试吧。他们提供了结构化的信息和数据可能呈现的良好示例概述。

3. 数据建模

除了基本的统计分析,机器学习是数据科学的核心部分。要熟练开发、维护和部署机器学习模型,将你的数据科学职业生涯提升到一个新的水平。

构建机器学习模型

亚马逊提供了一个 机器学习教程 来指导你如何使用他们的 SageMaker 服务构建、训练和部署机器学习模型。如果你对数据科学或机器学习完全陌生,这个选项很棒,因为它会全程指导你,但你仍然会接触到整个过程。如果你之前没有独立构建、训练和部署模型过,我建议你遵循亚马逊的指南。

构建

然而,如果你有更多经验,不要走捷径。像往常一样构建你的模型,注意将数据分成测试数据和训练数据。根据你拥有的数据类型和你想要进行的预测类型(有标签数据的监督学习、无标签数据的无监督学习等)选择合适的模型。

训练

Chris Rawles 汇编了一个详尽的 如何设置你的模型 的指南以在云中进行训练。他们使用了 Google Cloud,但他推荐的原则适用于任何云服务提供商。

部署

AWS 的 Lamda 服务 非常适合部署你的代码并让它运行。定价模式是按请求付费,因此如果你只是用它来练习部署,或者向一些面试官展示,这可能会非常划算。

构建回归模型

如果你要预测的结果是二元的,那么回归模型效果最佳。尽管回归模型比神经网络或聚类算法更简单,你仍然应该像对待其他机器学习模型一样进行训练和部署。

如果你觉得机器学习和用于数据科学的各种工具让你感到难以应对,可以尝试从一个易于掌握的练习开始。你可以在 Excel 中构建一个简单而有效的回归模型。这并不花哨,这样做不会 让你获得数据科学工作,但这是初学者数据科学家的一个很好的入门步骤。

4. 数据可视化

5 Data Science Projects to Learn 5 Critical Data Science Skills

一旦你完成了寻找数据、清洗数据、开发模型以及生成预测或见解的繁重工作,就可以展示你的成果了!了解哪种类型的可视化最为重要,因为你需要以简单而有效的方式传达你的发现。尝试使用不同的可视化方式向朋友和家人展示你的发现,并找出哪些方式在特定场景中效果更好。

Tableau

Tableau 因其炫酷且吸引人的可视化效果而变得非常著名。Pavleenk Kaur 汇总了 Tableau 中最常用的可视化。它带你了解如何连接数据,并通过描述不同选项颜色的含义来帮助你理解工具的界面,还介绍了不同可视化的优缺点。

其他 BI 工具

微软的 Power BI 非常适合用于仪表盘、生成报告和展示你的预测分析。它作为一个集中的数据报告系统表现出色。全球有超过 20 万个组织在使用它,熟悉这个工具对申请数据科学职位非常有帮助。查看这个 数据可视化工具的顶级列表

5. 部署

推荐引擎是数据科学实际应用的一个很好的例子。如果一个客户买了帐篷,他们可能还会想购买睡袋、头灯和炉具,对吧?推荐引擎基于共现矩阵的概念,该矩阵表示每个行值在与每个列值相同的上下文中出现的次数。

部署推荐引擎是你掌握数据科学所有技能的最终项目。这一数据科学领域与软件开发者的技能和责任有很大重叠,例如使用 Django 创建在线应用。你可以将使用 Django 或其他框架制作的应用部署到云端(AWS、Azure 或 Google Cloud)。这些云服务可以为你提供服务器和数据库,这些都是你部署应用并保持其运行所需的。

就像一本从未出版的书一样,一个从未开始消耗数据和输出实时预测或调整其分析的数据科学模型的价值要低很多。部署和维护应始终是你的终极目标。通过构建推荐引擎现在学习这些将帮助你在下一个数据科学职位中最大化业务影响和感知绩效。

关于学习数据科学技能的数据科学项目的最终思考

了解构成数据科学开发周期的基本构建块非常重要。我建议将这种理解扩展到包括云解决方案。数据科学模型只有在能够进行实时预测、持续消耗数据以更新模型,并将所有这些见解提供给相关利益方时,才是有用的。

无论你是想创办自己的 数据科学公司,还是希望在科技巨头公司担任数据科学家,你都需要在云环境中熟练执行数据科学家的任务。借助各大云解决方案提供商的免费套餐,现在没有理由不去深入了解这些工具。如果你是初学者,想找到你的第一个数据科学或数据分析职位,这些 19 个数据科学项目创意 可以帮助你。选择一个或全部的项目——选择你觉得最有趣的。

内特·罗西迪 是一位数据科学家,专注于产品战略。他还是一名兼职教授,教授分析学,并且是 StrataScratch 的创始人,这个平台帮助数据科学家通过顶级公司真实面试问题来准备面试。可以通过 Twitter: StrataScratchLinkedIn 与他联系。

更多相关内容