Skip to content

Latest commit

 

History

History
169 lines (85 loc) · 9.19 KB

learn-data-engineering-github-repositories.md

File metadata and controls

169 lines (85 loc) · 9.19 KB

从这些 GitHub 仓库中学习数据工程

原文:www.kdnuggets.com/2023/02/learn-data-engineering-github-repositories.html

从这些 GitHub 仓库中学习数据工程

作者提供的图片

如果你希望进入数据领域,特别是数据工程 - 那么这个博客可以为你的学习提供有价值的资源。首先,让我们简要区分数据科学家和数据工程师之间的区别。


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


数据科学家的主要工作是探索数据、构建模型以及实施机器学习算法。数据工程师的主要工作是确保构建的算法在生产环境中有效运行,并创建数据管道。

数据工程师负责组织数据基础设施的所有相关工作。这些基础设施将存储业务的关键信息,从小型数据库到大规模系统。目标是确保数据的基础稳固且安全,以便进行关键分析和生成报告。

如果你仍然渴望学习数据工程,这里有一些有价值的 GitHub 仓库可以帮助你。

DataTalks.Club - data-engineering-zoomcamp

仓库链接:data-engineering-zoomcamp

正如名字所示,DataTalksClub 是一个全球数据爱好者的在线社区,讨论关于数据的所有话题。他们有一个 9 周的课程表来帮助你学习数据工程。每周的内容如下:

你可以加入下一个班次,但你也可以在自己的时间内完成。所有课程材料都是免费的,DataTalks.Club 提供了一个逐周的建议大纲来帮助你。

食谱

仓库链接: 食谱

《数据工程食谱》的作者安德雷亚斯·克雷茨在 GitHub 上发布了这本书。他的目标是为数据工程领域的新手提供一个起点,帮助你识别成为成功的数据工程师所需学习的重要主题。

这本书重点介绍了五种不同类型的内容,帮助你了解数据工程:作者发布的文章、他们播客节目的链接(视频和音频)、他推荐的 200 多个有用网站链接、数据工程面试问题和案例研究。

数据工程指南

仓库链接: 数据工程指南

如果你需要关于成为数据工程师所需学习的不同主题的指导,数据工程指南为你提供了一份不同资源的清单,让你可以获得有用的数据工程知识。

该仓库从数据工程的基本概念开始,例如需求层次、初学者指南等。还有关于讲座、算法与数据结构、SQL、编程、数据库、分布式系统、书籍、课程、博客、工具、云平台等的资源。

优秀的数据工程

仓库链接: 优秀的数据工程

如果你对数据工程的基础知识有良好的基础,或者需要更好地关注工具,这个 GitHub 仓库为你提供了一个精心策划的数据工程工具清单,涵盖了你可能遇到的工具类型。

要成为一名成功的数据工程师,你需要对工具有信心。这个仓库涵盖了所有类型的工具,包括:

  1. 数据库

  2. 数据摄取

  3. 文件系统

  4. 序列化格式

  5. 流处理

  6. 批处理

  7. 图表和仪表板

  8. 工作流

  9. 数据湖管理

  10. ELK Elastic Logstash Kibana

  11. Docker

  12. 数据集

  13. 监控

  14. 社区

数据工程师路线图

仓库链接: data-engineer-roadmap

如果你是一个视觉型学习者,需要帮助来确定成为成功数据工程师的路线——这个库适合你。它提供了现代数据工程领域的完整可视化,并作为学习指南。

仓库的作者表示:

“初学者不必对这里列出的众多工具和框架感到不知所措。一个典型的数据工程师会在几年的时间内掌握这些工具的一个子集,这取决于他的公司和职业选择。”

总体而言,这个路线图可视化是一个有效的学习大纲,适用于有志于成为数据工程师的人。

开始数据工程

仓库链接: Start Data Engineering

如果你对自己的数据工程技能感到自信并希望开始测试它们。Joseph Machado 讲述了有关数据工程、数据建模、软件工程和系统设计的内容。

他为你提供了一步步的指南,帮助你开始项目,这对于你的数据工程学习以及作为你申请工作的作品集都是有用的。

数据工程项目

仓库链接: Data-Engineering-Projects

如果你在寻找更多应用于数据工程原则的项目,这个 GitHub 库提供了以下 7 种不同类型的项目:

  1. Postgres ETL

  2. Cassandra ETL

  3. 使用 Scrapy 进行网页抓取,MongoDB ETL

  4. 使用 AWS Redshift 进行数据仓库处理

  5. 使用 Spark 和 AWS S3 的数据湖

  6. 使用 Airflow 进行数据管道处理

  7. 关键项目

数据工程面试问题

仓库链接: data-engineering-interview-questions

假设你对自己的数据工程技能感到自信,已经进行过实践,现在准备申请你一直努力争取的工作。你需要为可能在面试中出现的问题做好准备。

这个 GitHub 库包含了 2000 多个问题,帮助你准备数据工程师面试。它们还提供了答案,让你了解你在数据工程中的强项和弱项。

结论

上述 GitHub 资源将帮助你迅速成为成功的数据工程师。如果你需要学习路线图,可以阅读 完整的数据工程学习路线图。它为你提供了一个主题、领域和资源的清单,帮助你在数据工程的旅程中前进。

Nisha Arya 是一名数据科学家和自由撰稿人。她特别关注提供数据科学职业建议或教程以及数据科学理论知识。她还希望探索人工智能如何有助于延长人类寿命。作为一个渴望学习的者,她希望拓宽技术知识和写作技能,同时帮助指导他人。

更多相关话题