Skip to content

Latest commit

 

History

History
215 lines (108 loc) · 13.5 KB

biggest-mistakes-learning-data-science.md

File metadata and controls

215 lines (108 loc) · 13.5 KB

学习数据科学的三大错误

原文:www.kdnuggets.com/2019/05/biggest-mistakes-learning-data-science.html

c 评论figure-name图片来源 Héizel Vázquez

你好!又是我。我在其他文章中讨论过一些我将在这里提到的内容,但现在我想给出一些关于什么不是数据科学以及如何不学习数据科学的方向。


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业道路。

2. Google 数据分析专业证书 - 提升你的数据分析能力

3. Google IT 支持专业证书 - 支持你的组织的 IT


所以让我们从基础开始。

什么是数据科学?

figure-namememes_and_science 更新

数据科学不仅仅是掌握一些编程语言、数学、统计学和“领域知识”。

时代已经来临。我们创造了一个新领域,或者说是类似的东西。在这个领域有很多东西需要讲解和研究。名称无所谓,也许数据科学只是一个暂时的名称,但对数据的科学研究,从中获取洞察,然后能够预测某些事情是世界的现在和未来

我将重点讨论与商业相关的数据科学定义和建议,这些建议可能适用于整个领域,但本文的观点主要是针对商业的数据科学。

我将提出三点建议:

  1. 数据科学是一门科学

  2. 学习数据科学有一些糟糕的方法

  3. 使用制作良好的备忘单可以帮助你系统地进行数据科学

数据科学是一门科学

figure-namememes_and_science

我知道这可能对一些人来说是有争议的,但请坚持听我说。我想表达的是,数据科学当然与商业相关,但它终究是一门科学,或者说是在成为一门科学的过程中。

我曾经定义数据科学 如前所述

[…] 通过 数学编程 科学方法 来解决商业/组织问题,其中包括创建 假设实验 测试 ,通过 数据分析 生成预测模型 来完成。它负责将这些 问题转化为明确的问题 ,并以 创造性 的方式回应初步假设。还必须包括 有效沟通 所获得的结果以及解决方案如何为商业/组织 创造价值

我在这里陈述了数据科学作为一种科学的描述和定义。我认为将数据科学描述为科学非常有用,因为如果是这样的话,这一领域的每个项目至少应具备以下特点:

  • 可重复:为了便于测试他人的工作和分析,这是必要的。

  • 易出错:数据科学和科学并不追求真理,而是追求知识,因此每个项目都可以在未来被替代或改进,没有解决方案是终极的解决方案。

  • 协作:数据科学家并非独立存在,他们需要一个团队,这个团队会使开发智能解决方案成为可能。协作是科学的重要组成部分,数据科学也应如此。

  • 创造性:数据科学家所做的大多数工作都是新的研究、新的方法或对不同解决方案的尝试,因此他们的工作环境应当非常有创意且易于操作。创造力在科学中至关重要,这是我们找到复杂问题解决方案的唯一途径。

  • 符合规定:目前科学领域有很多规定,虽然数据科学方面的规定不多,但未来会有更多。重要的是我们正在建设的项目要意识到这些不同类型的规定,以便我们能够为问题创造一个干净且可接受的解决方案。

如果我们不遵循这些基本原则,将很难进行正确的数据科学实践。数据科学应以能够使决策制定遵循系统化流程的方式实施。稍后会详细讲解。

如何避免错误学习数据科学。三大禁忌。

figure-namememes_and_science

如果你在这里,可能意味着你正在学习数据科学,或者你参加了一些 MOOCs 或相关课程。我不会在这里谈论平台或课程的好坏,我认为即使在最糟糕的课程中我们也能学到一些东西。

1. 只看而不实践

figure-namememes_and_science

如果你正在上与数据科学相关的课程,如数学、统计学、编程或类似课程,而你只是听课。

如果你这样做,你是在浪费时间。数据科学需要实践。无论你学到什么,即使教授没有告诉你,也要实践并尝试。这对真正理解事物至关重要,当你在实际工作中时,你会做很多不同的实际操作。

对统计学、数学和 Python 的良好知识不会使你成为一个成功的数据科学家。你需要更多,你需要精通你的技能。能够使用这些工具解决业务问题。因此,如果你在学习新的东西,并且想真正理解它,找到一个你可以应用它或玩弄它的场景。

2. 以疯狂的方式创建模型

figure-namememes_and_science

我们从“外部世界”获取数据,我们的身体和大脑分析我们得到的原始数据,然后我们“解释”这些信息。

figure-nametowardsdatascience.com/going-beyond-with-agile-data-science-fcff5aaa9f0c

什么是“解释”?这就是我们从获得的信息中学到的如何反应、思考、感受和理解。当我们理解时,我们是在解码形成这个复杂事物的部分,并将我们一开始获得的原始数据转化为有用且简单的东西。

我们通过建模来做到这一点。这是理解“现实”的过程,即我们周围的世界,但创建一个更高级的原型,这个原型描述了我们所见、所听、所感的事物,但它是一个代表性的东西,而不是“实际的”或“真实的”东西。

所以在做之前请考虑:

model_i_created_i_5_seconds.fit(X,y)

建模在机器学习和数据科学领域非常重要,但它们必须有一个目的。你需要在使用之前理解它们。现在要了解它们在训练数据之前的假设,理解它们用于学习的不同指标,如何评估它们等等。

对此我可以告诉你,阅读像 Scikit-Learn 这样的库的文档是没有害处的:

关于科学数据处理的统计学习教程 - scikit-learn 0.20.3…

*机器学习是一种越来越重要的技术,因为实验科学所面临的数据集的规模……*scikit-learn.org

Apache Spark:

MLlib: 主要指南 - Spark 2.4.1 文档

*由于运行时专有二进制文件的许可问题,我们默认不包括 netlib-java 的本地代理……*spark.apache.org

Tensorflow:

TensorFlow 指南 | TensorFlow 核心 | TensorFlow

*会话是 TensorFlow 的机制,用于在一个或多个本地或远程设备上运行数据流图。如果……*www.tensorflow.org

还有更多。它们将引导你到文章、论文和更多博客帖子,且大多数都包含如何在机器学习和统计学习中进行建模的实际示例。

此外,还有一些很棒的视频可以将你从零基础带到高手,比如我朋友Brandon Rohrer的作品:

3. “是的,我是个孤狼。我可以自己学习和做一切”

figure-name memes_and_science

记住我之前提出的一个特点是,数据科学是一个合作性领域。那么,学习它也应该如此!

我不是说你需要和你的好朋友一起开始一个课程,而是利用今天在线平台所提供的资源。我们有论坛、聊天、讨论板等等,你可以在那里遇到学习相同内容的人。和更多人一起学习会更容易,不要害怕提问。

提出你需要理解的尽可能多的问题,直到你明白为止。也不要骚扰他人,但如果你礼貌地提问,大多数人都会很乐意帮助你。

这里有很棒的资源(除了 MOOCs 和课程内部提供的资源)可以找到学习相同内容的人:

Stack Overflow - 开发者学习、分享与职业发展的平台

Stack Overflow 是开发者学习、分享其编程经验的最大、最受信任的在线社区…… stackoverflow.com

Quora

Quora 是一个获取和分享知识的地方。它是一个提问和与人连接的平台…… www.quora.com

Deep Cognition Community

一个活跃的社区共同推动 AI 领域的增长和创新。 community.deepcognition.ai

r/datascience

r/datascience:一个供数据科学从业者和专业人士讨论和辩论数据科学职业的地方…… www.reddit.com

系统化的数据科学与备忘单

figure-name medium.com/personal-growth/all-strength-comes-from-repetition-1a95157e2c7c

备忘单通过提供有关语言、概念或库的不同片段的知识来节省时间。有些备忘单还包含指向文档和 R、Python、Scala 等重要包的包级备忘单的超链接。

去年年底,我创建了一个关于可以用于数据科学的各种备忘单的病毒式传播的仓库。

FavioVazquez/ds-cheatsheets

数据科学备忘单列表 - FavioVazquez/ds-cheatsheets github.com

在这个仓库中,你会找到关于以下主题的备忘单:

在那里你会找到每个备忘单的 PDF 和 PNG 版本。随意下载该存储库的 zip 文件以获取所有信息,如果你发现或创建了一个新的有用备忘单,请提交拉取请求。

感谢阅读,希望这些内容能帮助你找到在数据世界中成为成功专业人士的路径。更多内容敬请期待 :)

简介: Favio Vazquez 是一位物理学家和计算机工程师,专注于数据科学和计算宇宙学。他对科学、哲学、编程和音乐充满热情。他是 Ciencia y Datos 的创始人,这是一份西班牙语的数据科学出版物。他热爱新挑战,喜欢与优秀团队合作,解决有趣的问题。他参与了 Apache Spark 的协作,帮助 MLlib、Core 和文档方面的工作。他喜欢运用自己的知识和专业技能在科学、数据分析、可视化和自动学习方面,帮助世界变得更美好。

原文。已获授权转载。

相关内容:

  • 学习数据科学硕士是否值得?

  • 数据科学中最受欢迎的技能

  • 如何辨别好数据科学职位与差数据科学职位

更多相关内容