Skip to content

Files

Latest commit

 

History

History
171 lines (86 loc) · 7.1 KB

long-take-learn-data-science-fundamentals.md

File metadata and controls

171 lines (86 loc) · 7.1 KB

学习数据科学基础需要多长时间?

原文:www.kdnuggets.com/2022/03/long-take-learn-data-science-fundamentals.html

学习数据科学基础需要多长时间?

作者提供的图片

学习数据科学基础所需的时间可以分为 3 个主要类别。我们在此指出,这些只是大致的值。达到一定水平的能力所需的时间取决于你的背景以及你愿意投入多少时间来学习数据科学。通常,具有物理学、数学、科学、工程、会计或计算机科学等分析学科背景的人,比那些背景与数据科学不互补的人需要的时间更少。


我们的前 3 个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织在 IT 方面


基础级别 (6 – 12 个月)

在第一级,数据科学志向者应能够处理通常以逗号分隔值 (CSV) 文件格式呈现的数据集。他们应具备数据基础、数据可视化和线性回归方面的能力。

1.1 数据基础

能够操作、清理、结构化、缩放和工程化数据。应掌握使用 pandas 和 NumPy 库的技能。应具备以下能力:

  • 了解如何导入和导出存储在 CSV 文件格式中的数据

  • 能够清理、整理和组织数据,以便进行进一步分析或模型构建

  • 能够处理数据集中缺失值

  • 理解并能够应用数据插补技术,如均值插补或中位数插补

  • 能够处理分类数据

  • 了解如何将数据集划分为训练集和测试集

  • 能够使用如 归一化 和标准化等缩放技术对数据进行缩放

  • 能够通过主成分分析 (PC) 等降维技术压缩数据

1.2. 数据可视化

能够理解良好数据可视化的基本组成部分。能够使用数据可视化工具,包括 Python 的 matplotlib 和 seaborn 包;以及 R 的 ggplot2 包。应了解良好数据可视化的基本组成部分:

  • 数据组件: 决定如何可视化数据的一个重要第一步是知道数据的类型,例如分类数据、离散数据、连续数据、时间序列数据等。

  • 几何组件: 在这里你决定哪种可视化适合你的数据,例如散点图、折线图、条形图、直方图、Q-Q 图、平滑密度图、箱线图、成对图、热图等。

  • 映射组件: 在这里,你需要决定使用哪个变量作为你的 x 变量 和使用哪个变量作为你的 y 变量。这在数据集具有多个特征时尤其重要。

  • 尺度组件: 在这里,你需要决定使用什么样的尺度,例如线性尺度、对数尺度等。

  • 标签组件: 这包括坐标轴标签、标题、图例、字体大小等。

  • 伦理组件: 在这里,你要确保你的可视化能够讲述真实的故事。你需要注意在清洗、总结、操作和制作数据可视化时的行为,确保你不会利用可视化来误导或操控观众。

1.3 监督学习(预测连续目标变量)

熟悉线性回归及其他高级回归方法。熟练使用 scikit-learn 和 caret 等包进行线性回归模型构建。具备以下能力:

  • 能够使用 NumPy 或 Pylab 执行简单的回归分析。

  • 能够使用 scikit-learn 执行多重回归分析。

  • 理解正则化回归方法,如 Lasso、Ridge 和 Elastic Net。

  • 理解其他非参数回归方法,如 KNeighbors 回归(KNR)和支持向量回归(SVR)。

  • 理解评估回归模型的各种指标,如 MSE(均方误差)、MAE(均值绝对误差)和 R2 分数。

  • 能够比较不同的回归模型。

2. 中级(7-18 个月)

除了一级技能和能力外,还应具备以下能力:

2.1 监督学习(预测离散目标变量)

熟悉二分类算法,如:

  • 感知机分类器

  • 逻辑回归分类器

  • 支持向量机(SVM)

  • 能够使用核 SVM 解决非线性分类问题。

  • 决策树分类器

  • K 最近邻分类器

  • 朴素贝叶斯分类器

  • 理解评估分类算法质量的多种指标,如准确率、精确度、敏感性、特异性、召回率、F1 分数、混淆矩阵、ROC 曲线。

  • 能够使用 scikit-learn 进行模型构建。

2.2 模型评估与超参数调整

  • 能够在管道中组合变换器和估算器。

  • 能够使用 k 折交叉验证来评估模型性能。

  • 知道如何通过学习曲线和验证曲线调试分类算法。

  • 能够通过学习曲线诊断偏差和方差问题。

  • 能够通过验证曲线解决过拟合和欠拟合问题

  • 知道如何通过网格搜索来微调机器学习模型

  • 理解如何通过网格搜索调优超参数

  • 能够读取和解释混淆矩阵

  • 能够绘制和解释接收者操作特征(ROC)曲线

2.3 结合不同模型进行集成学习

  • 能够使用集成方法与不同的分类器

  • 能够结合不同的算法进行分类

  • 知道如何评估和调整集成分类器

3. 高级水平(18 – 48 个月)

能够处理高级数据集,例如文本、图像、语音和视频。除了基础和中级技能外,还应具备以下能力:

  • 聚类算法(无监督学习)

  • K-means

  • 深度学习

  • 神经网络

  • Keras

  • TensorFlow

  • PyTorch

  • Theano

  • 云系统(AWS, Azure)

总结一下,我们讨论了数据科学的 3 个水平。一级 能力可以在 6 到 12 个月内达到。二级 能力可以在 7 到 18 个月内达到。三级 能力可以在 18 到 48 个月内达到。这一切都取决于投入的努力和每个人的背景。

Benjamin O. Tayo 是物理学家、数据科学教育者和作家,同时也是 DataScienceHub 的所有者。之前,Benjamin 曾在中 Oklahoma 大学、大峡谷大学和 Pittsburgh State 大学教授工程学和物理学。

更多相关话题