Skip to content

Latest commit

 

History

History
137 lines (69 loc) · 8.32 KB

plotting-data-visualization-data-science.md

File metadata and controls

137 lines (69 loc) · 8.32 KB

绘图和数据可视化在数据科学中的应用

原文:www.kdnuggets.com/2022/06/plotting-data-visualization-data-science.html

数据科学中的绘图和数据可视化

照片由 艾萨克·史密斯 提供,发布于 Unsplash

关键要点

  • 大多数希望进入数据科学领域的初学者总是担心数学要求。

  • 数据科学是一个非常定量的领域,需要高级数学知识。

  • 但要入门,你只需掌握几个数学主题。

  • 在这篇文章中,我们讨论了绘图和数据可视化在数据科学和机器学习中的重要性。


我们的三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业。

2. 谷歌数据分析专业证书 - 提升你的数据分析能力

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求


绘图和数据可视化

大部分基本的数据科学关注的是找到特征预测变量)和目标变量结果)之间的关系。预测变量也称为自变量,而目标变量是因变量

绘图和数据可视化可以在特征与目标变量之间讲述不同类型的故事,例如比较不同的数量、研究趋势、量化关系或展示比例。绘图或数据可视化是数据科学中最古老且最重要的分支。

在这篇文章中,我们探讨了数据科学和机器学习中使用的各种类型的图表。

生成图表的基本组件

一个好的图表或数据可视化由几个组件组成,这些组件需要组合在一起以生成最终产品:

  1. 数据组件:决定如何可视化数据的一个重要第一步是了解数据的类型,例如,分类数据、离散数据、连续数据、时间序列数据等。

  2. 几何组件:在这里,你决定什么样的可视化适合你的数据,例如,散点图、折线图、条形图、直方图、Q-Q 图、平滑密度图、箱线图、对角图、热力图、饼图等。

  3. 映射组件:在这里,你需要决定使用哪个变量作为自变量**(x-变量)以及使用哪个变量作为因变量y-变量)。这很重要,特别是当你的数据集是多维的,具有多个特征时。

  4. **尺度组件:**在这里,你决定在图中使用什么样的尺度,例如线性尺度、对数尺度等。

  5. **标签组件:**这包括诸如轴标签、标题、图例、字体大小等内容。

  6. **伦理组件:**在这里,你要确保你的可视化讲述了真实的故事。你需要在清理、总结、操控和生成数据可视化时注意你的行为,确保不会利用你的可视化误导或操控观众。

重要的数据可视化工具包括 Python 的 matplotlib 和 seaborn 包,以及 R 的 ggplot2 包。

绘图和数据可视化示例

在本节中,我们讨论了数据科学和机器学习中使用的几种图表。每个图表的说明中包含一个链接,该链接将带你到原始文章,在那里你可以找到更多细节,如生成图表所用的数据集和源代码。

1. 条形图用于比较不同的数量

数据科学中的绘图和数据可视化

图 1. 数据集分布。N=1050:812(男性)和 238(女性)身高。这显示我们有一个非常不平衡的数据集,男性身高占 77%,女性身高占 23%。来源:贝叶斯定理解释

数据科学中的绘图和数据可视化

图 2. 2016 年选定国家电动车市场份额。图片由 Benjamin O. Tayo 提供。

数据科学中的绘图和数据可视化

图 3. 2020 年全球按技能分类的工作数量使用 LinkedIn 搜索工具。图片由 Benjamin O. Tayo 提供。

2. 密度图用于研究变量的分布

数据科学中的绘图和数据可视化

图 4. 使用蒙特卡洛模拟的均匀分布样本均值的概率分布。图片由 Benjamin O. Tayo 提供。

数据科学中的绘图和数据可视化

图 5. 男性和女性身高的概率分布。显示男性的平均身高高于女性。

3. 散点图用于研究关系

数据科学中的绘图和数据可视化

图 6. 使用多元回归分析的理想和拟合图。图片由 Benjamin O. Tayo 提供。数据科学中的绘图和数据可视化

图 7. 不同回归模型的均值交叉验证分数。图片由 Benjamin O. Tayo 提供。

4. 用于量化关系的热图

数据科学中的绘图和数据可视化

图 8. 选定科技股票的协方差矩阵图

5. 用于研究趋势的时间依赖图

数据科学中的绘图和数据可视化

图 9. 2021 年 4 月前 16 天特斯拉股票价格

6. 显示比例的饼图

数据科学中的绘图和数据可视化

图 10. 展示投资组合中各种资产类别的饼图

总结

  • 大多数数据科学问题归结为研究特征变量与目标变量之间的数学关系。

  • 绘图或数据可视化是量化特征变量与目标变量之间关系的第一步。

  • 良好的数据可视化具有几个基本组成部分,如数据组件、几何组件、映射组件、刻度组件、标签组件和伦理组件。

  • 有几种类型的图表,如比较图、用于研究趋势的图、显示比例的图等。

  • 在确定适合数据的图表或可视化方式之前,理解给定的数据集是很重要的。

Benjamin O. Tayo 是一位物理学家、数据科学教育者和作家,也是 DataScienceHub 的创始人。此前,Benjamin 曾在中欧大学、大峡谷大学和匹兹堡州立大学教授工程学和物理学。

更多相关话题