原文:
www.kdnuggets.com/2016/07/brohrer-data-science-beginners-1-5-questions.html
从 数据科学初学者 中快速了解数据科学,通过五个简短的视频。这个视频系列对于你有兴趣从事数据科学工作或与从事数据科学的人合作,并且想从一些基础概念开始的人非常有用。
这个第一个视频是关于数据科学可以回答的各种问题。数据科学通过数字或类别来预测问题的答案。为了充分利用这个系列,按顺序观看它们。 查看视频列表
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
嗨!欢迎来到视频系列 数据科学初学者。
数据科学可能令人畏惧,因此我将在这里介绍基础知识,而不涉及任何方程式或计算机编程术语。
在这个第一个视频中,我们将讨论“数据科学回答的 5 个问题”。
数据科学使用数字和名称(也称为类别或标签)来预测问题的答案。
可能让你惊讶的是,数据科学回答的只有五个问题:
-
这是 A 还是 B?
-
这很奇怪吗?
-
多少 – 或者 – 多少个?
-
这是如何组织的?
-
我接下来该做什么?
这些问题中的每一个都由一组独立的机器学习方法,即算法来回答。
将算法视为食谱,将数据视为原料是很有帮助的。算法说明了如何组合和混合数据以得到答案。计算机就像搅拌机一样。它们为你完成了大部分算法的繁重工作,而且速度非常快。
让我们从这个问题开始:这是 A 还是 B?
这类算法被称为二类分类。
对于任何只有两个可能答案的问题,它都很有用。
例如:
-
这个轮胎在接下来的 1000 英里内会失败吗:是还是不是?
-
哪种促销方式能带来更多客户:5 美元的优惠券还是 25%的折扣?
这个问题也可以重新表述为包含两个以上的选项:这是 A 还是 B 还是 C 还是 D,等等?这被称为多类分类,它在你有几个或几千个可能的答案时非常有用。多类分类会选择最可能的一个。
数据科学可以回答的下一个问题是:这是否奇怪?这个问题由一组称为异常检测的算法来回答。
如果你有信用卡,你已经从异常检测中受益。你的信用卡公司会分析你的购买模式,以便在可能发生欺诈时提醒你。那些“奇怪”的费用可能是在你不常去的商店购物或购买异常昂贵的商品。
这个问题在很多方面都可能有用。例如:
-
如果你有一个带有压力表的汽车,你可能想知道:这个压力表的读数正常吗?
-
如果你在监控互联网,你会想知道:这条互联网信息是否典型?
异常检测标记意外或不寻常的事件或行为。它提供了寻找问题的线索。
机器学习也可以预测“多少?”或“多少个?”的问题。回答这个问题的算法家族称为回归。
回归算法进行数值预测,例如:
-
下周二的温度会是多少?
-
我的第四季度销售额将是多少?
它们帮助回答任何要求数字的问题。
现在最后两个问题稍微复杂一点。
有时你想了解数据集的结构 - 这是如何组织的?对于这个问题,你没有已经知道结果的示例。
有很多方法可以揭示数据的结构。一种方法是聚类。它将数据分成自然的“簇”,以便于解释。使用聚类没有一个唯一正确的答案。
聚类问题的常见示例包括:
-
哪些观众喜欢相同类型的电影?
-
哪些打印机型号的故障方式相同?
通过理解数据的组织方式,你可以更好地理解 - 并预测 - 行为和事件。
最后一个问题 - 我现在应该做什么? - 使用一组称为强化学习的算法。
强化学习的灵感来自于老鼠和人类的大脑如何对惩罚和奖励做出反应。这些算法通过结果进行学习,并决定下一步行动。
通常,强化学习非常适合需要在没有人工指导的情况下做出大量小决策的自动化系统。
这些问题总是关于应该采取什么行动——通常是由机器或机器人执行的。示例如下:
-
如果我是一套房子的温控系统:调整温度还是保持现状?
-
如果我是一辆自动驾驶汽车:在黄灯时,刹车还是加速?
-
对于机器人吸尘器:继续吸尘,还是返回充电站?
强化学习算法在过程中收集数据,通过试错进行学习。
所以就这样了——数据科学可以回答的 5 个问题。
原文。转载已获许可。
相关:
-
Azure 机器学习工作室指南
-
构建数据科学组合:机器学习项目第一部分
-
构建数据科学组合:机器学习项目第二部分