原文:
www.kdnuggets.com/2018/03/8-common-pitfalls-ruin-prediction.html
由 诺伯特·奥布苏茨特,AnswerMiner。
在普通的一天里,你会基于以往的观察做出数百个预测,通常借助于你脖子顶部的个人神经网络。如果你想要更好的预测,你需要更多的信息,所以你必须利用他人的观察,而不仅仅是你自己的。
1. 谷歌网络安全证书 - 快速进入网络安全职业
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 工作
基于数据的预测可以提高你公司的利润或改善你的生活。
但要小心!一些常见的错误可能导致你的预测无用甚至误导。
你总是计算的常见预测
-
如果你需要一把伞(根据天气预报和你皮肤上的温度传感器)
-
你应该什么时候开始工作(根据星期几、当前月份和交通报告)
-
哪一项工作将来获益最大(基于撰写博客文章、发送电子邮件或与忠实客户会面)
-
你的同事在告诉你某事时在想什么(基于他的手势、面部表情和语调)
-
你的孩子会对你考虑购买的生日礼物有何反应(基于他的年龄、兴趣、礼物价格和产品类别)
基于数据的盈利预测示例
-
你的面包店会卖出多少条面包?如果你烤得太少或太多,你会亏钱。
-
在报名的那些人中,有多少人会参加你的聚会?你必须订购足够但不过多的食物,因为这会花费钱。
-
你什么时候应该将货币从美元兑换成欧元或反之?货币汇率很难预测,但你可以节省 1%-2%。
-
哪位申请者更可能在你招聘的职位上表现出色?招聘最好的销售人员将为你带来更多客户,从而获得更多的收入。
-
你可能会在下个月流失多少客户?如果你预测支付客户的流失率,你可以防止它。
数据越多,你的预测就会越好。
记住这一重要建议
- 方法选择
有几种预测算法和子变体,每种都有其优缺点。你必须选择最适合你需求的算法。
-
线性回归: 易于理解,但无法捕捉复杂的关系。
-
决策树: 易于理解和可视化,但需要仔细选择参数。
-
随机森林: 预测模型质量非常高,但难以可视化且可能较慢。
-
神经网络: 对于非常复杂的任务具有最佳预测能力,但计算密集且难以理解其行为。
决策树
- 过拟合
过拟合是指你根据非常具体、罕见发生的事件得出一般性结论,这些事件仅仅是偶然发生的。
-
好的预测: 如果天空多云且湿度高,那么很可能会下雨。
-
过拟合预测: 如果是星期五,日期是偶数,月份在六月之后,当前时间在上午 9:00 到 10:00 之间,并且你的车正在修理中,那么很可能会下雨。
第二个预测不好,因为过拟合了,因为所列条件很少同时发生,即使你在这些条件满足时总是经历降雨,你也可能无法预测未来的降雨。
避免过拟合是构建预测模型时面临的最大挑战之一。你永远无法知道预测是否过拟合,或者是否存在真实关系。
只有未来才能揭示。
然而,有一些技术可以帮助你,例如交叉验证模型的效率。
- 混合过去和未来
如果你想基于几个不同的因素进行预测,选择预测因子时要小心;它们必须是与你的目标相比的过去数据。
这可能看起来很明显,但如果你的数据集有很多列,你可能会很容易陷入困境。例如,不要基于当天在网络商店花费的时间来预测访客的购买机会。那“在网络商店的总分钟数”列可能还包括了在购买之后花费在网络商店的时间。
历史数据示例
如果你想使用上述历史数据表创建预测,请不要包括“在网络商店的总分钟数”。你可以包括“着陆页”和“访客国家”这两个预测因素,因为这些数据是在购买时间之前生成的。
- 异常值
大多数数值数据集包含异常值,原因可能是数据不洁或错误,或者因为一些特殊的例外情况。
异常值是邪恶的,会破坏一切。在进行任何预测之前,要去除它们,因为均值计算的结果将会失真。
尝试预测正态分布的数据,而不是柯西分布的数据。
- 衡量效率
你应该始终并持续测量你的预测效率,原因如下:
-
预测的表现太差或太好都表明你的模型或预测有问题。
-
你想知道你可以从预测模型中期待什么样的准确率。
-
随着时间的推移,情况会发生变化,因此你的预测在某些时候会过时,你需要检测到这一点。
你应该总是将效率与一些基本经验法则进行比较。例如,假设你想预测今天佛罗里达是否会下雪,并且你正在构建一个复杂的预测模型来确定这一点。
如果你的模型在真实结果(有雪或无雪)上命中率为 90%,那并不好,因为如果你总是猜无雪,你的命中率将达到 99%。
- 预测因子不足
人们常常犯的一个错误是仅用领域特定的知识来改进预测。这主要是因为他们想收集可能的原因,但预测与因果关系无关。
如果你想预测冰淇淋的销售,不仅要使用与冰淇淋相关的预测因子,还要考虑比基尼或空调销售、政治新闻量或联邦基准利率等因素。
这些因素虽然不直接影响冰淇淋销售,但与之相关,因此可以作为预测因子使用。
如果你意外地包含了一个与目标无关的预测因子,这并不是问题,预测算法会自动排除它。
- 相信结果
人们想相信他们有逻辑技能、有经验、聪明、智慧和理性。然而,他们并非如此;相反,他们在很多方面都有偏见。
如果你创建了一个好的预测模型并验证了它,不要丢掉它,像这样说,
“不可能。有数据有问题。” 或 “我比算法更了解我的领域。”
利用你的领域专长来创建预测模型,但一旦完成,不要简单地覆盖它。
- 应用结果
如果不应用预测模型,就没有意义去构建它们。在进行预测之前,总是要定义你将根据可能的结果采取的行动。
假设你正在构建一个预测模型,以检测访问你的网站的访客是否会购买某物,基于访客的国籍、性别、浏览器版本、登陆页面等。
如果你无法利用这些信息,那么预测是没有意义的。然而,如果你有一位专业的网页开发人员,并且可以根据预测动态地给予用户折扣,你可以只对那些没有折扣可能不会购买的人给予折扣。
此外,如果你预测用户会从你的网上商店购买东西,那么就没有必要通过给他们折扣来降低你的利润。
我希望我能在这篇文章中给你提供一些有用的建议。让我再与你分享一件事。AnswerMiner 可以基于众多数据源迅速生成预测。
个人简介:诺伯特·奥布苏茨 是 AnswerMiner 的创始人、数据科学家和程序员。他获得了数学和编程的学位。诺伯特对数据分析、预测分析和数据科学充满热情。他的联系方式是 [email protected]
相关: