原文:
www.kdnuggets.com/2016/12/top-reasons-big-data-science-analytics-fail.html
作者:安基特·马哈詹,RetailMarketingTechnology.com
我在过去 11 年中一直从事数据科学专业工作,并有机会与多个雇主和客户合作,满足他们在金融服务、零售/快消品、电信、媒体与娱乐、数字媒体、教育和技术等多个领域的数据科学需求。在这 11 年中,我观察和参与了数据科学管理实践和企业战略,密切关注了这些计划的成功与失败。我回顾并反思了我认为抑制数据科学战略发展的五个主要原因。
1. 谷歌网络安全证书 - 快速进入网络安全职业领域。
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您组织的 IT 需求
一些公司加入了数据科学的浪潮,因为他们想成为炒作的一部分,而不是实际价值创造的一部分。这些肤浅的目标往往反映出最高领导层要么对基于数据的战略效果没有充分的信心,要么只是因为一个人的个人喜好(而非真正的知识)而参与了“big data”这一词汇。在缺乏明确数据科学授权作为业务战略输入的情况下,组织目标与数据科学路线图从未同步,导致了不切实际的目标,从而导致了惨败。
实施有效的数据科学企业战略的首要任务(无论你的商业模式是 B2B 还是 B2C)是接受变革。通常,僵化的等级制度、部门孤岛和复杂的政治组织动态成为实施中央数据战略的障碍,而这并没有促进真正的创新。每个人都想争取一块蛋糕或整个蛋糕,但却不知道自己是否有资格争取,或不理解拥有部分蛋糕会对生态系统产生的变化。
一个明确的例子:为了实施几乎实时的活动响应/最佳下一步建议模型并投入生产,可能需要营销、销售、IT、财务等不同部门之间的协同,但由于不同利益相关者的权力游戏和缺乏接受变革的意愿,这种协同有时会失败,这要求协调和统一来自不同来源的数据和输入,并在这些部门的不同关键利益相关者之间建立更紧密的协同(这些部门传统上因各种政治原因一直各自为政)。
如果打破组间的隐性隔阂或障碍,统一数据,数据科学能为组织创造更多价值。政治因素往往成为障碍。即使无法建立中央数据科学结构,也可以创建一个松散的数据科学中心,作为两个团队(例如 IT 和市场营销或与数据战略相关的任何其他业务职能)之间紧密合作的结果,有效地构建解决问题的强大用例,成为其他部门的榜样。如果组织动态甚至不允许这样做,可以创建一个实验数据科学实验室,该实验室不属于特定部门/团队(但仍可自由访问数据源系统进行实验,作为现有技术单位/团队的平行单位/团队),并且免于政治动机驱动的议程,由一个能干、公正的领导者主持(有关更多信息,请参见下一点-‘首选’人选)。
每个人都有问题,但是否能转化为对业务有直接影响的有用业务指标,往往被忽视。
有些举措只是为了展示与数据的相关性,而非实际需求。错误的假设被建立,导致众多隐藏的假设,进而产生糟糕的业务用例。有效的数据科学是领域、数据、数学和统计、算法、编程、研究/实验和艺术的健康结合,或简单来说是科学和艺术的结合。我们可以自动化科学,但很难自动化艺术或量化抽象的东西。建模稀有事件非常棘手,最近美国选举就是一个很好的例子,特朗普击败了所有的民意调查、预测,所有专家都面临尴尬局面。
在组织内部,因政治原因不同的利益相关者之间总是存在着一场常态的争斗,每个利益相关者都希望保护自己的领域或扩展现有的领域。一个‘领域/业务专家’会试图强调该领域或艺术以展示自己的重要性,并在沟通和商业战略方面标榜自己的权威,他们常常提出一些花哨的问题,而不管是否有支持数据,或这些问题是否能转化为有用的指标。数据科学家则会过度强调数学部分,以展示为什么每个问题都需要通过数学来解决,以及如何通过 PCA 来解决供应链优化问题,即使可能根本不需要这样做。数据工程师则会强调技术(数据仓储)或实现部分,以展示他的角色不亚于宇航员。这是一场带有偏见的辩论,往往会让正确的问题被掩盖在背景中。每个人都很重要,但他们需要协调工作。
为什么以及需要部署哪个模型到生产环境,取决于最初的假设/业务问题。这些业务问题必须与具体的目标或指标关联起来,而很多时候这只是一个空白字段,空白字段的指标不符合部署标准。即使一年进行 12 次模型运行或更多,也不符合部署条件,除非你能产生一个与最初假设强相关的业务指标,并且对业务带来增值。
在缺乏正确问题的情况下,技术或实施人员会做什么?实施一个有缺陷的假设——这有意义吗?如果我们颠倒一下情况——在有正确问题但技术实施/算法/模型/样本(在过时样本上表现极差)错误的情况下,这是否有帮助,这又让我回到了上面第 2 点——不同利益相关者之间缺乏协同。一个既具备强大业务/领域背景(大局观)又具备同样强大数据科学背景(核心技术方面的核心数据科学/分析主题)的客观领导者,并且愿意接受变化,可能是你的‘首选’人选,但这些人通常需要较高的报酬,即使你找到这些人,也需要允许他们以自由和权威来建立该生态系统,但这种自由和灵活性通常是缺乏的。由于对系统感到沮丧,他们往往会离开(因为管理层对他们的激情和承诺未给予认可)。
每个组织都有大量的数据来源,因此也会有多个关于这些数据的假设,需要根据我们能从中提取的增量业务价值和数据质量来优先排序。如果没有这些优先级,我们往往会浪费时间和资源在低价值的业务问题上,这些问题在业务结果方面不会带来太多增量价值。为确保这一点,我们需要简化所有业务功能中的数据获取和存储活动,以提高可用于分析的数据质量,然后根据业务价值进行优先排序。每个模型的好坏取决于其数据,这一点需要时刻牢记。
将数据科学项目视为有明确开始和结果的项目可能是个错误,因为在组织在其分析和数据科学范式中达到稳定之前,它将经历一个广泛的试错阶段(至少几年的时间甚至更久),经历哪些有效,哪些无效,哪些数据相关,哪些模型表现良好,以及哪些模型最终需要部署才能产生有用的业务指标,从而产生增量影响。系统必须具备从错误中快速学习的灵活性和敏捷性,但通常很多人认为分析/数据科学是一种魔法,算法的一键点击将从根本上改变业务结果——没有比这更愚蠢的了。这是一个令人遗憾的现实。
我有时会想,人们是否能诚实地反思自己是问题的一部分还是解决方案的一部分。
当然,还有一些额外的原因涉及技能、IT、工具或数据库选择、存储解决方案、能力和资源,但这些问题只有在人员、生态系统和文化挑战得到解决之后才会优先考虑。这些额外的问题属于操作和技术方面的范畴,适合另写一篇文章。
简介:Ankit Mahajan,首席执行官兼总编辑 RetailMarketingTechnology.com,总部位于奥地利和印度
原文。已获转载许可。
相关:
-
特朗普、民调统计及预测房价
-
大数据 + 错误方法 = 大失败
-
大数据项目失败的 3 个原因