原文:
www.kdnuggets.com/5-common-data-science-mistakes-and-how-to-avoid-them
图片由 FLUX.1 [dev] 生成,并用 Canva Pro 编辑
你是否曾经想过为什么你的数据科学项目显得无序,或者结果比基线模型更差?这可能是因为你犯了 5 个常见但重要的错误。幸运的是,这些错误可以通过结构化的方法轻松避免。
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 在 IT 领域支持你的组织
在这篇博客中,我将讨论数据科学家常犯的五个错误,并提供解决方案来克服这些问题。关键在于识别这些陷阱并积极解决。
如果你收到一个数据集,经理让你进行数据分析,你会怎么做?通常,人们会忘记业务目标或我们通过分析数据想要实现什么,而直接跳到使用 Python 包进行数据可视化和分析。这可能会浪费资源并得出不明确的结果。没有明确的目标,很容易在数据中迷失,错过真正重要的见解。
如何避免:
-
从清楚定义你想解决的问题开始。
-
与利益相关者/客户沟通,以了解他们的需求和期望。
-
制定一个项目计划,明确目标、范围和交付物。
忽视数据清洗、转换以及理解数据集中的每一个特征等基础步骤,会导致分析缺陷和不准确的假设。许多数据科学家甚至不了解统计公式,只是使用 Python 代码来进行探索性数据分析。这是错误的方法。你需要选择适合特定用例的统计方法。
如何避免:
-
投资时间掌握数据科学的基础知识,包括统计学、数据清洗和探索性数据分析。
-
通过阅读在线资源和参与实际项目来保持更新,打下坚实的基础。
-
下载各种数据科学主题的备忘单,并定期阅读,以确保你的技能保持敏锐和相关。
选择复杂的数据可视化图表或添加颜色或描述是否重要?不重要。如果你的数据可视化不能正确传达信息,那么它是无用的,有时还可能误导相关利益方。
如何避免这一点:
-
了解不同可视化类型的优缺点。
-
选择最能代表数据和你想讲述故事的可视化方式。
-
使用 Seaborn、Plotly 和 Matplotlib 等各种工具来添加细节、动画和互动可视化,并确定传达发现的最佳和最有效的方法。
在构建模型数据时,科学家们将关注数据清理、转换、模型选择和集成。他们会忘记执行最重要的一步:特征工程。特征是驱动模型预测的输入,选择不佳的特征可能导致结果不佳。
如何避免这一点:
-
从已有特征中创建更多特征,或使用各种特征选择方法丢弃影响较小的特征。
-
花时间理解数据和领域,以识别有意义的特征。
-
与领域专家合作,获取哪些特征可能最具预测性的信息,或者进行 Shap 分析以了解哪些特征对某个模型的影响更大。
将准确性优先于其他表现指标可能会导致模型在生产环境中表现不佳。高准确性不总是等于好模型,尤其是当它过拟合数据或在主要标签上表现良好但在次要标签上表现不佳时。
如何避免这一点:
-
根据问题的背景,使用各种指标来评估模型,例如精准率、召回率、F1 分数和 AUC-ROC。
-
与利益相关者互动,以了解哪些指标对业务背景最为重要。
这些是数据科学团队不时会犯的一些常见错误,这些错误不能被忽视。
如果你想留在公司,我强烈建议你改善工作流程并学习处理数据科学问题的结构化方法。
在这篇博客中,我们了解了数据科学家经常犯的 5 个错误,并提供了这些问题的解决方案。大多数问题的发生是由于知识、技能和项目结构方面的不足。如果你能加以改进,我相信你会很快成为一名高级数据科学家。
Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为那些遭受心理疾病困扰的学生开发一个人工智能产品。