原文:
www.kdnuggets.com/2022/06/making-sense-crispmlq-machine-learning-lifecycle-process.html
构建和管理机器学习(ML)应用程序没有标准实践。因此,机器学习项目往往组织不善,缺乏可重复性,并且长期内容易完全失败。我们需要一个模型来帮助我们在整个机器学习生命周期中维持质量、可持续性、鲁棒性和成本管理。
作者提供的图像 | 机器学习开发生命周期过程
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织进行 IT
机器学习应用程序的跨行业标准过程与质量保证方法论(CRISP-ML(Q))是CRISP-DM的升级版,以确保高质量的机器学习产品。
CRISP-ML(Q) 包含六个独立的阶段:
-
业务和数据理解
-
数据准备
-
模型工程
-
模型评估
-
模型部署
-
监控与维护
这些阶段需要不断的迭代和探索,以构建更好的解决方案。尽管框架中有一个顺序,但后期阶段的输出可以决定我们是否需要重新审视前期阶段。
作者提供的图像 | 各阶段的质量保证
质量保证方法论被引入到框架的每个阶段。该方法论包含性能指标、数据质量要求和鲁棒性等要求和限制。它有助于减轻影响机器学习应用成功的风险。这可以通过持续监控和维护整体系统来实现。
例如: 在电子商务业务中,数据和概念漂移会导致模型退化,如果我们没有系统来监控这些变化,公司将会因失去客户而遭受损失。
在开发过程开始时,我们需要确定项目的范围、成功标准和 ML 应用的可行性。之后,我们开始数据收集和质量验证的过程。这一过程漫长且具有挑战性。
范围: 我们希望通过机器学习过程实现什么?是保留客户还是通过自动化减少运营成本。
**成功标准:**我们必须定义清晰且可衡量的业务、机器学习(统计指标)和经济(KPI)成功指标。
**可行性:**我们需要确保数据的可用性、ML 应用的适用性、法律约束、稳健性、可扩展性、可解释性和资源需求。
数据收集: 收集数据,为可重复性进行版本控制,并确保不断获得真实和生成的数据。
数据质量验证: 通过维护数据描述、要求和验证来确保数据质量。
为了确保质量和可重复性,我们需要记录数据的统计属性和数据生成过程。
第二阶段相当简单。我们将为建模阶段准备数据,包括数据选择、数据清理、特征工程、数据增强和标准化。
-
我们从特征选择、数据选择开始,并通过过采样或欠采样处理不平衡的类别。
-
然后,专注于减少噪声和处理缺失值。为了质量保证,我们将添加数据单元测试,以降低错误值的风险。
-
根据你的模型,我们执行特征工程和数据增强,例如,一热编码和聚类。
-
标准化和缩放数据。这将降低特征偏差的风险。
为确保可重复性,我们创建数据建模、转换和特征工程管道。
业务和数据理解阶段的约束和要求将决定建模阶段。我们需要理解业务问题以及我们将如何开发机器学习模型来解决这些问题。我们将重点关注模型选择、优化和训练,确保模型性能指标、稳健性、可扩展性、可解释性,并优化存储和计算资源。
-
研究模型架构和类似的业务问题
-
定义模型性能指标
-
模型选择
-
通过引入专家来理解领域知识。
-
模型训练
-
模型压缩和集成
为了确保质量和可重复性,我们将存储和版本化模型元数据,如模型架构、训练和验证数据、超参数和环境描述。
最后,我们将跟踪 ML 实验并创建 ML 管道,以建立可重复的训练过程。
这是我们测试并确保模型准备好部署的阶段。
-
我们将测试模型在测试数据集上的表现。
-
通过提供随机或虚假数据来评估模型的稳健性。
-
提高模型解释性以满足监管要求。
-
将结果与初始成功指标进行比较,自动或由领域专家进行。
为了保证质量,评估阶段的每一步都会被记录。
模型部署是一个将机器学习模型集成到现有系统中的阶段。模型可以部署在服务器、浏览器、软件和边缘设备上。模型的预测结果可以用于 BI 仪表板、API、Web 应用程序和插件中。
模型部署流程:
-
硬件推理定义
-
生产中的模型评估
-
确保用户接受度和可用性
-
提供备选计划并最小化损失
-
部署策略。
生产中的模型需要持续监控和维护。我们将监控模型的陈旧性、硬件性能和软件性能。
持续监控是过程的第一部分,如果性能低于阈值,将自动决定在新数据上重新训练模型。此外,维护部分不仅限于模型再训练。它涉及决策以获取新数据、更新硬件和软件,并根据业务用例改进机器学习过程。
简而言之,这是机器学习模型的持续集成、训练和部署。
训练和验证模型只是机器学习应用的一小部分。将初始想法转化为现实涉及多个过程。在这篇文章中,我们了解了 CRISP-ML(Q)及其如何强调风险评估和质量保证。
我们首先定义业务目标,收集和清理数据,构建模型,在测试数据集上进行验证,然后将其部署到生产环境中。
这个框架的关键组成部分是持续监控和维护。我们将监控数据、软件和硬件指标,以决定是否需要重新训练模型或升级系统。
图片作者
如果你对机器学习运维不太熟悉,想了解更多,可以阅读 DataTalks.Club 的免费 MLOps 课程的评论。你将获得所有 6 个阶段的实践经验,并了解 CRISP-ML 的实际应用。
Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络开发一种人工智能产品,帮助面临心理健康问题的学生。