原文:
www.kdnuggets.com/2022/02/machine-learning-automatically-label-data.html
照片由 Matt Briney 在 Unsplash 提供
到 2025 年,全球创建、复制和消费的数据量预计将达到 181 兹字节。然而,由于远程工作的普及(由 Covid-19 大流行引起),我们生成、使用和 保护数据 的方式发生了变化。因此,我们可以预期会超出最初的预测。
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT 需求
大多数原始数据需要分类和标注。传统的手动注释数据的方法已经变得过于耗时和低效。这主要是因为公司需要处理的数据量非常庞大。如今,我们需要更可靠和有效的技术。人工智能和机器学习可以为我们提供这些工具。本指南将深入探讨如何利用机器学习标注数据。
数据标注描述了对数据进行标记和注释的过程。这些数据可以是媒体文件,如图像、视频或音频。或者,它可以是文本或文本文件。数据标签通常提供数据的相关信息和背景描述。例如,数据的目的、内容、创建时间和创建者。
这些标注数据通常用于训练 机器学习 模型。在数据科学中,例如,标记的音频数据文件可以用于深度学习中的自动语音识别。在商业环境中,标注的营销数据可以与机器和深度学习模型一起使用,以产生更有效的 销售生产力工具 和软件。
传统上,数据标签首先由人工输入提供。例如,可能会要求人工标注者描述图像文件的内容。根据相关机器学习模型的复杂性和目的,标签的响应可以从非常详细到二进制——包括开/关或是/否答案。
然后,这些数据会被送入机器学习模型来训练它识别模式。教会机器和深度学习模型的过程称为模型训练。即使是已建立的机器学习模型也可以使用新的标注数据进行再训练。
使用标注数据的三种最常见的数据模型和领域是:
-
计算机视觉 (CV): 机器学习的一个领域,教会计算机识别和解释图像。计算机视觉模型使用标注的视觉数据来帮助识别图像或识别模式。例如,一个训练用来区分鸟类的计算机视觉模型应首先接收标注的图像数据和有用的描述词。
-
自然语言处理(NLP): 研究教会计算机如何识别和理解书面及口语的领域。目前,NLP 的最主流应用是在写作助手中的预测文本。一些 NLP 公司会获取用户应用数据作为其最终数据集(记录用户与写作助手和其他应用互动时的数据)。然而,这些数据仍然需要在某些情况下进行注释和排序。通常,这一过程最初由人工操作员完成。
-
音频处理: 机器学习的一个领域,涉及教会机器识别和辨别声音。这些音频可以从音乐到野生动物的声音。一个使用音频处理算法的商业应用的好例子是 Shazam——一个通过录音识别歌曲的手机应用。一开始,人类标注者将负责标记和分类某些声音和噪音。如果音频涉及到语言,可能需要标注者进行转录。
正如我们之前提到的,数据标注需要人工操作员(至少在传统上)。然而,这也有一些缺点。
为了有效地训练和测试你的机器学习模型,你需要一个大的数据仓库,尤其是对于大型项目。在开始时,并非所有的数据都是高质量的。
因此,其中一些数据需要在最终标记和用于训练之前进行排序。这个过程非常耗时且昂贵——尤其是手动操作时。数据准备好后,它最终可以由人工标注者进行标记和注释。这个过程也可能很昂贵和繁琐,增加了最终的开销。
在数据科学中,上下文、一致性、协作 和准确性是关键。数据标注可能是乏味和重复的。这一不幸的事实可能使数据标注员失去兴趣并出现错误。大型和多样化的数据集可能需要不断切换上下文,这可能对标注员的专注力有害。
尽管有方法和策略可以尽量减少认知负荷和最终的倦怠,但这些无法保证标注数据的零错误。你仍然需要应对人为的偏见和错误。此外,应用审计等策略可能有助于确保数据标签的有效性,但这也同样耗时。
这似乎有点递归,因为数据标注的整个目的就是创建数据集以训练机器学习模型。然而,数据标注员不一定必须是人工的。你可以用五种方式来标注数据:
-
内部人工标注: 涉及使用内部数据标注员。
-
合成标注: 涉及通过使用旧的、已建立的数据集来标注数据。
-
程序化标注: 涉及使用脚本和编码算法来自动化数据标注过程。
-
外包: 使用自由职业者或专门从事数据标注的公司。这些公司可能会使用他们自己的标注工具。
-
众包: 涉及使用调查和平台从普通用户(非数据科学家和专业人士)处收集和标注数据。尽管如此,众包在数据聚类方面更为有效。
上述每种方法都有其优缺点。然而,我们可以利用机器学习来规避其中的一些缺点和劣势。例如,我们不必完全用机器学习或人工智能解决方案取代内部人工标注。我们可以实现一个机器学习模型来帮助排序和准备数据。我们可以训练一个机器学习模型来区分高质量数据和多余数据。此外,我们可以实施另一个机器学习模型,在数据准备后验证和审计数据标签。
我们可以使用主动学习模型来帮助去除任何多余或非必要的描述符。实质上,机器学习可以减少人为错误和人工标注员处理数据集所需的时间。
合成标注需要一个已建立的标签数据库来注释新的数据。这种方法可以通过静态编码算法或机器学习模型完成。然而,后者是最有效的——尤其是对于较大的项目。它涉及首先用已经建立的数据集和人工标签来训练机器学习模型。一旦测试并达到能力水平,它可以标注新的原始数据。使用机器学习进行合成标注消除了对人工标注员的需求。
因为有成千上万的机器学习模型和项目,你的公司不必在内部构建机器学习模型。你可以修改和使用一个开源机器学习库或项目。许多已建立的模型可能已经能够满足你的数据标注需求。一些众包平台已经使用机器学习来帮助识别项目的最佳候选者。或者,你可以使用像 Datasaur 这样的软件来自动化标注过程。
随着公司追求更准确的数据和数据标注,显然它们不再能仅仅依赖人工互动来实现这一目标。这并不意味着人工标注者已经过时,但随着数据及其处理方式的不断变化,我们排序和标注数据的方式也必须随之改变。
我们可以逐步实施新的基于机器学习的协议和功能,以确保数据及其标签的准确性。数据科学是一个不断发展的领域,持续不断地取得进展和突破。然而,这对你来说是好消息(至少部分是好消息),因为你不会被抛在荒野之外。已经有成熟的机器学习数据标注平台可以帮助你的公司从对经典人工标注的依赖中迁移出来。
Nahla Davies 是一位软件开发者和技术作家。在全职从事技术写作之前,她曾管理——以及其他有趣的事情——担任过一家 Inc. 5000 体验品牌组织的首席程序员,该组织的客户包括三星、时代华纳、Netflix 和索尼。