原文:
www.kdnuggets.com/2022/09/data-science-fuels-fraud-prevention.html
图片由 Tima Miroshnichenko 提供
就像一个俄克拉荷马州的超级农场主被一个水力压裂公司接触一样,大多数电子商务公司并不知道他们所坐拥的潜在价值有多大。在这种情况下,我们谈论的不是自然资源,而是数据。数据挖掘被誉为新的石油热潮已经有 15 年了,但提炼原始数据的方法仍在不断探索中,我们可以用它来推动的机制也在不断发现中。
1. 谷歌网络安全证书 - 加入网络安全职业的快车道
2. 谷歌数据分析专业证书 - 提升您的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持您的组织的 IT
许多电子商务公司熟悉利用他们从访问流量中收集的数据来进行客户细分和定向营销等功能。当然,这些都是利润收益清单上的首要想法,但产生令人印象深刻的利润的一部分也包括减轻欺诈带来的损失——这是一个逐年增加的关注点。数据科学也为此提供了动力。
无论您转向哪个安全提供商,它提供的保护层都会从数据开始。一般来说,欺诈解决方案希望查看的数据点将从任何电子商务网站想要收集的信息开始。这些信息可能在数字市场中主动提供,意味着用户在提示时选择自行提供信息。常见的例子包括在网站上注册账户或订阅新闻通讯。这通常会产生如下数据点:
-
姓名
-
电子邮件地址
-
电话号码
-
物理地址
-
出生日期
或者,用户的数据点可能是被动收集的,用户没有有意、知情的参与:
-
IP 地址和其他连接信息
-
他们与网站的互动,包括花费的时间和其他行为生物识别数据
-
用于连接网站的设备的识别信息,一个设备指纹
单独来看,这些数据点可能无法提供有关单个客户的太多洞见。然而,拥有这些信息的公司能够较好地了解其访问者的合法性。欺诈软件可以利用这些数据点进行丰富化,将相对匿名的数据框架转变为完整的数字档案。
几乎所有使用身份验证来减少损失的欺诈解决方案都会大量依赖数据丰富化——即利用已知的数据点来扩展到相关的、更有用的数据点。通过这种方法,单一的(虽然重要)信息,如电话号码,可能会变成社交媒体上的帖子、照片以及朋友和家人。这些扩展的数据可以通过多种方式收集:
-
封闭源数据,或用户在注册或入职过程中自己提交的个人识别信息,这些信息无法在开放互联网的其他地方找到。
-
专有数据库中的聚合用户数据是另一种封闭源数据。许多欺诈预防解决方案利用庞大的数据库来交叉验证进入的流量。这些数据库可能包括历史上的良好或不良用户、欺诈交易行为、声誉数据,甚至信用历史,一些公司使用的专有数据库中数据参考点可能达到数十亿。
-
OSINT 数据,即开放源智能,是可以从公开可访问的来源中收集的数据集合,如与电子邮件或电话号码相关联的账户和注册信息、社交媒体上的图片和帖子、传统新闻来源、公共记录如结婚或逮捕、地理位置数据等。
在初步收集的数据点经过这种丰富化处理后,欺诈软件现在拥有一个更易于评估、更具决定性的用户档案。在审查档案时,会根据发现情况给每个用户分配一个欺诈评分。例如,通过 VPN 连接等潜在的欺诈指标会增加评分。一旦达到预定义的阈值,大多数解决方案提供自动阻止用户进程或将案件提升到人工处理的功能。
定义公司风险容忍度阈值是执行主动反欺诈计划的一部分——最有效的一种。就像你地板下的欺诈者一样,关于自己公司的数据越多,安全性就可以越高。设定明确的目标——例如,阻止 ATO 攻击——至关重要,清理你的数据并相应地标记它也同样重要。清理数据是关键。
在防止欺诈方面,这种数据准备对于支持几乎所有欺诈解决方案 AI 的机器学习算法至关重要。这些算法,无论依赖于什么模型,需要训练以为特定公司生成准确的结果。训练教会软件识别系统中欺诈者和良好客户之间的微妙差异,逐渐提高准确性,识别什么是合格的,什么是可疑的异常值。如果没有训练,信任机器学习算法自主运行是一项风险决定,但经过良好训练的算法可能只需很少的人工监督,从而释放资源。
一个用户来到你的电子商务平台,注册一个新账户,并开始他们的购物之旅。他们的用户数据看起来合法,因为他们填写了注册表单的每个部分,包括有效的电话号、电子邮件地址、姓名和位置。
然后你的欺诈软件介入,以防万一。通过对与提供的凭证相关的 OSINT 数据进行查找,程序注意到这个用户的电子邮件地址似乎是新的,而且他们的电话号码没有与任何社交网络关联——在 2022 年非常不寻常。虽然这个用户可能只是对社交媒体漠不关心,但大多数欺诈系统可以定制以标记这样一个异常用户为潜在可疑对象,并在其旅程被升级到人工审查时暂停处理。
专门的欺诈团队中的人工审查员介入,仔细查看此用户。最初,审查员倾向于将此用户标记为欺诈的假阳性,尽管他们的数字存在感很小。尽管仍有些犹豫,他们决定放大视角,查看软件报告的数据趋势分析。这一分析讲述了不同的故事。
该软件自动从汇总数据中提取洞察,注意到该用户的设备指纹与 70 个其他用户几乎相同。此外,通过运行速度检查,程序显示所有这些用户在网站上停留的时间相似,并且所有用户都在过去 72 小时内访问过该网站。此外,对所有这些账户的IP 分析显示,其位置与注册时声称的地址非常不同,并且许多这些 IP 来源于之前被标记为可疑的数据中心代理。
欣慰的是,他们没有简单地给这个用户绿灯,欺诈团队成员阻止了所有具有相同资料的交易。他们设置了一个自定义规则以检测匹配该资料的未来连接,然后享受了一顿因充实而令人愉快的午餐。
首先,任何电子商务业务最大的收获应该是,针对进站流量的欺诈预防解决方案对遏制系统内的欺诈是至关重要的。欺诈技术越来越复杂,根据 UK Finance 的数据,仅去年英国就因欺诈损失了£24 亿。
第二个关键点是要意识到,任何欺诈解决方案在获得模型的最佳数据时将最为有效。虽然提供一个低摩擦、低流失的购物体验对于每个电子商务部门都很重要,但这种体验必须与公司对欺诈损失的承受能力相衡量。通过要求额外的身份信息给客户旅程增加一点摩擦,不应导致巨大的投资回报率下降。此外,这可能会对你的客户群体提供更有洞察力的视角,正如前面讨论的那样,这些视角是驱动你欺诈缓解和希望中的利润的燃料。
Gergő Varga 自 2009 年以来一直在各种公司打击在线欺诈——甚至共同创办了自己的反欺诈初创公司。他是《Dummies 欺诈预防指南——SEON 特别版》的作者。他目前在 SEON 担任内容宣传员,利用他的行业知识保持市场营销的敏锐,协调不同部门以了解欺诈检测的前线情况。他住在匈牙利布达佩斯,是哲学和历史的狂热读者。