快速声明我在一个项目完整性团队从事数据工作。以下示例使用通用交易表和虚构场景其中内容并非来自我实际处理或见过的项目。观点仅代表我个人不代表我的雇主。欺诈检测核心交易数据中的欺诈检测主要依靠 SQL而非机器学习、图数据库也不是今年 Gartner 所鼓吹的任何技术。关键在于针对正确的表运用正确的连接方式以合适的条件运行 SQL 查询。我主要处理政府资助的福利项目但以下模式适用于任何包含交易表的场景如信用卡、医疗索赔、电子商务和销售点交易。只要资金流动并被记录这些查询就能找出记录中的异常情况。六种 SQL 模式1. 交易速度这是最简单的一种模式。持有被盗卡的人想在持卡人发现之前将卡内资金刷光因此会快速进行交易。需要调整时间窗口大小和交易数量阈值我通常会并行运行 1 分钟、5 分钟和 1 小时的版本并进行比较。有些持卡人可能会合法地超过阈值首次筛选后建立白名单很有必要。对于滑动窗口速度检测有特定的 SQL 形式QUALIFY 语句适用于部分数据库Postgres 需特殊处理。2. 不可能的行程如果一张卡先在芝加哥刷卡七分钟后又在洛杉矶刷卡很可能卡被克隆。haversine 函数用于计算大圆距离600 英里/小时的阈值有其设定依据还有几种类似模式值得运行。3. 金额异常小面额整数金额和略低于阈值的金额在欺诈交易中常见各有原因。福利交易中整数金额模式作用不大。4. 可疑商户刷卡器被破解会导致大量欺诈交易固定阈值存在问题更好的方法是将每个商户与自身进行比较选择一周的时间范围有其合理性三倍于正常水平是合适的起始阈值。5. 非营业时间交易大多数人消费有固定习惯该模式需要交易历史数据新账户可采用其他模式或在使用几个月后应用。6. 使用窗口函数组合信号这不是独立模式而是让其他五种模式可组合使用的设置。生成列后欺诈规则可简化为过滤表达式能加快发现欺诈行为。综合运用与未涉及内容单独使用任何一种模式都不够应综合运用并评分。刚开始检测建议从模式 1 开始使用模式 1 到 5 后可投入模式 6。本文未涵盖 NULL 处理、误报处理、隐私保护和成本控制等问题。根据大家需求接下来想写的内容包括窗口函数技巧、检测欺诈团伙等。如果有特定内容想了解可通过 [fixelsmith.com](https://fixelsmith.com) 联系。Fixel Smith 是在公共部门数据领域经验丰富的项目完整性分析师。关于实用 SQL、欺诈检测和分析写作的文章大约每两个月发布一次可通过邮箱地址订阅。
检测交易欺诈必备:六种 SQL 模式,综合运用加速欺诈发现!
快速声明我在一个项目完整性团队从事数据工作。以下示例使用通用交易表和虚构场景其中内容并非来自我实际处理或见过的项目。观点仅代表我个人不代表我的雇主。欺诈检测核心交易数据中的欺诈检测主要依靠 SQL而非机器学习、图数据库也不是今年 Gartner 所鼓吹的任何技术。关键在于针对正确的表运用正确的连接方式以合适的条件运行 SQL 查询。我主要处理政府资助的福利项目但以下模式适用于任何包含交易表的场景如信用卡、医疗索赔、电子商务和销售点交易。只要资金流动并被记录这些查询就能找出记录中的异常情况。六种 SQL 模式1. 交易速度这是最简单的一种模式。持有被盗卡的人想在持卡人发现之前将卡内资金刷光因此会快速进行交易。需要调整时间窗口大小和交易数量阈值我通常会并行运行 1 分钟、5 分钟和 1 小时的版本并进行比较。有些持卡人可能会合法地超过阈值首次筛选后建立白名单很有必要。对于滑动窗口速度检测有特定的 SQL 形式QUALIFY 语句适用于部分数据库Postgres 需特殊处理。2. 不可能的行程如果一张卡先在芝加哥刷卡七分钟后又在洛杉矶刷卡很可能卡被克隆。haversine 函数用于计算大圆距离600 英里/小时的阈值有其设定依据还有几种类似模式值得运行。3. 金额异常小面额整数金额和略低于阈值的金额在欺诈交易中常见各有原因。福利交易中整数金额模式作用不大。4. 可疑商户刷卡器被破解会导致大量欺诈交易固定阈值存在问题更好的方法是将每个商户与自身进行比较选择一周的时间范围有其合理性三倍于正常水平是合适的起始阈值。5. 非营业时间交易大多数人消费有固定习惯该模式需要交易历史数据新账户可采用其他模式或在使用几个月后应用。6. 使用窗口函数组合信号这不是独立模式而是让其他五种模式可组合使用的设置。生成列后欺诈规则可简化为过滤表达式能加快发现欺诈行为。综合运用与未涉及内容单独使用任何一种模式都不够应综合运用并评分。刚开始检测建议从模式 1 开始使用模式 1 到 5 后可投入模式 6。本文未涵盖 NULL 处理、误报处理、隐私保护和成本控制等问题。根据大家需求接下来想写的内容包括窗口函数技巧、检测欺诈团伙等。如果有特定内容想了解可通过 [fixelsmith.com](https://fixelsmith.com) 联系。Fixel Smith 是在公共部门数据领域经验丰富的项目完整性分析师。关于实用 SQL、欺诈检测和分析写作的文章大约每两个月发布一次可通过邮箱地址订阅。