风险 - JuicyScore 博客

罕见事的风险评估:数据科学的技术如何帮商业

30 May 2023 I 1 min read

我们一直寻找好用的并信息丰富的数据来帮我们管理一下贷款风险和作业风险。 为此,我们不仅发现了改善决策质量的新属性,还非常注意到其建立的结构。 我们也提供了结果的透明度和可理解性。

最大的问题之一是如何评估所发现的标记,并在风险评估中有效利用它们。这取决于标记的大部分数据属于罕见事件,因此正常的评估会遇到一些困难,或者无法使用标准方法进行评估。

在2015年至2017年期间,我们公司的员工制定了对罕见事件进行风险评估的技术。这种技术不论应用于哪个领域,无论是在贷款处理流程中还是决策系统框架内的评估阶段,都能提供可解释且稳定的结果。

JuicyScore方法学的意思是什么?

我们的方法学包括两个主要组成部分。
新标记的寻找和本地化方法
在风险评估过程中的标记数据评估和登记方法

方法学的第一部分涉及基于精确设备认证以及确定设备、环境和使用方法的各种参数来搜索/提取罕见事件的技术。

在一次在线会话中收集了65,000多个事件或用户设备的数据点。其中大部分与设备上的数据数组集成相关。

寻找罕见事件的技术主要是将所有事件分为4个主要方向。这些方向可以优先考虑搜索并评估在其中一个方向中出现新标记的概率/密度:

FAP (首次欺诈尝试/first attempt fraud )是我们试图通过设备意图来识别欺诈行为的一组,这些设备以前没有在此网络资源中出现过。

SAP (第二次欺诈尝试/Secondary attempt fraud) 是我们试图识别欺诈行为风险的一组,这些设备以前已经在此网络资源中出现过。

HRA (高风险的申请/High-risk Applications)不属于前两个组, 不过其风险很高(主要与社会违约或社会欺诈行为的高风险有关)。

其他欺诈风险较低的会话(有时,随着风险评估新技术的出现,一些会话会从这个组移动到前三个组中)。

方法学的第二部分属于罕见事或标记的风险评估/评分技术。
这种技术的基础是除了评估单个标记外,我们还尝试评估与其有物理意义相关或可以在逻辑上分组到其中一个方向的所有标记的集合。一共有10个这样方向---指数IDX1-10。

**这种分析工作有什么好处? **

每个指数(在统计和逻辑上)覆盖了一个方向中的所有重要标记。此外,这些指数可以在经典的数理统计方法或数据科学中得以利用。
我们已经提出了在构建异常连接指数IDX4的过程中的这种工作的例子。

如何处理IDX的变量?

聚合的IDX变量是由深度机器学习算法收集的一组罕见事件和自然因素,合并为一个统一的变量,可用于建模和嵌入到信贷机构的决策系统中。

值得注意的是所有的IDX指数都是高斯的变量。

这有两个原因。 首先, 指数在任何形式中仍然具有统计显著性。其次,它们允许根据欺诈事件类型来构建整个概率空间的结构。

下面是关于10个指数的信息,包括它们的描述和应用实践。

值得注意的是,我们提供的数据并未发现通过对设备进行技术操作或在互联网连接中引入显著异常来进行欺诈的高概率。

IDX1: 停止标记 (Stop markers)

IDX1表示由40多个高概率的技术操纵设备或在互联网连接中引入重要异常的欺诈事件的组合。
该变量包括所有设备随机化检测和干扰技术的集合,以及检测它们的"数字指纹"。

此外,该变量确定了用户风险行为和网络连接的最危险标记。该变量可用于规则和防欺诈风险模型的组成部分,以识别最危险的客户群体。

随着该参数值增加风险水平提高,高数值可以用作自动拒绝的过滤器。 图表上代表着已经在决策过程中使用IDX1的公司提供的聚合数据。‌

IDX-1_En.jpeg

除了使用IDX1变量和单独的停止因素,例如会话克隆特征(会话克隆变量向量)、网络会话标题的异常(UserAgent Issue变量向量)、画布阻塞特征(画布阻塞变量)、浏览器异常或操作系统异常,通过使用随机生成器来确定,还需要特别关注。

IDX2: 用户行为的标记

这个聚合变量是不同用户行为标记的组合。JuicyScore向量包含了数十个与用户行为有关的标记。设计这个变量的主要目标就是不论在线公司在何处从事活动,通过识别稳定的标记,并将它们组合成一个整体,来发现高风险群体的分段。

IDX2变量是基于与虚拟用户在网络上的行为或设备使用相关的因素构建的。
从一方面来看,它包含了与频率特征相关的因素。

比方说, 从一个设备或一个虚拟用户发出的申请或查询数量,具有特定的时间间隔或没有时间间隔,覆盖整个历史记录。
另一方面,该变量还包括确定在信贷申请或产品请求中使用的数据的稳定性或变异性的参数。

在一个设备或一个虚拟用户的大量多样化数据表明存在高作业风险。除此之外,变量数据中包括与设备或申请时的虚拟用户有关的在线行为的不同特征。

没有对数据进行操作的高频请求或对产品的申请可能意味着较高的信贷风险 (即所谓的贷款购物: 借款人在短时间内向不同的贷款机构申请贷款)。

在一个设备或一个虚拟用户中同时存在高频事件和数据变化的高水平是高作业风险的明确指标。下面是根据变量范围绘制的大致风险水平变化图表。

IDX-2_En.jpeg

除此之外,该变量还包括一组与用户风险行为相关的因素,不属于前两个类别。这些标记包括填写申请的方式、设备使用方式等等。

实质上,它是中高风险的罕见事件的组合,通过特定的组合方式,可以在决策系统和使用传统高斯方法构建的模型中使用。

IDX3: 设备的标记

IDX3是次要风险标记和设备异常的组合,其中每个异常单独都可能表示潜在风险,在验证借款人时应予以考虑,而它们在同时触发的情况下则标志着高风险区域。

与IDX1相同, IDX3的风险水平随着变量值的增加而增加,高值可以用作自动拒绝的筛选器。

IDX-3_En.jpeg

在我们的方法中, 最重要的指标就是几个指数的数值交集。
比如说, 如果IDX1和IDX3都等于0,没有检测到随机化和虚拟化特征的可能性则很大, 很可能是真实设

IDX4:互联网连接的标记

IDX4是网络参数和异常的组合,变量的高值可用于检测和预防欺诈风险。

在该指数中,考虑到诸如所使用的IP类型、设备的时区以及其与实际本地时区的匹配、DNS配置的使用等指标。

IDX-4_En.jpeg

IDX5: 设备质量的指数
在确定作业风险时,主要任务是拒绝那些有较高违约和支付债务风险的申请人。

而确定信用风险的主要任务是找到可以提供具有正确参数的金融产品的客户群体。

聚合的变量IDX5属于第二个类别。这种变量帮助根据信用风险水平对流入的数据进行分割。

当市场上的信用记录数据不足或数据质量较低时,这一点非常重要。

设备质量的一个衡量指标是其价格。 以下数据类别可能会影响设备的价格:设备类型(例如台式机或移动设备)、技术规格指标的组合(例如存储容量、核心数量、内存质量等)和制造商(知名品牌设备或罕见型号)。

重要特点:具有特定技术特征异常的设备不包括在此指数中,以实现与其他聚合变量IDX的更高正交性水平。

每个设备都具有许多技术指标和参数,这些指标和参数会影响设备的质量,并用于评估贷款风险。

因此,在构建该变量时,最重要的任务是确定这些指标并正确地对其进行建模,以确保每个指标的值分布的稳定性,并确保设备质量指数的值分布稳定,并增强其区分能力。

提到指数值的分布稳定性,重要的是确保它在时间上以及我们的合作伙伴和客户开展业务的所有地理区域上都保持稳定。

IDX-5_En.jpeg

从设备质量指数的值的解释角度来看,具有较低指数值的一部分流量显示出高信贷风险和低可支配收入水平的领域。

IDX6: 互联网基础设施质量的指数

IDX-6_En.jpeg

建议使用互联网基础设施质量指数来评估信用风险并识别社交欺诈风险,它可以作为信用评分模型的参数。

大于或等于2的数值会将申请流程中的一个更高级别的子段显示出来。

该指标包括国家和地区的网际协定(IP)等,即区域的互联网基础设施质量或区域风险水平、该子网的连接速度和质量等。

IDX7: 设备上应用的质量

这种变量只符合移动软件开发工具包(SDK)。该变量是对申请人设备上安装的应用程序进行聚合评估的指标,建议用于识别信贷风险和社会违约风险。

请注意一下,在评估该参数时,需要配置软件开发工具包(SDK)以收集设备上安装的应用程序的最终列表。

IDX-7_En.jpeg

**IDX8: 设备账户数据的变异性 **

聚合申请数据评估是申请数据操纵的指标,所以这个指数包括用户电话号码/地区中的重复数字以及设备的重复指纹。

IDX-8_En.jpeg

IDX9: 申请人设备上的移动应用程序风险水平

该变量仅通过移动应用程序可获取,并表示对申请人设备上已安装应用程序的综合评估。建议将其用于检测不同类型的欺诈风险和信用风险。

请注意,在评估此参数时,需要在软件开发工具包(SDK)的框架内配置应用程序的最终列表收集。

因为许多应用程序会影响作业或贷款的风险, 所以JuicyScore对这些应用程序进行详细的分析 (例如,远程访问应用程序、恶意应用程序、声誉不佳的应用程序等等)。
我们不断扩充我们的应用程序库,添加新应用程序的描述和特征。值得提出的是‌我们并不试图评估每个可用应用程序的风险,因为我们认为这是多余的行为。

IDX-9_En.jpeg

该变量的数值显示了安装在申请人设备上的应用程序的综合风险水平。

IDX10: 可支配收入的指数

这个指标显示了人口根据可支配收入水平的风险分段。指数越高,风险越低。

IDX-10_En.jpeg

建议将其用于评估作业和贷款风险。

为什么我们的系统很有效的?

为了有效地应对欺诈行为,拥有尽可能多的有用且经济回报的工具是必要的。
然而,众所周知,在这个领域中,没有适用于所有公司的通用解决方案或工具,它们的效率和回报可能因公司而异。

  • 我们的解决方案有以下一系列优点:
  • 我们的方法覆盖了所有可能的事件概率空间。
  • 该方法具有多倍的经济回报:根据资产成本、风险类型和信贷流程位置的不同。
  • JuicyScore的安装完全满足了获取互联网会话、设备和用户在线行为的最大数据集的需求。IDX指数的便利之处在于可以将其配置为截断流量的停止标记,特别是对于落入红区的流量。

每个红区都包括复杂计算的结果,涉及30个国家的研究成果和许多公司的参与。
我们非常关注构建指数的机制,并不断寻找有用且更具信息价值的数据,以帮助管理信贷和作业风险。

JuicyScore能够大大简化在风险管理和反欺诈领域中应用最新数据科学技术的过程,并更有效地利用这些技术。

关于我们的方法, 方法学和数据使用你想多了解的话, 请你给我们写一下, 我们乐意地回答你们的问题: [email protected][email protected]