AN5 - 信用评分中的噪声 | 纯粹借贷批判

【应用笔记：信用评分中的噪声较小时，晚违约的客户密度比早违约的客户密度大】

1. 前言

在AN3中，我们讨论了vintage曲线抛物线形状的成因。一笔共有\(N\)期的借款第\(i\)期发生违约的概率为\(\mathrm{P}(τ=i) = \frac{PD}{N}\)，也就是如果借款人各期违约的概率是相同的，那么vintage曲线就会形成抛物线的形状。假如违约对于借款人是每个时刻都有等概率发生的随机事件，那么违约时间将是指数分布，在违约率较小的时候，违约发生时间趋近于各期平均分布。

如果把借款人违约前还款总金额看作“还款能力”，那么各期违约概率平均分布，就等价于各种还款能力平均分布：发生违约的（还款能力小于应还金额的）客户群体中，更大的还款能力出现的概率和更小的还款能力出现的概率相同。

如果借款人客群是经过信用评分筛选的，那么违约客户的还款能力通常不是平均分布的。当信用评分完全无噪声时，风控策略筛选出还款能力大于应还金额的客户，违约客户就完全不会存在。

如果评分有噪声，真实还款能力小的客户可能受噪声影响获得了较高的评分，给本来应该被拒绝的客户发放了借款，于是这笔借款就发生了违约。一般来说，噪声中更容易出现较小的值，而不容易出现较大的值。这将导致观测到的违约客户中，还款能力小的客户比还款能力大的客户少。

2. 假设与前提条件

借款人真实还款能力为随机变量\(Y\)，具有有限的期望和方差。
还款能力评价的噪声为随机变量\(W\)，和\(Y\)无关，也具有有限的期望和方差。因为含噪声的评价结果\(Y+W\)的期望和方差均有限，所以\(Y\)和\(W\)的期望和方差都是有限的。
\(Y+W≤α\)的客户将被拒绝，\(α\)是一个常数，作为风控策略筛选条件。

注意信用评分\(Y+W\)是\(Y\)和\(W\)相加，但真实还款能力和信用评分之间没有因果关系。因为真实还款能力在获取信用评分时并不是实在的存在，只有在开始还款后，才存在真实还款能力。不过没有因果关系不影响对噪声的分析，这里噪声可以理解为逆时间方向的散射幅度。

3. 违约客户的真实还款能力分布

虽然最初只能看到含有噪声的还款能力，但是违约时间越晚客户的真实还款能力越大，因此可以通过统计违约时间估计违约客户的真实还款能力分布。所以对于违约客户，不仅可以观测到含噪声的还款能力\(Y+W\)，真实还款能力\(Y\)也可以观测到。从中我们也可以获取到关于噪声\(W\)的信息。下面分析真实还款能力分布与噪声的关系。

对于真实还款能力为\(β\)的客户，筛选前其分布为\(f(β)=\mathrm{Pr}(Y=β)\)。

通过筛选的客户真实还款能力分布为\(g(\beta)=\mathrm{Pr}(Y=β|Y+W>α)\)。

使用条件概率公式可得：

\[ \mathrm{Pr}(Y=β|Y+W>α) = \frac{\mathrm{Pr}(Y=β,Y+W>α)}{\mathrm{Pr}(Y+W>α)} \]

因为\(\mathrm{Pr}(Y+W>α)\)是一个常量，因此\(g(\beta)\)的变化趋势仅取决于\(\mathrm{Pr}(Y=β,Y+W>α)\)。

当\(Y=β\)时，\(W>α-β\)才能使\(Y+W>α\)，因此\(\mathrm{Pr}(Y=β,Y+W>α)=f(β)×(1-CDF_W(α-β))\)。其中\(CDF_W\)是\(W\)的累积分布函数。

真实还款能力在\((0,α)\)区间内的客户是会违约的客户，\(β\)在这个区间内时，\((1-CDF_W(α-β))\)随着\(β\)增加逐渐递增，意味着低于筛选条件\(α\)的真实还款能力\(β\)越贴近\(α\)，越有可能因为噪声而通过筛选，无论噪声的分布如何。

如果真实还款能力的分布\(f(β)\)是均匀分布，那么\(g(\beta)\)在\((0,α)\)区间内是递增的，表现为观测到违约的客户密度随还款能力递增：还款能力（\(β\)）小的客户比还款能力大的客户少，或者说违约时间（\(τ\)）早的客户比违约时间晚的客户少。

如果真实还款能力的分布\(f(β)\)更集中于较小的\(β\)，也就是申请借款的人中信用越差的人越多，设\(f(β)\)（申请人密度）从\(0\)（还款能力最差）到\(α\)（不违约的最低还款能力要求）减少的比例为\(1+ϵ\)，\(f(α)=f(0)/(1+ϵ),ϵ>0\)，只要：

\[ (1-CDF_W(α))f(0) \lt (1-CDF_W(0))f(α)\\ ⇔(1-CDF_W(α))f(0) \lt (1-CDF_W(0))f(0)/(1+ϵ)\\ ⇔(1-CDF_W(α))(1+ϵ) \lt (1-CDF_W(0)) \]

也就是对于\(β=0→α\)，\((1-CDF_W(α-β))\)增长的比例大于\(1+ϵ\)，那么仍然可以观测到违约客户的密度随还款能力递增。

例如真实还款能力数值区间是\((0,1)\)，筛选线是\(α=0.3\)，噪声\(W\)服从\(N(μ=0,σ=0.3)\)的正态分布，\((1-CDF_W(α-β))\)从\(0\)到\(0.3\)增加比例是\(1+ϵ=3.15\)，如果\(f(β)\)是指数分布，满足\(f(0.3)=f(0)/3.15\)时，这个指数分布的均值大约是\(0.26\)，低于筛选线的客户占68%，受噪声影响实际通过率是42.8%。只要申请人的真实还款能力比期望值0.26的指数分布更平均，那么违约客户的密度就是随还款能力递增的。

如果增大噪声，\(W\)服从\(N(μ=0,σ=0.5)\)的正态分布，\((1-CDF_W(α-β))\)从\(0\)到\(0.3\)增加比例是\(1+ϵ=1.823\)。如果\(f(β)\)是指数分布，满足\(f(0.3)=f(0)/1.823\)时，这个指数分布的均值大约是\(0.5\)，低于筛选线的客户占45%，受噪声影响实际通过率是58.6%。只要申请人的真实还款能力比期望值0.5的指数分布更平均，那么违约客户的密度就是随还款能力递增的。

但是噪声如果有直流成分\(W_{DC}\)，即使噪声方差为0，此时评估到的客户还款能力相当于真实值加上直流偏差：\(Y+W_{DC}\)，导致违约客户真实还款能力的分布与申请人客群总体的还款能力分布在\((α-W_{DC},α)\)区间内相同。

因此，噪声能量越小（越集中分布于0附近），违约客户的分布就会更接近于密度随还款能力上升而增大（有更多的人在后期违约）。如果违约客户并没有这样分布，说明信用评分的噪声过大，或者申请人客户群体中还款能力差的人密度过大。

值得注意的是，筛选线和噪声都不变的情况下，申请人总体资质变差的话，通过率下降和违约率上升会同时发生。例如上文中\(W\)服从\(N(μ=0,σ=0.5)\)正态分布的例子中，指数分布的均值从0.5下降到0.26，通过率会从58.6%下降到46%，通过筛选客户的违约率会从28.68%上升到53.89%。

4. 违约客户的信用评分分布

客户的信用评分是\(Y+W\)，分布函数是真实还款能力\(f(β)\)和噪声\(W(β)\)的卷积。因为违约客户是真实还款能力在\((0,α)\)区间内的客户，所以真实还款能力分布函数只有\((0,α)\)区间参与卷积（区间外是0），噪声全部参与卷积。

因此违约客户各信用评分的分布是噪声的分布函数经过平滑滤波的样子，滤波的权重值是真实还款能力\((0,α)\)区间内的客户密度。

当噪声的密度\(W(β)\)在\(\gt 0\)区间内递减时，卷积结果在\(\gt α\)区间也递减，因此违约客户的信用评分分布通常呈现低分区域的违约客户比高分区域的违约客户多。但如果这个信用评分分布下降慢，说明噪声的递减慢，证明噪声过大。

1. 前言#

2. 假设与前提条件#

3. 违约客户的真实还款能力分布#

4. 违约客户的信用评分分布#

1. 前言

2. 假设与前提条件

3. 违约客户的真实还款能力分布

4. 违约客户的信用评分分布