Przewidywanie prawdopodobieństwa niewywiązania się z zobowiązań to jeden z najczęściej analizowanych problemów związanych z ryzykiem kredytowym. Do tego celu najczęściej wykorzystuje się algorytmy silnie zakorzenione w dziedzinie ekonometrii z uwagi na ich relatywnie łatwą interpretowalność (Siddiqi, 2005). Jednocześnie, istnieją bardziej zaawansowane metody uczenia maszynowego, które mogą być implementowane celem modelowania prawdopodobieństwa bankructwa. Ich interpretowalność wymaga wykorzystania odrębnych narzędzi należących do tzw. wyjaśnialnej sztucznej inteligencji (z ang. eXplainable Artificial Intelligence – XAI) (Arrieta et al., 2020; Kuźba & Biecek, 2020).
1.Trochę teorii
Wykresy zależności cząstkowej (z ang. Partial Dependence Plots – PDP) wizualizują krańcowe efekty jednej, albo dwóch zmiennych na przewidywaną przez model uczenia maszynowego wielkość. Funkcja zależności cząstkowej może być estymowana przy wykorzystaniu metody symulacji Monte Carlo (Metropolis, 1987; Molnar 2020). Formalnie funkcję zależności cząstkowej definiuje się w sposób następujący:
$$PD_{X_S}(x_S) = E_{X_S}[f(x_S,x_C)] = \int f(x_S,x_C)p(x_C)dx_C $$
gdzie $f(x_s,x_c)$ to funkcja opisująca rozważany model uczenia maszynowego. Z kolei $x_S$ oznacza zmienne dla których obliczana jest zależność cząstkowa, a $x_C$ wszystkie pozostałe. W praktyce, powyższa funkcja może być przybliżana:
$$ PD_{X_S}(x_S) \approx \frac{1}{n_{samples}} \sum_{i=1}^{n} f(x_S,x_C^{(i)}) $$
gdzie $x_C^{(i)}$ odpowiada wartości i-tej próby dla zmiennej $x_C$, a $n_{samples}$ liczbie prób. Taki algorytm wymaga analizy całe zbioru danych. W praktyce stosuje się szybsze przybliżenia oparte o estymatory bazujące na logice drzew decyzyjnych (Hastie, Tibshirani & Friedman, 2009; Molnar, 2020).
Funkcja zależności cząstkowej mówi o tym, jaki jest krańcowy wpływ na prognozowaną wartość przy poczynieniu założeń dotyczących wartości cech ją determinujących. W przypadku analizowania problemu klasyfikacyjnego (kategoryczna zmienna objaśniana), wykresy zależności cząstkowej przedstawiają prawdopodobieństwo określonego zdarzenia (odłożone na osi Y) przy założeniu konkretnych wartości analizowanej cechy (odłożonej na osi X). Wykresy analizują całość danych wykorzystanych do modelowania. Tym samym wizualizują zależność globalną. Zaletą opisywanego podejścia jest jego intuicyjność. Analizowana funkcja odzwierciedla średnią predykcję przy założeniu konkretnej wartości danej cechy (Molnar, 2020).
Koncepcja wykresów zależności cząstkowej ma jednak jedną poważną wadę. Zakłada niezależność rozważanych cech od pozostałych zmiennych. Naruszenie tego założenia może prowadzić do mało realistycznych zależności w przypadku wartości skrajnych, co wpływa na ostateczne wnioskowanie (Molnar, 2020).
Alternatywą dla tego podejścia jest koncepcja zakumulowanych lokalnych efektów (z ang. Accumulated Local Effects – ALE). Bazuje ona na warunkowych rozkładach cech. Pod uwagę brane są różnice w predykcji, nie średnie wartości. Wykresy ALE obrazują jak prognozy modelu zmieniają się w małym „oknie” wartości cechy. Formalnie, funkcja zakumulowanych lokalnych efektów prezentuje się w sposób następujący:
$$f_{x_S,ALE}(x_S) =\int_{z_{0,1}}^{x_S} E_{x_C | x_S} [f^S(X_S,X_C)|X_S = z_S]dz_S-C = \int_{z_{0,1}}^{x_S} \int_{x_C} f^S(z_S, x_C)P(x_C | z_C)dx_C dz_C – C$$
gdzie notacja jest analogiczna do przedstawionej przy omawianiu wykresów zależności cząstkowej. Dodatkowo wprowadzono elementy odpowiedzialne za analizę „okien” wartości danej cechy: $z_C, z_S$. Jednocześnie: $f^S(x_S,x_C)=\frac{\delta f(x_S, x_C)}{\delta x_S}$. Zakumulowane efekty lokalne celują w zdefiniowanie sąsiedztwa dla dokonywanych kalkulacji. Estymacji przedstawionych wyżej funkcji dokonuje się następująco:
$$f_{j,ALE}(x) = \widehat{f_{j,ALE}}(x)-\frac{1}{n}\sum_{i=1}^n \widehat{f_{j,ALE}}(x_j^{(i)})$$
gdzie odjemna powyższego wyrażenia to:
$$\widehat{f_{k,ALE}}(x)=\sum_{k=1}^{k_j(x)}\frac{1}{n_j(k)}\sum_{i:x_{j}^{(i)}\in N_j(k)[f(z_{k,j},x_{j}^{(i)})-f(z_{k-1,j},x_j^{(i)})]}$$
w której centralny element odpowiada różnicom w predykcji z modelu, przy podstawieniu elementów za faktyczne obserwacje. Ta część formuły jest szukanym efektem. Pozostała część, z uwagi na wykorzystanie średnich wartości, odnosi się do lokalnego elementu analizy. Z kolei odjemnik poprzedniej formuły odpowiada za akumulację – wycentrowanie efektu, tak aby średnio był on równy zeru (Molnar, 2020).
2. Analiza danych
Poniżej zaprezentowano wybrane narzędzia służące wyjaśnianiu modeli uczenia maszynowego. Do celów demonstracji wykorzystano powszechnie dostępny zbiór danych używany do modelowania prawdopodobieństwa bankructwa – credit-g (dostęp na: https://www.openml.org/d/31). Zbiór został opublikowany przez prof. Hansa Hofmanna z Instytutu Statystyki i Ekonometrii z Uniwersytetu w Hamburgu. Do przewidywania analizowanego fenomenu wykorzystano metody ekonometryczne (regresja logistyczna), a także algorytmy uczenia maszynowego bazujące na logice drzew decyzyjnych: pojedyncze drzewo decyzyjne, lasy losowe.
Biblioteka sklearn dostępna w języku Python oferuje implementację logiki wykresów zależności cząstkowej w przystępny i czytelny sposób. Z kolei rozważając implementację zakumulowanych lokalnych efektów w języku Python, należy skupić się na bibliotece alepython. Modelując prawdopodobieństwo niespłacenia zaciągniętych zobowiązań, możemy zbadać zależność między nim, a wielkością udzielanego kredytu. Poniżej przedstawiono również ALE ploty dla zmiennych opisujących wielkość udzielanego kredytu, czas jego trwania i wiek kredytobiorcy
Analizowana zmienna: credit_amount | ||
PDP plot | ALE plot | |
Regresja logistyczna | ![]() |
![]() |
Drzewo decyzyjne | ![]() |
![]() |
Lasy losowe | ![]() |
![]() |
Analiza wieku kredytobiorcy sugeruje, że im starszy klient, tym mniejsze prawdopodobieństwo niespłacenia przez niego należności. Wizualizacja przedykcji dokonanych przez bardziej zaawansowane modele sugeruje, że zależność nie ma charakteru liniowego. Ryzyko bankructwa zmniejsza się gwałtownie wśród osób w wieku od 20 do 30 lat (od 50 do 29% według drzewa decyzyjnego, ale od 38% do 31% według lasów losowych). Analogicznych konkluzji można dokonać w oparciu o ALE plot. Wydaje się, że przeciętną wartość prawdopodobieństwa niespłacenia kredytu obserwuje się przy około 27 latach. Przedstawione przewidywania mogą być użyteczne w szczególności przy ustalaniu oprocentowania kredytu. Przykładowo, przyjmując że bank dąży do oprocentowania kredytu średnio na poziomie 2%, można w ten sposób przedstawiać ofertę osobom w wieku 27 lat. Oprocentowanie będzie odpowiednio wyższe dla młodszych osób i niższe dla starszych.
Bibliografia
Arrieta A. B. et al. (2020). Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI. Information Fusion. Volume 58, Pages 82-115. Online: https://www.sciencedirect.com/science/article/pii/S1566253519308103. Access date: 28.07.2020.
Friedman J. H. (2001). Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics. Vol. 29, No. 5. Pages 1189-1232.
Kuźba M. and Biecek P. (2020). What Would You Ask the Machine Learning Model? Identification of User Needs for Model Explanations Based on Human-Model Conversations. Online: arXiv:2002.05674. Access date: 16.06.2020.
Metropolis N. (1987). The beginning of the Monte Carlo method. Los Alamos Science. Pages 125-130.
Molnar C. (2020). Interpretable Machine Learning. A Guide for Making Black Box Models Explainable. Online: https://christophm.github.io/interpretable-ml-book/. Access date: 28.07.2020.
Siddiqi N. (2005). Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring.
Janusz Gajda i Maciej Świtała