Best Practice w modelowaniu PD, czy aby na pewno są the best? Vol. 1

Paź 2019

#klasyfikacja #modelowanie #ryzyko kredytowe #scoring

Intro

Niniejszy wpis jest pierwszym z serii artykułów, w których chciałbym pokazać możliwe rozwinięcia najlepszych praktyk dla modeli scoringowych/ratingowych w instytucjach finansowych. Zamysł niniejszego artykułu jest taki, że będę podsumowywał to, co jest panującym standardem rynkowym i pokazywał modele, które mogłyby być jego rozwinięciem.

W pierwszym artykule podejmę wątek regresji logistycznej jako standardu rynkowego. Chciałbym przedstawić kilka możliwych rozszerzeń najlepszych praktyk dotyczących samego modelowania, które można rozpatrzeć w ramach panujących aktualnie ram regulacyjnych i biznesowych (pominę kwestię możliwości budowy modelu scoringowego przy wykorzystaniu algorytmów uczenia maszynowego – o tym w następnych naszych artykułach).

W instytucjach finansowych proces budowy kart scoringowych dzieli się na kilka jasno określonych etapów. W ramach każdego etapu wypracowano przez lata najlepsze praktyki biznesowe i rzadko, a jeżeli już to w małym stopniu, wykonywane są analizy, czy odejście od najlepszych praktyk może nieść korzyść dla jakości budowanego modelu.  Główną przyczyną, jak to zwykle bywa, jest chroniczny brak czasu na eksperymentowanie. Dodatkowym czynnikiem utrudniającym modelowanie są zatwierdzone regulacje, czyli polityka budowy modeli skoringowych/ratingowych, które zwykle dają bardzo małą przestrzeń do implementowania nowych rozwiązań. Kolejnym czynnikiem jest małą skłonności walidatorów do akceptowania nowych rozwiązań. Regulacje EBA dotyczące modeli bazylejskich relatywnie jasno komunikują oczekiwania regulacyjne, podobne wytyczne dotyczą modeli IFRS9.

W ramach procesu budowy kart scoringowych/ratingowych można wyróżnić następujące kroki:

  1. Ustalenie założeń biznesowych i technicznych,
  2. Przygotowanie surowej próby do modelowania,
  3. Segmentacja,
  4. Inżynieria zmiennych i ich wybór,
  5. Budowa modelu prognostycznego,
  6. Walidacja modelu,
  7. Implementacja modelu i jego utrzymanie a zwłaszcza jego monitoring i rekalibracja.

Regresja logistyczna

Najpopularniejszym modelem stosowanych w tej chwili w szacowaniu ryzyka niewypłacalności (PD) jest regresja logistyczna. Za profesorem Paulem Allisonem popularności regresji logistycznej można doszukiwać się w trzech przyczynach: łatwości interpretacji, możliwości zastosowania samplowania oraz możliwości zastosowania estymatora dokładnego (dla małych próbek). Dodałbym jeszcze przyzwyczajenie regulatora i walidatorów do wybranej metody.

W mojej ocenie jedynie łatwość interpretacji może być argumentem, który sprawia, że regresja jest tak popularna – i to tylko dlatego, że rynek nauczył się ten model interpretować – iloraz szans nie jest najprostszym z mierników zmiany poziomu ryzyka. W kontekście interpretowalności wyników równie dobrymi modelami wydają się być modele:

  • probitowy (klasyka – najczęściej daje podobne wyniki co regresja logistyczna),
  • cloglog (inaczej mógłby być nazywany modelem hazardów proporcjonalnych),
  • compit,
  • model Gosseta (w skrajnym przypadku model cauchit),
  • regresja Firth’a,
  • scobit (czy szerzej model z funkcją wiążącą Perginona),
  • relogit,
  • gevit,
  • stit,
  • czy binarna regresja kwantylowa.

Trudno doszukiwać się prawdziwej przewagi modelu regresji logistycznej w możliwości samplowania oraz możliwości zastosowania modelu dokładnego, który ma sens tylko dla bardzo małych próbek, niezdarzających się w instytucjach finansowych. Samplowanie ma na celu rozwiązanie problemu relatywnie rzadkiego występowania złych klientów względem klientów dobrych w próbie (niezbilansowanego rozkładu zmiennej zależnej). Może przekładać się to na błędne oszacowanie, czyli obciążenie stałej w modelu. Analiza badań profesora Garego Kinga i jego zespołu pokazuje jednak, że problem ten staje się materialny dopiero przy naprawdę małej próbie, co ma uzasadnienie w analizie występowania wojen (mało wojen, mało okresów), ale czy ma w przypadku modelowania PD? Wydaje się, że nie. Wyjątkiem mogą być portfele o bardzo małym ryzyku. Jeżeli jednak uznać, że problem niezbilansowanej próby jest naprawdę istotny, to wiele z wymienionych w poprzednim akapicie metod pozwala ten problem zaadresować, jak choćby model scobit, relogit, regresja Firth’a czy stit. Dodatkowym elementem pozwalającym rozwiązać ten problem jest uwzględnienie regularyzacji, np. zastosowanie regresji grzbietowej, lasso, czy elastic net. Nie mam niestety jasnej odpowiedzi, które z tych metod, jeżeli jakiekolwiek, dają istotnie lepsze rezultaty niż regresja logistyczna, ponieważ nie udało mi się znaleźć kompletnego porównania tych metod.  Można jednak znaleźć wiele badań, które pokazują wyższość pojedynczych metod nad regresją logistyczną.

Niezależność obserwacji

Ciekawym, dodatkowym wątkiem w modelowaniu i często pomijanym jest powiązanie między obserwacjami w próbie do modelowania. W klasycznych modelach zakładamy, że obserwacje są niezależne. Tezę tę można bronić dla modeli aplikacyjnych, chociaż często uwzględniamy produkty tych samych klientów, traktując je jako niezależne. Trudno jednak bronić jej w sytuacji, gdy mamy do czynienia z modelami behawioralnymi, w których wykorzystujemy do modelowania więcej niż jeden przekrój portfela. Wyjątkiem może być jedynie sytuacja, gdy na potrzeby modelowania bierzemy tylko jeden przekrój portfela, wtedy problem jest analogiczny do modelu aplikacyjnego.

W praktyce, często rozwiązujemy ten problem biorąc do modelowania przekroje portfela oddalone od siebie na tyle dużo by móc uznać, że obserwacje są niezależne, ale czy na pewno są? Czy nie ma pewnych nieobserwowalnych cech klienta, które sprawiają, że klient jest bardziej lub mniej ryzykowny (np. stosunek do ryzyka?). Aby uwzględnić problem zależności obserwacji można zastosować modele efektów mieszanych, na przykład regresję logistyczną z efektami mieszanymi. Pracowałem z tymi modelami przy okazji badań medycznych i wiem, że istnieją opracowane metody weryfikacji sprawdzające, czy ich zastosowanie wnosi cokolwiek do analizy. Czy znacie inne modele efektów mieszanych, które można by w tym przypadku zastosować? A może są zupełnie inne rodziny modeli, które pasują do tego problemu? Jeżeli macie jakieś pomysły zachęcam do dyskusji na moim profilu LinkedIn.

 

dr Marcin Chlebus