Il nostro nuovo modello per la valutazione di rischio

Quando chiediamo a uno dei nostri clienti richiedenti che cosa è importante in un pagamento rateale, la risposta comprende invariabilmente un misto di semplicità e velocità. Il sogno di tutti è limitarsi a schiacciare un bottone e aspettare che arrivi la prima rata dopo un mese.

Quando invece chiediamo ai nostri clienti investitori che cosa è importante per loro, la risposta comprende invariabilmente un forte controllo sul livello di rischio.

Una componente essenziale del valore che genera Soisy è proprio riuscire a conciliare queste esigenze contrapposte, grazie a una valutazione immediata e selettiva del rischio di chi chiede un pagamento rateale.

Per farlo abbiamo sempre puntato sull’automazione: fin dalla partenza di Soisy la stima del rischio di credito è stata fatta in automatico (mentre il rischio frode è tuttora valutato da una persona, anche se stiamo lavorando anche su questo). Il risultato è stata un’esperienza utente molto rapida, con gli utenti più veloci che impiegano meno di 10 secondi per l’approvazione, e un’esperienza tipica che è comunque sotto ai 2 minuti.

All’inizio ovviamente non avevamo dati su cui costruire un motore di valutazione e quindi per farlo ci siamo basati sulla nostra esperienza, sfruttando il fatto che una buona parte del team venisse dal risk management. Nel tempo abbiamo ovviamente fatto qualche aggiustamento a quel primo modello, ma la struttura di base è rimasta quella. 

Va detto peraltro che in questi anni la nostra performance è stata più che soddisfacente, come emerge dal grafico qui sotto, che mostra tassi di perdita crescenti per classe di rating e coerenti con i tassi di interessi applicati (con la sola eccezione del confine tra le classi 4 e 5, che probabilmente lasciava troppo poco rischio nella 4 e troppo nella 5).

Tasso di perdita e tasso di interesse sui prestiti appartenenti al campione di sviluppo del nuovo modello di valutazione di rischio. Tasso di perdita stimato come tasso di ingresso a 2 rate con una perdita del 65%.

Sapevamo però che un modello basato sui nostri dati sarebbe stato molto migliore e alla fine del 2019 finalmente siamo diventati abbastanza grandi da poterlo sviluppare. A gennaio di quest’anno siamo quindi partiti per l’attività di stima, con l’idea di arrivare rapidamente a una nuova versione.

Avendo un numero ancora limitato di dati, ci aspettavamo di dover fronteggiare alcuni ostacoli metodologici, ma eravamo convinti della nostra capacità di trovare una soluzione con la fattiva collaborazione di tutti i membri del team, che emerge con chiarezza anche dai nostri scambi su slack, la chat interna di Soisy.

Il CEO e la Risk Manager di Soisy si confrontano pacatamente su sottili discussioni metodologiche

Quello che non ci aspettavamo era la difficoltà di trovare una metodologia coerente con la presenza di un modello di pricing separato da quello di approvazione, una situazione che non ci era mai capitata, nonostante avessimo sviluppato modelli in decine di banche. 

Penso però che questo genere di dettagli metodologici interesserà solo a pochi appassionati e l’ho quindi confinato nel prossimo paragrafo, che può essere saltato senza problemi per proseguire la lettura più in basso.

L’analisi dietro la valutazione di rischio: che metodologia abbiamo seguito

L’insieme di dati su cui abbiamo sviluppato il nostro modello (il cosiddetto campione di sviluppo) è composto da quelle richieste (poco più di 2000) sulle quali abbiamo potuto osservare una storia di pagamenti sufficiente per classificarli in uno stato di default o meno. Questo ha lasciato fuori la gran parte dei prestiti finanziati in Soisy, che sono quasi 15.000; abbiamo quindi un’ottima opportunità di miglioramento man mano che “matureranno” anche questi prestiti.

Vista la limitata dimensione del campione di sviluppo per la stima dei modelli abbiamo deciso di utilizzare una metodologia abbastanza classica, basata sulla selezione di un gruppo di variabili in base al loro Accuracy Ratio e alla correlazione con le altre variabili, sulle quali abbiamo poi applicato una regressione logistica per la stima del modello. Non abbiamo utilizzato però la curva di calibrazione offerta dalla logistica, ma abbiamo calibrato separatamente utilizzando una curva esponenziale.

Per i coraggiosi che ci hanno seguito fin qui senza avere un’esperienza diretta di sviluppo di modelli di rischio questo vuol dire, detto in parole più semplici, separare lo sviluppo in 3 fasi:

  • identificazione delle variabili che possono essere utilizzate per creare un modello, sulla base del fatto che: 1. siano sufficientemente predittive del rischio di default, cioé con un Accuracy Ratio sufficientemente alto, 2. non dicano tutte la stessa cosa (=non abbiano un’alta correlazione), perché in caso contrario non aggiungerebbe valore tener conto di più di una variabile;
  • creazione di un modello predittivo della probabilità che il cliente non paghi sulla base dei valori delle variabili selezionate, utilizzando una particolare tecnica statistica, detta regressione logistica, che ipotizza l’esistenza di un relazione a forma di S tra queste variabili e la probabilità di mancato pagamento; il risultato di questo modello è uno score numerico calcolabile per ogni richiesta e predittivo del merito creditizio del cliente;
  • stima della relazione tra lo score e la probabilità di mancato pagamento, anche detta calibrazione.

Unica particolarità della metodologia utilizzata è stata la trasformazione delle variabili in modo da permettere l’interpretazione dei coefficienti di regressione come pesi (tra 0% e 100%), in modo da renderne più semplice l’interpretazione, senza ovviamente influenzare la loro capacità predittiva.

La prima sorpresa è avvenuta alla fine della fase di stima del modello, perché questo ha mostrato un potere predittivo decisamente superiore alle attese. In realtà già dopo aver visto le correlazioni tra le variabili, l’impressione di avere a che fare con un modello notevole si era fatta strada nel team – sempre accompagnata dal dubbio che risultati così belli derivassero da un errore, un classico approccio da risk manager.

Lo Slack di Soisy travolto dall’entusiasmo dopo l’analisi di correlazione tra le variabili che utilizzeremo per la valutazione di rischio

L’entusiasmo è stato subito spento dalla seconda sorpresa, arrivata quando ci siamo resi conto che la presenza di durate molto diverse tra di loro (tra 3 e 60 mesi) poteva creare un bias nel campione di sviluppo. Per risolvere il problema senza buttar via tutto il lavoro fatto fin lì, abbiamo dovuto separare i modelli tra lunghe e corte durate. Questo ci ha costretto comunque a rifare buona parte dell’analisi, ma ha anche migliorato ulteriormente la performance.

Un’ulteriore difficoltà è arrivata poi dall’improvvisa consapevolezza dell’impossibilità di calibrare il modello di pricing senza tenere in considerazione l’effetto del motore di approvazione che, portando alla bocciatura di molte richieste, avrebbe impattato significativamente sui tassi di default. In Soisy ci sono infatti due distinti momenti di valutazione del credito: prima viene calcolato il prezzo (tasso e commissioni) che il cliente dovrà pagare in base al suo rating di rischio e poi viene decisa l’approvazione o meno del cliente, su un insieme più ampio di dati.

A questa difficoltà è seguita a ruota la scoperta che non sarebbe stato possibile sviluppare un vero e proprio motore di approvazione, perché la stessa notevole predittività del motore di pricing rendeva impossibile migliorarne la performance incorporandolo in un secondo motore statistico. 

Per complicare ulteriormente il quadro va inoltre ricordato che il nuovo motore di valutazione del rischio rappresentava una notevole novità rispetto alla situazione attuale, quindi sarebbe stato applicato anche a un buon numero di richieste che al momento venivano bocciate (così come sarebbe avvenuto anche il fenomeno contrario, la bocciatura di molte richieste che in passato erano state accettate).

La soluzione a questo triplice problema è stata trovata nella definizione di un insieme di regole di approvazione/bocciatura (es. no rating 6, no clienti con sofferenze su un’altra banca, etc. ), nella successiva calibrazione sul campione di sviluppo al netto dei clienti che sarebbero stati bocciati per regole diverse dal rating e nella scelta di una calibrazione basata su una forma funzionale esponenziale, in modo da poter estendere con facilità i risultati anche ai clienti al di fuori del campione di sviluppo.

A completamento del modello, abbiamo inserito nella calibrazione un parametro relativo alla situazione economica che esprimesse il nostro “sentiment” sulle prospettive economiche, in modo da poter adattare con facilità il modello al mutare delle condizioni (una scelta che si sarebbe rilevata immediatamente provvidenziale).

Il risultato di tutto questo è stato, come si è accennato, un motore molto performante, con un Accuracy Ratio molto soddisfacente del 59%, nonostante la separazione in sole 5 classi di rating.

Cosa cambia in pratica

Riepilogando quindi, la capacità predittiva del nuovo modello è altissima e di conseguenza migliora anche la redditività attesa per gli investitori, come emerge dal grafico, dove la redditività è data dalla differenza tra la colonna verde e quella rosa.

Tasso di perdita (con vecchio e nuovo modello) e tasso di interesse sui prestiti appartenenti al campione di sviluppo del nuovo modello di valutazione di rischio. Tasso di perdita stimato come tasso di ingresso a 2 rate con una perdita del 65%.

A marzo siamo finalmente riusciti a portare a conclusione l’attività di stima, ma nel frattempo, a causa dell’esplosione della Covid-19, era cambiato il mondo. 

Il nostro problema non era più migliorare la percentuale di approvazione, ma assicurarci di non peggiorare il merito di credito dei clienti approvati, a fronte di uno scenario economico incerto.

Per fortuna un modello ben costruito permette di gestire con facilità queste situazioni. Nel nostro caso è stato sufficiente rivedere il parametro relativo alla situazione economica e portarlo a 1,5 (un valore molto conservativo, coerente con perdite superiori del 50% a quelle storiche) per permetterci di lasciare invariata la percentuale di approvazione, ma diminuire fortemente i rischi assunti.

Nel frattempo la rapida crescita di Soisy negli anni scorsi fa sì che ogni mese che passa aumentino in maniera sostanziale i dati a nostra disposizione per la stima. Per trarre il massimo possibile da questi dati, continueremo ad incorporarli progressivamente nella stima del modello, con aggiustamenti progressivi ogni paio di mesi.

Ma la cosa più rilevante è che di questo passo pensiamo che tra circa un anno sarà possibile automatizzare la stessa stima del modello, utilizzando tecniche di machine learning, che velocizzeranno enormemente il fine-tuning del modello e saranno in grado di migliorare sensibilmente i risultati.

L’unico timore è che qualcuno a causa di questo rischi il posto…

Articolo precedente

Articolo successivo

Condividi

Contattaci

supporto@soisy.it

+39 02 8295 6494

Disclaimer

Con nessuno dei nostri articoli offriamo consulenza finanziaria: i dati e le analisi contenuti negli articoli del blog sono a scopo informativo e non costituiscono la consulenza di un esperto.

Voglio saperne di più