In data 11 giugno 2024, la UIF (Unità di Informazione Finanziaria) ha pubblicato, nella collana i Quaderni dell’Antiriciclaggio, lo Studio n.22 di giugno 2024, in cui viene esaminato lo sviluppo di un modello di machine learning finalizzato alla identificazione di aziende collegate alla criminalità organizzata in Italia.
Tale modello utilizza un dataset di 1.804.278 di imprese italiane nell’arco temporale 2010-2021, che include dati di bilancio, esposizione debitoria verso il sistema bancario e finanziario, dati occupazionali e informazioni sull’assetto proprietario e di governance.
Per addestrare il modello è stato utilizzato un campione di 28.570 imprese ad alto rischio di collegamento con la criminalità organizzata, sulla base di fonti pubbliche e selezioni della UIF.
La capacità del modello di riconoscere correttamente le imprese non infiltrate (c.d. Specificity) è del 74,2%.
L’algoritmo consente il calcolo di un indicatore di rischio per oltre 900.000 società di capitali attive in Italia, utilizzando dati di bilancio del 2021.
Molti esercizi di validazione del modello sono stati effettuati utilizzando dati indipendenti quali SOS e dati della Guardia di Finanza.
L’indicatore di rischio presenta possibili applicazioni quali l’elaborazione di mappe di rischio territoriali o settoriali e il supporto alle funzioni istituzionali della UIF e degli organi investigativi.