El proyecto "Predict Likelihood" tenía como objetivo predecir la probabilidad de incumplimiento utilizando un conjunto de datos limitado. Dadas las limitaciones, el proyecto empleó metodologías creativas y rigurosas para evaluar el rendimiento de las variables y optimizar la selección del modelo.
- Test Chi-Cuadrado: Se evaluó la independencia de variables.
- Correlación de Spearman: Se evaluaron las relaciones monótonas entre variables.
- Valor de la Información (IV): Se determinó el poder predictivo de las variables.
- Bosque aleatorio, árboles de decisión, XGBoost: Se utiliza para comprender la importancia y la interacción de las variables.
- Rango intercuartil (IQR): umbral ampliado a 3,5 veces para identificar valores atípicos extremos.
- Histogramas y diagramas de caja: visualización de la distribución de datos e identificación de posibles valores atípicos para su eliminación.
- Gráficos de dispersión con líneas de regresión: tendencias ilustradas, como la relación entre DURACIÓN y probabilidad de incumplimiento.
- Filtrado por edad: Se excluyeron personas mayores de 67 años, categorizándolas como de alto riesgo.
-
Selección de variables:
- Métodos: Chi-cuadrado, correlación, agrupamiento de variables, IV, selección hacia adelante, hacia atrás y por pasos.
- Ajuste de hiperparámetros: se utilizó GridSearchCV para encontrar los mejores parámetros para cada modelo.
-
Modelos utilizados:
- Regresión logística
- Clasificador de bosque aleatorio
- Clasificador XGB
- Clasificador de aumento de gradiente
- Clasificador de árbol de decisión
- Clasificador AdaBoost
- Métodos de regularización: Lasso, Ridge, ElasticNet
-
División de datos:
- División de entrenamiento/prueba: relación 70/30.
- Modelo Final: Regresión Logística elegida por su desempeño consistente.
- Peso de la evidencia (WOE): datos transformados para garantizar la monotonicidad.
- Impacto variable: predictores clave identificados como CHK_ACCT, DURATION, USED_CAR y GUARANTOR.
- Métricas: Curva ROC, Gini, KS, con resultados:
- AUC: 0,77
- KS: 48,59%
- Gini: 0,55
- Se considera aceptable para el tamaño y la complejidad del conjunto de datos.
- Desarrollé un cuadro de mando para la evaluación crediticia de nuevos clientes utilizando las variables más predictivas.