Clases desbalanceadas y su tratamiento en R (publicado en LinkedIn)

En julio de 2022, publiqué en LinkedIn este artículo sobre clases desbalanceadas y cómo tratarlas con «R».
Para mi proyecto final del curso Professional Certificate in Data Science, decidí abordar el desafío de predecir accidentes cerebrovasculares (ACV). El principal problema que encontré fue un severo desbalance de clases en el conjunto de datos: solo el 4% de los casos eran positivos para ACV. Esto hacía que cualquier modelo simple fuera inútil, ya que podía lograr un 96% de precisión simplemente prediciendo «no-stroke» en todos los casos.
Mi primer paso fue confirmar que, sin un tratamiento especial, los modelos como los árboles de decisión fallaban por completo. Para solucionar esto, utilicé la librería ROSE en R para explorar diferentes técnicas de balanceo de datos en mi set de entrenamiento. Probé tres métodos:
- Oversampling (añadir copias de la clase minoritaria).
- Both (una combinación de oversampling y undersampling).
- Better estimates (generar datos sintéticos).
Descubrí que el método de better estimates generalmente me daba los resultados más consistentes y mejoraba la capacidad del modelo para identificar las variables predictoras más importantes, como la edad, el nivel de glucosa y el índice de masa corporal.
Tras balancear los datos, entrené y evalué varios modelos de clasificación. La combinación ganadora fue un Análisis Discriminante Flexible (FDA) que, al ser evaluado, logró una sensibilidad del 86% (pude identificar correctamente 36 de 42 casos de ACV) y una especificidad del 75%.
Finalmente, a pesar de los buenos resultados, reflexioné sobre una debilidad en mi enfoque: validé el modelo sobre un conjunto de prueba no balanceado. Esto significa que las métricas se basaron en muy pocos casos positivos (solo 42), lo que las hace muy volátiles. Mi principal conclusión del estudio es que una predicción positiva de mi modelo indica que una persona tiene 3.25 veces más probabilidades de sufrir un ACV que la población general, lo que resalta la importancia de vigilar los factores de riesgo conocidos.
Enlace al artículo completo en LinkedIn
Descubre más desde Consultor en Ciencia de Datos
Suscríbete y recibe las últimas entradas en tu correo electrónico.