Deloitte Analytics

Artículo

La dificultad de predecir lo improbable: técnicas y consideraciones para el éxito

En Machine Learning, modelizar eventos como la fuga de clientes, la detección de fraude o el filtrado de spam, se corresponde a trabajar con problemas desbalanceados, puesto que dichos eventos son muy poco frecuentes respecto del total de casos posibles. En tales situaciones, se puede dar la paradoja de obtener modelos predictivos con un acierto muy alto (al predecir muy bien los eventos más probables) pero completamente inútiles para nuestros propósitos.

Por tanto, disponer de soluciones para contrarrestar esto es fundamental de cara a llegar a conclusiones de valor. Por ello, en este webinar se mencionaron muchas: elegir la métrica/KPI más apropiada para evaluar los modelos, balancear el número de eventos distintos, modificar modelos ya conocidos para ser capaces de lidiar con ello, etc. Ninguna solución funcionará siempre mejor que las demás, pero es seguro que, o bien alguna, o bien una combinación de ellas, nos ayudará enormemente en la resolución del problema.

El webinar también trató un tema poco conocido, pero crucial en determinados casos de uso: la calibración de modelos, que responde a la pregunta de: ¿se puede interpretar siempre el output de un modelo como una probabilidad, es decir, como un nivel de confianza en la predicción? En particular, en problemas desbalanceados, la respuesta es que no: se deben utilizar técnicas de calibración para que así sea.

En definitiva, en el webinar completo que puedes ver a continuación se pretende poner de manifiesto las características del desbalanceo de datos, exponiendo tanto sus potenciales inconvenientes como posibles soluciones, todo ello con el objetivo de obtener el suficiente conocimiento para crear modelos predictivos lo más fiables y útiles posible.

Contactos

Macarena Estévez, socia de Deloitte Consulting - Analytics

Francisco Llaneza, senior Data Scientist de Deloitte Consulting - Analytics

Daniel Martínez, Data Scientist de Deloitte Consulting - Analytics