Evaluación de rendimiento de un modelo de machine learning
Max Zeballos
Posted on July 8, 2022
Motivación
Es importante evaluar un modelo para determinar el rendimiento de sus predicciones en nuevos datos. Dado que las futuras predicciones retornaran un valor aun desconocido, se debe evaluar con métricas el rendimiento de un modelo en un conjunto de datos de los cuales conocemos la respuesta. Utilizaremos esta evaluación de rendimiento para decidir si el modelo es enviado o no a un ambiente de producción.
Introducción
Una herramienta muy útil para realizar la evaluación de rendimiento de un modelo es la matris de confusión, que presentare a continuación.
Ahora vamos describir el significado de cada cuadrante dentro de la matris:
- True positives (TP): Es el caso en el que el clasificador predijo verdadero y es la respuesta correcta (Por ejemplo predecir que un paciente tiene una enfermedad)
- True negatives (TN): Es el caso en el que el clasificador predijo falso y es la respuesta correcta (Por ejemplo predecir que un paciente no tiene una enfermedad)
- False positives (FP) (Type I error): Es el caso en el que el clasificador predijo verdadero, pero no es la respuesta correcta (El paciente no tiene la enfermedad)
- False negatives (FN) (Type II error): Es el caso en el que el clasificador predijo como falso, pero no es la respuesta correcta (El paciente tiene la enfermedad)
En los casos revisados con anterioridad el error Tipo II es el mas grave. El paciente puede creer que esta sano cuando realmente no lo esta y no tomara ninguna acción respectiva. En el caso del error Tipo I el paciente se someterá a mas exámenes y descubrirá que la predicción del modelo fue un error y que realmente esta sano.
Indicadores clave de rendimiento (KPI)
- Exactitud (Accuracy): (TP + TN) / (TP + TN + FP + FN)
- Taza de error (Misclassification rate): (FP + FN) / (TP + TN + FP + FN)
- Precisión: TP/ (TP+FP) (Cuando el modelo predice Verdadero, ¿Con que frecuencia lo hace bien?)
- Exhaustividad (Recall): TP/ (TP+FN) (Cuando la predicción fue realmente verdadera ¿Con que frecuencia el clasificador acertó? )
Precisión vs Exhaustividad (Recall):
Ahora vamos a ver un ejemplo para entender el objetivo de precisión y exhaustividad:
Información del dataset a evaluar:
- 100 es el total de pacientes
- 91 pacientes están sanos
- 9 pacientes tienen cáncer
Despues de entrenar nuestro modelo y hacer predicciones con el dataset de prueba, construimos la siguiente matris de confusión.
Esto significa que:
- TP: El modelo predijo correctamente que 1 persona esta enferma
- TN: El modelo predijo correctamente que 90 personas no están enfermas
- FP: El modelo predijo incorrectamente que 1 persona esta enferma
- FN: El modelo predijo incorrectamente que 8 personas están sanas
Ahora vamos a calcular las métricas:
- Exactitud = (TP+TN) / (TP + TN + FP + FN) = (1 + 90) / (1 + 1 + 8 + 90 ) = 0.91 -> 91%
- Presicion = TP / (TP + FP) = 1 / (1 + 1) = 0.5 -> 50%
- Exhaustividad = = TP / (TP + FN) = 1 / (1 + 8) = 1/9 -> 11%
De las métricas de rendimiento extraemos que:
- La exactitud es generalmente engañosa y no es suficiente para evaluar el rendimiento de un clasificador.
- La exhaustividad (recall) es un KPI importante en situaciones en las que:
- El conjunto de datos está muy desequilibrado; casos en los que los pacientes con cáncer son mucho menor a comparación con los pacientes sanos.
Precisión
En el ejemplo tenemos: TP / (TP + FP) = 1 / (1 + 1) = 50%
- La precisión es una medida de Positivos Correctos, en el ejemplo, el modelo predijo que dos pacientes eran positivos (tiene cáncer), pero sólo uno de los dos era correcto.
- La precisión es una métrica importante cuando los falsos positivos son importantes (cuántas veces un modelo dice que hay algo cuando realmente no hay nada alli)
Exhaustividad (Recall)
En el ejemplo tenemos: TP / (TP + FN) = 1 / (1 + 8) = 11%
- La exhaustividad también se denomina tasa de verdaderos positivos o sensibilidad.
- En este ejemplo, se tuvo 9 pacientes con cáncer pero el modelo solo detectó 1 de ellos
- Esta métrica es importante cuando nos preocupamos por los falsos negativos
- Otro buen ejemplo del uso de la métrica seria la detección de fraudes
F1 SCORE
F1 Score = (2 * (presicion * recall) ) / (presicion + recall)
o también
F1 Score = (2 * TP) / (2 * TP + FP + FN)
- F1 Score es una medida general de la precisión de un modelo que combina precisión y exhaustividad(recall). Es la media armónica de precisión y exhaustividad.
¿Cuál es la diferencia entre F1 Score y exactitud?
En conjuntos de datos desequilibrados, si tenemos una gran cantidad de verdaderos negativos (pacientes sanos), la exactitud podría ser engañosa. Por lo tanto, la puntuación F1 podría ser un mejor KPI para usar, ya que proporciona un equilibrio entre exhaustividad (Recall) y precisión en presencia de conjuntos de datos desequilibrados.
Conclusión
Todas estas métricas de rendimientos nos ayudaran a determinar que tan bueno es el trabajo de nuestro modelo. Es importante entender los resultados del modelo para saber si podemos enviarlo a un ambiente productivo o iterar con un nuevo conjunto de datos o usar otro algoritmo de entrenamiento.
Posted on July 8, 2022
Join Our Newsletter. No Spam, Only the good stuff.
Sign up to receive the latest update from our blog.