Ten en cuenta esto durante un proyecto de Machine Learning
Leandro Ruiz
Posted on June 18, 2020
Esta lista puede guiarte a través de tus proyectos de aprendizaje automatico. Hay ocho pasos principales:
- Observa el problema y ten en cuenta el panorama completo.
- Obtén los datos.
- Explora los datos para obtener nueva información.
- Prepara los datos para exponer mejor los patrones ocultos de los datos a los algoritmos de aprendizaje automático.
- Explora varios modelos distintos y haz una lista de los mejores.
- Afina los modelos y combinalos en una gran solución.
- Presenta tu solución.
- Haz el lanzamiento, monitorea y manten tu sistema.
Obviamente, se libre de adaptar esta lista a tus necesidades.
Observa el Problema y Ten en Cuenta el Panorama Completo
- Define el objetivo segun los términos de tu empresa.
- ¿Como será usada tu solución?
- ¿Cuales son las soluciones disponibles (si hay)?
- ¿Como deberías afrontar este problema (supervisado/no supervisado, en línea/fuera de línea, etc.)?
- ¿Cómo debería ser medido el rendimiento?
- ¿La medición del rendimiento está alineada con el objetivo de la empresa?
- ¿Cuál sería el mínimo rendimiento necesario para alcanzar el objetivo de la empresa?
- ¿Qué problemas son comparables? ¿Puedes reutilizar experiencia o herramientas?
- ¿Tienes disponible experiencia humana?
- ¿Como resolverías el problema manualmente?
- Haz una lista de las suposiciones que vos (u otros) han hecho hasta ahora.
- Verifica esas suposiciones si es posible.
Obten los Datos
Nota: automatiza lo mas posible para obtener datos nuevos.
- Haz una lista de los datos que necesitas y en que cantidad.
- Encuentra y documenta de donde puedes obtener los datos.
- Chequea cuanto espacio va a necesitar.
- Chequea obligaciones legales y obtén autorización si es necesaria.
- Obtén autorizaciones de acceso.
- Crea un espacio de trabajo (con suficiente espacio de almacenamiento).
- Obten los datos.
- Convierte los datos a un formato en el que puedas manipularlos facilmente (sin cambiar los datos).
- Asegurate que la información sensible es borrada o protegida (es decir, anonimizada).
- Chequea el tamaño de los datos (series de tiempo, muestras, geográficas, etc.).
- Copia un set de pruebas, ponlo a un lado, y nunca lo mires (no espies los datos!).
Explora los Datos
Note: intenta obtener información de un experto en la materia para estos pasos.
- Crea una copia de los datos para exploracion (redúcela a un tamaño manejable si es necesario).
- Crea un Jupyter notebook para tener un registro de la exploración de datos.
- Estudia cada atributo y sus características.
- Nombre
- Tipo (categórico, integral/flotante, texto, etc.).
- % de valores perdidos.
- Ruido y tipo de ruido (estocasticos, outliers, errores de redondeo, etc.).
- Utilidad para el proyecto.
- Tipo de distribucion (Gaussiano, uniforme, logaritmico, etc.).
- Para tareas de apredizaje supervisado, identifica las categorías de objetivo.
- Visualiza los datos.
- Estudia las correlaciones entre atributos.
- Identifica las prometedoras transformaciones que querrías aplicar.
- Identifica datos extra que podrían ser útiles.
- Documenta todo lo que aprendiste.
Prepara los Datos
Notas:
- Trabaja en copias de los datos (manten los datos originales intactos).
- Escribe funciones para todas las transformaciones de datos que aplicas, por cinco razones:
- Asi puedes preparar los datos más facilmente la proxima vez que obtengas datos nuevos.
- Asi puedes aplicar estas transformaciones en futuros proyectos.
- Para limpiar y preparar el set de prueba.
- Para limpiar y preparar nuevos datos una vez que la solución esta implementada.
- Para hacer mas facil las elecciones de preparación como hiperparámetros.
- Limpieza de datos:
- Arregla o remueve los outliers (opcional).
- Reemplaza los valores perdidos (por ej., con 0, el promedio, la mediana, etc.) o remueve sus filas (o columnas).
- Selección de atributos (opcional):
- Elimina los atributos que no proveen información útil para el proyecto.
- Ingeniería de atributos, cuando sea apropiado:
- Discretiza los atributos categoricos.
- Descompone atributos (por ej., categoricos, fecha/hora, etc.).
- Añade transformaciones prometedoras de atributos (por ej., log(x), sqrt(x), x^2, etc.).
- Escala de atributos
- Estandariza o normaliza atributos.
Escribí un articulo sobre limpieza de datos con Python
Haz una Lista de los Mejores Atributos
Notas:
- Si los datos son muchos, quizás quieras crear muestras más pequeñas para entrenar los diferentes modelos en un tiempo razonable (ten en cuenta que esto perjudica modelos más complejos como redes neuronales).
- Una vez más, intenta automatizar estos pasos lo mas que puedas:
- Entrena rapidamente varios modelos de diferentes categorías (por ej, lineales, naive Bayes, SVM, random forests, redes neuronales, etc.) usando parámetros estandar.
- Mide y compara su rendimiento.
- Para cada modelo, usa N-fold cross-validation y computa el promedio y la desviación estandar del rendimiento en las N carpetas.
- Analiza las variables más significativas para cada algoritmo.
- Analiza los tipos de errores que los modelos producen.
- ¿Que datos habría usado una persona para evadir estos errores?
- Realiza una ronda rápida de selección de atributos e ingeniería.
- Realiza una o dos iteraciones rápidas más de los últimos cinco pasos.
- Haz una lista de los tres a cinco modelos más prometedores, prefiriendo modelos que producen diferentes tipos de errores.
Afina el Sistema
Notas:
- Vas a querer utilizar la mayor cantidad de datos posible para este paso, especialmente a medida que te acercas al final de esta sección.
- Como siempre, automatiza todo lo que puedas.
- Afina los hiperparámetros usando cross-validation:
- Trata las transformaciones a los datos como hiperparámetros, en especial cuando no estas seguro sobre ellos (por ej., cuando no sabes si deberías reemplazar los datos perdidos con ceros o con el valor promedio, o solo deshacerte de las filas).
- A menos que hayan pocos valores de hiperparámetros para explorar, prefiere la busqueda aleatoria por sobre Grid Search. Si el entrenamiento es muy largo, quizá prefieras una optimización Bayesiana.
- Intenta métodos de ensamblaje. Combinando tus mejores modelos obtendrás mejor rendimiento que utlizandolos individualmente.
- Una vez que tienes confianza en tu modelo final, analiza el rendimiento en el set de pruebas para estimar el error de generalización.
No modifiques tu modelo despues de medir el error de generalización: solo comenzarás a sobreajustar (overfitting) el set de pruebas.
Presenta tu Solución
- Documenta todo lo que realizaste.
- Diseña una buena presentación.
- Asegurate de destacar el panorama.
- Explica por qué tu solución alcanza el objetivo de la empresa.
- No olvides de presentar puntos interesantes que hayas visto durante el trayecto.
- Describe que funcionó y que no.
- Haz una lista de suposiciones y de las limitaciones de tu sistema.
- Asegurate que tus descubrimientos más importantes son comunicados a traves de hermosas presentaciones o frases que son faciles de recordar (por ej., "el ingreso promedio es el predictor número uno del precio de las viviendas").
Lanzalo al mundo!
- Deja tu solución lista para producción (conectalo a las entradas de datos de producción, escribe tests de unidades, etc.).
- Escribe código de monitoreo para chequear el rendimiento en vivo de tu sistema en intervalos regulares y pon alarmas para cuando no funciona correctamente.
- Ten en cuenta la degradación lenta: los modelos tienden a quedarse atrás mientras los datos evolucionan.
- Medir rendimiento quizá requiera ayuda humana (por ej., via un servicio de crowdsourcing).
- Tambien monitorea la calidad de los datos que entran (por ej., un sensor roto que envía valores aleatorios). Esto es particularmente importante para sistemas de aprendizaje en línea.
- Re-entrena tus modelos de manera regular con datos frescos (automatiza todo lo posible, de nuevo).
Muchas gracias por leer!
Fuente:
Aurelien Geron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems (2nd Edition), Beijing, China: O'Reilly.
Posted on June 18, 2020
Join Our Newsletter. No Spam, Only the good stuff.
Sign up to receive the latest update from our blog.