Estudio de caso

Cómo una startup de TI facilitó y mejoró la gestión de modelos de ML y el seguimiento de experimentos

Resumen ejecutivo

Una empresa de aprendizaje automático (la empresa) con un equipo de 83 ingenieros mejoró el rendimiento de la capacitación del modelo ML y redujo los costos de la nube en 271 TP3T dentro de los dos meses de uso al aprovechar Hystax OptScale, una plataforma de código abierto MLOps y FinOps con capacidades avanzadas de MLOps.

La meta

La empresa tenía como objetivo obtener una visibilidad completa del proceso de entrenamiento del modelo ML y las métricas de salida, por lo tanto, mejorar la eficiencia de sus operaciones de aprendizaje automático, con un enfoque específico en la simplificación de los procesos de entrenamiento del modelo y ajuste de hiperparámetros.

El reto

El equipo necesitaba ayuda para comprender su progreso en la capacitación del modelo ML debido a la ausencia de un tablero compartido que muestre los resultados de la capacitación del modelo. Además, lidiaron con los costos de la nube de AWS en constante aumento debido a la potencia informática intensiva requerida para el entrenamiento del modelo ML. Además, el equipo necesitaba ayuda para administrar, monitorear y optimizar sus recursos en la nube debido a la falta de información detallada sobre las métricas de rendimiento de capacitación de ML individuales y las operaciones generales de ML/IA. Además, el ajuste de los hiperparámetros podría haberse simplificado para una mayor eficiencia, y la gestión inadecuada del presupuesto a menudo condujo a que se excedieran los límites de gasto en la nube.

La solución

La Compañía adoptó la versión OptScale SaaS, aprovechando sus características dirigidas a la gestión de costos (FinOps) y MLOps. La capacidad de OptScale para brindar información detallada sobre los costos de cada recurso de la nube y su motor de recomendación de optimización de costos ayudaron a la empresa a administrar y optimizar sus costos de manera eficiente.

Instrumentación de entrenamiento de modelos ML

Esta característica de OptScale facilitó el entrenamiento eficiente del modelo ML y utilizó el seguimiento de recursos en la nube.

Tablero/tabla de clasificación del modelo

El tablero de OptScale permitió una vista completa de varias métricas de entrenamiento para cada modelo de ML. Esta opción ayudó al equipo a obtener información para modelar el rendimiento, tomar decisiones informadas y ajustar las operaciones según fuera necesario.

Información sobre el rendimiento del entrenamiento de modelos

Los desarrolladores obtuvieron información valiosa de las métricas de rendimiento recopiladas para cada etapa de cada sesión de capacitación del modelo ML e implementaron mejoras de código para reducir el tiempo de capacitación.

Runsets para el ajuste de hiperparámetros

Aprovechando esta función, el equipo estableció el marco y las plantillas para ejecutar sesiones de ajuste de hiperparámetros mediante instancias de spot. Este enfoque también mejoró la eficiencia del ajuste de los hiperparámetros y ayudó a controlar los costos al establecer presupuestos y duraciones máximas para las tareas de capacitación del modelo.

Recomendaciones para un uso óptimo de la nube

OptScale brindó recomendaciones valiosas para el equipo de capacidad de la nube utilizado para la capacitación de ML.

Asignación de recursos

La información detallada de OptScale sobre la utilización de recursos permitió al equipo monitorear y ajustar la asignación de recursos de manera efectiva para las sesiones de capacitación de ML, lo que generó ahorros sustanciales en costos y operaciones de ML mejoradas.

El resultado

Con OptScale, la empresa aumentó significativamente su eficiencia de MLOps, especialmente en el entrenamiento de modelos de ML, el seguimiento de experimentos y rendimiento, y el ajuste de hiperparámetros. Además, lograron una reducción de 27% en los costos de la nube en el primer trimestre de uso. Esta mejora permitió que el equipo se concentrara más en la innovación y la entrega de soluciones de ML de alta calidad para sus clientes, lo que resultó en una mayor productividad y satisfacción del cliente.
satisfacción.

Para ejecutar ML/AI o cualquier carga de trabajo con rendimiento y costo de infraestructura óptimos con OptScale: una plataforma de código abierto FinOps y MLOps, Contáctenos hoy.

Ingresa tu email para recibir contenido nuevo y relevante

¡Gracias por estar con nosotros!

Esperamos que lo encuentre útil.

Puede darse de baja de estas comunicaciones en cualquier momento. política de privacidad