Whitepaper 'FinOps y gestión de costes para Kubernetes'
Considere darle a OptScale un Estrella en GitHub, es 100% de código abierto. Aumentaría su visibilidad ante los demás y aceleraría el desarrollo de productos. ¡Gracias!
Seminario web 'FinOps y optimización de costos en la nube para cargas de trabajo de ML/AI'. Regístrese aquí →
Ebook 'De FinOps a estrategias comprobadas de gestión y optimización de costos en la nube'
OptScale - FinOps
Descripción general de FinOps
Optimización de costos:
AWS
MS Azure
Nube de Google
Alibaba Cloud
Kubernetes
OptScale - MLOps
Perfiles de ML/IA
Optimización de ML/IA
Perfilado de Big Data
PRECIOS DE ESCALA OPTICA
Acura: migración a la nube
Descripción general
Cambio de plataforma de la base de datos
Migración a:
AWS
MS Azure
Nube de Google
Alibaba Cloud
VMware
OpenStack
KVM
Nube pública
Migración desde:
En la premisa
Acura: recuperación ante desastres y respaldo en la nube
Descripción general
Migración a:
AWS
MS Azure
Nube de Google
Alibaba Cloud
VMware
OpenStack
KVM
Estudio de caso

Cómo una startup de TI facilitó y mejoró la gestión de modelos de ML y el seguimiento de experimentos

Hystax, Aire Networks, GlobalDots - executive summary

Resumen ejecutivo

Una empresa de aprendizaje automático (la empresa) con un equipo de 83 ingenieros mejoró el rendimiento de la capacitación del modelo ML y redujo los costos de la nube en 271 TP3T dentro de los dos meses de uso al aprovechar Hystax OptScale, una plataforma de código abierto MLOps y FinOps con capacidades avanzadas de MLOps.

Hystax, Aire Networks, GlobalDots - goal

La meta

La empresa tenía como objetivo obtener una visibilidad completa del proceso de entrenamiento del modelo ML y las métricas de salida, por lo tanto, mejorar la eficiencia de sus operaciones de aprendizaje automático, con un enfoque específico en la simplificación de los procesos de entrenamiento del modelo y ajuste de hiperparámetros.

El reto

El equipo necesitaba ayuda para comprender su progreso en la capacitación del modelo ML debido a la ausencia de un tablero compartido que muestre los resultados de la capacitación del modelo. Además, lidiaron con los costos de la nube de AWS en constante aumento debido a la potencia informática intensiva requerida para el entrenamiento del modelo ML. Además, el equipo necesitaba ayuda para administrar, monitorear y optimizar sus recursos en la nube debido a la falta de información detallada sobre las métricas de rendimiento de capacitación de ML individuales y las operaciones generales de ML/IA. Además, el ajuste de los hiperparámetros podría haberse simplificado para una mayor eficiencia, y la gestión inadecuada del presupuesto a menudo condujo a que se excedieran los límites de gasto en la nube.

Hystax, Aire Networks, GlobalDots - solution

La solución

La Compañía adoptó la versión OptScale SaaS, aprovechando sus características dirigidas a la gestión de costos (FinOps) y MLOps. La capacidad de OptScale para brindar información detallada sobre los costos de cada recurso de la nube y su motor de recomendación de optimización de costos ayudaron a la empresa a administrar y optimizar sus costos de manera eficiente.

  • Instrumentación de entrenamiento de modelos ML

Esta característica de OptScale facilitó el entrenamiento eficiente del modelo ML y utilizó el seguimiento de recursos en la nube.

  • Tablero/tabla de clasificación del modelo

El tablero de OptScale permitió una vista completa de varias métricas de entrenamiento para cada modelo de ML. Esta opción ayudó al equipo a obtener información para modelar el rendimiento, tomar decisiones informadas y ajustar las operaciones según fuera necesario.

  • Información sobre el rendimiento del entrenamiento de modelos

Los desarrolladores obtuvieron información valiosa de las métricas de rendimiento recopiladas para cada etapa de cada sesión de capacitación del modelo ML e implementaron mejoras de código para reducir el tiempo de capacitación.

  • Runsets para el ajuste de hiperparámetros

Aprovechando esta función, el equipo estableció el marco y las plantillas para ejecutar sesiones de ajuste de hiperparámetros mediante instancias de spot. Este enfoque también mejoró la eficiencia del ajuste de los hiperparámetros y ayudó a controlar los costos al establecer presupuestos y duraciones máximas para las tareas de capacitación del modelo.

  • Recomendaciones para un uso óptimo de la nube

OptScale brindó recomendaciones valiosas para el equipo de capacidad de la nube utilizado para la capacitación de ML.

  • Asignación de recursos

La información detallada de OptScale sobre la utilización de recursos permitió al equipo monitorear y ajustar la asignación de recursos de manera efectiva para las sesiones de capacitación de ML, lo que generó ahorros sustanciales en costos y operaciones de ML mejoradas.

El resultado

Con OptScale, la empresa aumentó significativamente su eficiencia de MLOps, especialmente en el entrenamiento de modelos de ML, el seguimiento de experimentos y rendimiento, y el ajuste de hiperparámetros. Además, lograron una reducción de 27% en los costos de la nube en el primer trimestre de uso. Esta mejora permitió que el equipo se concentrara más en la innovación y la entrega de soluciones de ML de alta calidad para sus clientes, lo que resultó en una mayor productividad y satisfacción del cliente.
satisfacción.

Para ejecutar ML/AI o cualquier carga de trabajo con rendimiento y costo de infraestructura óptimos con OptScale: una plataforma de código abierto FinOps y MLOpsContáctenos hoy.

Ingresa tu email para recibir contenido nuevo y relevante

Puede darse de baja de estas comunicaciones en cualquier momento. política de privacidad