Whitepaper 'FinOps y gestión de costes para Kubernetes'

Considere darle a OptScale un Estrella en GitHub, es 100% de código abierto. Aumentaría su visibilidad ante los demás y aceleraría el desarrollo de productos. ¡Gracias!

Seminario web en vivo: Información sobre migración de VMware, replicación inteligente de máquinas virtuales, copia de seguridad completa sintética, compatibilidad con KubeVirt y más →

Considere darle a OptScale un Estrella en GitHub, es 100% de código abierto. Aumentaría su visibilidad ante los demás y aceleraría el desarrollo de productos. ¡Gracias!

Seminario web en vivo: Información sobre migración de VMware, replicación inteligente de máquinas virtuales, copia de seguridad completa sintética, compatibilidad con KubeVirt y más →

Considere darle a OptScale un Estrella en GitHub, es 100% de código abierto. Aumentaría su visibilidad ante los demás y aceleraría el desarrollo de productos. ¡Gracias!

Seminario web en vivo: Información sobre migración de VMware, replicación inteligente de máquinas virtuales, copia de seguridad completa sintética, compatibilidad con KubeVirt y más →

Ebook 'De FinOps a estrategias comprobadas de gestión y optimización de costos en la nube'

Obtener el libro electrónico

Estudio de caso

Cómo OptScale permitió a la empresa con una factura de nube de $80M ejecutar experimentos de ML con un rendimiento óptimo y reducir los costos de infraestructura en 37%

Resumen ejecutivo

Debido a una cantidad significativa de procesos de ML lanzados por cientos de ingenieros de ML, la empresa de corretaje de publicidad móvil (La Compañía), con más de 800 empleados, que proporciona la plataforma de publicidad móvil líder, tiene una infraestructura de TI compleja y altos costos en la nube. Aprovechando la plataforma de AWS para cientos de modelos de aprendizaje automático, la empresa gastó más de $80M al año en un entorno de nube.

OptScale ayudó a reducir los costos de la nube de AWS en 37% en cuatro meses mediante la optimización del rendimiento de la carga de trabajo de ML/IA, la organización del seguimiento de experimentos, la mejora de los KPI de los equipos de ML y la transparencia de costos y el uso de la nube de la empresa.

La meta

La empresa tenía como objetivo potenciar el proceso MLOps mediante la implementación de la metodología MLOps y FinOps, brindando una transparencia completa del proceso de capacitación del modelo ML con una tabla de clasificación y seguimiento de experimentos y optimizando el rendimiento y el costo de los experimentos ML.

El reto

Al ejecutar cientos de experimentos de ML a diario, los equipos de ML se enfrentaron a los siguientes desafíos:

Falta de instrumentos automatizados y eficientes para el seguimiento y perfilado/instrumentación del entrenamiento del modelo ML/AI

El entrenamiento del modelo ML/AI es un proceso complejo que depende de un conjunto definido de hiperparámetros, hardware o uso de recursos de la nube. El seguimiento y la comparación de métricas e indicadores clave con puntos de referencia o umbrales establecidos permiten obtener información profunda
conocimientos y mejorar el proceso de creación de perfiles de ML/AI.

Transparencia limitada a lo largo del ciclo de vida de ML

Sin suficiente transparencia en el proceso de ML, se convirtió en un desafío para la empresa determinar los cuellos de botella en el entrenamiento del modelo de ML y seleccionar la configuración óptima de los recursos de la nube. La falta de visibilidad dificulta la capacidad de maximizar
Utilización de recursos de capacitación de ML/IA y resultado de los experimentos, y planifique y pronostique con precisión los requisitos de recursos, lo que lleva a un aprovisionamiento excesivo o insuficiente de recursos en la nube.

Identificar escenarios de optimización para mejorar el rendimiento y reducir la factura de la nube

Los modelos de ML a menudo requieren una infraestructura de nube compleja y significativa para el entrenamiento y la inferencia. Los mecanismos ineficientes de administración de modelos y experimentos de ML llevaron a mayores costos de recursos y tiempos de procesamiento más prolongados debido a cuellos de botella en recursos específicos como GPU, IO, CPU o RAM. Sin un seguimiento adecuado, la empresa enfrentó desafíos para identificar cuellos de botella, problemas de desempeño o áreas de mejora.

La solución

Hystax OptScale permitió que el corredor de publicidad móvil mejorara su proceso de aprendizaje automático al:

Proporcionar Tablas de clasificación de modelos de ML brinda a un equipo de ML transparencia total en las métricas y el rendimiento del modelo de ML, lo que ayuda a encontrar las combinaciones óptimas de parámetros y el mejor resultado de los experimentos de ML.

Creación de perfiles de tareas de ML con un análisis en profundidad de métricas de rendimiento y seguimiento de experimentos. Con OptScale, los equipos de ingeniería de ML/IA obtienen un instrumento para realizar un seguimiento y perfilar la capacitación de modelos de ML/IA y otras tareas relevantes. OptScale recopila un conjunto holístico de rendimiento y métricas específicas del modelo, que brindan recomendaciones de mejora del rendimiento y optimización de costos para experimentos de ML/IA o tareas de producción.

entregando recomendaciones de optimización permitió a la empresa ahorrar hasta 37% de la factura mensual de la nube de AWS y obtener transparencia en el uso de la infraestructura. La recomendación incluyó el uso óptimo de Instancias Reservadas y Planes de Ahorro, redimensionamiento, detección de recursos no utilizados, asignación de costos, entre otros.

Conjuntos de ejecución – ejecución automatizada de una serie de experimentos con conjuntos de datos configurables, rangos de hiperparámetros y versiones del modelo. Los conjuntos de ejecución permitieron ejecutar experimentos en paralelo con varios parámetros de entrada e identificar los resultados de entrenamiento del modelo ML/IA más eficientes.

El resultado

OptScale permitió a la empresa ejecutar experimentos de ML con un rendimiento óptimo, costos de infraestructura reducidos y mejoraron sus KPI (índice de innovación clave).

El uso del equipo Hystax OptScale ML multiplicó la cantidad de experimentos de ML/IA que se ejecutan en paralelo, maximizó la utilización de recursos de capacitación de ML/IA y el resultado de los experimentos, redujo el tiempo de capacitación del modelo y minimizó los costos de la nube. La solución permitió a los ingenieros de ML/IA ejecutar experimentos automatizados basados en conjuntos de datos y condiciones de hiperparámetros dentro de un presupuesto de infraestructura definido.

OptScale permitió a los equipos de ML gestionar el ciclo de vida de los modelos y experimentar los resultados a través de una gestión simplificada de la nube y una experiencia de usuario mejorada.

Para ejecutar ML/AI o cualquier carga de trabajo con rendimiento y costo de infraestructura óptimos con OptScale: una plataforma de código abierto FinOps y MLOps, Contáctenos hoy.

Ingresa tu email para recibir contenido nuevo y relevante

¡Gracias por estar con nosotros!

Esperamos que lo encuentre útil.

Puede darse de baja de estas comunicaciones en cualquier momento. política de privacidad

Somos GANADORES STEVIE®
en solución de respaldo y almacenamiento en la nube