Debido a una cantidad significativa de procesos de ML lanzados por cientos de ingenieros de ML, la empresa de corretaje de publicidad móvil (La Compañía), con más de 800 empleados, que proporciona la plataforma de publicidad móvil líder, tiene una infraestructura de TI compleja y altos costos en la nube. Aprovechando la plataforma de AWS para cientos de modelos de aprendizaje automático, la empresa gastó más de $80M al año en un entorno de nube.
OptScale ayudó a reducir los costos de la nube de AWS en 37% en cuatro meses mediante la optimización del rendimiento de la carga de trabajo de ML/IA, la organización del seguimiento de experimentos, la mejora de los KPI de los equipos de ML y la transparencia de costos y el uso de la nube de la empresa.
La empresa tenía como objetivo potenciar el proceso MLOps mediante la implementación de la metodología MLOps y FinOps, brindando una transparencia completa del proceso de capacitación del modelo ML con una tabla de clasificación y seguimiento de experimentos y optimizando el rendimiento y el costo de los experimentos ML.
Al ejecutar cientos de experimentos de ML a diario, los equipos de ML se enfrentaron a los siguientes desafíos:
El entrenamiento del modelo ML/AI es un proceso complejo que depende de un conjunto definido de hiperparámetros, hardware o uso de recursos de la nube. El seguimiento y la comparación de métricas e indicadores clave con puntos de referencia o umbrales establecidos permiten obtener información profunda
conocimientos y mejorar el proceso de creación de perfiles de ML/AI.
Sin suficiente transparencia en el proceso de ML, se convirtió en un desafío para la empresa determinar los cuellos de botella en el entrenamiento del modelo de ML y seleccionar la configuración óptima de los recursos de la nube. La falta de visibilidad dificulta la capacidad de maximizar
Utilización de recursos de capacitación de ML/IA y resultado de los experimentos, y planifique y pronostique con precisión los requisitos de recursos, lo que lleva a un aprovisionamiento excesivo o insuficiente de recursos en la nube.
Los modelos de ML a menudo requieren una infraestructura de nube compleja y significativa para el entrenamiento y la inferencia. Los mecanismos ineficientes de administración de modelos y experimentos de ML llevaron a mayores costos de recursos y tiempos de procesamiento más prolongados debido a cuellos de botella en recursos específicos como GPU, IO, CPU o RAM. Sin un seguimiento adecuado, la empresa enfrentó desafíos para identificar cuellos de botella, problemas de desempeño o áreas de mejora.
OptScale permitió a la empresa ejecutar experimentos de ML con un rendimiento óptimo, costos de infraestructura reducidos y mejoraron sus KPI (índice de innovación clave).
El uso del equipo Hystax OptScale ML multiplicó la cantidad de experimentos de ML/IA que se ejecutan en paralelo, maximizó la utilización de recursos de capacitación de ML/IA y el resultado de los experimentos, redujo el tiempo de capacitación del modelo y minimizó los costos de la nube. La solución permitió a los ingenieros de ML/IA ejecutar experimentos automatizados basados en conjuntos de datos y condiciones de hiperparámetros dentro de un presupuesto de infraestructura definido.
OptScale permitió a los equipos de ML gestionar el ciclo de vida de los modelos y experimentar los resultados a través de una gestión simplificada de la nube y una experiencia de usuario mejorada.
Para ejecutar ML/AI o cualquier carga de trabajo con rendimiento y costo de infraestructura óptimos con OptScale: una plataforma de código abierto FinOps y MLOps, Contáctenos hoy.
Puede darse de baja de estas comunicaciones en cualquier momento. política de privacidad
1250 Borregas Ave, Sunnyvale, CA 94089, EE. UU. | [email protected]