Uma empresa de aprendizado de máquina (The Company) com uma equipe de 83 engenheiros melhorou o desempenho do treinamento de modelo de ML e reduziu os custos de nuvem em 27% em dois meses de uso, aproveitando o Hystax OptScale, uma plataforma de código aberto MLOps e FinOps com recursos avançados de MLOps.
A empresa pretendia obter visibilidade completa do processo de treinamento de modelos de ML e métricas de saída, melhorando a eficiência de suas operações de Machine Learning, com foco específico na simplificação dos processos de treinamento de modelos e ajuste de hiperparâmetros.
A equipe precisava de ajuda para compreender seu progresso no treinamento do modelo de ML devido à ausência de um painel compartilhado que exibisse os resultados do treinamento do modelo. Além disso, eles lutaram com os custos de nuvem da AWS em constante aumento devido ao poder de computação intensivo necessário para o treinamento do modelo de ML. Além disso, a equipe precisava de ajuda para gerenciar, monitorar e otimizar seus recursos de nuvem devido à falta de insights detalhados sobre métricas individuais de desempenho de treinamento de ML e operações gerais de ML/IA. Além disso, o ajuste de hiperparâmetros poderia ter sido simplificado para maior eficiência, e o gerenciamento de orçamento impróprio muitas vezes levava a exceder os limites de gastos da nuvem.
A Companhia adotou a versão OptScale SaaS, aproveitando suas funcionalidades voltadas para gestão de custos (FinOps) e MLOps. A capacidade da OptScale de fornecer informações de custo detalhadas para cada recurso de nuvem e seu mecanismo de recomendação de otimização de custo ajudaram a empresa a gerenciar e otimizar seus custos com eficiência.
Esse recurso do OptScale facilitou o treinamento eficiente do modelo de ML e utilizou o rastreamento de recursos na nuvem.
O painel do OptScale permitiu uma visão abrangente de várias métricas de treinamento para cada modelo de ML. Essa opção ajudou a equipe a obter insights para modelar o desempenho, tomar decisões informadas e ajustar as operações conforme necessário.
Os desenvolvedores obtiveram informações valiosas das métricas de desempenho coletadas para cada estágio de cada sessão de treinamento do modelo de ML e implementaram melhorias de código para reduzir o tempo de treinamento.
Aproveitando esse recurso, a equipe definiu a estrutura e os modelos para executar sessões de ajuste de hiperparâmetros usando instâncias spot. Essa abordagem também melhorou a eficiência do ajuste de hiperparâmetros e ajudou a controlar os custos, definindo orçamentos e durações máximas para tarefas de treinamento de modelo.
A OptScale forneceu recomendações valiosas para a equipe de capacidade de nuvem usada para treinamento de ML.
Os insights detalhados do OptScale sobre a utilização de recursos permitiram que a equipe monitorasse e ajustasse a alocação de recursos de forma eficaz para sessões de treinamento de ML, levando a economias substanciais de custos e operações de ML aprimoradas.
Com o OptScale, a empresa aumentou significativamente sua eficiência de MLOps, principalmente no treinamento de modelos de ML, rastreamento de desempenho e experimentos e ajuste de hiperparâmetros. Além disso, eles conseguiram uma redução de 27% nos custos de nuvem no primeiro trimestre de uso. Esse aprimoramento capacitou a equipe a se concentrar mais na inovação e no fornecimento de soluções de ML de alta qualidade para seus clientes, resultando em maior produtividade e
satisfação.
Para executar ML/AI ou qualquer carga de trabalho com desempenho e custo de infraestrutura ideais com OptScale – uma plataforma de código aberto FinOps e MLOps, Contate-nos hoje.
Você pode cancelar a assinatura dessas comunicações a qualquer momento. política de Privacidade
1250 Borregas Ave, Sunnyvale, CA 94089, EUA | [email protected]