Devido a um número significativo de processos de ML lançados por centenas de engenheiros de ML, a corretora de publicidade móvel (The Company), com mais de 800 funcionários, fornecendo a principal plataforma de publicidade móvel, possui uma infraestrutura de TI complexa e altos custos de nuvem. Aproveitando a plataforma AWS para centenas de modelos de ML, a empresa gastou mais de $80M anualmente em um ambiente de nuvem.
A OptScale ajudou a reduzir os custos da nuvem AWS em 37% em quatro meses, otimizando o desempenho da carga de trabalho de ML/IA, organizando o rastreamento de experimentos, melhorando o KPI das equipes de ML e fornecendo o uso da nuvem e a transparência de custos da empresa.
A empresa pretendia capacitar o processo MLOps implementando a metodologia MLOps e FinOps, fornecendo total transparência do processo de treinamento do modelo de ML com uma tabela de classificação e rastreamento de experimentos e otimizando o desempenho e o custo do experimento de ML.
Executando centenas de experimentos de ML diariamente, as equipes de ML enfrentaram os seguintes desafios:
O treinamento do modelo ML/AI é um processo complexo que depende de um conjunto de hiperparâmetros definido, hardware ou uso de recursos de nuvem. Monitorar e comparar as principais métricas e indicadores com benchmarks ou limites estabelecidos permite obter profundo conhecimento
insights e aprimorando o processo de criação de perfil de ML/IA.
Sem transparência suficiente no processo de ML, tornou-se um desafio para a empresa determinar os gargalos no treinamento do modelo de ML e selecionar a configuração ideal dos recursos de nuvem. A falta de visibilidade dificulta a capacidade de maximizar
Utilização de recursos de treinamento de ML/AI e resultado de experimentos e planejar e prever com precisão os requisitos de recursos, levando ao superprovisionamento ou subprovisionamento de recursos de nuvem.
Os modelos de ML geralmente exigem infraestrutura de nuvem complexa e significativa para treinamento e inferência. Modelos de ML ineficientes e mecanismos de gerenciamento de experimentos levaram a custos de recursos aumentados e tempos de processamento mais longos devido a gargalos em recursos específicos como GPU, IO, CPU ou RAM. Sem um monitoramento adequado, a empresa enfrentava desafios na identificação de gargalos, problemas de desempenho ou áreas de melhoria.
O OptScale permitiu que a empresa executasse experimentos de ML com desempenho ideal, custos de infraestrutura reduzidos e melhoraram seus KPIs (índice chave de inovação).
O uso da equipe Hystax OptScale ML multiplicou o número de experimentos de ML/IA executados em paralelo, maximizou a utilização de recursos de treinamento de ML/IA e o resultado dos experimentos, reduziu o tempo de treinamento do modelo e minimizou os custos da nuvem. A solução permitiu que os engenheiros de ML/AI executassem experimentos automatizados com base em conjuntos de dados e condições de hiperparâmetros dentro de um orçamento de infraestrutura definido.
O OptScale permitiu que as equipes de ML gerenciassem o ciclo de vida de modelos e experimentassem resultados por meio de gerenciamento de nuvem simplificado e experiência de usuário aprimorada.
Para executar ML/AI ou qualquer carga de trabalho com desempenho e custo de infraestrutura ideais com OptScale – uma plataforma de código aberto FinOps e MLOps, Contate-nos hoje.
Você pode cancelar a assinatura dessas comunicações a qualquer momento. política de Privacidade
1250 Borregas Ave, Sunnyvale, CA 94089, EUA | [email protected]