Whitepaper 'FinOps e gerenciamento de custos para Kubernetes'
Por favor, considere dar ao OptScale um Estrela no GitHub, é código aberto 100%. Aumentaria sua visibilidade para outros e aceleraria o desenvolvimento de produtos. Obrigado!
Ebook 'De FinOps a estratégias comprovadas de gerenciamento e otimização de custos de nuvem'
OptScale — FinOps
Visão geral do FinOps
Otimização de custos:
AWS
Microsoft Azure
Google Cloud
Nuvem Alibaba
Kubernetes
OptScale — MLOps
Perfil de ML/IA
Otimização de ML/IA
Criação de perfil de Big Data
PREÇOS OPTSCALE
Acura – migração para nuvem
Visão geral
Nova plataforma de banco de dados
Migração para:
AWS
Microsoft Azure
Google Cloud
Nuvem Alibaba
VMware
Pilha aberta
KVM
Nuvem pública
Migração de:
Na premissa
Acura – DR e backup na nuvem
Visão geral
Migração para:
AWS
Microsoft Azure
Google Cloud
Nuvem Alibaba
VMware
Pilha aberta
KVM
Estudo de caso

Como a OptScale permitiu que a empresa com uma fatura de nuvem de $80M executasse experimentos de ML com desempenho ideal e reduzisse os custos de infraestrutura em 37%

Hystax, Aire Networks, GlobalDots - executive summary

Sumário executivo

Devido a um número significativo de processos de ML lançados por centenas de engenheiros de ML, a corretora de publicidade móvel (The Company), com mais de 800 funcionários, fornecendo a principal plataforma de publicidade móvel, possui uma infraestrutura de TI complexa e altos custos de nuvem. Aproveitando a plataforma AWS para centenas de modelos de ML, a empresa gastou mais de $80M anualmente em um ambiente de nuvem.

A OptScale ajudou a reduzir os custos da nuvem AWS em 37% em quatro meses, otimizando o desempenho da carga de trabalho de ML/IA, organizando o rastreamento de experimentos, melhorando o KPI das equipes de ML e fornecendo o uso da nuvem e a transparência de custos da empresa.

Hystax, Aire Networks, GlobalDots - goal

O objetivo

A empresa pretendia capacitar o processo MLOps implementando a metodologia MLOps e FinOps, fornecendo total transparência do processo de treinamento do modelo de ML com uma tabela de classificação e rastreamento de experimentos e otimizando o desempenho e o custo do experimento de ML.

O desafio

Executando centenas de experimentos de ML diariamente, as equipes de ML enfrentaram os seguintes desafios:

  • Falta de instrumentos automatizados e eficientes para rastreamento de treinamento de modelos de ML/IA e criação de perfis/instrumentação

O treinamento do modelo ML/AI é um processo complexo que depende de um conjunto de hiperparâmetros definido, hardware ou uso de recursos de nuvem. Monitorar e comparar as principais métricas e indicadores com benchmarks ou limites estabelecidos permite obter profundo conhecimento
insights e aprimorando o processo de criação de perfil de ML/IA.

  • Transparência limitada em todo o ciclo de vida do ML

Sem transparência suficiente no processo de ML, tornou-se um desafio para a empresa determinar os gargalos no treinamento do modelo de ML e selecionar a configuração ideal dos recursos de nuvem. A falta de visibilidade dificulta a capacidade de maximizar
Utilização de recursos de treinamento de ML/AI e resultado de experimentos e planejar e prever com precisão os requisitos de recursos, levando ao superprovisionamento ou subprovisionamento de recursos de nuvem.

  • Identificação de cenários de otimização para melhorar o desempenho e reduzir a fatura da nuvem

Os modelos de ML geralmente exigem infraestrutura de nuvem complexa e significativa para treinamento e inferência. Modelos de ML ineficientes e mecanismos de gerenciamento de experimentos levaram a custos de recursos aumentados e tempos de processamento mais longos devido a gargalos em recursos específicos como GPU, IO, CPU ou RAM. Sem um monitoramento adequado, a empresa enfrentava desafios na identificação de gargalos, problemas de desempenho ou áreas de melhoria.

Hystax, Aire Networks, GlobalDots - solution

A solução

Hystax OptScale permitiu que o corretor de publicidade móvel melhorasse seu processo de ML ao:
  • Fornecendo Placares de modelo de ML oferece a uma equipe de ML total transparência nas métricas e no desempenho do modelo de ML, o que ajuda a encontrar as combinações ideais de parâmetros e o melhor resultado dos experimentos de ML.
  • Criação de perfil de tarefas de ML com uma análise aprofundada de métricas de desempenho e acompanhamento de experimentos. Com o OptScale, as equipes de engenharia de ML/AI obtêm um instrumento para rastrear e criar perfis de treinamento de modelo de ML/AI e outras tarefas relevantes. O OptScale coleta um conjunto holístico de desempenho e métricas específicas do modelo, que fornecem aprimoramento de desempenho e recomendações de otimização de custos para experimentos de ML/IA ou tarefas de produção.
  • entregando recomendações de otimização permitiu que a empresa economizasse até 37% da fatura mensal da nuvem da AWS e ganhasse transparência no uso da infraestrutura. A recomendação incluiu o uso de instâncias reservadas e planos de economia ideais, dimensionamento correto, detecção de recursos não utilizados, alocação de custos e outros.
  • Runsets – execução automatizada de vários experimentos com conjuntos de dados configuráveis, faixas de hiperparâmetros e versões de modelos. Runsets permitiram executar experimentos em paralelo com vários parâmetros de entrada e identificar os resultados de treinamento de modelo ML/AI mais eficientes.

O resultado

O OptScale permitiu que a empresa executasse experimentos de ML com desempenho ideal, custos de infraestrutura reduzidos e melhoraram seus KPIs (índice chave de inovação).

O uso da equipe Hystax OptScale ML multiplicou o número de experimentos de ML/IA executados em paralelo, maximizou a utilização de recursos de treinamento de ML/IA e o resultado dos experimentos, reduziu o tempo de treinamento do modelo e minimizou os custos da nuvem. A solução permitiu que os engenheiros de ML/AI executassem experimentos automatizados com base em conjuntos de dados e condições de hiperparâmetros dentro de um orçamento de infraestrutura definido.

O OptScale permitiu que as equipes de ML gerenciassem o ciclo de vida de modelos e experimentassem resultados por meio de gerenciamento de nuvem simplificado e experiência de usuário aprimorada.

Para executar ML/AI ou qualquer carga de trabalho com desempenho e custo de infraestrutura ideais com OptScale – uma plataforma de código aberto FinOps e MLOpsContate-nos hoje.

Digite seu e-mail para ser notificado sobre conteúdo novo e relevante.

Você pode cancelar a assinatura dessas comunicações a qualquer momento. política de Privacidade