Navegando pelo tempo de inatividade da nuvem: etapas a serem seguidas quando os serviços não estiverem disponíveis

10 de junho de 2023

Imagine-se como um engenheiro de nuvem, o poderoso guardião do site de uma empresa, lutando bravamente contra dragões digitais e bugs irritantes. Assim que você se delicia com uma deliciosa refeição de segunda-feira à noite, um alerta urgente interrompe seu banquete – desastre acontece! O site tirou uma soneca inesperada. Oh, o horror! Mas não tema, um bravo guerreiro da nuvem, pois você conquistará esse tempo de inatividade travesso com sua inteligência e perícia. Parece que o criminoso responsável não é outro senão o mecanismo de autenticação do provedor de nuvem, brincando de esconde-esconde com a acessibilidade do seu site. É hora de vestir sua capa virtual, convocar suas fortes habilidades de solução de problemas e trazer de volta a glória online do site. Junte-se a nós nesta aventura épica enquanto desvendamos os segredos para derrotar o tempo de inatividade da nuvem e restaurar a paz e o riso no reino digital. Prepare-se para matar aqueles gremlins técnicos e desfrutar de uma generosa porção de vitória!

Ações a serem seguidas quando os serviços de nuvem apresentarem tempo de inatividade

Investigação rápida:

Ao receber o alerta, mude imediatamente para o modo de investigação. Conduza uma avaliação completa para determinar a causa e a extensão da interrupção. Verifique se o problema está no provedor de nuvem e não na sua infraestrutura.

Entenda as causas comuns:

Os serviços de nuvem podem sofrer interrupções devido a vários fatores. Erros de software ou configuração são uma das principais causas, conforme reconhecido pelo Uptime Institute. Outros culpados incluem problemas de rede ou conectividade e falhas mecânicas ou elétricas em data centers.

Corrigir erros de software e configuração:

O tempo de inatividade da nuvem resultante de erros de software ou configuração pode resultar de pacotes de implantação defeituosos ou configurações incorretas de aplicativos. Aprenda com incidentes anteriores, como o Falha no Slack no inverno de 2022, quando uma mudança de configuração em um banco de dados desencadeou uma interrupção generalizada do serviço.

Resolva problemas de rede e conectividade:

Operações de nuvem tranquilas dependem muito de rede e conectividade confiáveis. Problemas de configuração, problemas de gerenciamento de mudanças e erros de provedores de rede terceirizados são culpados comuns nesta categoria. Tome nota de incidentes anteriores, como o de janeiro Paralisação do Google Cloud em 2022 causado por um erro de configuração que leva ao aumento da latência.

Prepare-se para falhas mecânicas e elétricas:

Falhas mecânicas ou elétricas, como falhas de fornecimento de energia ininterrupto (UPS) ou de serviços públicos/geradores, podem interromper os serviços de nuvem. Consulte incidentes anteriores, como o Interrupção da AWS em julho de 2022, onde uma queda de energia em uma zona de disponibilidade resultou em interrupção generalizada.

O tempo de inatividade da nuvem cria estresse e ansiedade para os usuários finais, destacando a necessidade de minimizar seu impacto.
Minimizar o tempo de inatividade é crucial para mitigar possíveis perdas de dados, proteger a reputação e evitar perdas financeiras.
De acordo com o Ponemon Institute, o custo médio de uma interrupção por minuto é de aproximadamente $9.000.
Uma pesquisa do Uptime Institute indica que mais da metade das organizações pesquisadas tiveram custos de interrupção superiores a $100.000.
Seguindo as etapas recomendadas e se mantendo preparadas, as empresas podem enfrentar com eficiência os desafios impostos pelo tempo de inatividade da nuvem.
Tomar medidas proativas ajuda a reduzir os efeitos adversos do tempo de inatividade nas operações e na experiência do cliente.

Dominando o tempo de inatividade da nuvem: 5 etapas para navegar na tempestade

Etapa 1: avaliar a situação antes da interrupção

Antes que ocorra uma interrupção, avalie os benefícios e os desafios de implementando uma estratégia multicloud. Determine se ele está alinhado ao seu ambiente, arquitetura e equipes, pois pode oferecer maior redundância e proteção contra interrupções de serviço.

Etapa 2: prepare-se para o pior: faça backup dos dados essenciais

Uma precaução vital antes de uma interrupção é priorizar fazendo backup dos seus dados essenciais. Essa medida proativa garante que você tenha uma proteção para suas informações críticas, mesmo durante uma interrupção.

Dependendo do seu provedor de nuvem, várias soluções de backup estão disponíveis para proteger seus dados. Por exemplo, o Azure oferece o Azure Backup, uma solução abrangente capaz de fazer backup de dados em VMs, servidores SQL, Azure Blobs e muito mais. Por outro lado, o Google Cloud fornece os serviços Google Cloud Backup e Disaster Recovery (DR), que oferecem recursos de backup de dados para GKE, VMs e outros componentes cruciais. Você estabelece uma rede de segurança resiliente fazendo backup diligentemente de seus dados essenciais com antecedência. No infeliz evento de perda de dados durante uma interrupção ou se a interrupção persistir por um longo período, você pode contar com esses backups para restaurar suas informações. Essa abordagem proativa minimiza o impacto potencial em suas operações e permite um processo de recuperação mais tranquilo.

Etapa 3: investigar localmente: verificar se há erros do usuário

Após experimentar uma interrupção, o próximo passo é determinar se o problema está somente no seu ambiente ou se é mais disseminado. Várias ferramentas e recursos úteis estão disponíveis para ajudar você com essa avaliação.

Para começar, você pode visitar Detector de queda para inserir a URL do site e verificar se outros usuários também estão relatando erros. Esta plataforma fornece insights valiosos sobre quaisquer potenciais interrupções generalizadas. Além disso, o Down Detector geralmente inclui links convenientes para a página de suporte do site e suas contas de mídia social em plataformas como Twitter ou Facebook.

Outra ferramenta útil para descartar problemas de conectividade local e verificar rapidamente se um site está inativo é IsItDownRightNow.com. Este site não apenas informará você sobre a disponibilidade do site que você está verificando, mas também fornecerá informações sobre o tempo de resposta do site.

Suponha que essas ferramentas não revelem nenhum problema e você queira verificar o status do seu provedor de nuvem. Nesse caso, você pode consultar a página de status dedicada. Por exemplo, se você usa o Google Cloud, pode visitar a página de status para verificar se há problemas de serviço em andamento ou degradação. Essas páginas de status geralmente oferecem atualizações sobre a situação, tempo estimado até a resolução e detalhes sobre as etapas para resolver o problema.

Suponha que sua conexão de internet esteja completamente inativa ou que haja uma queda de energia. Nesse caso, você pode considerar visitar uma cafeteria local ou qualquer lugar com Wi-Fi acessível para verificar se o provedor de nuvem está passando por uma queda. Depois de confirmar que não há problemas locais, você pode prosseguir para a próxima etapa em nossa lista de ações.

Etapa 4: procure suporte: entre em contato com seu provedor de nuvem

Durante uma interrupção na nuvem, é importante agir imediatamente entre em contato com seu provedor de nuvem para reunir mais informações e relatar o problema. Após descartar quaisquer problemas de conectividade local, obter o provedor se torna vital para resolver o problema. Ao entrar em contato com o provedor, esteja preparado para fornecer detalhes específicos sobre a situação, incluindo os serviços afetados, mensagens de erro encontradas e o horário em que o problema começou. Cada provedor de nuvem tem diferentes métodos de contato, como usar o Portal do Azure ou twittar o Suporte do Azure para o Microsoft Azure, utilizar a página de suporte do Google Cloud ou consultar o site do provedor ou o site de suporte se estiver usando um serviço de nuvem diferente. É crucial ter paciência durante esse processo, pois as equipes de suporte dos provedores de nuvem trabalham diligentemente para auxiliar os clientes e resolver dúvidas em meio a uma interrupção. O envolvimento com o provedor de nuvem aumenta as chances de obter assistência oportuna e resolver o tempo de inatividade.

Etapa 5: entenda seus direitos: revise seu contrato de serviço de nuvem

Outro passo crucial para lidar com o tempo de inatividade da nuvem é revisar cuidadosamente o contrato de serviço de nuvem do seu provedor. Este contrato contém informações vitais sobre as obrigações do provedor e seus direitos como cliente.

Em primeiro lugar, é essencial examinar os acordos de nível de serviço (SLAs) descritos no acordo. Um SLA serve como um compromisso do provedor para garantir um certo nível de disponibilidade para seus serviços. Por exemplo, se você estiver utilizando a AWS e seu serviço de gateway de API for afetado pela interrupção, a AWS oferece três níveis de SLA especificamente para o serviço de gateway de API. Dependendo da quantidade de tempo de inatividade experimentado pelo serviço em um determinado mês, você pode ser elegível para um reembolso parcial ou até mesmo total.

Para ilustrar, vamos considerar um cenário em que o serviço de gateway de API ficou inativo três horas no início do mês, resultando em aproximadamente 99.58% de tempo de atividade. De acordo com o SLA da AWS, você teria direito a um crédito de serviço de 10% como compensação pelo tempo de inatividade. Portanto, é crucial revisar e se familiarizar completamente com as especificidades dos seus contratos de serviço de nuvem para garantir que você entenda as garantias e soluções disponíveis para você como cliente.

Adote a resiliência multi-cloud: proteja seus dados e garanta operações contínuas

Interrupções na nuvem podem ser altamente frustrantes, especialmente para aqueles que dependem muito de serviços de nuvem para atividades diárias ou operações comerciais. Embora seja essencial estar preparado seguindo as etapas e os recursos fornecidos no artigo, é vital reconhecer que interrupções na nuvem podem ocorrer inesperadamente e a qualquer momento.

Considere implementar uma arquitetura de aplicativo ou serviço em várias regiões para proteger seu negócio de possíveis interrupções. Isso pode ser alcançado por meio de uma abordagem ativa-ativa, onde seu aplicativo está simultaneamente ativo em várias áreas, ou uma configuração ativa-passiva, onde você pode alternar perfeitamente para outra região quando um problema surgir.

Além da redundância regional, o desenvolvimento de uma estratégia multicloud pode proteger ainda mais seus dados e mitigar o risco de tempo de inatividade. Utilizar vários provedores de nuvem permite que você distribua sua carga de trabalho e dados em diferentes plataformas. No entanto, ter o pessoal e os processos apropriados é crucial para executar e gerenciar essa estratégia de forma eficaz. É recomendável revisar cuidadosamente as vantagens e desvantagens de adotar uma abordagem multi-nuvem para garantir que ela esteja alinhada com seus requisitos de negócios.

Resumindo

Para aumentar sua resiliência contra interrupções na nuvem:

Implemente uma arquitetura que permita que seu aplicativo ou serviços sejam executados em várias regiões em um estilo ativo-ativo ou ativo-passivo.
Considere desenvolver uma estratégia multi-nuvem para distribuir sua carga de trabalho e dados entre provedores de nuvem.
Garanta que você tenha a experiência e os processos para executar e gerenciar um ambiente multinuvem de forma eficaz.
Avalie os prós e os contras de adotar a multinuvem para determinar se ela atende às necessidades do seu negócio.

Digite seu e-mail para ser notificado sobre conteúdo novo e relevante.

Obrigado por se juntar a nós!

Esperamos que você ache isso útil.

Você pode cancelar a assinatura dessas comunicações a qualquer momento. política de Privacidade

Notícias e Relatórios

Conjunto de slides

FinOps e MLOps

Uma descrição completa do OptScale como uma plataforma de código aberto FinOps e MLOps para otimizar o desempenho da carga de trabalho na nuvem e o custo da infraestrutura. Otimização de custo de nuvem, Dimensionamento correto de VM, instrumentação PaaS, Localizador de duplicatas S3, Uso RI/SP, detecção de anomalias, + ferramentas de desenvolvedor de IA para utilização ideal da nuvem.

Como fazer

FinOps, otimização de custos de nuvem e segurança

Conheça nossas melhores práticas:

Como liberar IPs elásticos no Amazon EC2
Detectar VMs do MS Azure interrompidas incorretamente
Reduza sua fatura da AWS eliminando instantâneos de disco órfãos e não utilizados
E insights muito mais profundos

OptScale

Otimize o uso de RI/SP para equipes de ML/AI com OptScale

Descubra como:

veja cobertura RI/SP
obtenha recomendações para uso ideal de RI/SP
aprimore a utilização de RI/SP por equipes de ML/IA com OptScale