Um dia a nuvem vai parar
Já fizemos vários posts alertando sobre o risco de que um dia a nuvem vai parar, como:
https://strohlbrasil.com.br/sla-para-os-servicos-de-ti-na-nuvem/ em 30/09/20;
https://strohlbrasil.com.br/10-indisponibilidades-de-servicos-na-nuvem/ em 25/08/20;
https://strohlbrasil.com.br/o-dia-em-que-a-nuvem-parar/ em 02/07/20 e outros.
E foi o que aconteceu esta semana com um grande prestador de serviços de TI no Brasil quando um de seus data centers teve que ser desativado por problemas de superaquecimento, interrompendo a prestação dos serviços em nuvem.
Segundo noticiado o incidente iniciou com um problema de refrigeração no prédio que abriga o data center devido ao rompimento de uma tubulação de água gelada, por volta das 5:52h do dia 07/12/20. Alguns de nossos clientes reportaram que seus serviços só foram disponibilizados entre 2:00 e as 3:00h da manhã do dia 08/12/20, um dia comercial inteiro fora do ar.
Segundo nota o prestador de serviços em nuvem “o problema foi causado por uma falha de refrigeração no prédio que hospeda o data center da IBM Cloud em São Paulo. A empresa disse também que está trabalhando para restaurar o serviço o mais rápido possível”.
Por que problemas deste tipo acontecem e continuarão acontecendo?
Nos dias de hoje construir um data center com certificação Tier III não é mais nenhum bicho de 7 cabeças. Praticamente já existe uma receita de bolo para isto. Os ingredientes são: localização estratégica, uma planta bem planejada com possibilidade de expansão, bom fornecimento de energia elétrica, conectividade com as concessionárias de telecomunicações, geradores, nobreaks e sistema de refrigeração redundantes, controles de acesso, de detecção de fumaça, sistema de combate a incêndios etc.
Existe até a possibilidade de comprar no Brasil um pequeno data center modular com certificação Tier III. Acesse https://www.gemelo.com.br/
Um data center nada mais é do que um grande galpão refrigerado com energia elétrica estabilizada que abriga uma grande quantidade de equipamentos de TI conectados à internet e outra redes, assim simples.
Toda esta infraestrutura, assim como nós, vai se deteriorando com o passar do tempo, demandando cada vez mais manutenção. Enquanto forem itens pontuais que falharem os problemas serão pontuais. Mas quando é um item central que falha os problemas serão de grandes proporções como neste caso.
O fato é que mais dia menos dia um desses milhares de equipamentos de um data center terá um defeito e falhará. Poderá ser um evento isolado ou desencadear uma série de eventos em cascata a ponto de obrigar o desativação de parte ou de todo o data center.
Portanto não se iluda, um dia a nuvem vai parar. Por qual motivo? Para o cliente na ponta de consumo a causa é irrelevante.
O que fazer então?
Certamente os serviços em nuvem trazem uma série de benefícios e não é objetivo deste post fazer uma análise de vantagens e desvantagens dos serviços em nuvem.
O objetivo é alertar, novamente, que um dia a nuvem vai parar e que, quando este dia chegar, você tem que estar preparado para isto.
O primeiro passo é quantificar objetivamente a tolerância aos impactos decorrentes da indisponibilidade dos serviços na nuvem. Se você é um leitor dos nossos posts você já sabe que isto é feito através da Análise de Impacto nos Negócios (BIA). Na BIA você também quantificará os RTOs e os RPOs das aplicações ou serviços a serem processados na nuvem.
Com estas informações devidamente validadas e aprovadas formalmente na organização você terá os níveis de serviço a serem estabelecidos no contrato de prestação de serviços na nuvem para poder cobrar, depois, do fornecedor as eventuais indisponibilidades que ultrapassarem os níveis de serviço estabelecidos.
Daí para a frente é monitorar o nível de serviço prestado e de tempos em tempos (um ano é um bom intervalo) atualizar a BIA e, se necessário, atualizar os níveis de serviço contratados. Eventuais indisponibilidades dentro do nível de serviço estabelecido já estarão precificadas, assim simples.
E se não tiver BIA?
É muito comum que a contratação os serviços em nuvem não leve em consideração os resultados da BIA, ou porque a contratação foi feita pela área de procurement, ou por TI ou simplesmente porque a BIA está desatualizada ou o que pior ainda, a BIA nunca foi feita, isso mesmo, com mais de 15 anos da norma BS 25999 – Business Continuity Management ainda existem empresas que nunca fizeram uma BIA formal.
Neste caso, o dia que a nuvem parar você não terá o que reclamar e terá que se contentar com uma resposta como esta “estamos trabalhando para restaurar o serviço o mais rápido possível”.
Quer saber mais sobre Análises de Risco, de Impacto nos Negócios, Resiliência Organizacional, Apetite ao Risco e sobre o Programa de Continuidade de Negócios?
Por favor preencha o formulário abaixo e entraremos em contato.
#continuidadedenegocios #businesscontinuity #businessimpactanalysis #analisedeimpactonosnegócios #riskassessment #analisederiscos #riskappetite #apetiteaorisco #resilienciaorganizacional #resilience #cloud #cloudcomputing