Apagões em cloud computing: o que falta para evitar prejuízos

Grandes empresas globais e sistemas importantes, como o PIX, foram afetados pela queda na região us-east-1 da AWS, evidenciando falhas na computação em nuvem. A importância da redundância e do backup entre regiões, como a de São Paulo, ficou clara para manter os serviços ativos durante incidentes.

A frequência desses apagões demonstra que a falta de preparo, aliada à alta rotatividade de profissionais, prejudica a resposta a esses problemas. O teorema CAP orienta o desenvolvimento de sistemas distribuídos, indicando a necessidade de equilíbrio entre consistência, disponibilidade e tolerância a falhas.

Para minimizar prejuízos, é essencial que gestores e desenvolvedores invistam em estratégias de redundância e priorizem as propriedades certas para cada serviço. Com conhecimento e planejamento, é possível criar soluções mais resilientes e evitar interrupções bruscas na operação dos sistemas em nuvem.
“`html

Grandes empresas como Adobe, Alexa e Netflix, além do sistema PIX, compartilham algo em comum: a utilização da região us-east-1 da AWS. Recentemente, essa região sofreu uma queda que impactou diversos serviços. A falha levanta questões sobre a resiliência da Apagões na Cloud Computing e a necessidade de estratégias de backup eficientes.

A AWS oferece 38 regiões com data centers, e a us-east-1 é apenas uma delas. Clientes que utilizam outras regiões, como a sa-east-1 (São Paulo), não foram afetados. A importância de ter redundância, ou seja, um sistema de backup, é crucial para garantir a continuidade dos serviços em caso de falhas.

A AWS oferece serviços de espelhamento de dados entre diferentes regiões, o que funciona como um backup. Em caso de falha em uma região, os sistemas podem operar com a última cópia dos dados em outros servidores, localizados em diferentes locais.

Incidentes como esse não são raros e já ocorreram em 2011, 2012, 2017, 2020, 2021 e duas vezes em 2025. A recorrência desses Apagões na Cloud Computing, com uma média de um a cada três anos, pode levar a uma falsa sensação de segurança, onde as medidas preventivas são negligenciadas com o tempo.

A alta rotatividade de profissionais de TI pode contribuir para a falta de experiência em lidar com esses incidentes. A ausência de um profissional experiente, que já vivenciou situações semelhantes, pode levar a decisões menos eficazes e à repetição de erros.

É possível criar aplicações que operem mesmo com a inoperância de um data center. O teorema CAP, de Eric Brewer, nos ensina que em sistemas distribuídos, é preciso escolher duas entre as propriedades de consistência (C), disponibilidade (A) e tolerância à partição (P).

A consistência garante que todos os usuários vejam a mesma informação. A disponibilidade assegura que o sistema esteja sempre acessível. A tolerância à partição permite que o sistema continue funcionando mesmo com a divisão entre servidores.

Se priorizarmos alta disponibilidade e consistência (CA), devemos abrir mão da tolerância à partição. Para garantir a consistência, todos os servidores precisam receber a mesma transação simultaneamente. Se um servidor falhar, o sistema pode se tornar indisponível.

Para garantir a sobrevivência de um sistema em caso de Apagões na Cloud Computing, é preciso priorizar a disponibilidade (A) e a tolerância à partição (AP). Isso significa abrir mão da consistência, permitindo que servidores diferentes guardem dados ligeiramente diferentes, sem que o sistema pare.

Em redes sociais, por exemplo, a variação no número de likes é um exemplo de sistema AP, que prioriza a disponibilidade em detrimento da consistência. Cada jornada do usuário deve ser analisada para definir quais propriedades são mais importantes.

No comércio eletrônico, a quantidade de itens em estoque pode ser do tipo AP, priorizando a disponibilidade. Mesmo que um servidor mostre informações ligeiramente diferentes, o sistema continua operando. Em caso de divergência, o pedido do cliente pode ser cancelado ou o estoque reposto posteriormente.

As automações de estorno de valores devem ser do tipo CA, garantindo que toda informação seja consistente ou indisponível. Em caso de falha, o pedido de estorno é negado, evitando duplicidades. Uma abordagem CP garante a consistência e tolera a partição por um prazo determinado, sem interromper a jornada do cliente.

Os recentes Apagões na Cloud Computing evidenciam que a falta de redundância e o desconhecimento das boas práticas em sistemas distribuídos são os principais causadores de prejuízos. Assim como um carro precisa de um estepe, os sistemas precisam de backups para evitar interrupções.

Esses incidentes não indicam uma fragilidade da internet ou uma concentração perigosa de mercado. Os prejuízos são, em sua maioria, evitáveis e causados pela falta de aprendizado e aplicação das boas práticas.

A computação em nuvem não é o problema, mas sim a falta de preparo e redundância nos sistemas. É crucial que programadores e gestores estudem, entendam e apliquem o teorema CAP para criar sistemas mais resilientes.

Para minimizar os impactos dos Apagões na Cloud Computing, é fundamental investir em redundância e aplicar o teorema CAP. Analise cada jornada do usuário e defina as propriedades mais importantes para garantir a continuidade dos serviços e minimizar os prejuízos. Não se esqueça, a prevenção é sempre o melhor remédio para evitar surpresas desagradáveis.

Via TecMundo

“`

Redundância

Apagões na computação em nuvem revelam desafios para sistemas no Brasil

Relacionados