Bytes da Educação ®: As 10 maiores falhas na nuvem em 2011 (até agora)

Aqui nós vamos dar uma geral nos principais problemas vivenciados por provedores de computação em nuvem este ano

Se aprendemos alguma coisa até agora sobre computação em nuvem – neste primeiro semestre de 2011 - é que o conceito pode, sim, dar problemas. Falhas acontecerão, pois nenhuma tecnologia está imune. O que acontece é que os servidores de cloud e as arquiteturas existentes são propensas a inatividade com o passar do tempo. E alguns dos maiores players estão sofrendo com a falta de atividade em seus serviços durante este ano. Aqui nós vamos dar uma geral nas dez maiores problemas vivenciados por provedores até agora. Confira:

1. Microsoft Windows Live Hotmail

As falhas do Windows Live Hotmail começaram no dia 30 de dezembro, porém a Microsoft só veio a público falar das encrencas no sistema no dia 2 de janeiro deste ano.

O Hotmail, um dos mais populares serviços do mundo, sofreu falhas que deletaram temporariamente todos os emails da caixa de entrada de mais de 17 mil usuários. O problema durou cerca de quatro dias. Os usuários do sistema relataram que, após efetuarem login, perceberam que pastas e emails tinham, simplesmente, desaparecidos, sem a opção de recuperação. A Microsoft diz que resolveu os problemas no dia dois de janeiro, mas os donos das contas afirmam que só dois dias depois tudo foi devidamente restabelecido.

2. Jive Software

Centenas de usuários da solução da companhia relataram, em janeiro, um queda no sistema derivada de um erro no data center da Jive. De acordo com o post feito na época no blog da empresa, que detalhava a falha, o problema ocorreu no centro de armazenamento de dados localizado em no Colorado, onde a Jive oferece serviços de hospedagem. Blogs e wikis encontraram muitos problemas com o serviço.

A Jive disse que a paralisação foi causada por uma falha de hardware em um dos sistemas de armazenamento. Pelo menos 500 clientes tiveram seus sites em modo offline durante a última sexta feira.

3. Gmail

No final de fevereiro deste ano, o Gmail sofreu uma queda imensa de serviço, que resultou na aniquilação de milhares de caixas de entradas e pastas. Quando os usuários buscavam por informações em seu email, notavam que tudo tinha desaparecido. No auge do problema, cerca de 150 mil usuários foram afetados.

Dias após, o Google pediu desculpas pelos problemas causados no sistema, pois as falhas ocorreram devido a uma atualização implantada na época. O sistema voltou, em poucos dias, às atividades normais.

4. Intuit

Uma série de falhas envolvendo a hospedagem de serviços para pequenas e médias empresas da Intuit deram o que falar no final de março. Os problemas, que perduraram uma semana, ocorreram devido a, novamente, uma atualização e manutenção no sistema. A Intuit conta com serviços de cloud muito populares lá fora, como o Intuit QuickBooks, QuickBooks Online Payroll e ntuit Payments Solutions

5. Amazon Web Services

Em 21 de abril, clientes que utilizavam serviços em nuvem hospedados nos servidores da Amazon localizados na Virgínia do Norte (EUA) sofreram cortes e interrupções. O problema persistiu por vários dias, irritando usuários. A falta de comunicação da provedora com relação ao percalço gerou um movimento grande de pessoas que clamaram por transparência por parte do fornecedor.

A provedora justificou a falha dizendo que sua loja, a Elastic Block Store (EBS), ficou presa em uma “tempestade de re-espelhamento”. Mais de uma semana após a paralisação inicial, a Amazon se desculpou e ofereceu crédito aos usuários da nuvem.

6. VMware Cloud Foundry

A plataforma de desenvolvimento da provedora de tecnologia de virtualização foi atormentada por um par de diferentes apagões no final de abril. Embora ainda em versão beta, o Cloud Foundry serviço foi colocado para fora da comissão por uma queda de energia, que afetou uma fonte de alimentação de um gabinete de armazenamento por volta das 5h45, de 25 de abril. Na manhã do dia seguinte, as 10h15, um engenheiro estava desenvolvendo um plano de detecção para prevenir problemas como os vivenciados no dia anterior. O técnico esbarrou em um teclado e tirou balanceadores de carga, roteadores e firewalls do ar, causando uma interrupção parcial da infraestrutura de DNS. O resultado? Perda completa de conectividade externa para Cloud Foundry.

7. Yahoo Mail

A empresa de busca e e-mail caiu em 28 de abril. O Yahoo não pôde dizer quantos usuários foram afetados quando o seu popular serviço mensagens “veio abaixo” e lá ficou por várias horas. Estima-se, contudo, que mais de 1 milhão de usuários foram afetados. A causa do problema não foi revelada, mas a fornecedora garante que dados não foram perdidos ou correm risco.

8. Microsoft BPOS (Round 1)

Entre 10 e 13 de maio, o Business Productivity Online Service (BPOS) sofreu uma série de interrupções, que acarretaram longos atrasos na entrega das mensagens dos usuários que trafegavam por aquela nuvem. O problema começou por volta das 12h30 de terça-feira, quando o serviço vinculado ao Exchange experimentou um problema com um dos componentes do hub vinculados ao tráfego incorreto de mensagens.

A fabricante disse que o Exchange possui uma capacidade de “built-in” para lidar com problemas de tráfego, mas “encontrou um caso obscuro” naquela situação que o fez não funcionar corretamente, criando acumulo de e-mails em um intervalo estimado entre seis a nove horas.

Em 13 de maio, mais atrasos, resultando algo como cerca de 1,5 milhão de mensagens de correio eletrônico “presas”, aguardando entrega. A Microsoft corrigiu essa questão por volta das 15h daquele dia.

9. Microsoft BPOS (Round 2)

Em 19 de maio, o serviço em nuvem do Exchange, parte do BPOS sofreu um problema de software que causou atrasos intermitentes nos e-mails de usuários nas Américas. A Microsoft disse que menos de 1% dos clientes foram afetados pela falha, que começou às 08h48, quando os sistemas de monitoramento detectaram filas “anormais” em 30% dos servidores Exchange Online.

Por 9h54, a fila de e-mails havia caído para níveis normais, mas o time de engenharia da companhia identificou um problema causado por software em um hub de servidores. A Microsoft corrigiu a falha no sistema adicionando máquinas que aliviaram a demanda e normalizaram o fluxo por volta das 15h30.

10. Microsoft BPOS (Round 3)

O sistema em nuvem da gigante sofreu mais um ataque. Dessa vez, ocorreu em 22 de junho. O serviço ficou fora do ar por mais de duas horas e levou com ele os serviços online de painéis de controle, o que significa que os usuários, além de enfrentarem problemas, não conseguiam ver o que estava acontecendo.

* Leia a reportagem original, em inglês, na CRN EUA: “The 10 Biggest Cloud Outages Of 2011 (So Far)“

Bytes da Educação ®

Páginas

14 de set. de 2011

As 10 maiores falhas na nuvem em 2011 (até agora)