AWS, l’errore diventa un’occasione per migliorare ancora

AWS, l’errore diventa un’occasione per migliorare ancora

In lungo e dettagliato post Aws oltre a scusarsi ha spiegato le ragioni dei disservizi della piattaforma Amazon S3 nella regione del Nord Virginia (US-EAST-1) accaduti il 28 febbraio.  All’origine del problema c’è stato un banale errore umano.

In particolare, un team di tecnici, per aggiornare il software di fatturazione della piattaforma S3, ha dovuto mettere offline un numero limitato di server inviando i comandi tramite console.

Un errore di comando da parte di un tecnico ha provocato lo spegnimento di un numero superiore di server a quello che previsto. In questo modo, sono stati coinvolti anche alcuni server “critici”, che hanno una funzione di coordinamento per centinaia di altri, provocando un effetto domino.

 

Amazon ha comunicato di essere all’opera per definire procedure automatiche di riavvio molto più veloci. Inoltre, ha dichiarato che i tecnici non potranno più mettere offline un numero di server critici senza avere una doppia autorizzazione.  

 

Un altro problema rilevante che si è venuto a verificare è stato il fatto che durante il crollo la Health Dashboard servizio online di pubblico monitoraggio dei server AWS non ha segnalato l’errore continuando ad esporre il disco verde.  Questo perché anche la Health Dashboard era parte del sistema che non funzionava. Ma ora la Health Dashboard, assicura AWS, gira su server dedicati e fisicamente sconnessi e sarà in grado rilevare in modo esatto e puntuale la presenza di malfunzionamenti.

Errore AWS

Per saperne di più: Post AWS,  Articolo Punto Informatico, Articolo la Stampa

Comments are closed.