giovedì 10 marzo 2011

fault in datacenter



Lunedì 7 marzo si è verificato un incidente in uno dei tre datacenter che ospitano le infrastrutture NewMediaLabs.
Precisamente, nel datacenter KPN DC1 durante delle operazioni di manutenzione straordinaria agli UPS si è verificato un calo di tensione di 20 ms.
Ciò ha causato il riavvio di 6 server (su 65), ed un guasto su uno switch.
Il nostro personale è intervenuto immediatamente, e nell'arco di un'ora sono stati riattivati i server e ripristinata la connettività.
Altre operazioni di verifica, manutenzione e ripristino servizi sono poi proseguite nell'arco di tutta la notte.

La sospensione di connettività ha coinvolto alcuni server di hosting shared e diversi server dedicati in housing e colocation.
Il riavvio forzoso ha invece coinvolto un solo nostro server di hosting shared, alcuni storage di backup ed altri server dedicati in housing e colocation.

Riportiamo in fondo il comunicato ufficiale di KPN al riguardo.

Si tratta di incidenti che, per quanto si operi con strutture ridondate ed allo stato dell'arte, possono sempre succedere. L'importante è saperli gestire con tempestività, efficienza e flessibilità.
Uno dei server riavviati in quest'occasione aveva un uptime di quasi due anni, ed è ridiventato pienamente operativo poco più di un'ora dopo l'incidente. Un'ora di interruzione di servizio su due anni ci sembra un risultato lusinghiero e di rilevo.
Al personale che si è impegnato in tale occasione nel ripristino dei servizi vanno non solo la nostra gratitudine, ma anche i nostri complimenti per le capacità dimostrate nell'affrontare il problema, per la professionalità e la disponibilità.

Ecco alcune informazioni aggiuntive riguardo il malfunzionamento UPS avvenuto in Sala 1, lunedì 7 marzo.

Gli UPS in sala 1 interessati dal malfunzionamento operano in configurazione “in parallelo”, se uno dei due ha un problema, viene automaticamente escluso e tutto il carico passato all’altro UPS. Ogni singolo UPS è dimensionato in modo da reggere l’intero carico.

Intorno alle ore 15:00 gli UPS funzionavano correttamente ma generavano una segnalazione di possibile malfunzionamento. I tecnici del produttore degli UPS sono prontamente arrivati sul luogo e hanno valutato di dover intervenire urgentemente. Abbiamo avvisato i clienti dell’intervento di manutenzione straordinaria.

Alle 16:00 i tecnici del produttore hanno commutato il carico dei due UPS su un singolo UPS, che ha retto per l’intera durata delle operazioni.

Tuttavia la commutazione ha comportato un imprevisto calo di tensione di pochi millisecondi che ha impattato una parte delle apparecchiature a valle, fra cui: alcuni server di nostri clienti, alcuni server nostri e i router di core, che sono ripartiti dopo qualche minuto.

Questo calo di tensione, seppur breve, NON sarebbe dovuto avvenire, perciò abbiamo convocato per domani il fornitore degli UPS per identificare le cause ed i correttivi. Forniremo maggiori dettagli appena possibile.

I lavori sull’UPS sono proseguiti sino alle 01:00 di martedì. Sino a quel momento tutto il carico è stato retto dall’UPS rimanente.

Ci scusiamo per il disagio arrecato dal calo di tensione, soprattutto con i clienti che hanno dovuto ripristinare dati e applicazioni sulle proprie macchine.