Il 7 agosto a Dublino (Irlanda) si è scatenata una tempesta di fulmini che è stata capace di far andare in tilt i sistemi di backup dell’energia dei DataCenter di Amazon Web Services e di Microsoft BPOS (Business Productivity Online Suite) situati in Irlanda.

In piena estate a Dublino una tempesta elettrica mette fuori uso il sistema dati dei due colossi informatici, il sistema automatico di backup dell’energia elettrica è saltato ad entrambi che lo hanno dovuto attivare manualmente, per ore si sono adoperati i tecnici per ripristinare il tutto e stanno ancora lavorandoci restituendo ai clienti i recovery dei dati sui dischi EBS. Arrivano le email ai clienti man mano che recuperano i dati degli snapshot o dei volumi EBS, evidentemente il danno elettrico ha compromesso la rete di replica del sistema di storage EBS, cosi come successe ad aprile (per un errore umano).

Questo secondo caso su Amazon purtroppo fa riflettere sull’affidabilità del sistema di Storage a blocchi chiamato Elastic Block Storage, è delicato, dipendente dalla giusta banda di replica, tale da rischiare la consistenza dei dati e nei casi di istanze EC2 EBS bootable, far fermare il servizio erogato senza accorgertene (la macchina risulta up), devi avere un alert esterno in quanto il CloudWatch non monitora la salute dei servizi, o almeno non direttamente.

E’ ovvio che un fulmine è un evento straordinario, ma c’è da chiedersi anche come abbia potuto un fulmine cadere su una apparecchiatura elettrica visto che di solito le centrali elettriche sono molto ben attrezzate con parafulmini ben dimensionati che dovrebbero deviare il percorso del fulmine. Inoltre due datacenter di clienti diversi, magari vicini ed alimentati dalla stessa linea elettrica, ma entrambi dotati dello stesso sistema di backup automatico dell’energia, sistema che è saltato in entrambi i casi. Credo e spero che sia Amazon che Microsoft sappiano farsi valere legalmente sulla casa costruttrice dell’apparato saltato e sul comune o chi di competenza per non aver messo a norma il sistema di parafulmini.

Inoltre occorre riflettere sull’uso massiccio che convenientemente si fa dei dischi EBS, rapidi, non volatili, ridimensionabili, snapshottabili, etc. Magari occorre pianificare meglio dei backup alternativi, sincronizzazioni verso S3, copie degli snapshot in altri datacenter etc etc.

Share This