Era mercoledì 25 novembre, una giornata come tante altre in Nord Virginia, nel sud est degli Stati Uniti, quando Amazon Web Service ha subito un’interruzione di servizio causando dei problemi non proprio irrilevanti a molti servizi online.

Dopo aver analizzato in modo preciso e meticoloso il problema, dal quartier generale di Seattle hanno affermato che l’interruzione si è verificata solo nella regione della Virginia settentrionale in particolare dopo una “piccola aggiunta di capacità” alla sua flotta front-end di server Kinesis.

Un disagio non da poco se consideriamo il fatto che Amazon Kinesis, strumento Aws che consente l’elaborazione in tempo reale dei dati in streaming, oltre al suo utilizzo diretto da parte dei clienti è utilizzato da grandi aziende come Adobe Spark, Roku, Flickr o Autodesk. Questo vuol dire che quasi tutte le principali app software basate su cloud che si affidano ad Amazon Kinesis per il loro back-end sono state interessate dal disagio.

Basti pensare, infatti, che i problemi hanno riguardato anche portali di criptovaluta che non riuscivano a elaborare le transazioni e i servizi di streaming e podcast che limitavano l’accesso degli utenti ai propri account. Tra i siti che hanno segnalato problemi sulla pagina DownDetector ci sono servizi come Ring, Prime Music, Pokemon Go, Roku, MeetUp.com, League of Legends, Anchestry.com, Chime e altri.

Stando a quanto comunicato dal colosso del Cloud, il disservizio sarebbe successo dopo una “piccola aggiunta di capacità” alla sua flotta front-end di server Kinesis. 

Il fattore scatenante, sebbene non la causa principale dell’evento, – tengono a precisare dall’azienda – è stata un’aggiunta relativamente piccola di capacità che ha iniziato ad essere addizionata al servizio alle 2:44, terminando alle 3:47. Kinesis dispone di un gran numero di cluster di celle back-end che elaborano i flussi. Questi sono i cavalli di battaglia di Kinesis, che forniscono distribuzione, accesso e scalabilità per l’elaborazione del flusso. Gli stream vengono diffusi nel back-end tramite un meccanismo di sharding di proprietà di un parco di server front-end. Un cluster back-end possiede molti frammenti e fornisce un’unità di ridimensionamento coerente e isolamento degli errori. Il lavoro del front-end è piccolo ma importante. Gestisce l’autenticazione, la limitazione e l’instradamento delle richieste agli stream-shard corretti sui cluster back-end”.

Alle 9:39 – continuano – siamo stati in grado di confermare che la causa principale non era dovuta alla pressione della memoria. Piuttosto, la nuova capacità aveva causato il superamento del numero massimo di thread consentito da una configurazione del sistema operativo in tutti i server della flotta. Quando questo limite veniva superato, la costruzione della cache non veniva completata e i server front-end si trovavano con mappe frammentarie inutili che li rendevano incapaci di instradare le richieste ai cluster di back-end”.

Insomma, il problema sarebbe stato innescato dalla volontà di aumentare la capacità del sistema. Il tentativo di aggiungere nuovi server alla rete di Cloud Computing dominante di Amazon ha innescato una serie di errori a cascata che hanno causato problemi a diversi servizi online.

Riconoscere i propri errori, però, è fondamentale e in questo caso il colosso del Cloud è stato pronto a scusarsi con i propri clienti. “Faremo tutto il possibile – hanno dichiarato – per imparare da questo evento e utilizzarlo per migliorarci ulteriormente”.

Vuoi scoprire come evitare che accada al tuo business?

Share This