Gigantický IT výpadok. Nefungujú služby ani aplikácie

V pondelok nadránom došlo k vážnemu technickému incidentu, ktorý na niekoľko hodín narušil fungovanie časti globálnej internetovej infraštruktúry. Najväčší poskytovateľ cloudových služieb na svete, Amazon Cloud Services, zaznamenal rozsiahly výpadok v regióne Spojených štátov označovanom ako US EAST 1. Zmieňovaný región umiestnený v severnej Virgínii je jedným z najdôležitejších uzlov, cez ktoré prechádza dátová prevádzka mnohých medzinárodných spoločností, píše amazon.

Gigantický výpadok

Podľa záznamov služby Downdetector prestali byť v dôsledku poruchy dostupné alebo reagovali so značným oneskorením viaceré populárne platformy. Používatelia hlásili problémy pri prístupe k službám Disney Plus, Snapchat, Reddit, Canva, Amazon, Venmo či Coinbase. Vypadli aj podporné systémy mobilných operátorov T-Mobile a Verizon. Dopravné spoločnosti ako United Airlines a Delta zaznamenali neschopnosť spracúvať online odbavenie cestujúcich, uvádza portál CNBC.

Zdroj: Amazon

Záznamy z interného monitoringu AWS naznačujú, že problém súvisel s chybou v systéme DNS pre databázovú službu DynamoDB. Tento komponent zabezpečuje komunikáciu medzi aplikačnými rozhraniami a databázami, ktoré ukladajú obrovské množstvo údajov. Porucha v DNS znamenala, že servery neboli schopné správne identifikovať cieľové adresy, čo viedlo k reťazovej reakcii v rámci ďalších služieb napojených na rovnakú infraštruktúru.

Spoločnosť v prvom oficiálnom vyhlásení označila situáciu za „operačný problém s vplyvom na viacero služieb“ a uviedla, že pracuje na paralelných postupoch na obnovenie prevádzky. Krátko po druhej hodine ráno miestneho času inžinieri zaznamenali prvé známky zotavenia. „Väčšina požiadaviek by už mala prechádzať úspešne, hoci pretrváva spracúvanie nahromadených úloh,“ uviedol Amazon.

Rozsah výpadku bol mimoriadne veľky. Postihnutých bolo podľa údajov AWS Health Dashboard až 71 služieb, vrátane výpočtového prostredia EC2, databázového systému RDS, analytických nástrojov Redshift a Glue, ako aj úložných riešení S3. Incident sa prejavil aj v oblastiach umelej inteligencie a strojového učenia, keďže niektoré modely využívajú dynamické prepojenie na služby AWS Lambda a SageMaker.

Dôsledky pre cloudový ekosystém a otázka centralizácie

Výpadok stihol otvoriť pomerne ostrú diskusiu o miere závislosti digitálneho sveta od niekoľkých globálnych poskytovateľov cloudu. Amazon Web Services spolu s Microsoft Azure a Google Cloud kontrolujú väčšinu svetového trhu s cloudovou infraštruktúrou.

Podobné incidenty už v minulosti pritom ukázali, že aj krátkodobé prerušenie prevádzky môže mať reťazový dopad na desiatky ďalších sektorov, od dopravy a financií až po mediálne platformy. Cloudové riešenia, ktoré mali priniesť stabilitu a redundanciu, sa tak pri zlyhaní jednej kľúčovej oblasti môžu stať slabým miestom celej siete.

Spoločnosť Amazon oznámila, že po obnovení služieb začne detailnú analýzu príčin a pripravuje technickú správu. Cieľom je vyhodnotiť interné mechanizmy DNS riešenia a prijať opatrenia, ktoré by zabránili opakovaniu podobných udalostí.