Eroare internă la Cloudflare a blocat zeci de mii de site-uri. Cum a ajuns un fișier „prea mare” să prăbușească internetul

Ieri, o parte semnificativă a internetului a dispărut din peisaj pentru câteva ore. Mii de site-uri – de la platforme sociale și servicii de streaming, până la aplicații de business – au afișat erori sau pur și simplu nu s-au încărcat. Vinovatul? Cloudflare, compania care asigură infrastructura pentru o mare parte din traficul global.

Inițial, totul părea să indice un mega-atac cibernetic. Conexiunile cădeau în mod sincron pentru câteva minute, reveneau, apoi picau din nou. Modele ca acestea sunt asociate de obicei cu un DDoS hyperscale – un atac atât de mare încât ar putea satura rețelele chiar și ale unui gigant.

Dar realitatea? Mult mai banală… și mult mai dureroasă pentru Cloudflare.

De ce părea un atac: un pattern greu de ignorat

Specialiștii Cloudflare au împărtășit ulterior că primele semne erau înșelătoare:

În plus, status page-ul Cloudflare – găzduit în afara infrastructurii companiei – a căzut și el exact în același interval. O coincidență nefericită care a alimentat suspiciunea unui atac elaborat, posibil coordonat asupra mai multor sisteme simultan.

Doar că, după ore de analiză, coincidențele s-au dovedit a fi… doar coincidențe.

Adevărata cauză: un update și un fișier care a scăpat de sub control

Explicația oficială a companiei este demnă de „manualul problemelor IT”: o schimbare de permisiuni într-o bază de date a dus la generarea unor date greșite, care au dublat dimensiunea unui fișier de configurare folosit de sistemul de Bot Management.

Ce s-a întâmplat mai exact?

  1. Un update minor la baza de date → schimbare neintenționată de permisiuni.
  1. Baza de date începe să genereze un fișier de configurare mult mai mare decât era permis.
  2. Acest fișier, replicat pe toate serverele Cloudflare, depășea limitele software-ului de routing.
  3. Rezultatul: serverele începeau să cedeze instant.

Acest fișier era practic „manualul de instrucțiuni” pentru rețeaua Cloudflare. Dar noua versiune era prea mare pentru ca sistemul s-o proceseze, ceea ce provoca erori pe întreg lanțul.

Când fișierul era „bun”, totul mergea. Când era „defect”, internetul se prăbușea.

Enigma celor cinci minute: de unde venea ritmul ciudat

Partea cea mai înșelătoare a incidentului a fost alternanța perfectă dintre perioade funcționale și perioade de downtime.

Cloudflare a explicat că fișierul problematic era generat la fiecare cinci minute de un query rulat într-un cluster ClickHouse. Dar… clusterul era într-un proces de upgrade.

Astfel:

Această loterie internă a dat impresia unei acțiuni ostile „care atacă și se oprește din atac”, când, de fapt, era doar rezultatul unei sincronizări imperfecte între nodurile bazei de date.

Pe scurt: internetul a picat la ruleta permisiunilor greșite.

„Ne pare rău. A fost un moment dureros.”

În comunicatul oficial, Cloudflare și-a cerut scuze într-un ton neobișnuit de personal:

„Orice perioadă în care rețeaua noastră nu poate rula traficul este inacceptabilă. Știm că v-am dezamăgit.”

Compania promite măsuri de prevenție suplimentare și un audit tehnic complet asupra procesului care a generat fișierul corupt.

De ce contează incidentul

Evenimentul subliniază un adevăr important:

infrastructura internetului este incredibil de interconectată – dar și vulnerabilă.

Atunci când un singur furnizor global precum Cloudflare are o problemă, efectele sunt instantanee și masive. Mii de companii se bazează pe serviciile Cloudflare pentru:

O simplă eroare internă a fost suficientă pentru ca internetul să „se bâlbâie” la nivel mondial.

Exit mobile version