• O eroare internă Cloudflare a cauzat un outage global, afectând mii de site-uri
  • Problema a fost declanșată de un fișier de configurare care și-a dublat dimensiunea din cauza unor permisiuni greșite într-o bază de date
  • Alternanța între noduri actualizate și neactualizate a creat un ciclu de 5 minute între funcționare și cădere
  • Cloudflare a crezut inițial că este sub un atac DDoS, accentuat de căderea simultană a paginii de status
  • Compania și-a cerut scuze și a promis măsuri suplimentare pentru a evita repetarea situației

Ieri, o parte semnificativă a internetului a dispărut din peisaj pentru câteva ore. Mii de site-uri – de la platforme sociale și servicii de streaming, până la aplicații de business – au afișat erori sau pur și simplu nu s-au încărcat. Vinovatul? Cloudflare, compania care asigură infrastructura pentru o mare parte din traficul global.

Inițial, totul părea să indice un mega-atac cibernetic. Conexiunile cădeau în mod sincron pentru câteva minute, reveneau, apoi picau din nou. Modele ca acestea sunt asociate de obicei cu un DDoS hyperscale – un atac atât de mare încât ar putea satura rețelele chiar și ale unui gigant.

Dar realitatea? Mult mai banală… și mult mai dureroasă pentru Cloudflare.

Recomandări

VIAȚĂ VEȘNICĂ ÎN CLOUD
YOUTUBE ELIMINĂ DEEPFAKE LA CERERE
ȘTIINȚA PRINDE ARIPI

De ce părea un atac: un pattern greu de ignorat

Specialiștii Cloudflare au împărtășit ulterior că primele semne erau înșelătoare:

  • conexiunile picau la intervale regulate,
  • perioada de „revigorare” era scurtă,
  • simptomele păreau coordonate.

În plus, status page-ul Cloudflare – găzduit în afara infrastructurii companiei – a căzut și el exact în același interval. O coincidență nefericită care a alimentat suspiciunea unui atac elaborat, posibil coordonat asupra mai multor sisteme simultan.

Doar că, după ore de analiză, coincidențele s-au dovedit a fi… doar coincidențe.

Adevărata cauză: un update și un fișier care a scăpat de sub control

Explicația oficială a companiei este demnă de „manualul problemelor IT”: o schimbare de permisiuni într-o bază de date a dus la generarea unor date greșite, care au dublat dimensiunea unui fișier de configurare folosit de sistemul de Bot Management.

Ce s-a întâmplat mai exact?

  1. Un update minor la baza de date → schimbare neintenționată de permisiuni.
  1. Baza de date începe să genereze un fișier de configurare mult mai mare decât era permis.
  2. Acest fișier, replicat pe toate serverele Cloudflare, depășea limitele software-ului de routing.
  3. Rezultatul: serverele începeau să cedeze instant.

Acest fișier era practic „manualul de instrucțiuni” pentru rețeaua Cloudflare. Dar noua versiune era prea mare pentru ca sistemul s-o proceseze, ceea ce provoca erori pe întreg lanțul.

Când fișierul era „bun”, totul mergea. Când era „defect”, internetul se prăbușea.

Enigma celor cinci minute: de unde venea ritmul ciudat

Partea cea mai înșelătoare a incidentului a fost alternanța perfectă dintre perioade funcționale și perioade de downtime.

Cloudflare a explicat că fișierul problematic era generat la fiecare cinci minute de un query rulat într-un cluster ClickHouse. Dar… clusterul era într-un proces de upgrade.

Astfel:

  • dacă query-ul rula pe un nod actualizat → fișier corupt → cădere
  • dacă rula pe un nod încă neactualizat → fișier valid → rețea funcțională

Această loterie internă a dat impresia unei acțiuni ostile „care atacă și se oprește din atac”, când, de fapt, era doar rezultatul unei sincronizări imperfecte între nodurile bazei de date.

Pe scurt: internetul a picat la ruleta permisiunilor greșite.

„Ne pare rău. A fost un moment dureros.”

În comunicatul oficial, Cloudflare și-a cerut scuze într-un ton neobișnuit de personal:

„Orice perioadă în care rețeaua noastră nu poate rula traficul este inacceptabilă. Știm că v-am dezamăgit.”

Compania promite măsuri de prevenție suplimentare și un audit tehnic complet asupra procesului care a generat fișierul corupt.

De ce contează incidentul

Evenimentul subliniază un adevăr important:

infrastructura internetului este incredibil de interconectată – dar și vulnerabilă.

Atunci când un singur furnizor global precum Cloudflare are o problemă, efectele sunt instantanee și masive. Mii de companii se bazează pe serviciile Cloudflare pentru:

  • accelerarea paginilor web,
  • protecție DDoS,
  • hosting de resurse,
  • rutare globală.

O simplă eroare internă a fost suficientă pentru ca internetul să „se bâlbâie” la nivel mondial.

Citește și