Heute kam es zu einer massiven Störung bei Cloudflare, einem der größten Anbieter von Internet-Infrastruktur und Sicherheitsdiensten. Der Vorfall betraf zahlreiche Websites und Online-Dienste weltweit, darunter prominente Plattformen wie X (ehemals Twitter), Spotify, Canva und viele weitere.
Beginn und Verlauf der Cloudflare-Störung
Laut Cloudflare begann die Störung am 18. November um 11:48 UTC mit einer internen Service-Degradation. Betroffen waren verschiedene Dienste wie CDN/Cache, Bot Management, Firewall, Netzwerk, WARP und Workers. Die Probleme führten zu massiven Ausfällen, die Nutzer in vielen Ländern daran hinderten, Webseiten zu laden oder Dienste zu nutzen.
In einem Statusupdate um 13:09 UTC erklärte Cloudflare, dass die Ursache identifiziert wurde und eine Lösung implementiert werde. Gegen 14:42 UTC meldete das Unternehmen, dass die Korrektur erfolgreich durchgeführt wurde und die Systeme überwacht werden, während um 19:28 UTC die Störung offiziell als beendet erklärt wurde.
Technische Hintergründe
Cloudflare zufolge wurde die Störung durch einen „latenten Bug“ in ihrem Bot-Management-System ausgelöst. Eine automatisch generierte Konfigurationsdatei wuchs unerwartet stark an, was zu einem Softwarefehler in der Proxy-Engine führte.
Die Proxy-Engines von Cloudflare, sowohl die alte „FL“- als auch die neue „FL2“-Engine verhielten sich unterschiedlich: Bei der neuen FL2-Engine traten HTTP-5xx-Fehler auf, die Zugriffe auf Websites unmöglich machten. Bei der alten Engine wurden Bot-Scores falsch berechnet, was dazu führte, dass legitime Anfragen teilweise blockiert wurden.
Weitere Dienste wie Workers KV und Access waren ebenfalls betroffen, da sie auf dieselbe Proxy-Infrastruktur angewiesen sind. Auch das Cloudflare-Dashboard war zeitweise nicht erreichbar.
Auswirkungen auf Nutzer und Unternehmen
Die Störung hatte globale Auswirkungen. Nutzer berichteten von nicht erreichbaren Websites, Serverfehlern und Problemen beim Zugang zu Cloudflare-Diensten wie WARP. Auf Community-Plattformen und sozialen Netzwerken machten sich zahlreiche Meldungen breit, die die weltweite Dimension der Ausfälle zeigten.
Besonders kritisch waren die Auswirkungen auf Unternehmen, die auf Cloudflare zur Absicherung ihrer Webseiten und Dienste setzen. Die Ausfälle führten zu Störungen im Betrieb zahlreicher Online-Angebote.
Reaktion von Cloudflare
Cloudflare veröffentlichte kontinuierliche Updates auf seiner Statusseite und entschuldigte sich öffentlich für die Beeinträchtigungen. In einem Blogpost kündigte das Unternehmen eine gründliche Untersuchung des Vorfalls an, um die genauen Ursachen zu analysieren und künftige Ausfälle zu vermeiden.
Der CTO von Cloudflare, Dane Knecht, betonte, dass das Unternehmen die Verantwortung ernst nehme und alles daran setze, Vertrauen bei Kunden und Internetnutzern wiederherzustellen.
Analyse und Lehren
Der Vorfall verdeutlicht die Verwundbarkeit zentralisierter Internet-Infrastrukturen. Selbst hochmoderne Systeme wie Cloudflare können durch latente Bugs oder unerwartete Konfigurationsänderungen massive Ausfälle verursachen.
Experten empfehlen Unternehmen, auf Redundanz zu setzen, ihre Sicherheits- und Monitoring-Systeme regelmäßig zu überprüfen und sich auf Worst-Case-Szenarien vorzubereiten. Auch die Kommunikation während einer Störung spielt eine zentrale Rolle, um das Vertrauen von Nutzern und Kunden zu erhalten.
