Il 18 novembre 2025 un innocuo aggiornamento ai permessi di un database ha scatenato un blackout mondiale su Cloudflare, mandando offline migliaia di siti e servizi come ChatGPT, Spotify e X per oltre due ore.
Un intervento di sicurezza sul database ClickHouse, usato per il Bot Management, ha alterato il comportamento di una query consolidata. Invece di estrarre 60 elementi dal database principale, il sistema ha incluso dati da un archivio secondario, gonfiando l’output oltre 200 feature. Questo file di configurazione oversized, propagato ogni cinque minuti su oltre 330 datacenter, ha colpito un limite rigido nel codice.
Il colpo di grazia è arrivato da una funzione unwrap() in Rust: assumendo un input sempre valido, ha generato un panic totale senza log o fallback, crashando i nodi uno dopo l’altro. La coincidenza di un guasto separato sulla pagina di status ha ritardato la diagnosi di oltre due ore, fino alle 14:30, con risoluzione completa alle 17:06.
L’incidente evidenzia rischi nascosti nei sistemi critici: mancanza di validazione input, assunzioni architetturali fragili e dipendenza da comandi non gestiti come unwrap(). Gli esperti sottolineano l’importanza di controlli rigorosi, limiti dinamici e meccanismi di degradazione per evitare che un dettaglio tecnico provochi disastri globali in infrastrutture distribuite.
