Facebook padł na wiele godzin. Wyjaśniamy, co mogło być przyczyną
Facebook i wszystkie główne usługi, których serwis jest właścicielem, padły w poniedziałek na całym świecie na ponad 6 godzin. Dochodzenie internautów wykazało, że powodem wydaje się błędna aktualizacja zewnętrznego protokołu trasowania BGP.
04.10.2021 21:16
Użytkownik Twittera Jim Salter poinformował w poniedziałek o poważnej awarii DNS na Facebooku. Problem sięga jednak głębiej. Instagram należący do Facebooka również nie działał, a jego usługi DNS – które są hostowane na Amazon, a nie jako wewnętrzne dla własnej sieci Facebooka – były funkcjonalne.
Instagram i WhatsApp były osiągalne, ale wykazywały awarie HTTP 503. Wskazuje to, że chociaż DNS działał, a systemy równoważenia obciążenia usług wciąż działały, serwery aplikacji, które powinny zasilać systemy równoważenia obciążenia, już nie funkcjonowały prawidłowo.
Dane Knecht, wiceprezes Cloudflare, poinformował, że wszystkie trasowania BGP dla Facebooka zostały usunięte. Bez tras BGP do sieci Facebooka, własne serwery DNS Facebooka byłyby nieosiągalne, podobnie jak brakujące serwery aplikacji należących do Facebooka – Instagrama, WhatsAppa i Oculus VR.
Niedługo po tym, użytkownik Reddita u/ramenporn zgłosił na subreddicie r/sysadmin, że połączenie BGP z Facebookiem nie działa, prawdopodobnie z powodu zmiany konfiguracji, która została wprowadzona na krótko przed rozpoczęciem przerw w działaniu serwisów.
Według u/ramenporn, który twierdzi, że jest pracownikiem Facebooka i prowadzi działania na rzecz wznowienia funkcjonowania serwisu, jest to najprawdopodobniej przypadek inżynierów sieciowych Facebook odpowiedzialnych za zmianę konfiguracji, która przypadkowo go zablokowała.
Oznacza to, że poprawka musi zostać dokonana przez techników centrum danych z lokalnym, fizycznym dostępem do danych routerów. Wycofane trasowania nie wydają się wynikiem żadnego złośliwego ataku na infrastrukturę Facebooka.