20 октября 2025 года крупнейший в мире поставщик облачных услуг Amazon Web Services (AWS) пережил масштабный сбой, который заблокировал функционирование множества популярных веб-сайтов и приложений по всему земному шару. Среди пострадавших — Zoom, Signal, Snapchat, WhatsApp, игровые платформы Roblox и Fortnite, а также финансовые организации, включая Lloyds и Bank of Scotland.
Катализатором инцидента стала неисправность в механизме управления DNS для службы базы данных DynamoDB в регионе US-EAST-1 (Северная Вирджиния).

Две автоматизированные утилиты, отвечающие за обновление DNS-записей, одновременно внесли изменения в серверные адреса, однако их операции не были скоординированы. В итоге одна из систем заменила недавно обновлённые записи устаревшими, а другая удалила эти «устаревшие» записи, что привело к обнулению указателей серверов. В результате многие сервисы AWS лишились возможности обрабатывать запросы корректно.
AWS-инженерам пришлось прибегнуть к ручному восстановлению инфраструктуры, что заняло около 15 часов. Представители компании отметили, что к 21 октября ключевые сервисы были полностью возобновлены, однако часть процессов всё ещё испытывала повышенную нагрузку при выполнении отложенных запросов.
Подобные каскадные сбои встречаются редко, но в крупных облачных экосистемах они почти неизбежны из-за сложной архитектуры и плотных взаимозависимостей. Данный инцидент вновь подчеркнул необходимость грамотного распределения нагрузки и децентрализации сервисов для повышения их отказоустойчивости.
Источник: iXBT



