Как работает фильтрация данных в CERN: почему нельзя замедлить столкновения протонов

1 час назад

Всем привет! На связи Аля, старший продакт-менеджер направления выделенных серверов в Selectel. Прошлой весной я посетила CERN и была поражена: за годы работы Большого адронного коллайдера архив пополнился более чем эксабайтом данных. И это лишь «выжившие» сведения — 99,99% исходного потока безжалостно отфильтровывается в режиме реального времени.

У меня возникло множество вопросов. Как инженерам удается справляться с подобными объемами? Каким образом обеспечивается сохранность данных на протяжении десятилетий? Как проектируется архитектура, способная сохранять актуальность десятилетиями? Я решила разобраться в этом и запускаю серию материалов, где мы пройдем весь путь данных: от момента их генерации в недрах детектора до попадания на ноутбук ученого.

CERN — не просто научный институт

Выставочно-просветительский центр CERN Science Gateway. Источник. — *Выставочно-просветительский центр CERN Science Gateway.* *Источник*.

Обычно CERN воспринимают как оплот фундаментальной физики. Безусловно, это так. Однако, если рассматривать организацию через призму IT, перед нами предстает уникальная высокопроизводительная фабрика данных. Ее масштабы превосходят возможности любого коммерческого предприятия, а горизонт планирования здесь исчисляется десятками лет.

Большой адронный коллайдер (БАК) был запущен в 2008 году, и его эксплуатация планируется как минимум до 2040–2050 годов. Это означает, что информация, включая данные об открытии бозона Хиггса, должна оставаться доступной десятилетиями — даже для тех исследователей, которые сегодня только садятся за школьную парту.

В CERN долговечность — это не абстрактное пожелание, а критическое инженерное требование. Здесь не мыслят квартальными отчетами, здесь планируют эксперименты длиною в жизнь.

Полтриллиона страниц текста в секунду

Визуализация сложных потоков субатомных частиц, образующихся при столкновении пучков протонов в детекторе CMS. Источник. — Визуализация сложных потоков субатомных частиц, образующихся при столкновении пучков протонов в детекторе CMS. *Источник*.

При столкновении протонов внутри коллайдера гигантские детекторы размером с пятиэтажку генерируют колоссальные объемы информации. «Сырой» поток данных достигает петабайта в секунду. Чтобы оценить масштаб: петабайт — это порядка 500 млрд страниц текста. Каждую секунду.

Современные системы хранения физически не способны «переварить» такой объем, а бюджет организации просто не выдержит затрат на дисковые массивы. Стоимость хранения всех первичных данных за пару минут работы коллайдера превысила бы годовой бюджет CERN (около 1,5 млрд швейцарских франков).

Суть проблемы в том, что этот поток нельзя замедлить — такова физика процессов. Ускоритель нельзя поставить «на паузу», пока мы наращиваем мощности дата-центра.

Бесплатное S3-хранилище на 30 дней

Спецпредложение для новых пользователей Selectel.

Оставить заявку →

Искусство фильтрации

Для решения проблемы избыточности в CERN применяют многоуровневую триггерную систему. Это интеллектуальный фильтр, который в режиме реального времени отбрасывает около 99,99% событий. Важно понимать, что БАК — это комплекс из четырех независимых детекторов: CMS, ATLAS, ALICE и LHCb, и у каждого из них своя триггерная архитектура.

Общий вид БАК, включая ATLAS, CMS, ALICE и LHCb. Источник. — *Общий вид БАК, включая ATLAS, CMS, ALICE и LHCb.* *Источник*.

Рассмотрим систему CMS как наиболее показательный пример.

Первый эшелон: L1 Trigger

Цель L1 — за считанные микросекунды отсеять «мусор» непосредственно на уровне оборудования, пока сигнал не ушел дальше. Это самый жесткий и оперативный фильтр.

Детектор сталкивается с 40 млн событий (bunch crossings) в секунду. Обработать такой массив стандартными средствами невозможно. Поэтому на помощь приходят специализированные аппаратные решения — L1 Trigger, построенные на FPGA (Field-Programmable Gate Array), которые снижают нагрузку до 100 кГц.

Прототипы плат для Phase-2 апгрейда L1 Trigger CMS. На каждой плате — крупные FPGA Xilinx и более 100 высокоскоростных оптических каналов (28 Гбит/с). Слева направо: Serenity, X2O и APx. Источник. — Прототипы плат для Phase-2 апгрейда L1 Trigger CMS. На каждой плате — крупные FPGA Xilinx и более 100 высокоскоростных оптических каналов (28 Гбит/с). Слева направо: Serenity, X2O и APx. *Источник*.

FPGA — это программируемая логическая матрица. В отличие от стандартных чипов, ее архитектуру можно менять, определяя, как именно сигналы проходят внутри кристалла. Это позволяет достичь параллелизма, недоступного серверному процессору, ведь здесь нет накладных расходов на операционную систему, управление памятью или сетевой стек. Решение принимается за 3,8 мкс — в такие сжатые сроки обычная ОС не успела бы даже инициализировать процесс обработки.

Пока работает L1, данные «ожидают» своей участи в специальных буферах прямо на детекторе. Например, старые чипы APV25 (разработка 90-х годов!) активно используются до сих пор, записывая сигналы каждые 25 наносекунд в 192-ячеечный буфер. Если L1 дает «зеленый свет» — данные передаются дальше, в противном случае ячейка перезаписывается.

L1 сжимает поток данных в сотни тысяч раз, пропуская лишь 100 000 событий в секунду. Остальное удаляется без следа.

USC55, подземный counting room. Стойка Trigger/DAQ детектора CMS. Именно здесь в реальном времени принимаются решения о том, какие данные сохранить, а какие выбросить.

Второй эшелон: High Level Trigger (HLT)

HLT выполняет более тонкую работу: из 100 000 «подозрительных» событий он отбирает те, что представляют физическую ценность. Для этого данные сначала собираются со всех частей детектора системой DAQ (Data Acquisition System) и передаются на вычислительный кластер.

Ферма HLT расположена в наземном павильоне над детектором. Ее мощь впечатляет: в конфигурации Run 3 используется около 200 узлов на базе AMD EPYC и GPU NVIDIA Tesla T4 (всего более 25 000 ядер и 400 видеокарт). Перед сезоном 2024 года мощности были расширены, и сегодня ферма насчитывает свыше 30 000 ядер и 450 GPU. Здесь уже работают обычные Linux-серверы, выполняющие сложные алгоритмы поиска частиц, треков и джетов.

После обработки HLT поток сокращается до 5 000 событий в секунду, которые отправляются в Tier-0 — основной дата-центр CERN.

Ферма HLT крайне эффективна: в периоды, когда БАК не работает, серверы задействуются для офлайн-реконструкции, симуляций и калибровки данных.

Уроки для бизнеса

Опыт CERN ценен для любого инфраструктурного проекта. Вот три вопроса, которые стоит задать перед стартом:

Что вы не можете контролировать? В CERN это неконтролируемый поток данных с коллайдера. У бизнеса это могут быть резкие скачки трафика или жесткие SLA. Понимание ограничений определяет архитектуру.

Что вы готовы сознательно отбросить? В CERN фильтрация основана на глубоком понимании ценности данных. Если вы не решили, что «не нужно» хранить, вы будете тратить ресурсы впустую.

Насколько легко будет изменить систему позже? Архитектурные решения имеют свойство становиться «фундаментальными». Триггер проектировался с учетом длительности всего эксперимента, так как переделать его «на ходу» невозможно.

Заключение

Триггер — это лишь первый этап. После отсева остаются гигабайты ценных данных, которые нужно не только принять, но и надежно сохранить на годы вперед. В следующем материале я расскажу о Tier-0, дата-центре в Мейрене, и объясню, почему в долгосрочной перспективе «скучное» стандартное железо зачастую оказывается надежнее любых экспериментов.

Источник