Становятся ли жёсткие диски надёжнее? Анализ кривой отказов

Становятся ли жёсткие диски надёжнее? Анализ кривой отказов

Если вы уже знакомы с проектом Backblaze и регулярно читаете наши отчёты Drive Stats, вы, вероятно, встречали публикацию «Drive Failure Over Time: The Bathtub Curve Is Leaking», где мы подвергли сомнению классическую «ванную кривую» отказов накопителей.

Тогда результаты не подтвердили традиционную модель: вместо предсказуемой U-образной формы мы увидели резкие всплески и плато. По прошествии 13 лет непрерывного сбора данных картина стала ещё более наглядной — и одновременно причудливой. Форма кривой теперь скорее напоминает бордюр душевой кабины, чем аккуратную ванну. Описание с ранними браковыми отказами, длительным периодом стабильности и последующим износом уже не соответствует реальной статистике наших дисков. Современные жёсткие диски работают надёжнее, о чём свидетельствует текущий датасет Drive Stats.

Кратко: жёсткие диски становятся лучше.

Понятие кривой отказов

При оценке надёжности аппаратуры часто используют так называемую «ванную кривую» — U-образный график, отражающий три этапа жизни устройства: пики ранних отказов, низкий и стабильный уровень в «средневозрастном» периоде и рост числа сбоев по мере износа.

Упрощённая «ванная кривая» отказов
Схематическая «ванная кривая» отказов накопителей

Как это выглядело ранее

Первый наш анализ датируется 2013 годом, а в отчёте 2021 года мы сравнили два поколения статистики:

Сравнение отказов дисков в 2013 и 2021 годах
Годовой процент отказов (AFR) в 2013 и 2021 годах

Данные 2013 года ближе к классической U-образной форме, тогда как по состоянию на 2021 год видно меньше проблем на старте эксплуатации и удлинённый период низкого уровня отказов. Средняя «выживаемость» дисков до начала массовых сбоев увеличилась примерно на два года.

От чего зависит восприятие статистики

При сравнении показателей важно учитывать размер и состав пула накопителей. В 2013 году у нас было около 35 000 дисков, включая в основном потребительские модели (которые часто «раздевались» из внешних корпусов), а к 2021 году — уже свыше 206 000 накопителей в трёх дата-центрах (Сакраменто, Финикс и Амстердам). Рост числа устройств автоматически сглаживает статистические «скачки» при старении пула.

CREATE VIEW introduction_dates AS
  -- Даты ввода в эксплуатацию накопителей, работавших на 2013-04-10
  SELECT serial_number, date(date_add('hour', -1 * smart_9_raw, TIMESTAMP '2013-04-10 00:00:00')) AS introduced
    FROM drivestats
   WHERE date = DATE '2013-04-10'
  UNION
  -- Для остальных дисков берём минимальную дату
  SELECT serial_number, MIN(date) AS introduced
    FROM drivestats
   WHERE serial_number NOT IN (
           SELECT serial_number
             FROM drivestats
            WHERE date = DATE '2013-04-10'
         )
   GROUP BY serial_number;

SELECT date_diff('day', d2.introduced, d1.date) / 91 AS age_in_quarters, 100 365 (CAST(SUM(d1.failure) AS DOUBLE) / COUNT(*)) AS afr FROM drivestats AS d1 JOIN introduction_dates AS d2 USING (serial_number) GROUP BY 1 ORDER BY 1;

Кривая отказов в 2025 году

По состоянию на конец II квартала 2025 года мы проанализировали статистику по 317 230 дискам:

Кривая отказов дисков на 2025 год
Годовой процент отказов (AFR) по состоянию на II квартал 2025 года

Для наглядности сравним три кривые — за 2013, 2021 и 2025 годы:

Сравнение отказов дисков: 2013 vs 2021 vs 2025
Сравнение показателей отказов дисков в возрасте 0–11 лет за 2013, 2021 и 2025 годы

Пик отказов в 2013 году достигал 13,73% в возрасте ≈3 года 3 месяцев, в 2021 — 14,24% к 7 годам 9 месяцам, а в 2025 — лишь 4,25% на отметке 10 лет 3 месяцев. При этом первый год эксплуатации дисков характеризуется очень низким уровнем отказов — около 1,30 % (1,36 % за последний квартал).

Форма кривых 2021 и 2025 годов схожа: устойчивый низкий уровень отказов в среднем возрасте и выраженный пик при износе. Это наглядно демонстрирует, что современные накопители служат дольше и надёжнее. Возможно, следующий анализ стоит провести в 2029 году, чтобы посмотреть, как сместится пик эксплуатируемости.

Контекст статистики

На результаты влияет партия закупаемых дисков: при массовой покупке единичные проблемы в конкретной модели проявляются одновременно. Кроме того, мы изменили политику списания — теперь выводим из эксплуатации часть исправных накопителей ещё до серьёзных отказов, что дополнительно снижает AFR в старших возрастных диапазонах.

Новые стандарты жёстких дисков (увеличенные объёмы, изменённые схемы записи) и гибкость в выборе поставщиков позволяют нам учитывать особенности корпоративной среды ещё на этапе закупок.

Ограничения «ванной кривой»

Модель отражает лишь зависимость числа отказов от времени, упуская из виду факторы:

  • разную нагрузку и среду эксплуатации,
  • изменения в производственных процессах и прошивках,
  • разные политики выведения накопителей из пула.

Тем не менее, в дата-центрах стремятся к стабильной температуре и питанию, что делает нашу выборку репрезентативной и пригодной для долгосрочного прогнозирования.

Дальнейшие планы

С расширением пула дисков надёжность статистики растёт: большее число устройств сглаживает случайные колебания и даёт устойчивую картину как на старте, так и на финише жизненного цикла накопителей. Дatasets Drive Stats доступны на официальном сайте Backblaze для самостоятельного анализа и повторения экспериментов.

 

Источник

Читайте также