Прошел еще год с момента публикации статистики использования HDD, с учетом количества сбоев в отдельных моделях жестких дисков. И сейчас появилась новая статистика от Backblaze.
В первом квартале 2016 года в дата-центре компании используется 61590 HDD. Это на 9,5% больше, чем в прошлом году, когда в ДЦ компании работало 56224 дисков. Общее время работы всех HDD серверов компании, суммарно в прошлом и настоящем, составляет уже более 1 млрд часов. Это около 42 млн дней или 114155 лет.
Статистика сбоев за 1 квартал 2016 года
Несколько замечаний:
1. Общее количество HDD в таблице 61523, а не 61590. Причина — из таблицы исключены модели, если их в наличии менее 45 экземпляров.
2. У нескольких моделей ежегодный процент отказа 0,00%. У них не было сбоев в 1 квартале 2016 года.
3. Некоторые показатели выражены слишком малыми числами. Например, у HDD Toshiba объемом в 3 ТБ процент отказов всего 8,56%. Это всего один сбой, чего недостаточно для принятия решения.
4. Ежегодный процент сбоев — всего 1,84%. Это меньше, чем когда-либо.
Кумулятивные показатели
Собирать статистику по HDD компания начала 10 апреля 2013 года, три года назад. В таблице ниже — общие показатели за весь этот период.
Один миллиард часов работы дисков
Как уже говорилось выше, общее время работы всех жестких дисков, использовавшихся компанией в прошлом и работающих сейчас, насчитывает миллиард часов. Вот разбивка по времени работы отдельных моделей.
Колонка «others» — это модели, которые не были отображены, их в компании меньше, чем 45 штук.
Какие HDD лучшие?
Разбивка по моделям
Диски HGST, в особенности на 2 и 3 ТБ, показали себя лучше других. Следом идут HDD компании Seagate на 4 ТБ, купленные около года назад.
А вот разбивка по объему винчестеров:
HDD на 4 ТБ наработали уже около 580 млн часов. Всего у компании 48041 дисков на 4 ТБ, что означает средний срок работы отдельного HDD около 503 операционных дней или 1,38 лет. Процент отказата по таким дискам — всего 2,12%.
Надежность HDD различных производителей
Большинство жестких дисков в компании — от HGST и Seagate. Но есть и системы других производителей. На диаграмме внизу показан процент отказов дисков различных компаний, при этом разбивка идет по годам, с 2014 по 2016.
Почему у нас есть модели в количестве, меньшем 45 штук?
Здесь несколько причин:
1. У нас было больше 45 штук, но какие-то диски вышли из строя, а мы заменили их HDD других моделей;
2. Они попали к нам в рамках программы Drive Farming несколько лет назад, и мы получили всего несколько штук дисков одной модели. Мы любим унифицировать оборудование, и предпочитаем работать с большим количеством систем одной модели, но вообще используем все, что у нас есть;
3. Мы построили несколько Frankenpods (сборные Storage Pod) с дисками равного объема но разных моделей и производителей.
Как бы там ни было, если у нас таких дисков менее 45 штук, в статистику они не попадают, по ним есть только общая статистика.
Почему не Toshiba и Western Digital?
Компанию часто спрашивают, почему она не покупает больше дисков указанных компаний. Короткий ответ — «мы устали». Дело в том, что сейчас компании требуются большие партии дисков, 5000-10000 экземпляров. Что касается Toshiba, то в Backblaze не считают эти диски оптимальным соотношением цена/качество.
Что касается Western Digital, то Backblaze регулярно получает интересные предложения, но каждый раз что-то идет не так и сделка срывается.
Что насчет моделей объемом в 6,8 и 10 ТБ?
Компания использует малое количество моделей дисков такого объема, поскольку вопрос цены за ТБ до сих пор актуален в отношении объемных HDD, ценовая политика пока не оптимальна. Вторая проблема — доступность крупных партий дисков такого объема. К примеру, для заполнения Backblaze Vault из 20 серверов Storage Pod 6.0 требуется 1200 HDD. В месяц компания загружает около 3 Backblaze Vaults, и пока сложно найти большое количество экземпляров дисков большого объема. На данный момент оптимум — это 4 ТБ, здесь и соотношение цена за ТБ отличная, и моделей таких много.
Какие диски считаются сбойными?
Диск не включается или не распознаётся в ОС.
Диск не синхронизируется или не сохраняет синхронизацию в RAID-массиве.
Статистика SMART выдаёт неприемлемые значения.