Приветствую всех! Свой дебютный материал я решил посвятить теме, с которой сталкивался едва ли не каждый системный администратор, работающий с HPE: ошибке iLO Self-Test. Несмотря на многолетнюю симпатию к оборудованию HPE, я решил начать именно с этого прикладного вопроса — он востребован, полезен и лишен излишней академической сложности.
Для специалистов, отвечающих за инфраструктуру ЦОД, эта проблема — настоящая «головная боль». В текущих реалиях, когда вендор официально ограничил поддержку и поставки запчастей в РФ, умение самостоятельно диагностировать и «оживлять» оборудование стало критически важным навыком. Давайте разберемся в причинах возникновения этой ошибки, оценим степень её критичности и научимся приводить серверы в порядок, чтобы они не мозолили глаза тревожными уведомлениями.
Прежде чем переходить к практике, кратко затронем архитектуру. В серверах HPE используется чип NAND Flash — энергонезависимый накопитель, распаянный непосредственно на системной плате. Он хранит критически важные компоненты управления: логи AHS (Active Health System), профили Intelligent Provisioning и конфигурации OneView.
Особенности технологии: В iLO 4 (например, чип SK Hynix H26M31003GMR) память работает по принципу, схожему с SD-картами, но с гораздо более высокими требованиями к надежности. Область памяти разделена на логические партиции, включая Embedded User Partition для пользовательских данных.
Почему происходит сбой? У NAND есть физический предел циклов перезаписи. Поскольку AHS непрерывно фиксирует телеметрию и логи, ресурс ячеек постепенно истощается. Когда износ достигает критической точки, iLO переходит в режим защиты от записи, выдавая ошибку Embedded Flash/SD-CARD в POST. В запущенных случаях iLO перестает считывать профили охлаждения, что приводит к переходу вентиляторов в аварийный режим «максимальных оборотов».
Диагностика: Авторизуйтесь в веб-интерфейсе iLO и перейдите в раздел Information -> Health Summary -> iLO Self-Test. Статус Degraded или FAIL прямо указывает на проблему с целостностью NAND.
Прежде чем приступать к форматированию, убедитесь, что прошивка iLO обновлена как минимум до версии 2.61. В более старых версиях алгоритмы работы с файловой системой были далеки от совершенства, что ускоряло износ накопителя. Новые версии оптимизируют операции записи, делегируя часть задач в RAM.
Для восстановления работоспособности чипа мы используем принудительное переформатирование разделов. Ниже представлены способы выполнения этой процедуры.
Внимание: Все манипуляции вы проводите на свой страх и риск. Несмотря на то что данные методы основаны на штатных процедурах обслуживания HPE, автор не несет ответственности за возможные программные сбои оборудования.
Вариант 1: Локальный запуск (через ОС)
Этот метод наиболее удобен, так как при наличии прав администратора в ОС можно миновать авторизацию в iLO.
- Установите утилиту hponcfg (из состава HPE Scripting Toolkit).
- Создайте файл
format_nand.xmlи выполните команду:
hponcfg -f format_nand.xml
Вариант 2: Удаленный запуск (через HPQLOCFG)
Если ОС недоступна, используйте утилиту для удаленной работы с iLO:
hpqlocf.exe -s <IP_адрес_iLO> -l log.txt -f format_nand.xml
Сам скрипт (содержимое XML):
<RIBCL VERSION="2.0">
<RIB_INFO MODE="write">
<FORCE_FORMAT_E_FLASH VALUE="Yes"/>
</RIB_INFO>
</RIBCL>
Вариант 3: Самый быстрый (через SSH)
- Подключитесь к iLO:
ssh Administrator@<IP_iLO> - Выполните команды:
cd /map1/oemhp_generic1set oemhp_formatFlash=yes - Через 5 минут выполните
reset /map1.
Важно! После завершения процесса недостаточно программной перезагрузки. Необходимо физически обесточить сервер (вынуть кабели питания) минимум на 60 секунд. Это позволит полностью очистить кэш контроллера и корректно пересоздать структуру разделов на чипе памяти.


