Недавно столкнулся с проблемой обновления прошивок на серверах Dell R640, оборудованных iDRAC 9 (4.10.10.10) через сервер управления Dell OpenManage Enterprise.
Начать стоит с того, что ранее я уже успешно обновлял данные сервера через OME, но далее управляющий сервер был развернут на другой площадке и начались проблемы.
Иногда, в интерфейсе управления Dell iDRAC зависают ранее запущенные задачи, которые препятствуют последующему запуску различных процедур на сервере, например, обновлению Fimrware.
Задачи висят в очереди (jobqueue) на различном проценте выполнения от 1 до 99% и не двигаются дальше. Подобное можно встретить при первоначальной настройке сервера из ранее подготовленного шаблона. В моем случае процесс «встал» на нескольких серверах при конфигурации raid-контроллера.
Если удалить задачу через web интерфейс не получается, перезапуск iDRAC так же не помогает и задачи продолжают находиться в очереди, можно попробовать воспользоваться командным интерфейсом racadm. Для этого необходимо подключиться к iDRAC по SSH.
Получить текущую очередь задач: jobqueue view
В выводе команды будет необходимый нам ID, например:JID_876343082193
Если задача продолжает находиться в зависшем состоянии, можно принудительно попытаться прервать все задачи в очереди (нужно быть осторожным и не прервать что-то действительно нужное и работающее, те же обновления firmware): jobqueue delete -i JID_CLEARALL_FORCE
Скорее всего, после этой команды очередь задач будет очищена и можно будет выполнять дальнейшие работы по настройке\обновлению сервера.
В этот раз у нас никаких гайдов, новостей, а только классические «сисадминские байки» про бубны, магию и вот это вот все. История будет немного поучительная, немного про собственную глупость, но кому-то может оказаться в дальнейшем полезной.
Я всегда считал, что баги прошивок случаются у кого-то другого, и меня это не касается. Но не в этот раз.
История одного бага, собственной глупости и «шаманства» ниже.