Limpar erros nas ILOM da Oracle | Tutoriais Toda Solução

5 min de leitura Infraestrutura

Se você gerencia servidores de alta disponibilidade da Oracle, sabe que o ILOM (Integrated Lights Out Manager) é a peça fundamental para o monitoramento de hardware. No entanto, é comum que, após uma manutenção física (como a troca de um módulo de memória ou de uma fonte de alimentação), o ILOM continue exibindo alertas de erro e notificações de falha. Isso acontece porque o registro de falha permanece no banco de dados de gerenciamento de eventos até que seja explicitamente tratado.

Neste tutorial da Toda Solução, você aprenderá o procedimento técnico para acessar o shell de gerenciamento de falhas e limpar os registros de erros (logs de falha) que já foram corrigidos fisicamente, garantindo que o status do seu servidor reflita a realidade do hardware e evitando alarmes falsos no seu dashboard de monitoramento.

Pré-requisitos

Antes de iniciar o procedimento, certifique-se de atender aos seguintes requisitos para evitar interrupções desnecessárias no gerenciamento do servidor:

  • Acesso SSH: Você deve ter acesso via SSH ao endereço IP da interface de gerenciamento ILOM do servidor Oracle.
  • Privilégios de Administrador: O usuário utilizado para a sessão deve possuir permissões de Administrator ou root para executar comandos de reparo de hardware.
  • Manutenção Concluída: Atenção: Nunca execute o comando de reparo antes de ter certeza absoluta de que o componente defeituoso foi substituído ou que o problema físico foi sanado. Limpar um erro sem resolver a causa raiz pode mascarar falhas graves de hardware.

Passo a passo

O processo de limpeza de erros no ILOM não é feito através da interface web comum, mas sim através de um shell específico de gerenciamento de falhas (Fault Management). Siga as etapas abaixo:

  1. Acesse o servidor via SSH:

    Abra o seu terminal (Linux, macOS ou PowerShell no Windows) e conecte-se ao IP da sua ILOM:

    ssh admin@ip_da_sua_ilom
  2. Entre no modo de gerenciamento de falhas:

    Uma vez logado no prompt da ILOM, você precisa entrar no ambiente de gerenciamento de falhas (FMAD). Execute o comando abaixo:

    start /SP/faultmgmt/shell

    Ao executar este comando, o prompt de comando mudará, indicando que você agora está operando dentro do shell de gerenciamento de falhas.

  3. Identifique as falhas ativas:

    Antes de limpar, você precisa saber exatamente qual é o identificador (UUID ou ID) do erro que deseja remover. Utilize o comando fmadm faulty para listar todos os erros detectados que ainda constam como ativos no sistema:

    fmadm faulty

    O resultado exibirá uma lista de erros. Anote o UUID ou o ID do componente que você já reparou fisicamente.

  4. Execute o reparo (limpeza) do erro:

    Com o ID em mãos, você dará o comando para marcar a falha como resolvida. Substitua <UUID_OU_ID> pelo código que você identificou no passo anterior:

    fmadm repair <UUID_OU_ID>

    Se houver múltiplos erros de componentes diferentes (ex: uma fonte e um disco), você deve repetir este comando individualmente para cada ID listado.

  5. Saia do shell de gerenciamento:

    Após concluir o reparo, retorne ao shell principal da ILOM digitando:

    exit

Verificação

Após realizar o procedimento de reparo, é fundamental validar se o erro foi removido com sucesso do registro de monitoramento. Para isso, repita o comando de listagem de falhas:

fmadm faulty

Se o procedimento foi realizado corretamente, o erro específico não deve mais aparecer na lista. Se a lista retornar vazia ou apenas com os erros que ainda não foram tratados, o sistema está limpo.

Troubleshooting

Caso você encontre dificuldades durante o processo, verifique os pontos abaixo:

  • Erro de Permissão: Se ao tentar o comando start /SP/faultmgmt/shell você receber uma mensagem de "Permission Denied", verifique se o seu usuário possui o perfil de Administrator. Usuários com perfil de apenas leitura (Read-Only) não podem alterar o estado das falhas.
  • O erro persiste após o comando repair: Se o erro continuar aparecendo na lista após o comando fmadm repair, isso significa que o hardware ainda está reportando uma condição de erro. Não force a limpeza. Verifique novamente o componente físico, cabos, encaixes ou a voltagem da fonte. O ILOM detectou uma falha real que ainda não foi sanada.
  • Comando fmadm não reconhecido: Certifique-se de que você executou o comando start /SP/faultmgmt/shell com sucesso. O comando fmadm só está disponível e funcional dentro do shell de gerenciamento de falhas.
Esse tutorial foi útil?

Comentários (0)

Seja o primeiro a comentar.

Deixe seu comentário

Seu comentário será analisado antes de ser publicado.

0/2000
WhatsApp