Se você gerencia servidores de alta disponibilidade da Oracle, sabe que o ILOM (Integrated Lights Out Manager) é a peça fundamental para o monitoramento de hardware. No entanto, é comum que, após uma manutenção física (como a troca de um módulo de memória ou de uma fonte de alimentação), o ILOM continue exibindo alertas de erro e notificações de falha. Isso acontece porque o registro de falha permanece no banco de dados de gerenciamento de eventos até que seja explicitamente tratado.
Neste tutorial da Toda Solução, você aprenderá o procedimento técnico para acessar o shell de gerenciamento de falhas e limpar os registros de erros (logs de falha) que já foram corrigidos fisicamente, garantindo que o status do seu servidor reflita a realidade do hardware e evitando alarmes falsos no seu dashboard de monitoramento.
Pré-requisitos
Antes de iniciar o procedimento, certifique-se de atender aos seguintes requisitos para evitar interrupções desnecessárias no gerenciamento do servidor:
- Acesso SSH: Você deve ter acesso via SSH ao endereço IP da interface de gerenciamento ILOM do servidor Oracle.
- Privilégios de Administrador: O usuário utilizado para a sessão deve possuir permissões de Administrator ou root para executar comandos de reparo de hardware.
- Manutenção Concluída: Atenção: Nunca execute o comando de reparo antes de ter certeza absoluta de que o componente defeituoso foi substituído ou que o problema físico foi sanado. Limpar um erro sem resolver a causa raiz pode mascarar falhas graves de hardware.
Passo a passo
O processo de limpeza de erros no ILOM não é feito através da interface web comum, mas sim através de um shell específico de gerenciamento de falhas (Fault Management). Siga as etapas abaixo:
- Acesse o servidor via SSH:
Abra o seu terminal (Linux, macOS ou PowerShell no Windows) e conecte-se ao IP da sua ILOM:
ssh admin@ip_da_sua_ilom - Entre no modo de gerenciamento de falhas:
Uma vez logado no prompt da ILOM, você precisa entrar no ambiente de gerenciamento de falhas (FMAD). Execute o comando abaixo:
start /SP/faultmgmt/shellAo executar este comando, o prompt de comando mudará, indicando que você agora está operando dentro do shell de gerenciamento de falhas.
- Identifique as falhas ativas:
Antes de limpar, você precisa saber exatamente qual é o identificador (UUID ou ID) do erro que deseja remover. Utilize o comando fmadm faulty para listar todos os erros detectados que ainda constam como ativos no sistema:
fmadm faultyO resultado exibirá uma lista de erros. Anote o UUID ou o ID do componente que você já reparou fisicamente.
- Execute o reparo (limpeza) do erro:
Com o ID em mãos, você dará o comando para marcar a falha como resolvida. Substitua
<UUID_OU_ID>pelo código que você identificou no passo anterior:fmadm repair <UUID_OU_ID>Se houver múltiplos erros de componentes diferentes (ex: uma fonte e um disco), você deve repetir este comando individualmente para cada ID listado.
- Saia do shell de gerenciamento:
Após concluir o reparo, retorne ao shell principal da ILOM digitando:
exit
Verificação
Após realizar o procedimento de reparo, é fundamental validar se o erro foi removido com sucesso do registro de monitoramento. Para isso, repita o comando de listagem de falhas:
fmadm faulty
Se o procedimento foi realizado corretamente, o erro específico não deve mais aparecer na lista. Se a lista retornar vazia ou apenas com os erros que ainda não foram tratados, o sistema está limpo.
Troubleshooting
Caso você encontre dificuldades durante o processo, verifique os pontos abaixo:
- Erro de Permissão: Se ao tentar o comando
start /SP/faultmgmt/shellvocê receber uma mensagem de "Permission Denied", verifique se o seu usuário possui o perfil de Administrator. Usuários com perfil de apenas leitura (Read-Only) não podem alterar o estado das falhas. - O erro persiste após o comando repair: Se o erro continuar aparecendo na lista após o comando
fmadm repair, isso significa que o hardware ainda está reportando uma condição de erro. Não force a limpeza. Verifique novamente o componente físico, cabos, encaixes ou a voltagem da fonte. O ILOM detectou uma falha real que ainda não foi sanada. - Comando fmadm não reconhecido: Certifique-se de que você executou o comando
start /SP/faultmgmt/shellcom sucesso. O comandofmadmsó está disponível e funcional dentro do shell de gerenciamento de falhas.