Fault Domains no vSAN: Guia de Configuração e Tolerância

A infraestrutura virtual que parece imune a falhas pode desmoronar em minutos se um único switch de uplink ou disco físico cair sem redundância estratégica. No mundo do armazenamento definido por software, confiar apenas na replicação síncrona não basta; a arquitetura física precisa dividir riscos antes que eles se tornem interrupções. **Fault Domains** no vSAN são exatamente o mecanismo que transforma tolerância a falhas de um conceito teórico em uma realidade operacional para ambientes VMware críticos.

Neste post:

O que são Fault Domains e por que eles importam no vSAN?
Como o vSAN distribui dados para eliminar o single point of failure
Configuração prática: limites, trade-offs e requisitos de hardware
Comparativo: Fault Domains vs. outras estratégias de tolerância a falhas
Perguntas frequentes
Conclusão

O que são Fault Domains e por que eles importam no vSAN?

Fault Domain representa um grupo de hosts físicos que compartilham um componente crítico de infraestrutura. Quando esse componente falha, todos os servidores dentro do domínio perdem conectividade ou acesso aos discos locais simultaneamente. O conceito nasceu para mapear riscos reais: rack físico, switch de rede, controlador SAS, fonte redundante ou até mesmo data center diferente em clusters distribuídos geograficamente. No vSAN, a configuração padrão agrupa todos os hosts em um único Fault Domain. Essa abordagem simplifica o deploy inicial e reduz a complexidade de mapeamento, mas concentra o risco operacional. Se a rede de uplink ou o disco cache do host primário falhar, a replicação dos objetos de armazenamento não consegue encontrar cópias alternativas fora daquele grupo. A alta disponibilidade exige que o cluster espalhe componentes de objeto entre domínios isolados. A ferramenta de configuração permite agrupar hosts por switch, rack ou data center. Uma vez mapeado, o motor de storage aplica regras de tolerância a falhas automaticamente durante a criação de VMs ou expansão de discos virtuais. A arquitetura física determina onde termina um domínio e começa outro. Sem essa separação explícita, a redundância se torna ilusória, pois todas as réplicas residem no mesmo ponto de fragilidade. O mapeamento correto garante que uma interrupção local nunca comprometa mais de uma cópia por vez.

Como o vSAN distribui dados para eliminar o single point of failure

O mecanismo de distribuição opera em dois níveis: composição de objeto e placement rule. Cada VM ou disco virtual gera um objeto com múltiplas réplicas, usualmente três no padrão. O vSAN avalia a topologia do cluster e escolhe destinos que não pertençam ao mesmo Fault Domain. Cada objeto contém componentes legíveis, componentes de escrita e, quando aplicável, componentes witness para quorum em clusters menores. A distribuição inteligente evita que você configure manualmente cada disco virtual. Em vez disso, o cluster age como um pool unificado onde a localização física é gerenciada pelo software, não pelo administrador de storage tradicional.

A tolerância a falhas não é um botão; é uma arquitetura que divide riscos antes da primeira interrupção.

Quando um host sai do cluster ou perde conectividade, o vSAN detecta a perda via heartbeat e inicia a reconstrução das réplicas faltantes nos domínios saudáveis. O tempo de recuperação depende diretamente da largura de banda disponível entre os switches de uplink e da capacidade IOPS dos discos SSD ou NVMe. A replicação síncrona exige latência inferior a 1,5 ms para garantir consistência sem impacto perceptível nas VMs. Se os domínios cruzarem data centers ou links WAN, você deve alternar para replication assíncrona ou ajustar as regras de placement para aceitar degradação controlada durante failovers. A distribuição também considera a saúde dos discos e a política de cache. Objetos críticos recebem componentes prioritários em hosts com SSDs otimizados, enquanto dados menos sensíveis podem ser posicionados em tiers de capacidade quando o cluster permite flexibilidade operacional.

Configuração prática: limites, trade-offs e requisitos de hardware

Definir Fault Domains exige atenção aos limites mínimos do vSAN. O cluster precisa de pelo menos três hosts para ativar tolerância a falhas com replicação completa. Cada domínio pode conter um ou mais hosts, mas o número total de domínios determina quantos riscos isolados você está cobrindo.

Dominios por switch de uplink: isola falhas de rede e failover de links, ideal para ambientes com LACP ativo.
Dominios por rack físico: protege contra queda de energia ou PDUs, mas concentra risco se todos os hosts compartilharem o mesmo backplane.
Fault Domain cruzando data centers: exige links de baixa latência e alta disponibilidade entre sites geográficos.

O trade-off mais comum envolve largura de banda versus complexidade. Replicar dados entre domínios físicos gera tráfego síncrono que compete com o IOPS normal das VMs. Se a rede backbone não estiver dimensionada, você verá degradação de performance durante reconstruções ou failovers.

Cenário	Vantagem Operacional	Risco Técnico
Dominios por switch de uplink	Aísla falhas de rede e failover de links	Requer múltiplos switches e configuração de LACP ativa
Dominios por rack físico	Protege contra queda de energia ou PDUs	Concentra risco se todos os hosts do rack compartilharem o mesmo backplane
Fault Domain único (default)	Simplicidade de deploy e menor overhead de rede	Cria um single point of failure em qualquer componente compartilhado

Além da topologia, a compatibilidade de firmware de NICs e controladores SAS é obrigatória. Drivers desatualizados ou mismatch de cache policies podem invalidar as regras de placement e forçar o vSAN a ignorar a configuração manual. A lista de hardware compatível deve ser consultada antes do provisionamento para evitar falhas silenciosas durante a inicialização dos objetos. A separação física também impacta a gestão de backups e disaster recovery. Domínios bem definidos facilitam a replicação entre sites, pois você sabe exatamente quais componentes precisam ser protegidos e como reestabelecer quorum após uma interrupção prolongada.

Comparativo: Fault Domains vs. outras estratégias de tolerância a falhas

Muitas equipes confundem Fault Domains com RAID local ou replicação síncrona tradicional. O vSAN opera em camada superior, gerenciando objetos de armazenamento distribuídos sobre hardware commodity. Entender as diferenças evita decisões arquiteturais equivocadas que comprometem a continuidade operacional.

RAID 1/5/6 no controller: protege apenas dentro do host. Não replica entre servidores físicos nem absorve falhas de uplink.
vSAN com Fault Domains ativos: espalha réplicas entre hosts isolados, permitindo failover sem intervenção manual e mantendo consistência síncrona.
Storage Array External + Replicação: depende de licenças específicas, integrações complexas com o hypervisor e maior custo total de propriedade.

A principal vantagem do storage definido por software é a abstração. Você não precisa mapear LUNs ou gerenciar multipath manualmente. O vSAN trata discos locais como partes de um pool único e aplica regras de placement baseadas na topologia que você definiu. No entanto, essa flexibilidade tem limites. Se todos os hosts compartilharem o mesmo switch de uplink sem redundância, a configuração de Fault Domains perde o propósito original. A tolerância a falhas só funciona se os domínios realmente isolarem componentes críticos e permitirem redistribuição automática durante incidentes. A escolha entre arquitetura distribuída e storage externo depende do perfil de carga, da maturidade da equipe de TI e dos requisitos de compliance. Ambientes com VMs críticas de banco de dados ou ERP exigem mapeamento rigoroso de domínios para evitar degradação cascata.

Perguntas frequentes

O que acontece se eu perder um Fault Domain?

O vSAN não interrompe operações imediatamente. Ele reavalia a topologia e tenta redistribuir as réplicas faltantes para os domínios restantes. Se o cluster tiver capacidade insuficiente ou se todos os hosts estiverem no mesmo domínio, você sofrerá degradação de performance ou perda de acesso até que o componente falho seja restaurado.

Preciso de um número par ou ímpar de nós para configurar Fault Domains?

Não existe regra estrita sobre paridade. O importante é garantir que cada domínio tenha hosts independentes e que o total de domínios permita a replicação conforme sua política de tolerância. Clusters com dois hosts exigem witness node para quorum, mas Fault Domains ainda podem ser aplicados se a rede permitir isolamento.

É possível usar Fault Domains em ambientes com poucos servidores físicos?

Sim, mas a eficácia diminui. Com dois ou três hosts, você pode isolar cada servidor como um domínio separado, o que oferece máxima proteção. No entanto, a redundância de storage depende inteiramente da capacidade restante dos nós sobreviventes para absorver o tráfego de reconstrução e manter IOPS estável.

Como o vSAN lida com latência entre Fault Domains?

A replicação síncrona exige latência inferior a 1,5 ms para garantir consistência sem impacto perceptível nas VMs. Se os domínios cruzarem data centers ou links WAN, você deve alternar para replication assíncrona ou ajustar as regras de placement para aceitar degradação controlada durante failovers e reconstruções.

Fault Domains substituem a necessidade de backup externo?

Não. A tolerância a falhas protege contra interrupções de hardware e rede, mas não contra corrupção de dados, ransomware ou exclusão acidental. Você precisa manter cópias isoladas em storage externo ou cloud para garantir recuperação completa após incidentes lógicos.

Conclusão

Fault Domains no vSAN deixam de ser um detalhe técnico quando o objetivo é proteger ambientes críticos contra interrupções inesperadas. A configuração correta mapeia riscos reais da infraestrutura física e força o storage definido por software a espalhar dados onde eles realmente importam: em domínios isolados. Ignorar essa camada de topologia converte alta disponibilidade em ilusão operacional. Cada switch, rack ou data center que compartilha componentes deve ser explicitamente agrupado para evitar que uma falha local se torne um single point of failure generalizado. Avaliar a arquitetura atual, dimensionar a rede backbone e validar a compatibilidade de firmware são etapas não negociáveis antes do deploy. Quando executadas com precisão, Fault Domains garantem que sua infraestrutura virtual continue operando mesmo sob condições adversas. A Toda Solução acompanha a evolução dessas arquiteturas e auxilia empresas brasileiras no mapeamento de riscos, dimensionamento de hardware e implementação de storage definido por software com foco em continuidade e performance estável.