A infraestrutura virtual que parece imune a falhas pode desmoronar em minutos se um único switch de uplink ou disco físico cair sem redundância estratégica. No mundo do armazenamento definido por software, confiar apenas na replicação síncrona não basta; a arquitetura física precisa dividir riscos antes que eles se tornem interrupções. **Fault Domains** no vSAN são exatamente o mecanismo que transforma tolerância a falhas de um conceito teórico em uma realidade operacional para ambientes VMware críticos.
O que são Fault Domains e por que eles importam no vSAN?
Fault Domain representa um grupo de hosts físicos que compartilham um componente crítico de infraestrutura. Quando esse componente falha, todos os servidores dentro do domínio perdem conectividade ou acesso aos discos locais simultaneamente. O conceito nasceu para mapear riscos reais: rack físico, switch de rede, controlador SAS, fonte redundante ou até mesmo data center diferente em clusters distribuídos geograficamente. No vSAN, a configuração padrão agrupa todos os hosts em um único Fault Domain. Essa abordagem simplifica o deploy inicial e reduz a complexidade de mapeamento, mas concentra o risco operacional. Se a rede de uplink ou o disco cache do host primário falhar, a replicação dos objetos de armazenamento não consegue encontrar cópias alternativas fora daquele grupo. A alta disponibilidade exige que o cluster espalhe componentes de objeto entre domínios isolados. A ferramenta de configuração permite agrupar hosts por switch, rack ou data center. Uma vez mapeado, o motor de storage aplica regras de tolerância a falhas automaticamente durante a criação de VMs ou expansão de discos virtuais. A arquitetura física determina onde termina um domínio e começa outro. Sem essa separação explícita, a redundância se torna ilusória, pois todas as réplicas residem no mesmo ponto de fragilidade. O mapeamento correto garante que uma interrupção local nunca comprometa mais de uma cópia por vez.Como o vSAN distribui dados para eliminar o single point of failure
O mecanismo de distribuição opera em dois níveis: composição de objeto e placement rule. Cada VM ou disco virtual gera um objeto com múltiplas réplicas, usualmente três no padrão. O vSAN avalia a topologia do cluster e escolhe destinos que não pertençam ao mesmo Fault Domain. Cada objeto contém componentes legíveis, componentes de escrita e, quando aplicável, componentes witness para quorum em clusters menores. A distribuição inteligente evita que você configure manualmente cada disco virtual. Em vez disso, o cluster age como um pool unificado onde a localização física é gerenciada pelo software, não pelo administrador de storage tradicional.A tolerância a falhas não é um botão; é uma arquitetura que divide riscos antes da primeira interrupção.Quando um host sai do cluster ou perde conectividade, o vSAN detecta a perda via heartbeat e inicia a reconstrução das réplicas faltantes nos domínios saudáveis. O tempo de recuperação depende diretamente da largura de banda disponível entre os switches de uplink e da capacidade IOPS dos discos SSD ou NVMe. A replicação síncrona exige latência inferior a 1,5 ms para garantir consistência sem impacto perceptível nas VMs. Se os domínios cruzarem data centers ou links WAN, você deve alternar para replication assíncrona ou ajustar as regras de placement para aceitar degradação controlada durante failovers. A distribuição também considera a saúde dos discos e a política de cache. Objetos críticos recebem componentes prioritários em hosts com SSDs otimizados, enquanto dados menos sensíveis podem ser posicionados em tiers de capacidade quando o cluster permite flexibilidade operacional.
Configuração prática: limites, trade-offs e requisitos de hardware
Definir Fault Domains exige atenção aos limites mínimos do vSAN. O cluster precisa de pelo menos três hosts para ativar tolerância a falhas com replicação completa. Cada domínio pode conter um ou mais hosts, mas o número total de domínios determina quantos riscos isolados você está cobrindo.- Dominios por switch de uplink: isola falhas de rede e failover de links, ideal para ambientes com LACP ativo.
- Dominios por rack físico: protege contra queda de energia ou PDUs, mas concentra risco se todos os hosts compartilharem o mesmo backplane.
- Fault Domain cruzando data centers: exige links de baixa latência e alta disponibilidade entre sites geográficos.
| Cenário | Vantagem Operacional | Risco Técnico |
|---|---|---|
| Dominios por switch de uplink | Aísla falhas de rede e failover de links | Requer múltiplos switches e configuração de LACP ativa |
| Dominios por rack físico | Protege contra queda de energia ou PDUs | Concentra risco se todos os hosts do rack compartilharem o mesmo backplane |
| Fault Domain único (default) | Simplicidade de deploy e menor overhead de rede | Cria um single point of failure em qualquer componente compartilhado |
Comparativo: Fault Domains vs. outras estratégias de tolerância a falhas
Muitas equipes confundem Fault Domains com RAID local ou replicação síncrona tradicional. O vSAN opera em camada superior, gerenciando objetos de armazenamento distribuídos sobre hardware commodity. Entender as diferenças evita decisões arquiteturais equivocadas que comprometem a continuidade operacional.- RAID 1/5/6 no controller: protege apenas dentro do host. Não replica entre servidores físicos nem absorve falhas de uplink.
- vSAN com Fault Domains ativos: espalha réplicas entre hosts isolados, permitindo failover sem intervenção manual e mantendo consistência síncrona.
- Storage Array External + Replicação: depende de licenças específicas, integrações complexas com o hypervisor e maior custo total de propriedade.
Perguntas frequentes
O que acontece se eu perder um Fault Domain?
O vSAN não interrompe operações imediatamente. Ele reavalia a topologia e tenta redistribuir as réplicas faltantes para os domínios restantes. Se o cluster tiver capacidade insuficiente ou se todos os hosts estiverem no mesmo domínio, você sofrerá degradação de performance ou perda de acesso até que o componente falho seja restaurado.
Preciso de um número par ou ímpar de nós para configurar Fault Domains?
Não existe regra estrita sobre paridade. O importante é garantir que cada domínio tenha hosts independentes e que o total de domínios permita a replicação conforme sua política de tolerância. Clusters com dois hosts exigem witness node para quorum, mas Fault Domains ainda podem ser aplicados se a rede permitir isolamento.
É possível usar Fault Domains em ambientes com poucos servidores físicos?
Sim, mas a eficácia diminui. Com dois ou três hosts, você pode isolar cada servidor como um domínio separado, o que oferece máxima proteção. No entanto, a redundância de storage depende inteiramente da capacidade restante dos nós sobreviventes para absorver o tráfego de reconstrução e manter IOPS estável.
Como o vSAN lida com latência entre Fault Domains?
A replicação síncrona exige latência inferior a 1,5 ms para garantir consistência sem impacto perceptível nas VMs. Se os domínios cruzarem data centers ou links WAN, você deve alternar para replication assíncrona ou ajustar as regras de placement para aceitar degradação controlada durante failovers e reconstruções.
Fault Domains substituem a necessidade de backup externo?
Não. A tolerância a falhas protege contra interrupções de hardware e rede, mas não contra corrupção de dados, ransomware ou exclusão acidental. Você precisa manter cópias isoladas em storage externo ou cloud para garantir recuperação completa após incidentes lógicos.