Troubleshooting Vsan: Latência e IOPS Baixos [Guia]

Você monitora o cluster e vê IOPS estáveis, mas as VMs rodam como se estivessem arrastando os pés. O armazenamento diz que está ocioso; a aplicação diz que está travando. Essa dissonância cognitiva é a armadilha mais comum em ambientes vmware vsan. A maioria dos administradores olha para o gráfico de throughput e assume que tudo está bem, ignorando que a latência pode estar destruindo a experiência do usuário final muito antes da largura de banda ser atingida.

Neste post:

Diagnóstico Inicial: Separando Sinal de Ruído
As 4 Causas Raiz de Latência Alta
Por que os IOPS Caem sem Aviso?
Otimização Vsan: Ajustes Práticos
Perguntas frequentes
Conclusão

Entender o comportamento do seu troubleshooting vsan exige sair da superficialidade. Não basta olhar se o disco está cheio ou se a CPU do host está alta. Você precisa mergulhar na arquitetura de redundância, entender como os componentes são reconstruídos e identificar gargalos que não aparecem nos dashboards padrão do vCenter.

Neste guia técnico, vamos dissecar o diagnóstico de desempenho, focando especificamente em latência e queda de IOPS. Se você sente que seu desempenho storage não condiz com a capacidade provisionada, continue lendo. Vamos revelar o que está acontecendo nos bastidores do seu cluster.

Diagnóstico Inicial: Separando Sinal de Ruído

O primeiro erro ao realizar um diagnóstico vsan é confiar cegamente nas métricas agregadas. O vCenter mostra uma média global, mas o problema geralmente está em uma única VM ou até em uma única disco virtual (VMDK). Para fazer um diagnóstico preciso, você precisa granularizar a coleta de dados.

Comece isolando o problema. Se a lentidão é generalizada, o foco é a infraestrutura (rede, discos ou CPU dos hosts). Se é pontual, o foco é a VM específica (driver, sistema operacional ou aplicação). Utilize ferramentas como o vSphere Performance Charts avançados ou scripts PowerCLI para extrair métricas em intervalos de 20 segundos, evitando a suavização que o painel padrão aplica.

Outro ponto crítico é diferenciar latência de espera por disco (disk wait) de latência de rede. No vmware vsan, uma operação de escrita precisa ser confirmada em múltiplos componentes antes de ser entregue à VM. Se a rede está congestionada ou com alta latência, essa confirmação demora, e o sistema operacional da VM reporta isso como latência de disco.

Verifique os alertas do cluster. O Vsan gera eventos automáticos quando a latência média excede limites críticos (geralmente acima de 15ms para leitura/escrita). Se você vê alertas de "High Latency", o problema já foi identificado como crítico, mas a causa raiz ainda precisa ser encontrada.

As 4 Causas Raiz de Latência Alta

A latência é o inimigo silencioso do desempenho storage. Quando ela sobe, a fila de I/O cresce, e as aplicações param para esperar dados que deveriam estar disponíveis instantaneamente. Vamos analisar as quatro causas principais que elevam a latência em ambientes Vsan.

1. Saturação da Rede (Network Congestion)

O Vsan depende inteiramente da rede para replicar dados entre os hosts. Se você compartilha a mesma infraestrutura de rede para tráfego de gerenciamento, vMotion e Vsan, qualquer pico de transferência em um desses serviços vai impactar o outro. O Vsan é sensível a perda de pacotes e latência de rede superior a 1ms.

Garanta que os hosts tenham links dedicados ou QoS rigoroso para o tráfego Vsan. Verifique se há erros de CRC nas interfaces de rede, pois retransmissões TCP aumentam drasticamente a latência percebida pelo storage.

2. Disco Híbrido vs. All-Flash: O Gargalo Mecânico

Se você opera em um cluster híbrido (SSD como cache, HDDs como capacidade), a latência é inerentemente mais alta devido à natureza mecânica dos discos de destino. Mesmo que o cache SSD esteja vazio, a escrita final no HDD introduz latência.

Em clusters All-Flash, a latência deve ser quase imperceptível (geralmente abaixo de 5ms). Se estiver alta, o problema não é o tipo de disco, mas sim a configuração ou falha de hardware. Nunca misture tipos de discos no mesmo disco group para evitar inconsistências de desempenho.

3. Exaustão do Cache SSD

O SSD no Vsan atua como cache de leitura e buffer de escrita. Se o workload é aleatório ou de escrita pesada, o cache pode saturar. Quando o cache está cheio, as escritas precisam ser processadas diretamente para os discos de capacidade (em híbrido) ou sofrerem compressão/deduplicação mais agressiva.

Monitore a taxa de preenchimento do cache. Se o "Cache Used" está consistentemente acima de 90%, você precisa aumentar a capacidade do SSD ou redistribuir o workload para evitar degradação de performance.

4. Contenção de CPU nos Hosts

O processo Vsan (vmkernel) consome recursos da CPU para gerenciar a integridade dos dados, reconstrução e replicação. Se os hosts estão sobrecarregados com VMs de CPU intensiva, o Vsan pode não conseguir processar as requisições de I/O a tempo.

Verifique o "CPU Ready" das VMs e a utilização geral da CPU do host. Em cenários de alta contenção, o Vsan pode adiar escritas, aumentando a latência percebida pelo aplicativo.

Por que os IOPS Caem sem Aviso?

Enquanto a latência é sobre tempo, IOPS (Input/Output Operations Per Second) é sobre volume de transações. Iops baixos podem indicar desde uma configuração inadequada até falhas silenciosas no cluster. Diferente da latência, que muitas vezes é aguda, a queda de IOPS pode ser gradual e passar despercebida até que o sistema fique inutilizável.

Existem três cenários comuns onde você verá uma queda drástica nos IOPS:

Degradação do Cluster: Se um disco ou host falha, o Vsan entra em modo de degradação. Ele precisa reconstruir os dados ausentes usando os recursos remanescentes. Durante esse processo, a capacidade de IOPS cai significativamente porque parte dos recursos está sendo usada para reparo, não para atendimento de requisições externas.
Configuração de Redundância Inadequada: Em clusters pequenos, usar "Failures to Tolerate" (FTT) alto pode sobrecarregar a rede e os discos. Cada réplica adicional consome I/O extra. Se o seu workload não exige alta tolerância a falhas, manter FTT 2 ou 3 em um cluster de 4 hosts é desperdício de performance.
Má Distribuição de Partições: O Vsan distribui dados em "partições" (objetos) entre os hosts. Se houver um desbalanceamento, alguns hosts podem ficar sobrecarregados enquanto outros estão ociosos. Isso limita o IOPS total do cluster, pois você está limitado pelo gargalo do nó mais sobrecarregado.

Para diagnosticar isso, olhe para as métricas de "Vsan Operations" no vCenter. Se você vê muitas operações de reconstrução ou rebalanceamento ocorrendo simultaneamente ao seu workload normal, a queda de IOPS é esperada e temporária.

Otimização Vsan: Ajustes Práticos

Após identificar as causas, o próximo passo é a otimização vsan. Não se trata apenas de adicionar hardware, mas de ajustar configurações para alinhar o storage ao perfil de workload da sua aplicação.

Abaixo, comparamos duas abordagens comuns de configuração para diferentes cenários:

Configuração	Ideal Para	Vantagem de Performance	Risco
FTT 1, Replicação 2 (All-Flash)	Workloads gerais, Virtual Desktop (VDI), Apps corporativas.	Balço ideal entre performance e uso de capacidade. Baixa sobrecarga de rede.	Tolera apenas a falha de 1 componente por disco group.
FTT 2, Replicação 3 (All-Flash)	Bancos de dados críticos, Apps financeiras, Regras rigorosas de compliance.	Máxima disponibilidade. Tolerante a falha de 2 componentes.	Consome 50% mais capacidade e gera mais tráfego de rede.
Erasure Coding (RAID-6)	Clusters com 4+ hosts, Armazenamento de objetos, Backups.	Melhor uso de capacidade. Tolerante a falhas múltiplas.	Overhead computacional mais alto. Latência pode variar em escritas grandes.

Além da escolha do nível de redundância, existem ajustes finos que fazem diferença:

Ajuste do Tamanho do Bloco: Para VMs com acesso sequencial (como bancos de dados grandes), aumentar o tamanho do bloco pode melhorar a throughput. Para I/O aleatório (VDI), mantenha os blocos menores.
Desative a Deduplicação se Não Necessário: A deduplicação consome CPU. Se suas VMs não armazenam dados duplicados (ex: cada VM tem SO e apps diferentes), desativar essa feature libera recursos da CPU para processamento de I/O.
Revise o Disk Group Layout: Certifique-se de que os SSDs de cache têm performance similar. Um SSD lento em um disk group pode limitar a performance de todos os HDDs associados a ele.

Lembre-se: qualquer mudança na configuração do Vsan requer planejamento e, idealmente, testes em ambiente de homologação antes de ir para produção. Alterações agressivas podem causar instabilidade temporária durante a redistribuição de dados.

Perguntas frequentes

O que fazer se o Vsan ficar em estado "Red" (vermelho)?

Um estado vermelho indica que o cluster perdeu a capacidade de tolerar falhas ou que dados estão inacessíveis. A primeira ação é identificar qual componente falhou (disco, host ou rede). Se for um disco, substitua-o imediatamente. O Vsan começará a reconstruir os dados automaticamente. Durante a reconstrução, a performance cairá. Não reinicie hosts desnecessariamente, pois isso pode iniciar reconstruções múltiplas simultâneas, travando o cluster.

Como saber se meu SSD de cache está falhando?

Monitore as métricas de erro SMART do SSD e a latência de escrita no cache. Se você notar quedas súbitas de performance ou alertas de "Cache Disk Health" no vCenter, o SSD pode estar degradado. O Vsan geralmente avisa antes da falha total, permitindo a troca preventiva. Não ignore alertas de "Write Cache Degraded", pois isso força escritas diretas para os HDDs em clusters híbridos, aumentando drasticamente a latência.

Vsan funciona bem em redes 1Gbps?

Técnicamente, sim, mas não é recomendado para produção crítica. O Vsan consome muita largura de banda durante a reconstrução e replicação. Em 1Gbps, qualquer pico de I/O pode saturar a rede, causando timeouts e latência extrema. O padrão da indústria para Vsan é 10Gbps mínimo, com 25Gbps ou 40Gbps sendo o ideal para clusters maiores ou workloads intensivos.

Devo desativar o vSphere HA se tiver problemas de performance?

Não. O vSphere HA (High Availability) é separado do Vsan, mas depende da rede e do storage. Desativar o HA não melhora a performance do Vsan. Se o problema é de latência, o HA pode até atrasar a detecção de falhas se a rede estiver congestionada. Foque em otimizar a rede e o storage antes de tocar nas configurações de alta disponibilidade.

Qual a diferença entre latência de leitura e escrita no Vsan?

A latência de leitura geralmente é menor, pois dados frequentemente acessados ficam no cache SSD. A latência de escrita é maior porque o Vsan precisa confirmar a escrita em múltiplas réplicas antes de retornar o sucesso ao cliente (write-back caching). Se a latência de escrita está alta, verifique a integridade da rede e a saúde dos discos de destino.

Conclusão

Fazer troubleshooting vsan eficazmente vai além de olhar gráficos simples. Exige uma compreensão profunda de como os dados são replicados, como o cache é utilizado e como a rede impacta a consistência dos dados. A maioria dos problemas de iops baixos e latência alta pode ser resolvida com ajustes de configuração, limpeza de gargalos de rede ou substituição de hardware degradado.

Não espere o sistema parar para agir. Implemente monitoramento contínuo, revise as configurações de redundância periodicamente e mantenha seus discos em dia. Um Vsan bem otimizado é invisível: rápido, confiável e sem surpresas.

Se você sente que seu ambiente atual não está entregando o desempenho storage esperado, ou se precisa de suporte especializado para migrar ou otimizar sua infraestrutura, a equipe da Toda Solução está preparada para ajudar. Conte com expertise técnica para transformar seu armazenamento em um diferencial competitivo.