Expandir VMware vSAN Sem Downtime: Guia Passo a Passo

26 min de leitura Infraestrutura
Expandir VMware vSAN Sem Downtime: Guia Passo a Passo

Visão Geral da Expansão vSAN

A expansão de um cluster VMware vSAN é uma das tarefas mais críticas e, ao mesmo tempo, uma das maiores vantagens de utilizar uma arquitetura de Software-Defined Storage (SDS). Diferente de storages tradicionais baseados em hardware (SAN), onde a expansão muitas vezes exige a interrupção de processos para adição de novas controladoras ou expansão de LUNs, o vSAN permite o crescimento escalável e dinâmico. O objetivo central desta operação é aumentar a capacidade de armazenamento ou a performance do cluster através da adição de novos recursos de hardware, de forma totalmente transparente para as máquinas virtuais em execução.

Existem dois vetores principais de expansão em um ambiente vSAN: a expansão por discos e a expansão por hosts. Quando o foco é apenas capacidade, podemos adicionar novos discos (Capacity Tiers) aos hosts já existentes no cluster, desde que haja slots de hardware disponíveis. Já quando o objetivo é aumentar o throughput, a IOPS ou a redundância do cluster, realizamos a expansão horizontal (scale-out), adicionando novos nós (hosts) ao domínio vSAN. Em ambos os cenários, o vSAN utiliza o processo de rebalanceamento de dados para redistribuir os objetos (componentes) entre os novos recursos de storage disponíveis.

Tecnicamente, a expansão funciona através de um mecanismo de gerenciamento de objetos. Ao detectar novos discos ou novos hosts, o vCenter Server inicia o processo de inclusão desses recursos no Disk Group ou no Cluster. É importante compreender que, embora a expansão não cause downtime (interrupção de serviço), ela gera uma carga de I/O adicional no cluster devido ao movimento de dados para o novo espaço. Por isso, o planejamento da expansão deve considerar a largura de banda da rede (preferencialmente 10GbE ou superior) e o impacto no tráfego de replicação entre os hosts.

Neste tutorial, abordaremos como gerenciar esse ciclo de vida, garantindo que o vSAN Object Health permaneça íntegro durante todo o processo. Dominar essa técnica é fundamental para administradores de infraestrutura que precisam responder rapidamente ao crescimento de demanda de dados em ambientes de produção, mantendo a alta disponibilidade e a integridade das políticas de Storage Policy definidas.

Conceitos de Expansão de Storage

A expansão de um ambiente VMware vSAN fundamenta-se no princípio de Software-Defined Storage (SDS), onde a capacidade lógica não está atrelada a um único hardware proprietário, mas sim à agregação de recursos distribuídos entre os hosts do cluster. Diferente de um storage tradicional (SAN/NAS), onde a expansão muitas vezes exige a compra de novas controladoras ou expansões de gavetas (shelves) complexas, o vSAN permite uma escalabilidade granular e flexível através de dois vetores principais: a adição de novos discos (Disk Groups) e a adição de novos hosts ao cluster.

Ao falarmos de expansão de capacidade, é crucial entender a distinção entre os tipos de discos utilizados no vSAN. O Cache Tier é composto por dispositivos de alta performance, como SSDs ou NVMe, responsáveis pelo gerenciamento de escrita e metadados. Já o Capacity Tier é composto por discos que armazenam os dados de fato. A expansão pode ocorrer de forma vertical, adicionando mais discos de capacidade ao mesmo grupo de discos (dentro dos limites do hardware), ou de forma horizontal, adicionando novos grupos de discos ou novos hosts inteiros.

A expansão horizontal via adição de hosts é o método mais robusto para manter o equilíbrio do cluster. Quando um novo host é adicionado e configurado para participar do vSAN, o vCenter Server inicia processos de rebalanceamento de dados. Esse processo é automatizado e visa redistribuir os objetos (componentes) para que o uso de espaço e a carga de I/O sejam uniformes entre todos os membros do cluster. É importante notar que, embora a expansão seja feita sem downtime, o processo de rebalanceamento consome recursos de rede e CPU, pois envolve a movimentação de dados entre os hosts.

Outro conceito vital é a manutenção da Failure Domain (Domínio de Falha). A expansão deve sempre respeitar a política de armazenamento (Storage Policy) definida para cada VM. Por exemplo, se você utiliza uma política de RAID-1 (Mirroring) com dois componentes, a adição de novos hosts aumenta a disponibilidade, mas não altera a redundância intrínseca de cada objeto, a menos que a política seja reconfigurada para RAID-5 ou RAID-6 (Erasure Coding), o que exige um número mínimo de hosts e discos específicos para garantir a integridade dos dados em caso de falhas simultâneas.

Pré-requisitos para Expansão

A expansão de um cluster vSAN é uma operação crítica que exige conformidade rigorosa com a arquitetura de software-defined storage (SDS) já estabelecida. Para garantir que a adição de novos discos ou hosts ocorra sem a degradação do nível de disponibilidade ou a perda de quórum, é fundamental validar os seguintes itens antes de iniciar qualquer procedimento no vCenter Server.

  • Acesso com Privilégios Elevados: Você deve possuir credenciais com a role de Administrator no vCenter Server e permissões de Host Administrator nos ESXi envolvidos, garantindo controle sobre a configuração de storage e rede.
  • Compatibilidade de Versão (vSphere/vSAN): Todos os novos hosts adicionados devem rodar a mesma versão ou uma versão superior do ESXi em relação ao cluster atual, evitando inconsistências no motor de gerenciamento de objetos.
  • Homogeneidade de Hardware: Embora o vSAN permita discos de diferentes capacidades, os novos discos devem ser compatíveis com a política de Disk Group existente (ex: SSDs para cache e HDDs/SSDs para capacity tier) para evitar desbalanceamento de performance.
  • Disponibilidade de Rede (VLANs e MTU): A infraestrutura de rede deve possuir as vSAN VMkernel interfaces configuradas com o mesmo MTU (preferencialmente 9000 para Jumbo Frames) e acesso às mesmas VLANs de storage para garantir a replicação de dados.
  • Capacidade de Quórum e Failures to Tolerate (FTT): Antes de expandir, verifique se o cluster possui Admission Control configurado corretamente, garantindo que a adição de novos componentes não viole as regras de redundância de objetos (RAID-1 ou RAID-5/6).
  • Monitoramento de Latência: É imperativo que o vSAN Health Check não apresentem alertas críticos de latência ou de Network Partition, pois a expansão sob estresse de rede pode causar o isolamento de hosts.
  • Backup e Snapshot de Configuração: Certifique-se de que as configurações de rede e as políticas de armazenamento estão documentadas ou que existe um File-Based Backup do vCenter disponível para recuperação em caso de erro de configuração no cluster.

Preparação de Novos Discos e Hosts

A fase de preparação é o estágio mais crítico para garantir que a expansão do vSAN ocorra sem falhas de integridade de dados. Antes de iniciar a integração no vCenter, você deve garantir que o hardware novo esteja em conformidade com a topologia atual do cluster, evitando desbalanceamento de storage.

Se o objetivo é a expansão via novos discos, certifique e-se de que os novos SSD/NVMe (Cache Tier) e HDD/SSD (Capacity Tier) possuam o mesmo ou superior desempenho e capacidade dos discos existentes. Se a expansão for via novos hosts, o hardware deve ser idêntico ou compatível com a vSAN HCL (Hardware Compatibility Guide) para evitar erros de particionamento.

Para preparar novos discos em um host ESXi que já está em operação, você deve limpar qualquer metadado de partições residuais que possam confundir o vSAN durante o escaneamento. Utilize o ESXi Shell ou via SSH para executar os seguintes comandos:

  1. Identifique os novos dispositivos brutos (raw) que foram inseridos no servidor através do comando de listagem de dispositivos.
    esxcli storage core device list

    Este comando lista todos os dispositivos de armazenamento visíveis; procure pelo identificador naa. do novo disco.

  2. Remova partições ou assinaturas de volumes antigos que possam estar presentes nos novos discos para evitar conflitos de LUN.
    partedUtil getptbl /vmfs/devices/disks/naa.ID_DO_DISCO

    O comando partedUtil é usado para visualizar a tabela de partições; certifique-se de que o disco esteja totalmente limpo (unassigned).

  3. Se estiver adicionando um novo host ao cluster, verifique se o vSwitch e o VMkernel de vSAN estão configurados com a mesma VLAN e sub-rede dos hosts atuais.
    esxcfg-vmkeyrl -l

    A flag -l lista as interfaces VMkernel; a interface de vSAN deve estar ativa e comunicável com o restante do cluster.

Para hosts novos, certifique-se de que o vSAN Service esteja habilitado no nível do cluster e que o novo host seja adicionado ao Datacenter no vCenter antes de tentar a expansão de capacidade. A consistência do MTU (preferencialmente 9000 para Jumbo Frames) em toda a rede de storage é obrigatória para evitar perda de pacotes durante a rebalanceamento de objetos.

Passo a Passo da Expansão

A expansão de um cluster vSAN pode ocorrer de duas formas: adicionando novos discos ao um único host ou adicionando novos hosts ao cluster. O procedimento abaixo foca na adição de novos discos (capacity disks) a hosts já existentes, que é o cenário mais comum para ganho de capacidade imediata.

  1. Identificação de novos discos. Acesse o vSphere Client e navelon até o host ESXi que receberá o novo hardware. Verifique se o sistema operacional do host reconhece o novo LUN ou disco físico através do comando de listagem de dispositivos.

     

    
     

    O comando ls lista todos os dispositivos de disco visíveis no sistema de arquivos do ESXi. Certifique-se de que o identificador único (UUID) do novo disco apareça na lista.

  2. Configuração do Disk Group. No vSphere Client, navegue até o seu Datastore vSAN. Selecione o host de destino, clique com o botão direito no grupo de discos atual e escolha a opção de adicionar disco de capacidade. Este processo não altera os discos de cache existentes, apenas expande a camada de dados.

     

  3. Atribuição do disco ao vSAN. Ao selecionar o novo disco, o vCenter irá formatar o dispositivo com o sistema de arquivos vSAN. Se estiver utilizando automação via CLI para gerenciar partições, o comando abaixo valida o estado do disco.

     

    
     

    O parâmetro vsan storage list exibe todos os discos configurados como parte do vSAN. Verifique se o novo disco aparece na lista de dispositivos de capacidade (capacity devices).

  4. Rebalanceamento de objetos. Após a adição física, os dados antigos não são movidos automaticamente para o novo disco. Você deve iniciar o processo de rebalanceamento para distribuir as componentes dos objetos vSAN de forma uniforme pelo novo espaço disponível.

     

    
     

    O comando de rebalanceamento redistribui as réplicas dos objetos entre todos os discos do cluster, evitando que um disco fique sobrecarregado enquanto o novo permanece ocioso.

  5. Monitoramento da conclusão. Acompanhe o status da tarefa no vCenter. O processo de rebalanceamento pode consumir largura de banda da rede de storage (vSAN VMkernel), por isso, monitore o tráfego de rede para evitar latência excessiva nas VMs de produção.

     

Configuração de Novos Componentes

Após a integração física do novo hardware ao cluster, é necessário instruir o vCenter Server a reconhecer e utilizar esses novos recursos para o armazenamento distribuído. A configuração divide-se em dois cenários: a adição de novos discos em hosts existentes ou a integração de novos hosts ao cluster vSAN.

Para discos adicionados a hosts que já fazem parte do cluster, o processo foca na reclassificação do disco para o grupo de discos (Disk Group) correto. Se você estiver utilizando uma arquitetura de vSAN Original, precisará garantir que o novo disco seja associado a um grupo de discos que possua um cache tier funcional.

  1. Acesse o vSphere Client e navere até o host ESXi que recebeu os novos discos físicos.
  2. Verifique se o novo disco aparece como Unused (Não utilizado) através do comando via SSH no host, para garantir que não haja partições residuais:
    esxcli storage core device list

    O comando acima lista todos os dispositivos de armazenamento; procure pelo identificador WWN ou ID do novo disco para confirmar o reconhecimento pelo kernel do ESXi.

  3. No vSphere Client, navegue até Configure > vSAN > Disk Management.
  4. Selecione o Disk Group de destino e clique em Add para incluir o novo Capacity Tier disk.
    vSAN Disk Management > Add Capacity Disk

    Neste fluxo, o vCenter automatiza a criação do particionamento necessário para o vSAN Object Format, transformando o disco bruto em um componente de capacidade utilizável.

 

No caso de adição de um novo host ao cluster, a configuração exige que o nível de conformidade de rede e as políticas de vSAN Cluster sejam idênticos aos hosts membros. Certifique-se de que o vSAN Network (VMkernel adapter) esteja configurado com as mesmas sub-redes e tags de MTU (preferencialmente 9000 para Jumbo Frames) para evitar gargalos de reconstrução de dados.

Se o novo host possuir discos que não foram detectados automaticamente, você pode forçar a verificação de novos dispositivos via linha de comando para garantir que o Storage Policy possa ser aplicado imediatamente após o join do host ao cluster:

esxcli storage core adapter rescan --all

A flag --all instruas o gerenciador de armazenamento a percorrer todos os adaptadores (HBA/SAS/SATA) em busca de mudanças de topologia ou novos LUNs/discos físicos, essencial para que o vSAN detecte o novo hardware sem necessidade de reboot.

Verificação da Capacidade Expandida

Após concluir a adição de novos discos ou hosts, é fundamental validar se o vSAN reconheceu corretamente os novos recursos e se o objetos de armazenamento estão distribuídos conforme o esperado. Uma expansão mal monitorada pode mascarar problemas de rebalanceamento que impactam a performance de I/O.

O primeiro passo é validar o status do cluster através do vSphere Client ou via linha de comando no ESXi. Para uma verificação rápida via SSH em um dos hosts do cluster, utilize o comando abaixo para verificar o estado de saúde dos discos:

esxcli vsan storage list

Este comando lista todos os discos que fazem parte do vSAN. Verifique se o número de disk groups ou o total de capacity disks corresponde à nova configuração física que você implementou.

Para validar se o vCenter detectou a nova capacidade de storage disponível no datastore, você pode utilizar o PowerCLI para extrair o tamanho total e o espaço livre. O comando abaixo demonstra como consultar a capacidade atual:

Get-Datastore -Name "vSAN_Datastore" | Select-Object Name, CapacityGB, FreeSpaceGB

O output esperado deve refletir o incremento de GBs conforme o hardware adicionado. Um exemplo de saída positiva seria:

Name             CapacityGB  FreeSpaceGB
---------------- ----------- -----------
vSAN_Datastore   20480       8192

Se o valor de FreeSpaceGB não apresentar o aumento esperado, o vSAN pode ainda estar em processo de rebalancing. Nesse estágio, os dados estão sendo movidos para ocupar os novos discos, o que consome largura de banda da rede de storage. Verifique o progresso através do painel de monitoramento do vSAN Health no vSphere Client, garantindo que não existam alertas de Data Resynchronization pendentes por tempo excessivo.

Troubleshooting de Erros Comuns

Durante o processo de expansão de um cluster vSAN, falhas na adição de novos discos ou hosts podem ocorrer devido a inconsistências de configuração de hardware ou rede. Identificar a causa raiz rapidamente é fundamental para evitar que o cluster entre em estado de Degraded ou Reduced Availability.

  • Sintoma: O novo disco aparece como "Unused" no vSphere Client, mas não pode ser adicionado ao Disk Group.

    Boas Práticas de Infraestrutura

    A expansão de um cluster vSAN não deve ser tratada apenas como um incremento de hardware, mas como um evento de mudança na topologia da sua infraestrutura de software-defined storage. Para garantir que a resiliência e o desempenho do storage permaneçam estáveis após a adição de novos recursos, siga estas diretrizes técnicas fundamentais.

    • Padronização de Hardware: Ao adicionar novos hosts, tente manter a paridade de especificações, especialmente no que diz respeito ao controlador de disco e à tecnologia de cache (NVMe ou SSD). Discos com latência significativamente superior podem criar gargalos no vSAN Object Health, afetando o tempo de reconstrução de objetos.
    • Planejamento de Capacidade de Cache: Lembre-se que o vSAN utiliza uma arquitetura de duas camadas (cache e capacity). Sempre garanta que o disco de cache tenha um desempenho de IOPS compatível com o volume de escrita esperado para o novo storage, evitando que o write buffer se torne um ponto de contenção.
    • Monitoramento de Rebalanceamento: Após a expansão, o vSAN iniciará o processo de rebalanceamento de objetos. Monitore o impacto disso na rede e no I/O das VMs. Evite realizar outras tarefas críticas, como migrações massivas de vMotion ou backups pesados, durante este período para não sobrecarregar o tráfego de vSAN VMkernel.
    • Segregação de Tráfego de Rede: Utilize VLANs dedicadas para o tráfego de storage. A expansão física aumenta o volume de dados replicados entre hosts; portanto, ter uma rede de 10GbE ou superior, isolada do tráfego de gerenciamento e vMotion, é crucial para evitar a degradação da latência de escrita.
    • Backup e Verificação de Integridade: Antes de qualquer alteração física ou lógica no cluster, valide se o seu plano de backup de metadados e das VMs está operacional. Embora a expansão seja feita sem downtime, falhas de hardware durante a inserção de novos discos podem causar estados de Reduced Availability.
    • Alinhamento de RAID/FTT: Ao expandir, revise se as políticas de Failures to Tolerate (FTT) ainda fazem sentido para o novo tamanho do cluster. Um aumento no número de hosts pode permitir a transição de RAID-1 para RAID-5 (Erasure Coding), otimizando o espaço, mas exigindo atenção ao overhead de CPU e rede.

    FAQ sobre VMware vSAN

    Posso adicionar discos de capacidades diferentes no mesmo Disk Group?

    Embora o vSAN permita a adição de novos discos, é altamente recomendado manter a consistência de performance e capacidade dentro de um mesmo Disk Group. Se você adicionar um disco de 1.6TB em um grupo que possui apenas discos de 800GB, o vSAN poderá enfrentar desafios na distribuição de objetos e no balanceamento de I/O. O ideal é que os novos discos sigam o mesmo padrão de especificações (SSD/NVMe) e capacidade dos discos já existentes para evitar gargalos de latência no tier de cache ou no tier de capacidade.

    A expansão de um host existente pode impactar a performance das VMs?

    Durante o processo de expansão, o vSAN realiza o rebalanceamento de objetos e a reconfiguração do Object Spanning. Se houver uma carga de escrita muito alta no cluster no momento da expansão, você poderá notar um aumento temporário na latência de disco. No entanto, como o processo é projetado para ser online, não há interrupção do serviço. Para mitigar riscos, evite janelas de manutenção críticas ou processos de backup massivos durante a adição de novos componentes ao cluster.

    O que acontece com a política de armazenamento (Storage Policy) após a expansão?

    As políticas de armazenamento, como Failures to Tolerate (FTT) e Failures to Commit (FTC), permanecem intactas. A expansão de capacidade apenas oferece mais espaço para que novos objetos sejam criados ou para que objetos existentes sejam redimensionados. Se você estiver utilizando políticas de RAID-1 (Mirroring) ou RAID-5/6 (Erasure Coding), o vSAN utilizará o novo espaço disponível para acomodar a redundância conforme as regras pré-definidas, sem necessidade de reconfigurar manualmente as políticas de cada VM.

    É necessário remover hosts antigos para reorganizar o cluster?

    Não é obrigatório, mas em cenários de refatoração de infraestrutura, a remoção de hosts antigos pode ser necessária para manter a homogeneidade do cluster. Se você decidir remover um host, deve garantir que o cluster possua redundância suficiente para suportar a perda daquele nó sem violar a política de FTT. O processo de remoção é mais complexo que a expansão, pois exige o evacuation de dados (re-protection) de todos os objetos que residem naquele host para os nós remanescentes antes do shutdown.

    Como saber se o rebalanceamento de dados foi concluído com sucesso?

    Após a adição de novos discos ou hosts, o vSAN inicia um processo de rebalanceamento automático para distribuir os dados de forma uniforme. Você pode monitorar o progresso através do vSphere Client, observando o status de "Resyncing" nas tarefas do vCenter. O processo é considerado concluído quando não houver mais tarefas de sincronização pendentes e o uso de disco entre os diferentes Disk Groups estiver equilibrado.

    Conclusão e Próximos Passos

    A expansão de um cluster VMware vSAN é uma das tarefas mais críticas e, ao mesmo tempo, gratificantes para um administrador de infraestrutura. Ao seguir este guia, você garantiu que a camada de armazenamento definido por software (SDS) crescesse de forma orgânica, mantendo a alta disponibilidade e a integridade dos dados. O sucesso desta operação não reside apenas na adição física de hardware, mas na correta integração lógica do novo capacity tier ou dos novos hosts ao vSAN Datastore, permitindo que o vSphere redistribua os objetos conforme a nova política de armazenamento (SPBM).

    No entanto, o trabalho de um engenheiro de infraestrutura não termina com a verificação do status "Healthy" no vCenter. A expansão de capacidade traz consigo novas responsabilidades de monitoramento e gestão de ciclo de vida. Com o aumento do volume de dados, o impacto de uma falha de disco ou de um host torna-se mais complexo devido à maior quantidade de componentes distribuídos pelo cluster. Por isso, a consolidação da nova topologia deve ser acompanhada de um plano de sustentação rigoroso.

    Para garantir que sua infraestrutura continue resiliente e performática, recomendamos os seguintes passos imediatos após a expansão:

    • Revisão das Políticas de Armazenamento (SPBM): Verifique se as novas capacidades de disco (especialmente se houver adição de discos NVMe ou SSD) permitem a aplicação de políticas de RAID-1 (Mirroring) ou RAID-5/6 (Erasure Coding) para otimizar o uso de espaço sem sacrificar a performance.
    • Atualização do Lifecycle Manager (vLCM): Certifique-se de que os novos hosts adicionados ao cluster estejam rodando exatamente a mesma versão de ESXi e o mesmo vendor add-on que os hosts existentes para evitar incompatibilidades de drivers de controladora ou firmware de disco.
    • Monitoramento de Rebalanceamento: Acompanhe o dashboard do vSAN por pelo menos 24 a 48 horas após a expansão. O processo de rebalanceamento de objetos pode gerar carga de I/O intensa; monitore se o throughput de escrita não está impactando as aplicações críticas.
    • Validação de Backup e Replicação: Com o aumento do storage, o volume de dados sendo protegido cresceu. Reavalie suas janelas de backup e certifique-se de que o storage de destino (Target) possui capacidade suficiente para absorver o crescimento projetado.
    • Auditoria de Alertas de Capacidade: Configure novos thresholds (limiares) de alerta no vCenter para o novo tamanho do datastore. Um erro comum é manter alertas baseados em percentuais antigos que podem não refletir a nova realidade de crescimento do cluster.

    A expansão bem-sucedida é o alicerce para o crescimento do seu negócio. Ao dominar a gestão do vSAN, você transforma o storage de um gargalo potencial em um recurso elástico e confiável para a sua operação de TI.

Compartilhar: Link copiado!
Esse tutorial foi útil?

Comentários (0)

Seja o primeiro a comentar.

Deixe seu comentário

Seu comentário será analisado antes de ser publicado.

0/2000