ERRO: Transport endpoint is not connected no Proxmox
Fala pessoal! Aqui estamos novamente comentando a jornada do Proxmox rsrs.
Como falei no post anterior, recentemente retornei da Irlanda, e com isso, senti a necessidade de trocar a timezone das máquinas do Proxmox (inclusive na BIOS). Pretendo utilizar a função de Auto On Time dos equipamentos Dell para agendar o power on.
Bom, reinicie as máquinas como quem não queria nada, e após bootar novamente, o cluster quebrou totalmente.
Notei os seguintes sintomas:
- Boot lento (até chegar no terminal).
- SSH de outra máquina para o node estava solicitando senha (mesmo com autenticação via chaves SSH configurada) e também estava muito lento.
- O diretório /etc/pve estava vazio.
- Ao rodar qualquer comando do systemctl o erro Transport endpoint is not connected é retornado.
Bom, depois de muita pesquisa, o problema era por conta de timezone mesmo.
Aqui tem a thread que mostra a solução.
No meu node principal eu havia alterado a timezone da seguinte forma:
$ timedatectl set-timezone America/Sao_Paulo
$ timedatectl set-local-rtc true
E esse node estava funcionando perfeitamente.
Os logs do node principal retornavam o erro Cluster not quorate - extending auth key lifetime!.
Como praticamente nada funcionava, eu não conseguia fazer um troubleshooting mais aprofundado no node problemático.
Mas eu ainda tinha um acesso ao Shell, mesmo que limitado. E foi suficiente para colocar as coisas de volta no lugar.
Se você executar o comando:
$ ls -l /etc/localtime
Possivelmente a timezone vai ser diferente do node principal, e isso pode dar problema.
Para resolver eu basicamente fiz isso aqui:
$ ln -sf /usr/share/zoneinfo/America/Sao_Paulo /etc/localtime
E automagicamente o cluster sincronizou e tudo voltou ao normal. Desempenho ficou zero bala, /etc/pve foi populado, e por aí vai…
Não cheguei na causa raíz do problema, mas eu acredito que seja por conta do Corosync ser “sensível” a mudança de timezone para sincronizar os nodes.
Espero que ajude, abs!
Buy me a coffee