Monitoramento de objetos de nível global em um cluster de chassi
Use o Feature Explorer para confirmar o suporte de plataforma e versão para recursos específicos.
Analise a seção de comportamento de objetos de monitoramento específicos da plataforma para obter notas relacionadas à sua plataforma.
Existem vários tipos de objetos a serem monitorados enquanto você trabalha com dispositivos configurados como clusters de chassi, incluindo objetos e objetos de nível global que são específicos para grupos de redundância. Esta seção descreve o monitoramento de objetos de nível global.
Entendendo o monitoramento da SPU
O monitoramento da SPU monitora a integridade das SPUs e do ponto central (CP). O gerente de chassi em cada SPC monitora as SPUs e o ponto central, e também mantém o ritmo acelerado com o chassi do mecanismo de roteamento. Neste sistema de monitoramento hierárquico, o chassi é o centro para a detecção de falhas de hardware. O monitoramento da SPU é habilitado por padrão.
A SPU persistente e a falha de ponto central em um nó são consideradas uma falha catastrófico do Mecanismo de encaminhamento de pacotes (PFE). Neste caso, o PFE do nó é desativado no cluster, reduzindo as prioridades dos grupos de redundância x a 0.
Uma falha de ponto central desencadeia o failover para o nó secundário. O PFE do nó com falha, que inclui todos os SPCs e todas as placas de E/S (IOCs), é reiniciado automaticamente. Se o ponto central secundário também tiver falhado, o cluster não poderá surgir porque não há nenhum dispositivo primário. Apenas o plano de dados (grupo de redundância x) foi reprovado.
Uma SPU única e com falha causa falha no grupo de redundância x para o nó secundário. Todos os IOCs e SPCs no nó com falha são reiniciados e o grupo x de redundância é reprovado no nó secundário. O failover ao nó secundário é automático sem a necessidade de intervenção do usuário. Quando o nó primário com falha (anterior) tem seu componente com falha restaurada, o failback é determinado pela configuração antecipada para o grupo de redundância x. O intervalo para detecção de SPU inativo é de 30 segundos.
Este evento dispara um alarme, indicando que uma nova unidade substituível em campo (FRU) é necessária.
Entendendo o monitoramento fluído
O monitoramento fluído rastreia a integridade do processo fluido. O monitoramento fluído é habilitado por padrão.
A falha de fluxo persistente em um nó é considerada uma falha catastrófico do Mecanismo de encaminhamento de pacotes (PFE). Neste caso, o PFE do nó é desativado no cluster, reduzindo as prioridades dos grupos de redundância x a 0.
Um processo fluído com falha causa falha no grupo de redundância x para o nó secundário. O failover ao nó secundário é automático sem a necessidade de intervenção do usuário. Quando o nó primário com falha (anterior) tem seu componente com falha restaurada, o failback é determinado pela configuração antecipada para o grupo de redundância x.
Durante o SPC e falhas de monitoramento fluídas em um nó local, o grupo de redundância de plano de dados RG1+ falha no outro nó que está em um bom estado. No entanto, o RG0 do plano de controle não falha e permanece primário no mesmo nó que era antes da falha.
Entendendo o monitoramento do Cold-Sync
O processo de sincronização dos objetos de tempo de execução (RTOs) do plano de dados na startup das SPUs ou fluídos é chamado de cold sync. Quando todos os RTOs são sincronizados, o processo de sincronização a frio é concluído, e a SPU ou fluída no nó está pronto para assumir o comando do nó primário, se necessário. O processo de monitoramento do estado de sincronização a frio de todas as SPUs ou fluído em um nó é chamado de monitoramento de sincronização fria. Tenha em mente que, quando o pré-requisito é habilitado, o monitoramento de sincronização a frio impede que o nó assumisse a função primária até que o processo de sincronização a frio seja concluído para as SPUs ou fluído no nó. O monitoramento de sincronização a frio é habilitado por padrão.
Quando o nó é reiniciado, ou quando as SPUs ou fluídas voltam de falha, a prioridade para todos os grupos de redundância 1+ é 0. Quando um SPU ou fluxo surge, ele tenta iniciar o processo de sincronização fria com sua SPU espelhada ou fluída no outro nó.
Se este for o único nó no cluster, as prioridades para todos os grupos de redundância 1+ ficam em 0 até que um novo nó se junte ao cluster. Embora a prioridade seja em 0, o dispositivo ainda pode receber e enviar tráfego por suas interfaces. Uma prioridade de 0 implica que ela não pode falhar em caso de falha. Quando um novo nó se juntar ao cluster, todas as SPUs ou fluídas, conforme elas surgirem, iniciarão o processo de sincronização a frio com as SPUs espelhadas ou fluíram do nó existente.
Quando a SPU ou o fluxo de um nó que já está em funcionamento detecta a solicitação de sincronização a frio da SPU ou fluiu do nó peer, ele posta uma mensagem no sistema indicando que o processo de sincronização fria está concluído. As SPUs ou fluíram dos posts de nó recém-juntados uma mensagem semelhante. No entanto, eles só postam essa mensagem depois que todos os RTOs são aprendidos e a sincronização fria é completa. Ao receber mensagens de conclusão de todas as SPUs ou fluídas, a prioridade para grupos de redundância 1+ se move para a prioridade configurada em cada nó se não houver outras falhas de componentes monitorados, como interfaces. Essa ação garante que o nó primário existente para grupos de redundância 1+ sempre se mova para a prioridade configurada em primeiro lugar. O nó que se junta ao cluster mais tarde se move para suas prioridades configuradas somente depois de todas as suas SPUs ou fluídas terem concluído seu processo de sincronização a frio. Essa ação, por sua vez, garante que o nó recém-adicionado esteja pronto com todos os RTOs antes de assumir o papel principal.
Entender o monitoramento do Cold-Sync com a substituição ou expansão da SPU
Se o seu firewall de SRX5600 ou SRX5800 fizer parte de um cluster de chassi, quando você substitui uma placa de processamento de serviços (SPC) por um SPC2 ou um SPC3 no dispositivo, você deve falhar em todos os grupos de redundância para um nó.
Os seguintes eventos ocorrem durante este cenário:
Quando o SPC2 é instalado em um nó (por exemplo, no nó 1, o nó secundário), o nó 1 é desativado para que o SPC2 possa ser instalado.
Assim que o nó 1 estiver ligado e voltar ao cluster, o número de SPUs no nó 1 será maior do que o número de SPUs no nó 0, o nó principal. Agora, um nó (nó 0) ainda tem um SPC antigo, enquanto o outro nó tem o novo SPC2; Os SPC2s têm quatro SPUs por placa, e os SPCs mais antigos têm duas SPUs por cartão.
O processo de sincronização fria é baseado no número total de SPU do nó 0. Assim que essas SPUs no nó 1 correspondentes ao nó 0 SPUs tiverem concluído a sincronização a frio, o nó 1 declarará a sincronização a frio concluída. Como as SPUs adicionais no nó 1 não têm o nó 0 SPUs correspondentes, não há nada a ser sincronizado e o failover do nó 0 ao nó 1 não causa nenhum problema.
A funcionalidade de monitoramento de SPU monitora todas as SPUs e relatórios se houver alguma falha na SPU.
Por exemplo, assuma que ambos os nós originalmente têm 2 SPCs existentes e você substituiu ambos os SPCs por SPC2 no nó 1. Agora temos 4 SPUs em nós 0 e 8 SPUs em nós 1. A função de monitoramento de SPU monitora as 4 SPUs em nós 0 e 8 SPUs no nó 1. Se alguma dessas 8 SPUs falhar no nó 1, o monitoramento da SPU ainda informará ao processo do Protocolo de Redundância de Serviços (jsrpd) da Juniper que há uma falha na SPU. O processo jsrpd controla o clustering do chassi.
Assim que o nó 1 estiver pronto para falhar, você pode iniciar todo o failover de grupo de redundância manualmente para o nó 1. O nó 0 será desativado para substituir o SPC pelo SPC2. Após a substituição, o nó 0 e o nó 1 terão exatamente a mesma configuração de hardware.
Assim que o nó 0 estiver ligado e voltar ao cluster, o sistema funcionará como um cluster de chassi normal.
Quando o processo de sincronização fria ainda está em andamento no firewall da Série SRX no cluster do chassi, e se o link de controle estiver desativado, um atraso (de 30 segundos) é esperado antes que o nó faça a transição do estado secundário para o estado primário.
Comportamento de objetos de monitoramento específicos da plataforma
Use o Feature Explorer para confirmar o suporte de plataforma e versão para recursos específicos.
Use a tabela a seguir para revisar comportamentos específicos da plataforma em sua plataforma.
Plataforma |
Diferença |
---|---|
Série SRX |
|