Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Resiliência da malha

Resiliência e degradação da malha

Os roteadores e switches da Juniper construíram resiliência para enfrentar falhas e condições de erro encontradas durante a operação normal. Medidas imediatas são tomadas pelo software JUNOS para remediar as condições de falha para minimizar a perda de tráfego. Nenhuma intervenção manual é necessária. A degradação da malha pode ser uma das razões que levam a tais condições de erro. As seções a seguir explicam como os PFEs se recuperam de forma resiliente a partir dessas falhas.

Erros e recuperação do mecanismo de encaminhamento de pacotes em roteadores da Série PTX

Os destinos do mecanismo de encaminhamento de pacotes podem se tornar inalcançáveis nos roteadores da Série PTX pelos seguintes motivos:

  • As placas de interface do switch de malha (SIBs) estão offline como resultado de um comando CLI.

  • As SIBs de malha são desligadas pela placa de controle devido às condições de alta temperatura.

  • Erros de E/S pesquisados ou de tensão nas SIBs são detectados pelo conselho de controle.

  • Erros inesperados de treinamento de enlaces ocorrem em todos os planos conectados.

  • Dois mecanismos de encaminhamento de pacotes podem chegar à malha, mas não uns aos outros.

  • Erros de enlace ocorrem quando dois mecanismos de encaminhamento de pacotes têm conectividade com a malha, mas não através de um plano comum.

A partir da versão 13.3 do Junos OS, você pode usar roteadores da Série PTX para configurar os níveis de erro relacionados ao Mecanismo de encaminhamento de pacotes (PFE) e as ações a serem executadas quando um limite especificado for atingido.

Se os níveis de erro não forem definidos, um roteador da Série PTX inicia as seguintes fases no processo de recuperação:

  1. Fase de reinicialização do SIB: o roteador tenta resolver o problema reiniciando as SIBs um a um. Essa fase não começa se as SIBs estiverem funcionando corretamente e uma única placa de linha estiver enfrentando um problema.

  2. Fase de reinicialização da SIB e da placa de linha: o roteador reinicia as SIBs e a placa de linha. Se existem placas de linha que não podem iniciar links de alta velocidade para a malha após a reinicialização, não é relevante perder tráfego ao vivo, pois nenhuma interface é criada para essas placas de linha, impedindo o sistema de problemas.

  3. Fase offline da placa de linha: como as tentativas anteriores de recuperação falharam, as placas de linha e as interfaces são desativadas e o sistema evita problemas e condições de erro.

Resiliência de malha e recuperação automática de malha degradada

Iniciando o Junos Evolved Release 23.4R1, o recurso de recuperação automática da malha está disponível para limitar a perda de dados. As ações de recuperação tomadas incluem a reinicialização da FRU, a reinicialização do link e assim por diante.

As seguintes ações de recuperação de malha de três fases são tentadas no nível fru:

1. Recuperação de nível FRU usando a reinicialização do SIB.

2. Recuperação de nível FRU usando reiniciamento de FPC ou reinicialização de PFE.

3. Ação para desativar IFD de PFEs irrecuperáveis ou PFE offline.

Nota: Para plataformas que não têm suporte de reinicialização de PFE, a reinicialização do FPC é fornecida como a ação padrão.

Ação de recuperação de malha para condições de falha do SIB: Para falhas de alcance devido a um SIB ausente (orientado pelo usuário offline ou SIB não presente durante a ativação do sistema), a resiliência da malha não tenta a recuperação. Em sistemas que não suportam a recuperação da malha, os alarmes do chassi são gerados para falhas de acessibilidade.

Ação de recuperação de nível PFE em roteadores da Série PTX (PTX10004, PTX10008 e roteadores de PTX10016)

Para plataformas que podem suportar a reinicialização do PFE, a reinicialização do PFE será adicionada como a ação padrão de recuperação da fase 2.

Nota: Em ASICs com vários PFEs, a reinicialização afeta PPFEs (PFEs per-plane), semelhantes à ação offline do PFE.
A decisão de recuperação da ação da fase 2 é tomada para qualquer um dos seguintes cenários:
  • PFE com falhas de acessibilidade residem em um único FPC.
  • PFEs com falhas de acessibilidade (em um ou mais FPCs) e não têm nenhuma falha comum.

A recuperação da fase 2 é tentada em PPFEs que não se recuperaram de falhas de acessibilidade após a recuperação da fase 1.

Se o número de PFEs com falhas de auto-acessibilidade em um FPC igual ou superior a 50% dos PFEs, o FPC será reiniciado.

Use a seguinte opção CLI para configurar manualmente a ação padrão de reinicialização do PFE:

A tabela a seguir mostra as ações na recuperação da fase 2, com base na configuração e número de PFEs em falha em um FPC.

Decisão de recuperação Número de PFEs indisplicádas no FPC PFE reiniciado com suporte PFE reinicie a desativação FPC reinicie a desativação Ação
Ação da fase 2 <= 50% Sim Não x Reinicialização do PFE
Ação da fase 2 <= 50% Sim Sim Não Reiniciamento do FPC
Ação da fase 2 <= 50% Sim Sim Sim Reinicialização do PFE
Ação da fase 2 >50% Sim x Não Reiniciamento do FPC
Ação da fase 2 >50% Sim Sim Sim Reinicialização do PFE
Ação da fase 2 >50% Sim Não Sim Reinicialização do PFE

Erros e recuperação do mecanismo de encaminhamento de pacotes em roteadores T640, T1600 ou TX Matrix

Os destinos do mecanismo de encaminhamento de pacotes podem se tornar inalcançáveis nos roteadores T640, T1600 ou TX Matrix pelos seguintes motivos:

  • As placas de interface do switch de malha (SIBs) estão offline como resultado de um comando CLI ou um botão físico pressionado.

  • As SIBs de malha são desligadas pela placa de mezanino do processador de switches (SPMB) devido às condições de alta temperatura.

  • Erros de E/S pesquisados ou de tensão nas SIBs são detectados pelo SPMB.

  • Todos os mecanismos de encaminhamento de pacotes recebem erros de destino em todos os planos a partir de mecanismos remotos de encaminhamento de pacotes, mesmo quando os SIBs estão on-line.

  • A perda completa da malha é causada por intervalos de destino, mesmo quando os SIBs estão on-line.

O processo de recuperação consiste nas seguintes fases:

  1. O roteador reinicia os planos de malha um a um. Essa fase não começa se o plano de malha estiver funcionando corretamente e uma única placa de linha tiver problemas.

  2. Fase de reinicialização do plano de malha e da placa de linha: o roteador reinicia as SIBs e as placas de linha. Se existem placas de linha que não podem iniciar links de alta velocidade para a malha após a reinicialização, não é relevante perder tráfego ao vivo, pois nenhuma interface é criada para essas placas de linha, impedindo o sistema de problemas.

  3. Fase offline da placa de linha: como as tentativas anteriores de recuperação falharam, as placas de linha e as interfaces são desativadas e o sistema evita problemas e condições de erro que levam a sérias consequências.

Nota:

Começando no Junos OS Release 14.2R6, se um SIB ficar offline devido a condições extremas, como alta tensão ou alta temperatura, então como parte do processo de recuperação, o roteador não reinicia o plano de malha para esse SIB.

O mecanismo de recuperação em fases mencionado acima é exaustivo a menos que haja outros erros que possam estar correlacionados com esses problemas.

A partir do Junos OS Release 14.2R6, você pode gerenciar melhor a degradação da malha em sistemas de chassi único incorporando mecanismos de liveness do Mecanismo de encaminhamento de pacotes e auto-ping da malha. O auto-ping da malha é um mecanismo para detectar problemas no caminho de dados da malha. Usando o mecanismo de auto-ping da malha, cada mecanismo de encaminhamento de pacotes verifica que um pacote destinado a si mesmo está atingindo-o quando o pacote é enviado pelo caminho da malha. A liveness do Mecanismo de encaminhamento de pacotes é um mecanismo para detectar se um mecanismo de encaminhamento de pacotes é acessível no plano de malha. Para verificar se é acessível, o Mecanismo de encaminhamento de pacotes envia periodicamente um pacote auto-destinado ao plano da malha. Se algum erro for detectado por esses dois mecanismos, o gerente de malha levanta um alarme degradado da malha e inicia a recuperação reiniciando a placa de linha.

Resiliência da malha dos roteadores da Série MX

Os roteadores MX fornecem mecanismos inteligentes para reduzir a perda de pacotes em cenários de falhas de hardware. Os roteadores da Série MX garantem a disponibilidade de rede e serviços com um amplo conjunto de aspectos de resiliência física, lógica e de nível de protocolo multicamadas

MX10008 oferece redundância e resiliência. Todos os principais componentes de hardware, incluindo o sistema de energia, o sistema de refrigeração e a placa de controle são totalmente redundantes.

O sistema de energia MX10004 e a Placa de Controle de Roteamento (RCB) oferecem redundância e resiliência.

O chassi MX2020 e MX2010 oferecem redundância e resiliência. Todos os principais componentes de hardware, incluindo o sistema de energia, o sistema de refrigeração, a placa de controle e as malhas de switches são totalmente redundantes.

As placas de malha de switches (SFBs) são o plano de dados para os subsistemas no chassi do roteador MX. As SFBs criam uma malha de switches centralizada "totalmente ativa" altamente escalável e resiliente que oferece até 4 Tbps de capacidade total de comutação duplex para cada slot MPC em um roteador MX2000.

Os chassis MX240, MX480 e MX960 oferecem redundância e resiliência. O sistema de hardware é totalmente redundante, fontes de alimentação, bandejas de ventoinha, mecanismos de roteamento e placas de controle de switches.

O roteador MX304 contém mecanismos de roteamento redundantes, plugáveis e suporta até três MICs (LMICs) de placa de linha.

Este tópico contém as seguintes seções que descrevem opções de resiliência de malha, métodos de detecção de falhas usados e ações corretivas:

Restauração da conectividade da malha

Os destinos do mecanismo de encaminhamento de pacotes podem se tornar inalcançáveis pelos seguintes motivos:

  • As placas de controle ficam offline como resultado de um comando CLI ou um botão físico apertado.

  • As placas de controle da malha estão offline devido à alta temperatura.

  • Tensão ou erros de E/S pesquisados na malha.

  • Todos os mecanismos de encaminhamento de pacotes recebem erros de destino em todos os planos a partir de mecanismos remotos de encaminhamento de pacotes, mesmo quando as malhas estão on-line.

  • Perda completa de malha causada por intervalos de destino, mesmo quando as malhas estão on-line.

Quando o sistema detecta quaisquer destinos inalcançáveis do mecanismo de encaminhamento de pacotes, a restauração da conectividade da malha é tentada. Se a restauração falhar, o sistema desativa as interfaces para desencadear ações de proteção local ou redirecionamento de tráfego nos roteadores adjacentes.

O processo de recuperação consiste nas seguintes fases:

  1. Fase de reinicialização do plano de malha: A restauração é tentada reiniciando os planos de malha um a um. Essa fase não começa se o plano de malha estiver funcionando corretamente e um erro for relatado apenas por uma placa de linha. Uma mensagem de erro é gerada para especificar que uma perda de conectividade é a razão para o plano de malha estar offline. Essa fase é realizada apenas para erros de plano de malha.

  2. Fase de reinicialização do plano de malha e da placa de linha: o sistema espera que a primeira fase seja concluída antes de examinar novamente o estado do sistema. Se a conectividade não for restaurada após a primeira fase ser executada ou se o problema ocorrer novamente em uma duração de 10 minutos, a restauração da conectividade é tentada reiniciando os planos de malha e as placas de linha. Se você configurar a action-fpc-restart-disable declaração no nível de [edit chassis fabric degraded] hierarquia para desabilitar a reinicialização das placas de linha quando uma recuperação é tentada, um alarme é acionado para indicar que a perda de conectividade ocorreu. Nesta segunda fase, três etapas são tomadas:

    1. Todas as placas de linha que têm erros de destino em um PFE estão offline.

    2. Os planos de malha são desativados e trazidos de volta on-line, um a um, começando com o plano sobressalente.

    3. As placas de linha que foram desligadas são trazidas de volta on-line.

  3. Fase offline da placa de linha: o sistema espera que a segunda fase seja concluída antes de examinar novamente o estado do sistema. A perda de conectividade é limitada ao desligar as placas de linha e desativar interfaces porque as tentativas anteriores de recuperação falharam. Se o problema não for resolvido reiniciando as placas de linha ou se o problema se repetir dentro de 10 minutos após a reinicialização das placas de linha, essa fase será realizada.

As três fases são controladas por temporizador. Durante essas fases, se um evento (como placas de linha offlining/onlining ou planos de malha) for eliminado, então a fase ignora esse evento e prossegue para o próximo evento. O controle do timer tem um valor de tempo limite de 10 minutos. Se o primeiro erro de malha ocorrer em um sistema com duas ou mais placas de linha, os planos de malha serão reiniciados. Se outro erro de malha ocorrer nos próximos 10 minutos, os planos de malha e as placas de linha serão reiniciados. No entanto, se o segundo erro de malha ocorrer fora do período de tempo limite de 10 minutos, então a primeira fase é realizada, que é a reinicialização apenas dos planos de malha.

Nos casos em que todos os tempoouts de destino forem rastreados até uma determinada placa de linha, por exemplo, uma placa de linha de origem ou uma placa de linha de destino, apenas essa placa de linha é desativada e on-line. Os planos de malha não estão desativados e on-line. Se outra falha de malha ocorrer no período de 10 minutos, a placa de linha será desligada.

Por padrão, o sistema limita o tempo de perda de conectividade detectando uma malha severamente degradada. Nenhuma interação do usuário é necessária.

Placas de linha com malha degradada

Você pode configurar uma placa de linha com malha degradada a ser movida para o estado offline. Em um MX10008, MX10004, MX2020, MX2010, MX960, MX480, MX304 ou roteador MX240, você pode configurar erros de link ou planos de malha ruins. Essa configuração é particularmente útil em cenários de perda parcial de conectividade, onde deixar a placa de linha offline resulta em um reencaminhamento mais rápido. Para configurar essa opção em uma placa de linha, use a offline-on-fabric-bandwidth-reduction declaração no nível de [edit chassis fpc slot-number] hierarquia. Para obter mais informações, veja Gerenciamento de planos de malha em roteadores MX304, Gerenciamento de planos de malha no MX10K-LC9600 e SFB2 (Número do modelo: JNP10008-SF2), Gerenciamento de planos de malha em dispositivos MX10004, gerenciamento de planos de malha no JNP10K-LC2101 e JNP10K-LC480, Fabric-Plane-Management-on-MX10004 e MX10008-Devices and Fabric Plane Management na placa de operadora modular MLC.

Perda de conectividade em direção apenas a um único destino

Em determinadas implantações, uma placa de linha indica uma perda completa de conectividade em direção a um único destino, mas funciona corretamente para outros destinos. Esses casos são identificados e a placa de linha afetada é recuperada. Considere um cenário de amostra em que os planos ativos são 0,1,2,3 e os planos sobressalentes são 4,5,6,7 na conexão entre a placa de linha 0 e a placa de linha 1. Se a placa de linha 0 tiver falhas de link únicos para os planos 0 e 1 e se a placa de linha 1 tiver falhas de link únicos para os planos 2 e 3, uma perda completa de conectividade ocorre entre as duas placas de linha. Tanto a placa de linha 0 quanto a placa de linha 1 passam por um modo de recuperação em fases e a cura da malha ocorre.

Modo de malha de redundância em placas de controle ativo

Você pode configurar a placa de controle ativa para estar no modo de redundância ou no modo de largura de banda de malha aumentado. Para configurar o modo de redundância para o conselho de controle ativo, use a redundancy-mode redundant declaração no nível de [edit chassis fabric] hierarquia.

Detecção e ações corretivas de placas de linha em roteadores da Série MX

Você pode configurar uma placa de linha a ser movida para o estado offline em um roteador da Série MX (como MX10008, MX10004, MX2020, MX2010, MX2008, MX960, MX480 ou MX304, MX240 e assim por diante). A configuração desse recurso não afeta o sistema. Você pode configurar esse recurso sem reiniciar a placa de linha ou reiniciar o sistema.

Os cenários a seguir podem ocorrer quando você configura o recurso para desativar placas de linha:

  • Se uma placa de linha tiver sido desligada por causa de erros de malha e essa funcionalidade para mover a placa de linha para o estado offline for desativada, a placa de linha será transicionada automaticamente para o estado on-line.

  • Se uma placa de linha tiver sido desligada por causa de erros de malha e essa funcionalidade para mover a placa de linha para o estado offline for desativada ou configurada para alguma outra placa de linha, a placa de linha que foi desativada é transição automaticamente para o estado on-line.

  • Todas as placas de linha que foram trazidas offline, quando você configurou essa configuração, são trazidas de volta on-line quando você confirma qualquer configuração sob o nível de [edit chassis] hierarquia. Da mesma forma, uma reinicialização do daemon do chassi ou da operação de switchover gracioso do mecanismo de roteamento (GRES) também faz com que a placa de linha que é desativada por causa da malha degradada seja movida para o estado on-line.

Quando uma placa de linha está operando com menos do que o número necessário de planos de malha ativos. Se uma placa de linha estiver operando com menos de quatro planos, o tráfego de malha opera com uma largura de banda reduzida.

As condições a seguir podem resultar em uma redução da largura de banda operacional na malha:

  • As placas de controle de malha ficam offline como resultado de um desligamento de energia não intencional e abrupto.

  • Um erro de circuito integrado (ASIC) específico de aplicativo, que faz com que um plano de uma placa de controle seja automaticamente desativado offline.

  • Levando manualmente o plano de malha ou a placa de controle para o estado offline.

  • Remoção do conselho de controle

  • Falha de auto-ping em qualquer plano.

  • Falha no treinamento do HSL2 para plano ativo.

  • Se um plano de malha sobressalente tiver erros de CRC, e este plano sobressalente for feito on-line, o link com o erro do CRC será desativado. Esse mecanismo pode causar uma degradação na malha em uma direção e pode causar uma rota nula em outra direção.

  • Quando ocorre uma falha no treinamento de auto-ping ou HSL2, o plano de malha é desativado para uma placa de linha específica e está on-line para outras placas de linha. Essa condição também pode causar uma rota nula.

Se você precisar remover a placa de controle ou mover um plano de malha para o estado offline durante uma manutenção do sistema, você deve permitir que a funcionalidade gire as placas de linha com largura de banda degradada para o estado offline (usando a offline-on-fabric-bandwidth-reduction declaração no [edit chassis fpc slot-number] nível hierárquico).

As seguintes ações corretivas são realizadas quando ocorre uma rota nula ou uma largura de banda operacional reduzida na malha:

  • Independentemente de uma placa de controle sobressalente estar disponível ou não, o estado de auto-ping para cada placa de linha é monitorado em intervalos de 5 segundos no Mecanismo de Roteamento. O gerente de malha determina a presença de placas de controle sobressalentes

  • A malha do switch está hospedada nos dispositivos Switch Fabric Boards (SFBs) em MX10008, MX10004, MX2020, MX2010 e MX2000:

    • O roteador MX10008 tem oito slots para as placas de linha que podem suportar no máximo 768 portas Ethernet de 100 Gigabit (4x100), 192 portas Ethernet de 40 Gigabit, 192 portas Ethernet de 100 Gigabit ou 192 portas Ethernet de 400 Gigabit com slots de placa de linha 0-7 que combinam interfaces de PFE (Packet Forwarding Engine) e Ethernet em uma única montagem. MX10008 oferece suporte a seis placas de malha de switch (SFBs) Existem dois modelos de SFBs: o JNP10008-SF e o JNP10008-SF2. As SFBs instaladas devem ser do mesmo tipo de modelo em um chassi em execução.

      Para obter mais informações, veja Fabric-Plane-Management-on-MX10004 e MX10008-Devices

    • MX10004 possui um chassi modular compacto de 7 U, slots de placa de linha 0-3 placas de linha de silício (2,4 Tbps, 480 Gbps e taxa de transferência de 9,6 Tbps) , com redundância total do hardware. As placas de malha de switches (SFBs) criam a malha de switches para a MX10004. Cada SFB tem um conjunto de conectores para as placas de linha e a Placa de Roteamento e Controle (RCB) para a malha do switch. Três SFBs oferecem funcionalidade de comutação reduzida a um roteador MX10004. Seis SFBs oferecem taxa de transferência completa. Cada MX10004 SFB tem quatro conectores. Cada conector combina com um slot de placa de linha, eliminando a necessidade de um backplane.

      Para obter mais informações sobre o gerenciamento de planos de malha, consulte o gerenciamento de planos de malha em dispositivos MX10004.

    • O roteador MX10003 contém mecanismos de roteamento modulares e PFEs. O PFE único executa o encaminhamento de pacotes de entrada e saída. O roteador oferece dois slots dedicados para placas de linha. O roteador oferece suporte a uma placa primária e duas redundantes de roteamento e controle (RCBs).

    • Os dispositivos MX2020 e MX2010 oferecem suporte a 8 SFBs. O Mx2020 tem 20 slots dedicados para placas de linha. O roteador MX2010 tem 10 slots dedicados para placas de linha O subsistema host consiste em duas placas de controle com mecanismos de roteamento (CBREs) e oito placas de malha de switches (SFBs). Os pacotes de dados são transferidos pelo backplane entre os MPCs através dos ASICs de malha nos SFBs.

      As placas de malha de switch (SFBs) oferecem maior largura de banda de malha por slot. Até oito SFBs, SFB2s ou

      Os SFB3s podem ser instalados em um roteador MX2020 ou MX2010. Todas as placas de malha de switch no chassi devem ser do mesmo tipo. O modo misto não é suportado.

    • Roteadores MX960 com placas de linha I-chip ou I-chip e trio-chip que contêm três placas de controle.

    • Roteadores MX240 ou MX480 com placas de linha I-chip ou I-chip e trio-chip que contêm duas placas de controle.

    • Os roteadores MX960, MX480 ou MX240 que contêm apenas placas de linha baseadas em Trio não são considerados para conter uma placa de controle sobressalente.

    Se durante tal intervalo de 5 segundos, duas placas de linha indicam uma falha para o mesmo plano, uma mudança para a placa de controle sobressalente. Neste caso, a placa de controle que relatou erros está offline e a placa de controle sobressalente está ativada.

  • Se uma placa de controle sobressalente estiver disponível e se você configurar a funcionalidade para desativar placas de linha, o estado de auto-ping para cada placa de linha é monitorado em intervalos de 5 segundos no Mecanismo de Roteamento. As seguintes condições podem ocorrer:

    • Durante qualquer intervalo de 5 segundos, se apenas uma placa de linha indicar uma falha em um plano, o Gerente de malha aguarda o próximo intervalo. Durante o intervalo subsequente, se nenhuma outra placa de linha indicar uma falha para o mesmo plano, a transferência da placa de controle é realizada.

    • Durante qualquer intervalo de 5 segundos, se várias placas de linha mostrarem falhas em várias placas de controle, o gerente de malha aguarda o próximo intervalo. Durante o intervalo subsequente, se a mesma condição permanecer, todas as placas de linha com falha ficam offline, mesmo se a placa de controle sobressalente estiver presente.

    • Durante qualquer intervalo de 5 segundos, se alguma placa de linha mostrar uma falha em vários planos em várias placas de controle, o gerente de malha espera pelo próximo intervalo. Durante o intervalo subsequente, se a mesma condição persistir, a placa de linha fica offline mesmo se a placa de controle sobressalente estiver presente.

  • Se os planos sobressalentes não estiverem disponíveis, a placa de linha fica offline quando exibe uma falha em um único plano ou vários planos. A placa de linha só é offline se você configurar anteriormente a offline-on-fabric-bandwidth-reduction declaração no nível de [edit chassis fpc slot-number] hierarquia.

Entendendo o manuseio de falhas de malha no roteador T4000

O roteador T4000 consiste em uma placa de interface de switch (SIB) com largura de banda de malha o dobro da capacidade do roteador T1600. A funcionalidade de gerenciamento de falhas da malha é semelhante à dos roteadores T1600. Este tópico descreve a funcionalidade de manuseio de falhas de malha em roteadores T4000.

A funcionalidade de gerenciamento de falhas da malha envolve o monitoramento de todos os links de alta velocidade conectados à malha e os que estão dentro do núcleo da malha para falhas de enlace e erros de enlace.

Medidas são tomadas com base na falha e em sua localização. As ações incluem:

  • Reportando erros de link em arquivos de log do sistema e enviando essas informações para o Mecanismo de Roteamento.

  • Reportar falhas de link no Concentrador de Portas Flexíveis (FPC) ou no SIB e enviar essas informações ao Mecanismo de Roteamento.

  • Marcando um SIB no Check estado.

  • Levando um SIB para o Fault estado.

O SIB em roteadores T4000 forma o núcleo da malha com redundância de 4:1 — o SIB redundante fica ativo quando o SIB ativo se torna não funcional, é desativado ou é removido. A seguir, as indicações de alto nível de falhas na malha que são monitoradas pelo Junos OS:

  • Uma armadilha SNMP é gerada sempre que um SIB é relatado como Check ou Fault.

  • show chassis alarms— indica que um SIB está em estado ou Fault dentroCheck.

  • show chassis sibs— Indica que um SIB está em Check estado ou Fault em estado ou que um SIB está em Offline estado quando o SIB inicializa (isso ocorre quando o SIB não se alimenta totalmente).

  • show chassis fabric fpcs— Indica se alguma conexão de malha está errada no lado dos FPCs.

  • show chassis fabric sibs— Indica se alguma conexão de malha está errada do lado das SIBs.

  • O /var/log/messages arquivo de mensagens de log do sistema no Mecanismo de Roteamento tem mensagens de erro com o prefixo CHASSISD_FM_ERROR.

  • As SIBs exibem o FAIL LED.

Nota:

Os planos de malha no chassi determinam se o chassi é um roteador T640, um roteador T1600 ou um roteador T4000. Módulos de entrada de energia (PEMs), FPCs ou bandejas de ventilador não determinam a personalidade do chassi. Alarmes são levantados se os PEMs antigos ou bandejas de ventilador estiverem presentes em um chassi T4000. Você pode identificar um roteador com base em seus planos de malha:

  • Se todos os planos presentes forem SIBs baseados em F16, o chassi é um chassi T640.

  • Se todos os planos presentes forem SIBs baseados em SF, o chassi é um chassi T1600.

  • Se todos os planos presentes forem SIBs baseados em XF, o chassi é um chassi T4000.

Observe que a mistura de planos de malha não é uma configuração suportada, exceto durante a atualização. Você pode mudar a personalidade de um chassi sem uma reinicialização alterando todos os planos de malha e emitindo o set chassis fabric upgrade-mode comando CLI para verificar a personalidade. Se você não emitir o set chassis fabric upgrade-mode comando CLI, a personalidade não mudará até o próximo boot.

Nos roteadores T4000, você se depara com as seguintes falhas:

  • Falhas no nível da placa — essas falhas ocorrem durante a inicialização ou durante o tempo de execução. Falha de energia durante a inicialização da placa, erros de transmissão de links de alta velocidade e erro de E/S pesquisado durante o tempo de execução são alguns exemplos de falhas no nível da placa.

  • Falhas no nível do link — essas falhas ocorrem durante a inicialização ou durante o tempo de execução. Falha no treinamento de link no momento da inicialização (falha nas ligações do plano de dados entre um FPC e um SIB a serem treinados quando o FPC ou SIB é inicializado), erro detectado no canal entre o SIB e um Mecanismo de encaminhamento de pacotes, erros de verificação de redundância cíclica (CRC) detectados no tempo de execução e erros de destino do Mecanismo de encaminhamento de pacotes são tipos de falhas no nível do link.

  • Falhas baseadas em condições ambientais — essas falhas ocorrem durante o tempo de execução. A remoção repentina de um FPC ou um SIB pode resultar em um erro do operador. Quando um SIB fica muito quente ou quando as tensãos SIB estão além dos limites, os erros gerados são classificados em erros ambientais.

Você pode implementar uma das seguintes opções para lidar com as falhas:

  • Registre o erro e aumente o alarme.

  • Mude para o plano sobressalente, se disponível.

  • Continue com um número reduzido de partes de um avião.

  • Continue com um número reduzido de planos utilizáveis.

  • Use o tratamento de falhas baseado em votação.

  • Monitore erros de enlace de alta velocidade e reduza manualmente o link a um limite adequado.

Os erros de E/S pesquisados e os erros de link são monitorados a cada 500 milissegundos, e a temperatura de exaustão da placa e as tensãos da placa são monitoradas a cada 10 segundos.

Entendendo o manuseio de falhas de malha no roteador de transporte de pacotes PTX5000

A partir da versão 14.1 do Junos OS, o roteador de transporte de pacotes PTX5000 oferece suporte a nove placas de interface de switch (SIBs). Cada FPC2-PTX-P1A FPC oferece suporte a 1Tb por capacidade de slot, resultando assim em uma largura de banda de malha de 16 terabits por segundo (Tbps), full-duplex (8 Tbps de any-to-any, nonblocking, half-duplex).

A funcionalidade de gerenciamento de falhas da malha envolve o monitoramento de todos os links de alta velocidade conectados à malha e os que estão dentro do núcleo da malha para falhas de enlace e erros de enlace.

As falhas que ocorrem em uma PTX5000 podem ser amplamente categorizadas em:

  • Falhas de placa — falhas que surgem em um SIB ou em um Concentrador de Portas Flexíveis (FPC) durante a inicialização ou durante o tempo de execução, incluindo problemas que surgem quando um componente do roteador está acessando o SIB ou FPC ou problemas que surgem de falhas de midplane.

  • Falhas no link — falhas que ocorrem em links de alto nível em um roteador durante a inicialização ou durante o tempo de execução.

  • Falhas causadas por condições ambientais — falhas que ocorrem devido à sobrecarga ou excesso de temperatura; falhas que ocorrem por causa de um operador manipulando mal um SIB ou um FPC, e assim por diante.

O roteador toma medidas com base na categoria de falha e no local da falha. As ações incluem:

  • Reportando erros de link em arquivos de log do sistema e enviando essas informações para o Mecanismo de Roteamento.

  • Exibindo os erros de link quando você executa um dos comandos operacionais listados na Tabela 1:

    Tabela 1: Lista de comandos de modo operacional

    Comando de modo operacional

    Descrição

    show chassis sibs

    Exibe informações de status das placas de interface de switch (SIBs).

    show chassis fabric fpcs <slot number>

    Exibe o estado da malha do slot FPC especificado. Se nenhum número de slot for fornecido, ele exibe o status de todos os FPCs.

    show chassis fabric sibs <slot number>

    Exibe o estado da ligação da malha do switch elétrico entre os SIBs e os FPCs.

    show chassis fabric reachability <detail>

    Exibe o estado atual da acessibilidade do destino da malha.

    show chassis fabric unreachable-destinations

    Apresenta a lista de destinos que passaram de um estado acessível para um estado inalcançável.

    show pfe statistics error

    Exibe estatísticas de erro do mecanismo de encaminhamento de pacotes.

    show chassis fabric topology <sib_slot>

    Exibe a topologia do link de saída de entrada.

    show chassis fabric summary

    Exibe o estado de todos os planos de malha e o tempo de atividade decorrido.

  • Reportar falhas de link no nível do FPC ou no nível SIB e enviar essas informações ao Mecanismo de Roteamento.

  • Relatando informações de erro de enlace no show chassis alarms comando operacional.

  • Movendo um SIB para o estado de falha .

As seções a seguir explicam a funcionalidade de manuseio de falhas de malha no PTX5000:

Falhas no nível de SIB

As seções a seguir dão uma breve visão geral sobre os tipos de falhas que ocorrem em um SIB e como lidar com elas:

Tipos de falhas que ocorrem em um SIB

Falhas de placa e de link ocorrem em um SIB durante a inicialização e durante o tempo de execução. Algumas falhas ocorrem devido a condições ambientais, como excesso devoluções ou excesso de temperatura, ou quando um operador trata mal o SIB.

Nota:

Execute os comandos de modo operacional listados na Tabela 1 para detectar falhas.

Durante a inicialização e o tempo de execução do SIB, as seguintes falhas podem ocorrer:

  • Falhas de placa, como falha de SIBs na alimentação, falha de reset de ASICs, placa de mezanino do processador de switches (SPMB) com falha de acesso de E/S nos ASICs, falhas nos componentes da placa, como falhas no PIC ou falhas de acesso de componentes do roteador.

  • Falhas de link, como erros de enlace de alto nível que ocorrem durante o treinamento do link.

  • Falhas que ocorrem por causa das condições ambientais ou por causa do mau manuseio do SIB pelo operador.

Lidar com falhas no nível de SIB

A lista a seguir ilustra como o roteador lida com uma falha que ocorre em um SIB durante a inicialização, durante o tempo de execução, devido às condições ambientais e devido ao mau manuseio do SIB pelo operador:

  • Para lidar com uma falha de placa em um SIB durante a inicialização, o daemon de chassi (chassi) marca o SIB em estado de falha . Após o SIB ser marcado como defeituoso, nenhuma operação ocorre neste SIB.

  • Para lidar com uma falha de placa em um SIB durante o tempo de execução, o chassi registra um erro no arquivo de log do sistema, aumenta um tipo de erro de indicação de alarme e marca o SIB como defeituoso. Após o SIB ser marcado como defeituoso, nenhuma operação ocorre neste SIB.

  • Para lidar com uma falha de link em um SIB durante o tempo de execução, quando um erro de link surge durante o treinamento de link, o chassisd informa o FPC correspondente ao link no qual ocorreu o erro para desabilitar os links para o SIB afetado. O chassi então envia uma mensagem de erro para todos os outros FPCs no roteador para parar de usar o link SIB com falha e um alarme de erro de link é gerado. Observe que quando mais de um relatório do FPC apresenta erros para um determinado SIB, o SIB é desativado para todos os FPCs e nenhum tráfego é enviado pelo Mecanismo de encaminhamento de pacotes pelo SIB afetado.

  • Para lidar com uma falha de link em um SIB durante o tempo de execução, o chassi marca o SIB como defeituoso e especifica um motivo para o erro, e o SIB é desativado.

  • Em caso de falha ambiental — excesso devoluções ou excesso de temperatura — o SIB é imediatamente retirado offline. Observe que um erro é registrado periodicamente à medida que a temperatura ou tensão aumenta, e o SIB é retirado offline quando cruza uma determinada tensão ou temperatura de limiar.

  • Quando um SIB é removido ou desalojado, todos os mecanismos de encaminhamento de pacotes afetados param de usar esse plano para alcançar outros mecanismos de encaminhamento de pacotes no roteador.

Falhas no nível do FPC

As seções a seguir oferecem uma breve visão geral dos tipos de falhas que ocorrem em um FPC e como lidar com elas:

Tipos de falhas que ocorrem em um FPC

Falhas na placa e falhas de enlace ocorrem em um FPC durante a inicialização e durante o tempo de execução. Algumas falhas também ocorrem devido a condições ambientais, como excesso devoluções, excesso de temperatura ou quando o operador manipula mal o FPC.

Nota:

Execute os comandos operacionais listados na Tabela 1 para detectar falhas.

Durante a inicialização e o tempo de execução do FPC, as seguintes falhas podem ocorrer:

  • Falhas de placa, como falha de FPCs na alimentação, falha de ASICs para sair da fase de reset, falha de acesso de E/S com pesquisa da PMB aos ASICs, falhas nos componentes da placa, como falha no PIC ou falhas de acesso de componentes do roteador.

  • Falhas de link, como erros de enlace de alto nível que ocorrem durante o treinamento do link.

  • Falhas que ocorrem por causa de condições ambientais ou por mau manuseio de um FPC pela operadora.

Lidar com falhas no nível do FPC

A lista a seguir ilustra como o roteador lida com uma falha que ocorre em um FPC durante a inicialização, durante o tempo de execução, devido às condições ambientais e devido ao mau manuseio do FPC pelo operador:

  • Para lidar com uma falha de placa em um FPC durante a inicialização, o chassi marca o FPC em estado de falha . Após o SIB ser marcado como defeituoso, nenhuma operação ocorre neste FPC.

  • Para lidar com uma falha de placa em um FPC durante o tempo de execução, o chassi registra um erro no arquivo de log do sistema, aumenta um tipo de erro de indicação de alarme e marca o FPC como defeituoso. Após o FPC ser marcado como defeituoso, nenhuma operação ocorre neste FPC.

  • Para lidar com erros de enlace embarcados em um FPC durante a inicialização ou durante o tempo de execução, o FPC é desativado e todos os mecanismos de encaminhamento de pacotes afetados param de usar esse plano para alcançar outros Mecanismos de encaminhamento de pacotes no roteador.

    Nota:

    Nenhum plano é retirado durante a inicialização porque o processo de treinamento de enlaces para a malha ainda não está completo.

    Erros de link integrados durante o tempo de execução são resolvidos com base na configuração atual; ou o FPC é reiniciado ou o erro está logado e o FPC continua com a inicialização.

  • Em caso de falha ambiental — sobretensão ou excesso de temperatura — o FPC é imediatamente retirado offline. Observe que um erro é registrado periodicamente à medida que a temperatura ou tensão aumenta, e o FPC é retirado offline quando cruza uma determinada tensão ou temperatura de limiar.

  • Quando um FPC é removido ou desalojado, todos os outros Mecanismos de encaminhamento de pacotes param de enviar tráfego para os Mecanismos de encaminhamento de pacotes neste FPC.

Entendendo o manuseio de falhas da malha na placa de malha de switches aprimorada (SFB2)

A linha de roteadores MX2000 oferece suporte a placas de malha de switches (SFBs) e SFBs aprimorados (SFB2s), mas não ambos ao mesmo tempo. A SFB e a SFB2 hospedam três planos de malha cada. Assim, o chassi suporta um total de 24 planos. Junos OS Release 15.1F6 e 16.1R1 suportam o manuseio de falhas de malha para cada plano tanto na SFB quanto na SFB2. Em versões anteriores, o manuseio de falhas de malha é suportado para cada SFB, não para cada plano.

A Tabela 2 lista as diferenças entre o manuseio de falhas de malha por plano e por SFB.

Tabela 2: Manuseio de falhas da malha SFB2 versus SFB2

Nível de SFB (SFB)

Nível de plano (SFB e SFB2)

Os erros de verificação de redundância cíclica (CRC) em qualquer link da SFB são indicados na SFB.

Erros de CRC em qualquer link no SFB ou SFB2 são indicados no plano.

Ao encontrar erros de destino, a placa de linha isola a SFB (todos os 3 planos).

Ao encontrar erros de destino, a placa de linha isola o plano correspondente. Outros aviões continuam operando.

O manuseio de falhas de malha por plano oferece os seguintes benefícios:

  • Maior granularidade, o que ajuda a identificar, isolar e reparar falhas.

  • Alarmes e mensagens de registro fornecem informações de falhas por plano em vez de por SFB, o que facilita a depuração.

  • Se um SFB tiver um único plano defeituoso, os outros dois aviões podem continuar a operar. Não há necessidade de deixar todo o SFB offline.

  • Em caso de erros transitórios, ao mesmo tempo em que se repara, você pode isolar um único plano em vez de isolar o SFB saltitante.

Para ver as informações de manuseio de falhas de malha para todos os 24 planos, use a opção extended com os comandos de malha existentes.

Gerenciamento da degradação da largura de banda

Certos erros resultam na queda de pacotes por um sistema sem notificação. Outros sistemas conectados continuam a encaminhar tráfego para o sistema afetado, afetando o desempenho da rede. Um plano de malha severamente degradado pode ser uma das razões aqui.

Por padrão, os roteadores da Juniper Networks tentam começar a se curar de tais situações quando o sistema detecta problemas com mecanismos de encaminhamento de pacotes. Se a cura falhar, o sistema desativa as interfaces, evitando assim novas escalações.

No Junos OS, você pode usar a declaração bandwidth-degradation de configuração na [edit chassis fpc slot-numberfabric] hierarquia para detectar e responder à degradação do plano de malha de maneiras que você considera adequadas. Você pode configurar o roteador para especificar quais ações de cura o roteador deve tomar assim que essa condição for detectada. Você também pode usar a declaração blackhole-action opcional para determinar como a placa de linha responde a um cenário de degradação de malha de 100%. Esse comando é opcional e substitui os procedimentos padrão de endurecimento da malha.

Nota:

O bandwidth-degradation comando e as offline-on-fabric-bandwidth-reduction declarações são mutuamente exclusivos. Se ambos os comandos estiverem configurados, um erro é emitido durante a verificação de confirmação.

A bandwidth-degradation declaração está configurada com uma porcentagem e uma ação. O percent-age valor pode variar de 1 a 99, e representa a porcentagem de degradação da malha necessária para acionar uma resposta da placa de linha. O action atributo determina o tipo de resposta que a placa de linha realiza quando a degradação da malha atinge a porcentagem configurada.

A declaração só é configurada com um action atributo, que desencadeia quando a porcentagem de degradação da malha chega a 100%.

As ações a seguir podem ser aplicadas a qualquer declaração de configuração:

  • log-only: Uma mensagem é registrada no chassi e arquivos de mensagem quando o limiar de degradação da malha é atingido. Nenhuma outra ação foi tomada.

  • restart: A placa de linha com um plano de malha degradado é reiniciada assim que o limiar é atingido.

  • offline: A placa de linha com um plano de malha degradado é retirada offline assim que o limiar é atingido. A placa de linha requer intervenção manual para ser novamente on-line. Esta é a ação padrão se nenhum atributo de ação estiver configurado.

  • restart-then-offline: A placa de linha com um plano de malha degradado é reiniciada assim que o limiar é atingido, e se a degradação do plano de malha for detectada novamente em 10 minutos, a placa de linha é retirada offline. A placa de linha requer intervenção manual para ser novamente on-line.

Nota:

Esse recurso está disponível no Junos OS Release 15.1R1.

Endurecimento e recuperação de malha em dispositivos PTX10K

Nota: Os recursos de endurecimento e recuperação da malha são suportados nos seguintes dispositivos:
  • roteadores PTX10001-36MR, PTX10004, PTX10008 e PTX100016 com placa de linha PTX10K-LC1202-36MR

  • PTX10008 roteador com placa de linha PTX10K-LC1301-36DD

O endurecimento da malha é um recurso de resiliência para detectar o blackholing da malha e tentar o processo de recuperação automática para restaurar os mecanismos de encaminhamento de pacotes em condições de buraco negro.

Habilitamos o endurecimento da malha por padrão. Quando o sistema detecta qualquer destino inalcançável do mecanismo de encaminhamento de pacotes, esse recurso tenta a restauração automática da conectividade da malha.

Se a restauração falhar, o sistema desativa as interfaces para limitar o blackholing e disparar alarme para indicar os destinos inalcançáveis do Mecanismo de encaminhamento de pacotes. No entanto, em vez de desativar as interfaces, o usuário pode configurar o Mecanismo de encaminhamento de pacotes offline usando set chassis fabric event reachability-fault actions recovery-failure pfe-offline declaração no nível de [set chassis fabric event] hierarquia.

Os destinos do mecanismo de encaminhamento de pacotes podem se tornar inalcançáveis pelos seguintes motivos:

  • Perda completa de conectividade completa ocorre em todos os planos de malha.

  • Mecanismos completos de encaminhamento de pacotes podem chegar à malha, mas não entre si.

Você pode configurar um roteador para desencadear a recuperação da malha quando o roteador detecta degradação na largura de banda da malha usando degraded declaração no nível hierárquico [edit chassis fabric event reachability-fault] . A declaração de degradação é configurada com um valor percentual que pode variar de 1 a 99. O valor da porcentagem representa o limite de erro para a degradação da largura de banda da malha e o roteador inicia a recuperação assim que o limiar é atingido.

Quando o limiar de erro degradado é configurado, o roteador também pode tentar a recuperação da malha pelos seguintes motivos:

  • Condição de malha degradada por auto-degrdação em um destino de mecanismo de encaminhamento de pacotes.

  • Degradação de peer- Condição de malha degradada entre dois mecanismos de encaminhamento de pacotes.

O processo de recuperação da malha envolve uma ou mais das seguintes fases:

  • Fase de reinicialização do SIB: se os destinos do mecanismo de encaminhamento de pacotes em várias placas de linha tiverem falhas de conectividade de malha em planos, então o roteador tenta resolver o problema reiniciando as SIBs. Se várias SIBs exigirem uma reinicialização, o roteador reinicia as SIBs uma a uma.

  • Fase de reinicialização do FPC: o roteador tenta a recuperação automática reiniciando os FPCs para os seguintes cenários:

    • Todos os destinos do mecanismo de encaminhamento de pacotes com condições completas ou parciais de buracos negros estão em um único FPC.

    • Se os destinos do mecanismo de encaminhamento de pacotes com condições completas ou parciais de buracos negros ocorrerem em diferentes FPCs, mas nenhum dos Mecanismos de encaminhamento de pacotes compartilhará um plano comum de falha.

    • A tentativa de reinicialização da SIB falhou em recuperar os mecanismos de encaminhamento de pacotes.

    Você pode desabilitar a reinicialização de FPCs para limitar as ações de recuperação de uma condição de malha degradada. Para desativar o reinício dos FPCs, use a set chassis fabric event reachability-fault actions fpc-restart-disable declaração no nível hierárquico [set chassis fabric event] .

  • Fase offline do mecanismo de encaminhamento de pacotes: Como as tentativas anteriores de fases de recuperação falharam ou a ação de recuperação foi desativada na configuração, o roteador desativa as interfaces para limitar o blackholing por padrão. No entanto, em vez de desativar as interfaces, o usuário pode configurar o Mecanismo de encaminhamento de pacotes offline usando set chassis fabric event reachability-fault actions recovery-failure pfe-offline declaração no nível de [set chassis fabric event] hierarquia.

Se o roteador tiver apenas mecanismos de encaminhamento de pacotes com condições de degradação por peer blackhole ou peer, então o roteador tenta a recuperação por meio do autoheal do link reiniciando as ligações de malha nos planos.

Benefícios

  • Tenta o processo de recuperação automática para recuperar os Mecanismos de encaminhamento de pacotes de condições degradadas da malha para minimizar a perda de tráfego.

  • Aumente os alarmes que fornecem informações de falha para indicar os destinos inalcançáveis do mecanismo de encaminhamento de pacotes, se a recuperação falhar.

Desativação da reinicialização da placa de linha para limitar as ações de recuperação de condições degradadas da malha

Você pode desabilitar a reinicialização da placa de linha para limitar as ações de recuperação de uma condição de malha degradada. Nos roteadores T640 e T1600, apenas o plano de malha é reiniciado. Nos roteadores da Série PTX, apenas as placas de interface de switch (SIBs) são reiniciadas. Para desativar o reinício das placas de linha, use a action-fpc-restart-disable declaração no nível de [edit chassis fabric degraded] hierarquia:

Sempre que uma reinicialização da placa de linha é desativada, um alarme é levantado quando há destinos inalcançáveis presentes no roteador, e você deve reiniciar as placas de linha manualmente.

Para garantir que os planos de malha (roteadores T640 e T1600) ou os SIBs (roteadores da Série PTX) e as placas de linha sejam reiniciados durante o processo de recuperação, não configure a action-fpc-restart-disable declaração no [edit chassis fabric degraded] nível hierárquico.

Desativação de um FPC com largura de banda de malha degradada

Você pode trazer um FPC com largura de banda de malha degradada offline para evitar causar uma rota nula no chassi por um tempo prolongado. Para configurar a opção de desativar um FPC com largura de banda degradada, use a offline-on-fabric-bandwidth-reduction declaração no nível de [edit chassis fpc slot-number] hierarquia:

O gerente de malha verifica periodicamente o número de planos ativos atuais. Se o número de planos ativos for menor do que o número necessário de planos ativos para um determinado roteador, o sistema espera 10 segundos antes de tomar qualquer ação corretiva. Se a condição de largura de banda reduzida persistir para um FPC e se esse recurso tiver sido configurado para o FPC, o sistema deixa o FPC offline.

Manuseio de erros por OAM de malha

A operação de malha, administração, manutenção (OAM) ajuda na detecção de falhas em caminhos de malha. O OAM de malha valida a conectividade da malha antes de enviar tráfego em um plano de malha sempre que um novo caminho de malha é criado para um PFE. Se uma falha for detectada, o software relata a falha e evita usar esse plano de malha para esse PFE. Esse recurso funciona enviando um tráfego OAM auto-destinado a pacotes por segundo (PPS) em cada um dos planos de malha disponíveis e detectando qualquer perda de tráfego nos pontos finais (verificação de auto-ping da malha).

Nota:
  • No Junos OS Evolved Release 20.4R1, o recurso OAM de malha é habilitado por padrão. Você pode desabilitar o recurso usando o comando set chassis fabric oam detection-disableCLI.
  • Nas versões Junos OS Evolved 20.4R2 e 21.1R1, o recurso OAM de malha é desativado por padrão.
  • No Junos OS Evolved Release 22.1R1, o recurso OAM de malha de tempo de execução é habilitado por padrão. Você pode desabilitar o recurso usando o comando edit chassis fabric oam runtime-disableCLI. O recurso OAM de malha de tempo de execução é suportado em roteadores de PTX10004, PTX10008 e PTX10016.

As verificações de OAM de malha são feitas na hora do inicialização. Os caminhos com falha são desativados. O sistema não faz nenhuma ação de recuperação. No entanto, você pode tentar recuperar os planos de malha afetados reiniciando as SIBs. As etapas de recuperação dependem da natureza da falha.

Um plano de malha representa um caminho bidirecional independente entre um PFE e o ASIC de malha. O OAM de malha em tempo de execução verifica periodicamente a conectividade da malha e ajuda a detectar e relatar falhas em planos de malha durante o tempo de execução do sistema. O OAM de malha em tempo de execução detecta a acessibilidade da malha de cada PFE.

Quando os mesmos planos de malha falharem em um único ou múltiplos FPCs, reinicie o SIB contendo os planos com falha, usando os seguintes comandos:

user@host> request chassis sib slot slot-number offline

user@host> request chassis sib slot slot-number online

Quando planos de malha aleatórios falham em vários FPCs, a falha não pode ser isolada em um FPC ou SIB específicos. No entanto, você pode tentar recuperar os planos reiniciando as SIBs que contêm os planos afetados de forma sequencial.

Para cada erro detectado pelo recurso OAM de malha, um syslog é gerado. O exemplo a seguir é:

A mensagem de syslog a seguir indica que um erro relacionado ao OAM de malha foi liberado.

Além disso, você pode usar os comandos show system errors active detail CLI e show system alarms visualizar os erros relacionados à OAM de malha.

A saída a seguir mostra detalhes sobre a falha no plano de malha única (no Mecanismo de encaminhamento de pacotes 0) e todas as falhas nos planos de malha (no Mecanismo de encaminhamento de pacotes 1).

Você pode usar o comando show chassis fabric fpcs CLI para visualizar o estado de auto-ping OAM de malha de cada plano de malha.

O show chassis fabric fpcs comando exibe a seguinte saída quando o recurso OAM da malha é desativado:

Tabela de histórico de mudanças

O suporte de recursos é determinado pela plataforma e versão que você está usando. Use o Feature Explorer para determinar se um recurso é suportado em sua plataforma.

Soltar
Descrição
14.2R6
Começando no Junos OS Release 14.2R6, se um SIB ficar offline devido a condições extremas, como alta tensão ou alta temperatura, então como parte do processo de recuperação, o roteador não reinicia o plano de malha para esse SIB.
14.2R6
A partir do Junos OS Release 14.2R6, você pode gerenciar melhor a degradação da malha em sistemas de chassi único incorporando mecanismos de liveness do Mecanismo de encaminhamento de pacotes e auto-ping da malha.
14.1
A partir da versão 14.1 do Junos OS, o roteador de transporte de pacotes PTX5000 oferece suporte a nove placas de interface de switch (SIBs).
13.3
A partir da versão 13.3 do Junos OS, você pode usar roteadores da Série PTX para configurar os níveis de erro relacionados ao Mecanismo de encaminhamento de pacotes (PFE) e as ações a serem executadas quando um limite especificado for atingido.