Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

Resistencia de la estructura

Resistencia y degradación de la estructura

Los enrutadores y conmutadores de Juniper tienen resiliencia incorporada para abordar las fallas y las condiciones de error que se encuentran durante el funcionamiento normal. El software JUNOS toma medidas inmediatas para remediar las condiciones de falla y minimizar la pérdida de tráfico. No se necesita intervención manual. La degradación de la estructura podría ser una de las razones que conducen a tales condiciones de error. En las secciones siguientes se explica cómo los PFE se recuperan de manera resistente de estos errores.

Errores y recuperación del motor de reenvío de paquetes en enrutadores de la serie PTX

Los destinos del motor de reenvío de paquetes pueden volverse inaccesibles en los enrutadores de la serie PTX por los siguientes motivos:

  • Las placas de interfaz de conmutador (SIB) de estructura están sin conexión como resultado de un comando de CLI.

  • La tarjeta de control desconecta los SIB de estructura debido a las altas condiciones de temperatura.

  • La tarjeta de control detecta errores de voltaje o E/S sondeados en los SIB.

  • Se producen errores inesperados de entrenamiento de vínculos en todos los planos conectados.

  • Dos motores de reenvío de paquetes pueden llegar a la estructura, pero no entre sí.

  • Los errores de vínculo se producen cuando dos motores de reenvío de paquetes tienen conectividad con la estructura, pero no a través de un plano común.

A partir de Junos OS versión 13.3, puede utilizar enrutadores serie PTX para configurar los niveles de error relacionados con el motor de reenvío de paquetes (PFE) y las acciones que se deben realizar cuando se alcanza un umbral especificado.

Si no se definen niveles de error, un enrutador de la serie PTX inicia las siguientes fases en el proceso de recuperación:

  1. Fase de reinicio de SIB: el enrutador intenta resolver el problema reiniciando los SIB uno por uno. Esta fase no comienza si los SIB funcionan correctamente y una tarjeta de una sola línea se enfrenta a un problema.

  2. Fase de reinicio de la tarjeta de línea y SIB: el enrutador reinicia tanto los SIB como la tarjeta de línea. Si hay tarjetas de línea que no pueden iniciar vínculos de alta velocidad con la estructura después del reinicio, no es relevante para la pérdida de tráfico en vivo, ya que no se crean interfaces para estas tarjetas de línea, lo que evita que el sistema tenga problemas.

  3. Fase sin conexión de la tarjeta de línea: debido a que los intentos anteriores de recuperación fallaron, las tarjetas de línea y las interfaces se desactivan y el sistema evita problemas y condiciones de error.

Resistencia de la estructura y recuperación automática de la estructura degradada

A partir de la versión 23.4R1 de Junos Evolved, la función de recuperación automática de estructura está disponible para limitar la pérdida de datos. Las acciones de recuperación tomadas incluyen el reinicio de FRU, el reinicio del vínculo, etc.

Las siguientes acciones de recuperación de estructura en tres fases se intentan a nivel de FRU:

1. Recuperación del nivel de FRU mediante el reinicio de SIB.

2. Recuperación del nivel de FRU mediante el reinicio de FPC o el reinicio de PFE.

3. Acción para PFE irrecuperables IFD deshabilitar o PFE fuera de línea.

Nota: Para las plataformas que no tienen compatibilidad con el reinicio de PFE, el reinicio de FPC se proporciona como la acción predeterminada.

Acción de recuperación de estructura para condiciones de falla de SIB: En el caso de errores de accesibilidad debidos a la ausencia de un SIB (el usuario se desconecta o SIB no está presente durante el encendido del sistema), la resistencia de la estructura no intenta recuperarse. En los sistemas que no admiten la recuperación de estructuras, se generan alarmas de chasis para detectar errores de accesibilidad.

Acción de recuperación de nivel PFE en enrutadores de la serie PTX (enrutadores PTX10004, PTX10008 y PTX10016)

Para las plataformas que pueden admitir el reinicio de PFE, el reinicio de PFE se agregará como la acción de recuperación de fase 2 predeterminada.

Nota: En los ASIC con varios PFE, el reinicio afecta a los PPFE (PFE por plano), similar a la acción sin conexión del PFE.
La decisión de recuperación para la acción de fase 2 se toma para cualquiera de los siguientes escenarios:
  • Todos los PFE con fallas de accesibilidad residen en una sola FPC.
  • Los PFE con errores de accesibilidad (en uno o más FPC) y no tienen errores comunes.

La recuperación de fase 2 se intenta en PPFE que no se han recuperado de fallas de accesibilidad después de la recuperación de fase 1.

Si el número de PFE con errores de autoaccesibilidad en un FPC es igual o superior al 50% de los PFE, se reiniciará el FPC.

Use la siguiente opción de CLI para configurar manualmente la acción predeterminada de reinicio de PFE:

En la tabla siguiente se muestran las acciones de la recuperación de fase 2, según la configuración y el número de PFE con errores en un FPC.

Decisión de recuperación Número de PFE implicados en FPC Reinicio de PFE admitido Desactivar reinicio de PFE Deshabilitar reinicio de FPC Acción
Acción de fase 2 <= 50% No X Reinicio de PFE
Acción de fase 2 <= 50% No Reinicio de FPC
Acción de fase 2 <= 50% Reinicio de PFE
Acción de fase 2 >50% X No Reinicio de FPC
Acción de fase 2 >50% Reinicio de PFE
Acción de fase 2 >50% No Reinicio de PFE

Errores y recuperación del motor de reenvío de paquetes en enrutadores T640, T1600 o TX Matrix

Los destinos del motor de reenvío de paquetes pueden volverse inaccesibles en los enrutadores T640, T1600 o TX Matrix por las siguientes razones:

  • Las placas de interfaz de conmutador (SIB) de estructura están fuera de línea como resultado de un comando de CLI o de un botón físico presionado.

  • La placa intermedia del procesador del conmutador (SPMB) desconecta los SIB de estructura debido a las condiciones de alta temperatura.

  • El SPMB detecta errores de voltaje o E/S sondeados en los SIB.

  • Todos los motores de reenvío de paquetes reciben errores de destino en todos los planos desde motores de reenvío de paquetes remotos, incluso cuando los SIB están en línea.

  • La pérdida completa de la estructura se debe a los tiempos de espera de destino, incluso cuando las SIB están en línea.

El proceso de recuperación consta de las siguientes fases:

  1. El enrutador reinicia los planos de estructura uno por uno. Esta fase no se inicia si el plano de estructura funciona correctamente y una tarjeta de una sola línea tiene problemas.

  2. Plano de estructura y fase de reinicio de la tarjeta de línea: el enrutador reinicia tanto las SIB como las tarjetas de línea. Si hay tarjetas de línea que no pueden iniciar vínculos de alta velocidad con la estructura después del reinicio, no es relevante para la pérdida de tráfico en vivo, ya que no se crean interfaces para estas tarjetas de línea, lo que evita que el sistema tenga problemas.

  3. Fase fuera de línea de la tarjeta de línea: debido a que los intentos anteriores de recuperación fallaron, las tarjetas de línea y las interfaces se desactivan y el sistema evita problemas y condiciones de error que conducen a graves consecuencias.

Nota:

A partir de Junos OS versión 14.2R6, si un SIB se desconecta debido a condiciones extremas como alto voltaje o alta temperatura, entonces, como parte del proceso de recuperación, el enrutador no reinicia el plano de estructura para ese SIB.

El mecanismo de recuperación gradual mencionado anteriormente es exhaustivo, a menos que haya otros errores que puedan correlacionarse con estas cuestiones.

A partir de Junos OS versión 14.2R6, puede gestionar mejor la degradación de la estructura en sistemas de chasis único mediante la incorporación de mecanismos de autoping de estructura y de motor de reenvío de paquetes. El autoping de la estructura es un mecanismo para detectar problemas en la ruta de datos de la estructura. Utilizando el mecanismo de autoping de la estructura, cada motor de reenvío de paquetes determina que un paquete destinado a sí mismo está llegando a él cuando el paquete se envía a través de la ruta de la estructura. La vida del motor de reenvío de paquetes es un mecanismo para detectar si se puede acceder a un motor de reenvío de paquetes en el plano de la estructura. Para comprobar que es accesible, el motor de reenvío de paquetes envía periódicamente un paquete autodestinado por el plano de estructura. Si estos dos mecanismos detectan algún error, el administrador de estructura genera una alarma de estructura degradada e inicia la recuperación reiniciando la tarjeta de línea.

Resistencia de la estructura de los enrutadores de la serie MX

Los enrutadores MX proporcionan mecanismos inteligentes para reducir la pérdida de paquetes en escenarios de fallas de hardware. Los enrutadores de la serie MX garantizan la disponibilidad de la red y del servicio con un amplio conjunto de aspectos de resistencia físicos, lógicos y de protocolo de múltiples capas

MX10008 proporciona redundancia y resistencia. Todos los componentes principales del hardware, incluidos el sistema de alimentación, el sistema de refrigeración y la tarjeta de control, son totalmente redundantes.

El sistema de alimentación MX10004 y la tarjeta de control de enrutamiento (RCB) proporcionan redundancia y resistencia.

Los chasis MX2020 y MX2010 proporcionan redundancia y resistencia. Todos los componentes principales del hardware, incluidos el sistema de alimentación, el sistema de refrigeración, la tarjeta de control y las estructuras de los interruptores, son totalmente redundantes.

Las placas de estructura de conmutador (SFB) son el plano de datos para los subsistemas en el chasis del enrutador MX. Los SFB crean una estructura de conmutador centralizada "totalmente activa" altamente escalable y resistente que ofrece hasta 4 Tbps de capacidad de conmutación dúplex completo a cada ranura MPC en un enrutador MX2000.

Los chasis MX240, MX480 y MX960 proporcionan redundancia y resistencia. El sistema de hardware es totalmente redundante, fuentes de alimentación, bandejas de ventilador, motores de enrutamiento y tableros de control de interruptores.

El enrutador MX304 contiene motores de enrutamiento redundantes y conectables y admite hasta tres MIC de tarjeta de línea (LMIC).

Este tema contiene las siguientes secciones en las que se describen las opciones de resistencia de la estructura, los métodos de detección de errores utilizados y las acciones correctivas:

Restauración de la conectividad de la estructura

Los destinos del motor de reenvío de paquetes pueden volverse inaccesibles por los siguientes motivos:

  • Las placas de control se desconectan como resultado de un comando de CLI o de presionar un botón físico.

  • Las placas de control de la estructura se desconectan debido a las altas temperaturas.

  • Errores de voltaje o E/S sondeadas en la estructura.

  • Todos los motores de reenvío de paquetes reciben errores de destino en todos los planos desde motores de reenvío de paquetes remotos, incluso cuando las estructuras están en línea.

  • Pérdida completa del tejido causada por tiempos de espera de destino, incluso cuando los tejidos están en línea.

Cuando el sistema detecta algún destino inalcanzable del motor de reenvío de paquetes, se intenta restaurar la conectividad de la estructura. Si se produce un error en la restauración, el sistema apaga las interfaces para activar la acción de protección local o el reenrutamiento del tráfico en los enrutadores adyacentes.

El proceso de recuperación consta de las siguientes fases:

  1. Fase de reinicio del plano de estructura: la restauración se intenta reiniciando los planos de estructura uno por uno. Esta fase no se inicia si el plano de estructura funciona correctamente y una sola tarjeta de línea notifica un error. Se genera un mensaje de error para especificar que una pérdida de conectividad es la razón por la que el plano de estructura se desconecta. Esta fase se realiza únicamente con errores del plano de estructura.

  2. Plano de estructura y fase de reinicio de la tarjeta de línea: el sistema espera a que se complete la primera fase antes de volver a examinar el estado del sistema. Si la conectividad no se restaura después de realizar la primera fase o si el problema vuelve a producirse en un plazo de 10 minutos, se intenta restaurar la conectividad reiniciando tanto los planos de estructura como las tarjetas de línea. Si configura la action-fpc-restart-disable instrucción en el [edit chassis fabric degraded] nivel de jerarquía para deshabilitar el reinicio de las tarjetas de línea cuando se intenta una recuperación, se activa una alarma para indicar que se ha producido una pérdida de conectividad. En esta segunda fase, se toman tres pasos:

    1. Todas las tarjetas de línea que tienen errores de destino en un PFE se desconectan.

    2. Los planos de tela se desconectan y se vuelven a poner en línea, uno por uno, comenzando con el avión de repuesto.

    3. Las tarjetas de línea que se desconectaron se vuelven a conectar.

  3. Fase sin conexión de tarjeta de línea: el sistema espera a que se complete la segunda fase antes de volver a examinar el estado del sistema. La pérdida de conectividad se limita al desconectar las tarjetas de línea y al desactivar las interfaces, ya que los intentos anteriores de recuperación han fallado. Si el problema no se resuelve reiniciando las tarjetas de línea o si el problema se repite dentro de los 10 minutos posteriores al reinicio de las tarjetas de línea, se realiza esta fase.

Las tres fases son controladas por temporizadores. Durante estas fases, si se agota el tiempo de espera de un evento (como tarjetas de línea o planos de estructura fuera de línea), la fase omite ese evento y pasa al siguiente evento. El control del temporizador tiene un valor de tiempo de espera de 10 minutos. Si se produce el primer error de estructura en un sistema con dos o más tarjetas de línea, se reinician los planos de estructura. Si se produce otro error de estructura en los próximos 10 minutos, se reiniciarán los planos de estructura y las tarjetas de línea. Sin embargo, si el segundo error de estructura se produce fuera del período de tiempo de espera de 10 minutos, se realiza la primera fase, que es el reinicio de solo los planos de estructura.

En los casos en que todos los tiempos de espera de destino se rastrean a una determinada tarjeta de línea, por ejemplo, una tarjeta de línea de origen o una tarjeta de línea de destino, solo esa tarjeta de línea se desconecta y está en línea. Los planos de estructura no se desconectan ni están en línea. Si se produce otro error de estructura en un plazo de 10 minutos, la tarjeta de línea se desconecta.

De forma predeterminada, el sistema limita el tiempo de pérdida de conectividad mediante la detección de estructuras gravemente degradadas. No es necesaria la interacción del usuario.

Tarjetas de línea con estructura degradada

Puede configurar una tarjeta de línea con estructura degradada para que se mueva al estado sin conexión. En un enrutador MX10008, MX10004, MX2020, MX2010, MX960, MX480, MX304 o MX240, puede configurar errores de vínculo o planos de estructura incorrectos. Esta configuración es particularmente útil en escenarios de pérdida parcial de conectividad en los que desconectar la tarjeta de línea da como resultado un reenrutamiento más rápido. Para configurar esta opción en una tarjeta de línea, utilice la offline-on-fabric-bandwidth-reduction instrucción en el nivel de [edit chassis fpc slot-number] jerarquía. Para obtener más información, consulte Administración del plano de estructura en enrutadores MX304, Administración del plano de estructura en MX10K-LC9600 y SFB2 (número de modelo: JNP10008-SF2), Administración del plano de estructura en dispositivos MX10004, Administración del plano de estructura en JNP10K-LC2101 y JNP10K-LC480, Administración del plano de la estructura en MX10004 y MX10008-dispositivos y Administración del plano de la estructura en la tarjeta de portadora modular AS MLC.

Pérdida de conectividad hacia un solo destino

En ciertas implementaciones, una tarjeta de línea indica una pérdida completa de conectividad hacia un solo destino, pero funciona correctamente para otros destinos. Estos casos se identifican y se recupera la tarjeta de línea afectada. Considere un escenario de ejemplo en el que los planos activos son 0,1,2,3 y los aviones de repuesto son 4,5,6,7 en la conexión entre la tarjeta de línea 0 y la tarjeta de línea 1. Si la tarjeta de línea 0 tiene fallas de vínculo único para los planos 0 y 1 y si la tarjeta de línea 1 tiene fallas de vínculo único para los planos 2 y 3, se produce una pérdida completa de conectividad entre las dos tarjetas de línea. Tanto la tarjeta de línea 0 como la tarjeta de línea 1 se someten a un modo de recuperación por fases y se lleva a cabo la curación de la estructura.

Modo de estructura de redundancia en placas de control activas

Puede configurar la tarjeta de control activa para que esté en modo de redundancia o en modo de ancho de banda de estructura aumentada. Para configurar el modo de redundancia para la tarjeta de control activa, utilice la redundancy-mode redundant instrucción en el nivel de [edit chassis fabric] jerarquía.

Detección y acciones correctivas de tarjetas de línea en enrutadores de la serie MX

Puede configurar una tarjeta de línea para que se mueva al estado sin conexión en enrutadores serie MX (como MX10008, MX10004, MX2020, MX2010, MX2008, MX960, MX480, MX304, MX240, etc.). La configuración de esta función no afecta al sistema. Puede configurar esta función sin reiniciar la tarjeta de línea o reiniciar el sistema.

Pueden producirse los siguientes escenarios al configurar la característica para deshabilitar las tarjetas de línea:

  • Si una tarjeta de línea se ha desconectado debido a errores de estructura y esta funcionalidad para mover la tarjeta de línea al estado sin conexión está deshabilitada, la tarjeta de línea pasa al estado en línea automáticamente.

  • Si una tarjeta de línea se ha desconectado debido a errores de estructura y esta funcionalidad para mover la tarjeta de línea al estado sin conexión está deshabilitada o configurada para alguna otra tarjeta de línea, la tarjeta de línea que se desconectó pasa automáticamente al estado en línea.

  • Todas las tarjetas de línea que se desconectaron al configurar esta opción se vuelven a poner en línea cuando se confirma cualquier configuración en el nivel de [edit chassis] jerarquía. Del mismo modo, un reinicio del demonio del chasis o la operación de cambio de motor de enrutamiento correcto (GRES) también hace que la tarjeta de línea que está deshabilitada debido a una estructura degradada se mueva al estado en línea.

Cuando una tarjeta de línea está funcionando con un número inferior al requerido de planos de estructura activos. Si una tarjeta de línea funciona con menos de cuatro planos, el tráfico de estructura opera a un ancho de banda reducido.

Las siguientes condiciones pueden resultar en una reducción del ancho de banda operativo en la estructura:

  • Las placas de control de la estructura se desconectan como resultado de un apagado abrupto e involuntario.

  • Un error de circuito integrado específico de la aplicación (ASIC), que hace que un plano de una tarjeta de control se desconecte automáticamente.

  • Llevar manualmente el plano de estructura o la tarjeta de control al estado sin conexión.

  • Extracción del tablero de control

  • Error de autoping en cualquier avión.

  • Error de entrenamiento HSL2 para avión activo.

  • Si un plano de estructura de repuesto tiene errores de CRC y este plano de repuesto se fabrica en línea, se deshabilita el vínculo con el error de CRC. Este mecanismo puede causar una degradación en la estructura en una dirección y puede causar una ruta nula en la otra dirección.

  • Cuando se produce un error de autoping o de entrenamiento HSL2, el plano de estructura se deshabilita para una tarjeta de línea determinada y está en línea para otras tarjetas de línea. Esta condición también puede provocar una ruta nula.

Si necesita quitar la tarjeta de control o mover un plano de estructura al estado sin conexión durante un mantenimiento del sistema, debe habilitar la funcionalidad para convertir las tarjetas de línea con ancho de banda degradado al estado sin conexión (utilizando la offline-on-fabric-bandwidth-reduction instrucción en el nivel de [edit chassis fpc slot-number] jerarquía).

Las siguientes acciones correctivas se realizan cuando se produce una ruta nula o un ancho de banda operativo reducido en la estructura:

  • Independientemente de si hay una tarjeta de control de repuesto disponible o no, el estado de autoping de cada tarjeta de línea se supervisa a intervalos de 5 segundos en el motor de enrutamiento. El administrador de estructura determina la presencia de tableros de control de repuesto

  • La estructura del conmutador se aloja en las placas de estructura de conmutador (SFB) de los dispositivos MX10008, MX10004, MX2020, MX2010 y MX2000:

    • El enrutador MX10008 tiene ocho ranuras para las tarjetas de línea que pueden admitir un máximo de 768 puertos 100 Gigabit Ethernet (4x100), 192 puertos 40 Gigabit Ethernet, 192 puertos 100 Gigabit Ethernet o 192 puertos 400 Gigabit Ethernet con ranuras para tarjetas de línea 0-7 que combinan el motor de reenvío de paquetes (PFE) y las interfaces Ethernet encerradas en un solo ensamblaje. MX10008 admite seis placas de estructura de conmutación (SFB) Hay dos modelos de SFB: la JNP10008-SF y la JNP10008-SF2. Los SFB instalados deben ser del mismo tipo de modelo en un chasis en funcionamiento.

      Para obtener más información, consulte Administración de planos de estructura en MX10004 y MX10008 dispositivos.

    • MX10004 cuenta con un chasis modular compacto de 7-U, ranuras para tarjetas de línea 0-3 tarjetas de línea de silicio (2,4 Tbps, 480 Gbps y 9,6 Tbps de rendimiento), con redundancia de hardware completa. Las placas de estructura de conmutación (SFB) crean la estructura de conmutación para el MX10004. Cada SFB tiene un conjunto de conectores a las tarjetas de línea y la tarjeta de enrutamiento y control (RCB) a la estructura del conmutador. Tres SFB proporcionan una funcionalidad de conmutación reducida a un enrutador MX10004. Seis SFB proporcionan rendimiento completo. Cada MX10004 SFB tiene cuatro conectores. Cada conector coincide con una ranura para tarjeta de línea, lo que elimina la necesidad de una placa posterior.

      Para obtener más información sobre la administración del plano de estructura, consulte Administración del plano de estructura en dispositivos MX10004.

    • El enrutador MX10003 contiene motores de enrutamiento modulares y PFE. El PFE único realiza el reenvío de paquetes de entrada y salida. El enrutador proporciona dos ranuras para tarjetas de línea dedicadas. El enrutador admite una placa de control y enrutamiento (RCB) principal y dos redundantes.

    • Los dispositivos MX2020 y MX2010 admiten 8 SFB. El Mx2020 tiene 20 ranuras para tarjetas de línea dedicadas. El enrutador MX2010 tiene 10 ranuras para tarjetas de línea dedicadas El subsistema host consta de dos tarjetas de control con motores de enrutamiento (CBRE) y ocho placas de estructura de conmutación (SFB). Los paquetes de datos se transfieren a través de la placa posterior entre los MPC a través de los ASIC de estructura en los SFB.

      Las placas de estructura de conmutador (SFB) proporcionan un mayor ancho de banda de estructura por ranura. Hasta ocho SFB, SFB2 o

      Los SFB3 se pueden instalar en un enrutador MX2020 o MX2010. Todas las placas de estructura de conmutación del chasis deben ser del mismo tipo. No se admite el modo mixto.

    • Enrutadores MX960 con tarjetas de línea basadas en I-chip o I-chip y Trio-chip que contienen tres tarjetas de control.

    • Enrutadores MX240 o MX480 con tarjetas de línea basadas en I-chip o I-chip y Trio-chip que contienen dos tarjetas de control.

    • No se considera que los enrutadores MX960, MX480 o MX240 que solo contengan tarjetas de línea basadas en Trio contengan una tarjeta de control de repuesto.

    Si durante cualquier intervalo de 5 segundos, dos tarjetas de línea indican una falla para el mismo plano, un cambio a la tarjeta de control de repuesto. En este caso, la tarjeta de control que informó de errores se desconecta y la tarjeta de control de repuesto se pone en línea.

  • Si hay disponible una tarjeta de control de repuesto y si configura la funcionalidad para deshabilitar las tarjetas de línea, el estado de autoping de cada tarjeta de línea se supervisa a intervalos de 5 segundos en el motor de enrutamiento. Pueden darse las siguientes condiciones:

    • Durante cualquier intervalo de 5 segundos, si sólo una tarjeta de línea indica un error para un plano, el administrador de estructura espera el siguiente intervalo. Durante el intervalo posterior, si ninguna otra tarjeta de línea indica un fallo para el mismo plano, se realiza el cambio de la tarjeta de control.

    • Durante cualquier intervalo de 5 segundos, si varias tarjetas de línea muestran errores para varias placas de control, el administrador de estructura espera el siguiente intervalo. Durante el intervalo posterior, si se mantiene la misma condición, todas las tarjetas de línea defectuosas se desconectarán, incluso si la tarjeta de control de repuesto está presente.

    • Durante cualquier intervalo de 5 segundos, si alguna tarjeta de línea muestra un error para varios planos en varias placas de control, el administrador de estructura espera el siguiente intervalo. Durante el intervalo posterior, si persiste la misma condición, la tarjeta de línea se desconecta incluso si la tarjeta de control de repuesto está presente.

  • Si los aviones de repuesto no están disponibles, la tarjeta de línea se desconecta cuando muestra un fallo para un solo plano o varios planos. La tarjeta de línea sólo se desconecta si configuró previamente la offline-on-fabric-bandwidth-reduction instrucción en el nivel jerárquico [edit chassis fpc slot-number] .

Descripción del manejo de fallas de estructura en el enrutador T4000

El enrutador T4000 consta de una placa de interfaz de conmutador (SIB) con un ancho de banda de estructura que duplica la capacidad del enrutador T1600. La funcionalidad de administración de fallos de estructura es similar a la de los enrutadores T1600. En este tema se describe la funcionalidad de control de errores de estructura en los enrutadores T4000.

La funcionalidad de administración de fallas de estructura implica monitorear todos los vínculos de alta velocidad conectados a la estructura y los que se encuentran dentro del núcleo de la estructura para detectar fallas de vínculos y errores de vínculo.

Se toman medidas en función de la falla y su ubicación. Las acciones incluyen:

  • Informar de errores de vínculo en los archivos de registro del sistema y enviar esta información al motor de enrutamiento.

  • Informar errores de vínculo en el concentrador de puerto flexible (FPC) o en el SIB y enviar esta información al motor de enrutamiento.

  • Marcar un SIB en Check estado.

  • Mover un SIB al Fault estado.

El SIB de los enrutadores T4000 forma el núcleo de la estructura con redundancia de 4:1: el SIB redundante se activa cuando el SIB activo deja de funcionar, se desactiva o se elimina. A continuación, se muestran las indicaciones de alto nivel de errores de estructura supervisadas por Junos OS:

  • Se genera una captura SNMP siempre que un SIB se notifica como Check o Fault.

  • show chassis alarms: indica que un SIB está en Check o Fault estado.

  • show chassis sibs: indica que un SIB está en Check o Fault estado o que un SIB está en Offline estado cuando el SIB se inicializa (esto ocurre cuando el SIB no se enciende completamente).

  • show chassis fabric fpcs: indica si algún vínculo de estructura es erróneo por parte de los FPC.

  • show chassis fabric sibs: indica si algún vínculo de estructura es erróneo en el lado de los SIB.

  • El /var/log/messages archivo de mensajes de registro del sistema en el motor de enrutamiento tiene mensajes de error con el prefijo CHASSISD_FM_ERROR.

  • Los SIB muestran el FAIL LED.

Nota:

Los planos de estructura en el chasis determinan si el chasis es un enrutador T640, un enrutador T1600 o un enrutador T4000. Los módulos de entrada de energía (PEM), las FPC o las bandejas de ventilador no determinan la personalidad del chasis. Las alarmas se activan si los PEM o bandejas de ventilador antiguos están presentes en un chasis T4000. Puede identificar un enrutador en función de sus planos de estructura:

  • Si todos los aviones presentes son SIB basados en F16, el chasis es un chasis T640.

  • Si todos los planos presentes son SIB basados en SF, el chasis es un chasis T1600.

  • Si todos los planos presentes son SIB basados en XF, el chasis es un chasis T4000.

Tenga en cuenta que la mezcla de planos de estructura no es una configuración compatible, excepto durante la actualización. Puede cambiar la personalidad de un chasis sin reiniciar cambiando todos los planos de estructura y emitiendo el comando CLI set chassis fabric upgrade-mode para comprobar la personalidad. Si no emite el comando de la set chassis fabric upgrade-mode CLI, la personalidad no cambiará hasta el arranque siguiente.

En los enrutadores T4000, se encuentran los siguientes fallos:

  • Errores a nivel de placa: estos errores se producen durante la inicialización o durante el tiempo de ejecución. Algunos ejemplos de fallas en el nivel de placa son algunos ejemplos de fallas en el nivel de placa.

  • Errores a nivel de vínculo: estos errores se producen durante la inicialización o durante el tiempo de ejecución. El error de entrenamiento de vínculos en el momento de la inicialización (error de los vínculos del plano de datos entre una FPC y una SIB que se va a entrenar cuando se inicializa la FPC o SIB), el error detectado en el canal entre el SIB y un motor de reenvío de paquetes, los errores de comprobación de redundancia cíclica (CRC) detectados en tiempo de ejecución y los errores de destino del motor de reenvío de paquetes son tipos de errores a nivel de vínculo.

  • Fallas basadas en condiciones ambientales: estas fallas se producen durante el tiempo de ejecución. La eliminación repentina de un FPC o un SIB puede provocar un error del operador. Cuando un SIB se calienta demasiado o cuando los voltajes de SIB están más allá de los umbrales, los errores generados se clasifican en errores ambientales.

Puede implementar una de las siguientes opciones para controlar los errores:

  • Registre el error y genere una alarma.

  • Cambie al avión de repuesto, si está disponible.

  • Continúe con un número reducido de partes de un avión.

  • Continúe con un número reducido de aviones utilizables.

  • Utilice el control de errores basado en sondeos.

  • Supervise los errores de vínculo de alta velocidad y reduzca manualmente el vínculo a un umbral adecuado.

Los errores de E/S sondeados y los errores de vínculo se monitorean cada 500 milisegundos, y la temperatura de escape de la placa y los voltajes de la placa se monitorean cada 10 segundos.

Descripción del manejo de errores de estructura en PTX5000 enrutador de transporte de paquetes

A partir de Junos OS versión 14.1, el enrutador de transporte de paquetes PTX5000 admite nueve placas de interfaz de conmutador (SIB). Cada FPC FPC2-PTX-P1A admite una capacidad de 1 Tb por ranura, lo que da como resultado un ancho de banda de estructura de 16 terabits por segundo (Tbps), conmutación dúplex completo (8 Tbps de cualquiera a cualquiera, sin bloqueo, semidúplex).

La funcionalidad de administración de fallas de estructura implica monitorear todos los vínculos de alta velocidad conectados a la estructura y los que se encuentran dentro del núcleo de la estructura para detectar fallas de vínculos y errores de vínculo.

Las fallas que ocurren en un PTX5000 se pueden clasificar ampliamente en:

  • Fallas en la placa: fallas que surgen en un SIB o en un concentrador de puerto flexible (FPC) durante la inicialización o durante el tiempo de ejecución, incluidos los problemas que surgen cuando un componente del enrutador accede al SIB o FPC, o los problemas que surgen de las fallas del plano medio.

  • Errores de vínculo: errores que se producen en vínculos de alto nivel en un enrutador durante la inicialización o durante el tiempo de ejecución.

  • Fallas debidas a condiciones ambientales: fallas que ocurren debido a sobretensión o sobretemperatura; errores que se producen debido a que un operador maneja mal un SIB o un FPC, etc.

El enrutador toma medidas en función de la categoría de error y la ubicación de error. Las acciones incluyen:

  • Informar de errores de vínculo en los archivos de registro del sistema y enviar esta información al motor de enrutamiento.

  • Visualización de los errores de vínculo al ejecutar uno de los comandos operativos enumerados en la tabla 1:

    Tabla 1: Lista de comandos del modo operativo

    Comando del modo operativo

    Descripción

    show chassis sibs

    Muestra la información de estado de las placas de interfaz de conmutación (SIB).

    show chassis fabric fpcs <slot number>

    Muestra el estado de la estructura de la ranura FPC especificada. Si no se proporciona ningún número de ranura, se muestra el estado de todos los FPC.

    show chassis fabric sibs <slot number>

    Muestra el estado del vínculo de la estructura del interruptor eléctrico entre los SIB y los FPC.

    show chassis fabric reachability <detail>

    Muestra el estado actual de la accesibilidad del destino de la estructura.

    show chassis fabric unreachable-destinations

    Muestra la lista de destinos que han pasado de un estado accesible a uno inalcanzable.

    show pfe statistics error

    Muestra estadísticas de errores del motor de reenvío de paquetes.

    show chassis fabric topology <sib_slot>

    Muestra la topología del vínculo entrada-salida.

    show chassis fabric summary

    Muestra el estado de todos los planos de estructura y el tiempo de actividad transcurrido.

  • Informar de errores de vínculo en el nivel FPC o en el nivel SIB y enviar esta información al motor de enrutamiento.

  • Informar de información de error de vínculo en el show chassis alarms comando operativo.

  • Mover un SIB al estado de error .

En las secciones siguientes se explica la funcionalidad de control de errores de estructura en la PTX5000:

Fallas a nivel SIB

Las siguientes secciones ofrecen una breve descripción general de los tipos de errores que se producen en un SIB y cómo manejarlos:

Tipos de fallas que ocurren en un SIB

Las fallas de placa y las fallas de vínculo ocurren en un SIB durante la inicialización y durante el tiempo de ejecución. Algunas fallas ocurren debido a condiciones ambientales como sobretensión o sobretemperatura, o cuando un operador maneja mal el SIB.

Nota:

Ejecute los comandos del modo operativo enumerados en la tabla 1 para detectar errores.

Durante la inicialización y el tiempo de ejecución de SIB, pueden producirse los siguientes errores:

  • Fallas en la placa, como falla de encendido de los SIB, falla de restablecimiento de ASIC, falla de acceso de E/S sondeada del procesador del conmutador (SPMB) a ASIC, fallas en los componentes de la placa como fallas en PIC o fallas en el acceso a componentes del enrutador.

  • Errores de vínculo, como errores de vínculo de alto nivel que se producen durante el entrenamiento de vínculos.

  • Fallos que ocurran debido a las condiciones ambientales o debido a un mal manejo del SIB por parte del operador.

Manejo de fallas a nivel SIB

La siguiente lista ilustra cómo el enrutador controla un error que se produce en un SIB durante la inicialización, durante el tiempo de ejecución, debido a las condiciones ambientales y debido a un mal manejo del SIB por parte del operador:

  • Para controlar un error de placa en un SIB durante la inicialización, el demonio del chasis (chasisd) marca el SIB como en estado de error . Después de marcar el SIB como defectuoso, no se produce ninguna operación en este SIB.

  • Para controlar un error de placa en un SIB durante el tiempo de ejecución, el chasis registra un error en el archivo de registro del sistema, genera un tipo de error de indicación de alarma y marca el SIB como defectuoso. Después de marcar el SIB como defectuoso, no se produce ninguna operación en este SIB.

  • Para controlar un error de vínculo en un SIB durante el tiempo de ejecución, cuando aparece un error de vínculo durante el entrenamiento de vínculo, chassisd informa al FPC correspondiente al enlace en el que se produjo el error para deshabilitar los vínculos al SIB afectado. Luego, el chasis envía un mensaje de error a todas las demás FPC del enrutador para que dejen de usar el vínculo SIB fallido y se genera una alarma de error de vínculo. Tenga en cuenta que cuando más de un FPC informa errores para un SIB determinado, el SIB se deshabilita para todos los FPC y el motor de reenvío de paquetes no envía tráfico a través del SIB afectado.

  • Para controlar un error de vínculo en un SIB durante el tiempo de ejecución, chassisd marca el SIB como defectuoso y especifica un motivo para el error, y el SIB se desactiva.

  • En caso de una falla ambiental (sobretensión o sobretemperatura), el SIB se desconecta inmediatamente. Tenga en cuenta que un error se registra periódicamente a medida que aumenta la temperatura o el voltaje, y el SIB se desconecta cuando cruza un cierto voltaje o temperatura umbral.

  • Cuando un SIB se retira o se desaloja abruptamente, todos los motores de reenvío de paquetes afectados dejan de usar ese plano para llegar a otros motores de reenvío de paquetes en el enrutador.

Fallas a nivel de FPC

En las secciones siguientes se ofrece una breve descripción de los tipos de errores que se producen en una FPC y cómo controlarlos:

Tipos de fallas que se producen en una FPC

Las fallas de placa y de vínculo ocurren en una FPC durante la inicialización y durante el tiempo de ejecución. Algunas fallas también ocurren debido a condiciones ambientales como sobretensión, sobretemperatura o cuando el operador maneja mal el FPC.

Nota:

Ejecute los comandos operativos enumerados en la tabla 1 para detectar errores.

Durante la inicialización y el tiempo de ejecución de FPC, pueden producirse los siguientes errores:

  • Fallas en la placa, como falla de los FPC para encenderse, falla de ASIC al salir de la fase de reinicio, falla de acceso de E/S sondeada PMB a ASIC, fallas de componentes de la placa como falla de PIC o fallas de acceso a componentes del enrutador.

  • Errores de vínculo, como errores de vínculo de alto nivel que se producen durante el entrenamiento de vínculos.

  • Fallas que ocurren debido a las condiciones ambientales o debido al mal manejo de un FPC por parte del operador.

Manejo de fallas a nivel de FPC

En la lista siguiente se ilustra cómo el enrutador controla un error que se produce en una FPC durante la inicialización, durante el tiempo de ejecución, debido a las condiciones ambientales y al mal manejo de la FPC por parte del operador:

  • Para controlar una falla de placa en una FPC durante la inicialización, chassisd marca la FPC como en estado de falla . Después de marcar el SIB como defectuoso, no se produce ninguna operación en este FPC.

  • Para controlar un error de placa en una FPC durante el tiempo de ejecución, el chasis registra un error en el archivo de registro del sistema, genera un tipo de error de indicación de alarma y marca la FPC como defectuosa. Después de marcar el FPC como defectuoso, no se produce ninguna operación en este FPC.

  • Para controlar los errores de vínculo incorporado en una FPC durante la inicialización o durante el tiempo de ejecución, la FPC se desactiva y todos los motores de reenvío de paquetes afectados dejan de usar ese plano para llegar a otros motores de reenvío de paquetes en el enrutador.

    Nota:

    No se desmontan planos durante la inicialización porque el proceso de entrenamiento de vínculos para la estructura aún no se ha completado.

    Los errores de vínculo incorporado durante el tiempo de ejecución se resuelven sobre la base de la configuración actual; se reinicia la FPC, se registra el error y la FPC continúa con la inicialización.

  • En caso de una falla ambiental (sobrevoltaje o sobretemperatura), el FPC se desconecta inmediatamente. Tenga en cuenta que un error se registra periódicamente a medida que aumenta la temperatura o el voltaje, y el FPC se desconecta cuando cruza un cierto voltaje o temperatura umbral.

  • Cuando una FPC se quita o se desaloja abruptamente, todos los demás motores de reenvío de paquetes dejan de enviar tráfico a los motores de reenvío de paquetes en esta FPC.

Descripción del manejo de fallas de estructura en la placa de estructura de conmutador mejorada (SFB2)

La línea de enrutadores MX2000 admite placas de estructura de conmutación (SFB) y SFB mejorados (SFB2), pero no ambas al mismo tiempo. El SFB y el SFB2 albergan tres planos de estructura cada uno. Por lo tanto, el chasis admite un total de 24 planos. Junos OS versión 15.1F6 y 16.1R1 admiten el control de errores de estructura para cada plano tanto en SFB como en SFB2. En versiones anteriores, el control de errores de estructura se admite para cada SFB, no para cada plano.

En la tabla 2 se enumeran las diferencias entre el manejo de fallos de estructura por plano y por SFB.

Tabla 2: Manejo de fallas en la estructura SFB versus SFB2

Nivel SFB (SFB)

Nivel de plano (SFB y SFB2)

Los errores de comprobación de redundancia cíclica (CRC) en cualquier enlace del SFB se indican en el SFB.

Los errores de CRC en cualquier enlace en el SFB o SFB2 se indican en el avión.

Al encontrar errores de destino, la tarjeta de línea aísla el SFB (los 3 planos).

Al encontrar errores de destino, la tarjeta de línea aísla el plano correspondiente. Otros aviones continúan operando.

El manejo de fallas de estructura por plano ofrece las siguientes ventajas:

  • Mayor granularidad, lo que ayuda a identificar, aislar y reparar fallas.

  • Las alarmas y los mensajes de registro proporcionan información de errores por plano en lugar de por SFB, lo que facilita la depuración.

  • Si un SFB tiene un solo avión defectuoso, los otros dos aviones pueden continuar operando. No hay necesidad de desconectar todo el SFB.

  • En caso de errores transitorios, durante la reparación, puede aislar un solo plano en lugar de aislar el rebote del SFB.

Para ver la información sobre el manejo de errores de estructura para los 24 planos, utilice la extended opción con los comandos de estructura existentes.

Administración de la degradación del ancho de banda

Ciertos errores hacen que un sistema deje caer paquetes sin notificación. Otros sistemas conectados continúan reenviando tráfico al sistema afectado, lo que afecta el rendimiento de la red. Un plano de tela severamente degradado puede ser una de las razones aquí.

De forma predeterminada, los enrutadores de Juniper Networks intentan comenzar a recuperarse de tales situaciones cuando el sistema detecta problemas con los motores de reenvío de paquetes. Si se produce un error en la curación, el sistema apaga las interfaces, evitando así nuevas escaladas.

En Junos OS, puede utilizar la instrucción bandwidth-degradation configuration en la [edit chassis fpc slot-numberfabric] jerarquía para detectar y responder a la degradación del plano de estructura de la forma que considere adecuada. Puede configurar el enrutador para especificar qué acciones de curación debe tomar el enrutador una vez que se detecta dicha condición. También puede usar la instrucción blackhole-action opcional para determinar cómo responde la tarjeta de línea a un escenario de degradación del tejido del 100 %. Este comando es opcional y anula los procedimientos predeterminados de endurecimiento de la estructura.

Nota:

El bandwidth-degradation comando y las offline-on-fabric-bandwidth-reduction instrucciones son mutuamente excluyentes. Si ambos comandos están configurados, se emite un error durante la comprobación de confirmación.

La bandwidth-degradation instrucción se configura con un porcentaje y una acción. El percent-age valor puede oscilar entre 1 y 99 y representa el porcentaje de degradación de la estructura necesario para desencadenar una respuesta de la tarjeta de línea. El action atributo determina el tipo de respuesta que realiza la tarjeta de línea una vez que la degradación de la estructura alcanza el porcentaje configurado.

La instrucción solo se configura con un action atributo, que se activa cuando el porcentaje de degradación de la estructura alcanza el 100 %.

Las siguientes acciones se pueden aplicar a cualquiera de las instrucciones de configuración:

  • log-only: se registra un mensaje en el chasisd y los archivos de mensaje cuando se alcanza el umbral de degradación de la estructura. No se toman otras medidas.

  • restart: la tarjeta de línea con un plano de estructura degradado se reinicia una vez que se alcanza el umbral.

  • offline: la tarjeta de línea con un plano de estructura degradado se desconecta una vez que se alcanza el umbral. La tarjeta de línea requiere intervención manual para volver a estar en línea. Esta es la acción predeterminada si no hay ningún atributo de acción configurado.

  • restart-then-offline: la tarjeta de línea con un plano de estructura degradado se reinicia una vez que se alcanza el umbral, y si se detecta de nuevo la degradación del plano de estructura en 10 minutos, la tarjeta de línea se desconecta. La tarjeta de línea requiere intervención manual para volver a estar en línea.

Nota:

Esta función está disponible en Junos OS versión 15.1R1.

Endurecimiento y recuperación de estructuras en PTX10001-36MR, PTX10004, PTX10008 y PTX100016 con tarjeta de línea PTX10K-LC1202-36MR

Los enrutadores PTX10001-36MR, PTX10004, PTX10008 y PTX100016 admiten el endurecimiento de la estructura. El endurecimiento de la estructura es una característica de resistencia para detectar agujeros negros de la tela e intentar el proceso de recuperación automática para restaurar los motores de reenvío de paquetes de la condición de agujero negro.

Hemos habilitado el endurecimiento de la estructura de forma predeterminada. Cuando el sistema detecta algún destino inalcanzable del motor de reenvío de paquetes, esta función intenta restaurar automáticamente la conectividad de la estructura.

Si se produce un error en la restauración, el sistema apaga las interfaces para limitar el blackholeing y activar la alarma para indicar los destinos inalcanzables del motor de reenvío de paquetes. Sin embargo, en lugar de desactivar las interfaces, el usuario puede configurar el motor de reenvío de paquetes sin conexión mediante una instrucción en set chassis fabric event reachability-fault actions recovery-failure pfe-offline el nivel de [set chassis fabric event] jerarquía.

Los destinos del motor de reenvío de paquetes pueden volverse inaccesibles por los siguientes motivos:

  • Autoagujero negro completo: se produce una pérdida completa de conectividad en todos los planos de la estructura.

  • Dos motores de reenvío de paquetes pueden llegar a la estructura, pero no entre sí.

Puede configurar un enrutador para desencadenar la recuperación de la estructura cuando el enrutador detecte degradación en el ancho de banda de la estructura mediante una instrucción en degraded el nivel de [edit chassis fabric event reachability-fault] jerarquía. La instrucción de degradación se configura con un valor porcentual que puede oscilar entre 1 y 99. El valor porcentual representa el umbral de error para la degradación del ancho de banda de la estructura y el enrutador inicia la recuperación una vez que se alcanza el umbral.

Cuando se configura el umbral de error degradado, el enrutador también puede intentar la recuperación de la estructura por los siguientes motivos:

  • Autodesengrasación: condición de estructura degradada en un destino de motor de reenvío de paquetes.

  • Degradación del mismo nivel: condición de estructura degradada entre dos motores de reenvío de paquetes.

El proceso de recuperación de estructuras implica una o varias de las siguientes fases:

  • Fase de reinicio de SIB: si los destinos del motor de reenvío de paquetes en varias tarjetas de línea tienen errores de conectividad de estructura en los planos, el enrutador intenta resolver el problema reiniciando los SIB. Si es necesario reiniciar varios SIB, el enrutador reinicia los SIB uno por uno.

  • Fase de reinicio de FPC: el enrutador intenta la recuperación automática reiniciando los FPC para los siguientes escenarios:

    • Todos los destinos del motor de reenvío de paquetes que tienen condiciones de agujero negro completo o parcial se encuentran en una sola FPC.

    • Si los destinos del motor de reenvío de paquetes con condiciones de agujero negro completo o parcial se producen en diferentes FPC, pero ninguno de los motores de reenvío de paquetes comparte un plano común de error.

    • El intento de fase de reinicio de SIB no pudo recuperar los motores de reenvío de paquetes.

    Puede deshabilitar el reinicio de FPC para limitar las acciones de recuperación de una condición de estructura degradada. Para deshabilitar el reinicio de FPC, utilice la set chassis fabric event reachability-fault actions fpc-restart-disable instrucción en el [set chassis fabric event] nivel jerárquico.

  • Fase sin conexión del motor de reenvío de paquetes: debido a que los intentos anteriores de las fases de recuperación fallaron o la acción de recuperación deshabilitada en la configuración, el enrutador apaga las interfaces para limitar el agujero negro de forma predeterminada. Sin embargo, en lugar de desactivar las interfaces, el usuario puede configurar el motor de reenvío de paquetes sin conexión mediante una instrucción en set chassis fabric event reachability-fault actions recovery-failure pfe-offline el nivel de [set chassis fabric event] jerarquía.

Si el enrutador solo tiene motores de reenvío de paquetes con un agujero negro par o una condición de degradación del par, el enrutador intenta la recuperación a través de la recuperación automática del vínculo reiniciando los vínculos de estructura en los planos.

Ventajas

  • Intenta el proceso de recuperación automática para recuperar los motores de reenvío de paquetes de condiciones de estructura degradadas para minimizar la pérdida de tráfico.

  • Genere alarmas que proporcionen información de errores para indicar los destinos inalcanzables del motor de reenvío de paquetes, si se produce un error en la recuperación.

Deshabilitar el reinicio de la tarjeta de línea para limitar las acciones de recuperación de condiciones de estructura degradada

Puede deshabilitar los reinicios de tarjetas de línea para limitar las acciones de recuperación de una condición de estructura degradada. En los enrutadores T640 y T1600, solo se reinicia el plano de estructura. En los enrutadores de la serie PTX, solo se reinician las placas de interfaz de conmutador (SIM). Para deshabilitar el reinicio de las tarjetas de línea, utilice la action-fpc-restart-disable instrucción en el [edit chassis fabric degraded] nivel de jerarquía:

Cada vez que se desactiva el reinicio de una tarjeta de línea, se activa una alarma cuando hay destinos inalcanzables presentes en el enrutador y debe reiniciar las tarjetas de línea manualmente.

Para asegurarse de que los planos de estructura (enrutadores T640 y T1600) o los SIB (enrutadores de la serie PTX) y las tarjetas de línea se reinician durante el proceso de recuperación, no configure la action-fpc-restart-disable instrucción en el nivel de [edit chassis fabric degraded] jerarquía.

Deshabilitar una FPC con ancho de banda de estructura degradado

Puede desconectar una FPC con ancho de banda de estructura degradado para evitar provocar una ruta nula en el chasis durante un tiempo prolongado. Para configurar la opción de deshabilitar una FPC con ancho de banda degradado, utilice la offline-on-fabric-bandwidth-reduction instrucción en el nivel de [edit chassis fpc slot-number] jerarquía:

El administrador de estructura comprueba periódicamente el número de planos activos actuales. Si el número de planos activos es inferior al número requerido de planos activos para un enrutador determinado, el sistema espera 10 segundos antes de tomar cualquier medida correctiva. Si la condición de ancho de banda reducido persiste para una FPC y si esta función se ha configurado para la FPC, el sistema desconecta la FPC.

Control de errores por OAM de estructura

La operación, administración y mantenimiento de la estructura (OAM) ayuda a detectar fallas en las rutas de la estructura. OAM de estructura valida la conectividad de la estructura antes de enviar tráfico en un plano de estructura cada vez que se crea una nueva ruta de estructura para un PFE. Si se detecta un fallo, el software informa de la falla y evita usar ese plano de estructura para ese PFE. Esta función funciona enviando un tráfico OAM autodestinado de paquetes por segundo (PPS) muy bajo a través de cada uno de los planos de estructura disponibles y detectando cualquier pérdida de tráfico en los puntos finales (comprobación de autoping de estructura).

Nota:
  • En Junos OS Evolved versión 20.4R1, la función OAM de estructura está habilitada de forma predeterminada. Puede deshabilitar la característica mediante el comando set chassis fabric oam detection-disablede la CLI.
  • En las versiones 20.4R2 y 21.1R1 de Junos OS Evolved, la función OAM de estructura está deshabilitada de forma predeterminada.
  • En Junos OS Evolved versión 22.1R1, la función OAM de estructura en tiempo de ejecución está habilitada de forma predeterminada. Puede deshabilitar la característica mediante el comando edit chassis fabric oam runtime-disablede la CLI. La característica OAM de estructura en tiempo de ejecución se admite en enrutadores PTX10004, PTX10008 y PTX10016.

Las comprobaciones de OAM de estructura se realizan en el momento del arranque. Las rutas fallidas están deshabilitadas. El sistema no realiza ninguna acción de recuperación. Sin embargo, puede intentar recuperar los planos de estructura afectados reiniciando los SIB. Los pasos de recuperación dependen de la naturaleza del error.

Un plano de estructura representa una ruta bidireccional independiente entre un PFE y un ASIC de estructura. OAM de estructura en tiempo de ejecución comprueba periódicamente la conectividad de la estructura y ayuda a detectar e informar errores en los planos de estructura durante el tiempo de ejecución del sistema. La OAM de estructura en tiempo de ejecución detecta la accesibilidad de la estructura de cada PFE.

Cuando se produce un error en los mismos planos de estructura en una o varias FPC, reinicie el SIB que contiene los planos con errores mediante los siguientes comandos:

user@host> request chassis sib slot slot-number offline

user@host> request chassis sib slot slot-number online

Cuando los planos de estructura aleatorios fallan en varios FPC, el error no se puede aislar en un FPC o SIB específico. Sin embargo, puede intentar recuperar los planos reiniciando los SIB que contienen los planos afectados de forma secuencial.

Para cada error detectado por la característica OAM de estructura, se genera un syslog. El siguiente es un ejemplo:

El siguiente mensaje syslog indica que se borró un error relacionado con OAM de estructura.

Además, puede usar los comandos show system errors active detail de la CLI y show system alarms ver los errores relacionados con Fabric OAM.

El siguiente resultado muestra detalles de los errores de plano de estructura única (en el motor de reenvío de paquetes 0) y todos los errores de planos de estructura (en el motor de reenvío de paquetes 1).

Puede usar el comando show chassis fabric fpcs de la CLI para ver el estado de autoping de OAM de estructura de cada plano de estructura.

El show chassis fabric fpcs comando muestra el siguiente resultado cuando la característica OAM de estructura está deshabilitada:

Tabla de historial de cambios

La compatibilidad con las funciones viene determinada por la plataforma y la versión que esté utilizando. Utilice el Explorador de características para determinar si una característica es compatible con su plataforma.

Lanzamiento
Descripción
14.2R6
A partir de Junos OS versión 14.2R6, si un SIB se desconecta debido a condiciones extremas como alto voltaje o alta temperatura, entonces, como parte del proceso de recuperación, el enrutador no reinicia el plano de estructura para ese SIB.
14.2R6
A partir de Junos OS versión 14.2R6, puede gestionar mejor la degradación de la estructura en sistemas de chasis único mediante la incorporación de mecanismos de autoping de estructura y de motor de reenvío de paquetes.
14.1
A partir de Junos OS versión 14.1, el enrutador de transporte de paquetes PTX5000 admite nueve placas de interfaz de conmutador (SIB).
13.3
A partir de Junos OS versión 13.3, puede utilizar enrutadores serie PTX para configurar los niveles de error relacionados con el motor de reenvío de paquetes (PFE) y las acciones que se deben realizar cuando se alcanza un umbral especificado.