EN ESTA PÁGINA

Configurar niveles y acciones de error de FPC
Ejemplo: configuración de la detección de errores FPC y la reparación automática en enrutadores centrales de la serie T
Administrar errores de FPC
Configurar sondeo de cordura
Configurar Junos OS para que un concentrador de PIC flexible permanezca sin conexión
Configurar un SFM para permanecer sin conexión
Resincronización de números de secuencia de FPC con FPC activos cuando un FPC se conecta
Habilitar el motor de enrutamiento para que se reinicie con errores de disco duro
Controlar eventos de salud térmica mediante Thermal Health Check y PSM Watchdog

Administración de errores

Configurar niveles y acciones de error de FPC

Puede usar enrutadores serie MX, PTX y serie T para configurar los niveles de error relacionados con el motor de reenvío de paquetes (PFE) en FPC y las acciones que se deben realizar cuando se alcanza un umbral especificado. En Junos OS versión 13.2 y anteriores, los errores del motor de reenvío de paquetes deshabilitaban el FPC. Cuando se utiliza el comando, los errores del error motor de reenvío de paquetes se pueden aislar, lo que reduce la necesidad de un reemplazo de campo. Con el comando, puede clasificar los errores según la error gravedad, establecer una acción de recuperación automática para cada gravedad y configurar las acciones que se realizarán cuando se alcance un umbral especificado. Este comando está disponible en las [edit chassis fpc slot-number] jerarquías y [edit chassis] .

Para configurar los niveles de error y las acciones del motor de reenvío de paquetes para una FPC:

(Opcional) Configure el umbral y la acción del nivel de error fatal. Un error grave es un error que provoca el bloqueo de una cantidad considerable de tráfico entre módulos.
Si el nivel de gravedad del error es fatal, la acción se lleva a cabo cuando el número total de errores alcanza el valor umbral. Después de cruzar el valor de umbral, para cada ocurrencia del error, se lleva a cabo una acción.
(Opcional) Configure el umbral y la acción principales del nivel de error. Un error importante es un error que resulta en la pérdida continua de tráfico de paquetes, pero no afecta a otros módulos.
Si el nivel de gravedad del error es mayor, la acción se lleva a cabo cuando el número total de errores alcanza el valor umbral. Después de cruzar el valor de umbral, para cada ocurrencia del error, se lleva a cabo una acción.
(Opcional) Configure el umbral y la acción del nivel de error menor. Un error menor es un error que resulta en la pérdida de un solo paquete, pero es totalmente recuperable.
Si el nivel de gravedad es menor, la acción solo se lleva a cabo una vez cuando el número total de errores alcanza el valor umbral

Los enrutadores de la serie MX admiten la configuración de umbrales y acciones de error en los niveles de ámbito y categoría de error. Use el comando set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe) para configurar un umbral y una acción para un ámbito y una categoría de error determinados en el nivel de FPC. También puede configurar estas características en el nivel del chasis (en la [edit chassis] jerarquía). Sin embargo, el umbral y la acción configurados en la [edit chassis fpc] jerarquía anulan la misma configuración en la [edit chassis] jerarquía.

Puede usar el comando show chassis fpc errors para ver la información del error en el ámbito del error y en el nivel de categoría.

Para Junos OS Evolved, puede utilizar los siguientes show comandos para ver la información del error:

show system errors count: muestra los errores de todo el sistema y su recuento.
show system errors active: muestra los errores activos actuales en el sistema.
show system errors active fpc <slot number> : muestra errores activos para el FPC especificado.
show system errors fru detail: muestra un error detallado específico de la FRU.
show system errors fru detail fpc <slot number>: muestra información sobre los errores detectados en función de la FRU.

Si ha configurado la acción log con respecto a un umbral de error determinado, el sistema registra el evento cuando el recuento de errores supera el umbral establecido. Los siguientes mensajes syslog de ejemplo indican una infracción del umbral de error y la acción resultante que se está tomando:

Las offline, reset, disable-pfe, offline-pfe acciones y reset-pfe son mutuamente excluyentes con respecto a la configuración. El PFE especificado se desactiva automáticamente, si offline-pfe está reset-pfe configurado.

Nota: Se agrega una acción de alarma principal de FPC predeterminada para MPC6E. La opción disable-pfe está disponible a partir de Junos 17.4 y versiones posteriores.

En la tabla siguiente se proporcionan detalles sobre las acciones de asignación de errores de PFE y la respuesta del sistema:

Tabla 1: Acción y respuesta de mapeo de errores de PFE
Respuesta a la acción
`disable-pfe`	Deshabilita todas las interfaces, alarmas y registros de PFE.
`offline`	Desconecta la FPC, deshabilita las alarmas y los registros.
`reset`	Desconecta la FPC y la restablece a conexión, habilita las alarmas y los registros.
`reset-pfe`	Apaga el PFE, desactiva las alarmas y registra y, luego, enciende el PFE, habilita las alarmas y los registros.
`offline-pfe`	Apaga el PFE, desactiva las alarmas y los registros,

Ejemplo: configuración de la detección de errores FPC y la reparación automática en enrutadores centrales de la serie T

En este ejemplo se muestra cómo configurar la detección de errores y la reparación automática en un enrutador central de la serie T de Juniper Networks con FPC tipo 5.

Requisitos
Visión general
Configuración
Verificación

Requisitos

En este ejemplo se utilizan los siguientes componentes de hardware y software:

Enrutador de núcleo T4000 de Juniper Networks con FPC tipo 5.
Junos OS versión 13.3 o posterior.

Antes de continuar, asegúrese de que las conexiones necesarias estén completas y de que las interfaces funcionen.

Visión general

La detección de errores de FPC y la recuperación automática implican configurar un conjunto de acciones que se realizarán en cada FPC, cuando el número de errores para una gravedad determinada aumenta más allá de un umbral configurado por el usuario. La gravedad del error se clasifica en grave, mayor y menor. Las acciones de recuperación incluyen activar una alarma, generar entradas de registro, obtener el estado actual de la FPC, reiniciar la FPC, desconectar la FPC y restablecer la FPC. Para una FPC y una gravedad de error determinadas, puede configurar el umbral de error en cualquier valor dentro de los límites permitidos y asignar el umbral a una acción. En este ejemplo, establecerá estos errores en FPC 0 en el enrutador central T4000 de Juniper Networks.

Configuración

Para configurar la detección de errores y la autorreparación, debe establecer la gravedad del error, los valores de umbral correspondientes a cada gravedad de error y las acciones que se realizarán cuando se cruce el valor de umbral.

Configuración rápida de CLI
Configuración de la detección de errores y la recuperación automática
Resultados

Configuración rápida de CLI

Para configurar rápidamente este ejemplo, copie los siguientes comandos, péguelos en un archivo de texto, elimine los saltos de línea, cambie los detalles necesarios para que coincidan con su configuración de red y, a continuación, copie y pegue los comandos en la CLI en el nivel de jerarquía [editar interfaces].

Configuración de la detección de errores y la recuperación automática

Procedimiento paso a paso

En el ejemplo siguiente es necesario navegar por varios niveles en la jerarquía de configuración. Para obtener información acerca de cómo navegar por la CLI, consulte Uso del editor de CLI en el modo de configuración y la Guía del usuario de CLI.

Configure el valor de umbral y la acción asociada para errores fatales.
1. Establezca la gravedad del error en fatal.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error fatal
2. Establezca el valor de umbral para errores graves.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error fatal threshold 1
3. Establezca la acción asociada para errores fatales.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error fatal threshold 1 action reset

Configure el valor de umbral y la acción asociada para errores importantes.
1. Establezca la gravedad del error en mayor.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error major
2. Establezca el valor de umbral para errores importantes.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error major threshold 1
3. Establezca la acción asociada para errores importantes.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error major threshold 1 action alarm

Configure el valor de umbral y la acción asociada para errores menores.
1. Establezca la gravedad del error en menor.
  
  [edit interfaces]
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error minor
2. Establezca el valor de umbral para errores menores.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error minor threshold 10
3. Establezca la acción asociada para errores menores.
  
  [edit interfaces]
  
  user@host# set chassis fpc 0 error minor threshold 10 action log

Resultados

A continuación se muestra el resultado de la configuración del nivel de gravedad grave.

Si ha terminado de configurar los dispositivos, ingrese commit desde el modo de configuración.

Verificación

Para verificar que la configuración se realiza correctamente y que el enrutador está configurado con la acción correcta, utilice el show chassis fpc errors comando.

Comprobación de las acciones configuradas relacionadas con la gravedad grave del error de FPC

Propósito
Acción
Significado

Propósito

Asegúrese de que el valor de umbral y la acción asociada están configurados para errores fatales.

Acción

Significado

La salida de ejemplo muestra Fatal un error en FPC 0 con 0 error Occurred (sin repeticiones anteriores), 0 error Cleared (sin ocurrencias anteriores) con Threshold el valor establecido en 1 y Action-Taken establecido en RESET.

Administrar errores de FPC

En los enrutadores de la serie PTX, puede deshabilitar un error de FPC o modificar la gravedad del error en el nivel de identificador de error. Consulte Autorrecuperación de FPC para obtener más información sobre las plataformas PTX que admiten esta función.

El identificador de error, que identifica de forma exclusiva un error FPC, se representa en el formato de identificador uniforme de recursos (URI) y se compone de un identificador de módulo y un identificador de error. Si se produce un error, puede encontrar el identificador de error en los mensajes de registro del sistema.

Modificar la gravedad de un error
Deshabilitar un error

Modificar la gravedad de un error

Aunque no puede configurar una nueva gravedad de error, puede modificar la gravedad existente de un error. Por ejemplo, si ya no desea tratar un error en particular (identificado por un identificador de error) como fatal, puede modificar su gravedad a mayor o menor según sea necesario.

Nota:

No puede modificar la gravedad del error en un nivel de grupo (por ejemplo, categoría).

Para modificar la gravedad de un error, utilice el siguiente comando:

Vea el siguiente ejemplo:

En el ejemplo anterior, modificó la gravedad del identificador “/cpu/0/memory/0/memory-uncorrected-error” de error en FPC 3 a minor.

Deshabilitar un error

Para configurar el sistema para que deje de informar de un error, identifique el identificador de error y desactívelo. Puede encontrar el identificador de error en los mensajes de registro del sistema. Para deshabilitar un error, utilice el siguiente comando:

Vea el siguiente ejemplo:

En el ejemplo anterior, deshabilitó el error “/cpu/0/memory/0/memory-uncorrected-error” en FPC 3.

Configurar sondeo de cordura

Puede configurar la sanity-poll instrucción para un FPC, FEB o CFEB en particular para iniciar una comprobación periódica de cordura para ese FPC, FEB o CFEB. La comprobación periódica de cordura incluye la comprobación de condiciones de error como "registrar problemas de cordura", "alta temperatura", "error de hardware", etc. Si no configura la instrucción, se deshabilitará el sanity-poll sondeo de cordura.

Nota:

Actualmente, la comprobación periódica de la cordura solo se realiza en el registro del chip de enrutamiento.

El sondeo de cordura comprueba periódicamente si hay una condición de error en un FPC, FEB o CFEB y realiza las acciones apropiadas en caso de un error.

Para configurar el sondeo de cordura para una FPC en enrutadores serie T y enrutadores M320, incluya la sanity-poll instrucción y sus subinstrucciones en el nivel jerárquico [edit chassis fpc slot-number] :

Para configurar el sondeo de cordura para un FEB en el enrutador M120, incluya la sanity-poll instrucción y sus subinstrucciones en el nivel jerárquico [edit chassis feb slot-number] :

Para configurar el sondeo de cordura para un CFEB en enrutadores M7i y M10, incluya la sanity-poll instrucción y sus subinstrucciones en el nivel jerárquico [edit chassis cfeb slot-number] :

Nota:

En un enrutador TX Matrix o TX Matrix Plus, puede configurar la sanity-poll instrucción en el nivel de [edit chassis lcc number fpc number] jerarquía.

La sanity-poll instrucción comprende las siguientes subdeclaraciones:

La retry-count instrucción especifica el número de nuevas comprobaciones que se realizarán después de que se produzca una condición de error determinada. Si existe un error en todas las comprobaciones periódicas, el sondeo de cordura informa de un error y procede a realizar las acciones apropiadas (descritas como opciones de la on-error instrucción).

Por ejemplo, si la comprobación periódica de cordura detecta un error en el FPC, FEB o CFEB y si configura el a 15, el retry count number sondeo de cordura no informa el error inmediatamente. El sondeo de cordura comprueba 15 veces la misma condición de error. Si un error persiste en las 15 recomprobaciones, informará de un error y tomará las medidas adecuadas.

Si no configura la retry-count instrucción, la instrucción vuelve a comprobar de forma predeterminada el sanity-poll error detectado 10 veces antes de informar de una condición de error.
Si el sondeo de cordura detecta una condición de error, la on-error instrucción realiza las acciones adecuadas para eliminarlo.

Las siguientes acciones son comunes a todo tipo de condiciones de error:
- Para generar una alarma de chasis, configure la raise-alarm instrucción. La alarma del chasis se muestra en el panel frontal del chasis.
- Para reiniciar FPC, FEB o CFEB después de generar un archivo de núcleo, configure la power cycle instrucción. Esta instrucción es útil para los errores temporales de software que se eliminan después del reinicio.
- Para detener la FPC, FEB o CFEB, configure la power off instrucción. Esta instrucción es útil en caso de fallo permanente de hardware.
  
  CAUTELA:
  
  La power off declaración detiene el FPC. Asegúrese de tener rutas de respaldo a través de un FPC, FEB o CFEB diferente para evitar interrupciones del servicio.
  
  Nota:
  Las power cycle instrucciones y power off son mutuamente excluyentes: puede configurar la power cycle acción o la power off acción para un error.
- Para activar el archivo principal, configure la write-coredump instrucción.

Puede configurar varias acciones para un FPC, FEB o CFEB determinado. Si no configura ninguna acción, la instrucción sólo genera mensajes de sanity-poll registro del sistema FPC, FEB o CFEB.

Configurar Junos OS para que un concentrador de PIC flexible permanezca sin conexión

De forma predeterminada, un concentrador PIC flexible (FPC) está configurado para reiniciarse después de reiniciar el sistema. Puede utilizar el comando del request chassis fpc modo operativo para desconectar una FPC, pero en Junos OS la FPC intenta reiniciarse cuando se introduce un comando de commit la CLI. Para configurar una FPC para que permanezca sin conexión e impedir que se reinicie, incluya la power off instrucción en el nivel de [edit chassis fpc slot-number] jerarquía:

Para conectar una FPC que está configurada para permanecer sin conexión y configurarla para que permanezca en línea, incluya la power on instrucción en el nivel de [edit chassis fpc slot-number] jerarquía:

Configurar un SFM para permanecer sin conexión

De forma predeterminada, si utiliza el comando de la request chassis sfm CLI para desconectar un módulo de conmutación y reenvío (SFM), el SFM intenta reiniciarse cuando se introduce un commit comando de la CLI. Para evitar un reinicio, puede configurar un SFM para que permanezca sin conexión. Esta característica es útil para situaciones de reparación.

Para configurar un MFS para que permanezca sin conexión, incluya la sfm instrucción en el nivel jerárquico [edit chassis] :

slot number: número de ranura en el que está instalado el MFS.
power off—Desconecte el MFS y configúrelo para que permanezca sin conexión.

Por ejemplo, la siguiente instrucción desconecta un MFS en la ranura 3:

Utilice el comando de la show chassis sfm CLI para confirmar el estado sin conexión:

Para volver a poner en línea el SFM, elimine la edit chassis sfm instrucción y, a continuación, confirme la configuración.

Resincronización de números de secuencia de FPC con FPC activos cuando un FPC se conecta

En los enrutadores M320, T320, T640, T1600, T4000, TX Matrix y TX Matrix Plus, cuando conecta un concentrador de PIC flexible (FPC), es posible que el número de secuencia del FPC no esté sincronizado con los otros FPC activos del enrutador, lo que puede provocar la pérdida de una pequeña cantidad de tráfico inicial.

Para evitar cualquier pérdida de tráfico, incluya la fpc-resync instrucción en el nivel de [edit chassis] jerarquía. Esto garantiza que los números de secuencia de la FPC que se pone en línea se vuelvan a sincronizar con las demás FPC activas en el enrutador.

Nota:

Para evitar el filtrado de ruta nula, el fpc-resync comando no tendrá ningún efecto si existe un solo FPC basado en LMNR y uno o más FPC de chip I en el mismo chasis.

Habilitar el motor de enrutamiento para que se reinicie con errores de disco duro

Cuando se produce un error de disco duro, un motor de enrutamiento puede entrar en un estado en el que responde a pings locales y las interfaces permanecen activas, pero ningún otro proceso responde.

Para recuperarse de esta situación, puede configurar un único motor de enrutamiento para que se reinicie automáticamente cuando se produzca un error en el disco duro. Para habilitar esta característica, incluya la on-disk-failure reboot instrucción en el nivel de [edit chassis routing-engine] jerarquía.

Para entornos de motor de enrutamiento dual, puede configurar un motor de enrutamiento de copia de seguridad para que asuma automáticamente la función principal, si detecta un error de disco duro en el motor de enrutamiento principal. Para habilitar esta característica, incluya la on-disk-failure instrucción en el nivel de [edit chassis redundancy failover] jerarquía. Para obtener información sobre esta instrucción, consulte la Guía del usuario de alta disponibilidad de Junos OS.

Puede configurar el motor de enrutamiento para que se detenga (en lugar de reiniciar) cuando se produzca un error en el disco duro del motor de enrutamiento. Para configurar esta característica, incluya la disk-failure-action (halt | reboot) instrucción en el nivel de [edit chassis routing-engine on-disk-failure] jerarquía:

Utilice la opción detener para configurar el motor de enrutamiento para que se detenga cuando se produzca un error en el disco duro. Utilice la opción de reinicio para configurar el motor de enrutamiento para que se reinicie cuando se produzca un error en el disco duro.

Controlar eventos de salud térmica mediante Thermal Health Check y PSM Watchdog

Puede utilizar la característica de comprobación de estado térmico para configurar una acción que debe realizarse en caso de detección de un evento de estado térmico, como una fuga de energía. La función de comprobación térmica supervisa la salida de alimentación del módulo de suministro de alimentación (PSM) y el consumo de energía de FRU y, si detecta que la salida de alimentación de PSM supera el consumo de energía de FRU en un umbral definido por el usuario, asume que hay un evento de estado térmico y realiza una acción basada en la configuración del usuario. Puede configurar acciones como el apagado automático o las alarmas que se iniciarán al detectar un evento de estado térmico. Un ejemplo de la configuración es el siguiente: set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700. Esta configuración de ejemplo permite que el software detecte un evento de salud térmica si la fuga de energía supera los 700 W y apaga el sistema 10 segundos después de que se detecte la falla de salud térmica.

La función de comprobación de estado térmico solo funciona si:

El enrutador tiene las unidades de distribución de alimentación (PDU) de CA o CC de alta capacidad instaladas en ambas ranuras, y cada PDU tiene el mismo número de PSM. Se admiten tanto AC PSM como DC PSM.

A continuación se enumeran los PSM y PDU compatibles:
- PSM de CA de alta capacidad (modelo: PSM2-PTX-AC; firmware: 0210 o posterior; revisión de hardware: 06 o posterior)
- PSM de alta capacidad de 60A DC (modelo: PSM2-PTX-DC; firmware: 0315 o posterior; revisión de hardware: 09 o posterior)
- PDU de CC de 60 A de alta capacidad (modelo: PDU2-PTX-DC; utilice la versión de firmware 0404 o posterior con la revisión de hardware 07; utilice la versión de firmware 0503 o posterior con la revisión de hardware 08)
- PDU Delta de CA de alta capacidad (modelo: PDU2-PTX-AC-D; firmware: 0305 o posterior; revisión de hardware: 04 o posterior)
- PDU Wye de CA de alta capacidad (modelo: PDU2-PTX-AC-W; firmware: 0305 o posterior; revisión de hardware: 03 o posterior)
- PDU AC monofásica de alta capacidad (modelo: PDU2-PTX-AC-SP; firmware: 0102 o posterior; revisión de hardware: 03 o posterior)
Cada PDU tiene al menos tres PSM que están en línea, y cada PSM en línea consume una corriente superior a 60A (en el caso de un PSM de CA) o una corriente superior a 100A (en el caso de un PSM de CC).
Ninguna de las FRU (RE, SIB y FPC) está en el estado "Presente".

En el enrutador, también puede configurar la función de vigilancia PSM en la jerarquía [edit chassis]. Si un evento de estado térmico hace que Junos deje de funcionar, la función de vigilancia de PSM lo detecta y apaga el enrutador. En la configuración del vigilante, puede especificar el temporizador del vigilante en segundos. Después de la duración especificada, el perro guardián expira. También puede especificar la frecuencia (en minutos) con la que Junos restablece el contador de vigilancia. Si el contador de vigilancia no se restablece debido a razones como el bloqueo del motor de enrutamiento, el PSM apaga la potencia de salida en la caducidad del temporizador de vigilancia y, por lo tanto, apaga el enrutador.

Ejemplos de configuraciones son los siguientes:

Uso set chassis psm watchdog timeout 600 pat-frequency 2. Este comando habilita el vigilante PSM con el temporizador de vigilancia establecido en 600 segundos y el contador está configurado para restablecerse cada 2 minutos.
Uso set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.. Este comando permite la comprobación del estado térmico y apaga el sistema 10 segundos después de que se detecte una falla de FET.

Nota:

La función de vigilancia de PSM solo funciona si todos los PSM en línea del enrutador admiten esta función.

En resumen, si el software del motor de enrutamiento se está ejecutando cuando se produce un evento térmico, la función de comprobación de estado térmico detecta el evento térmico y realiza una acción. Sin embargo, si el software del motor de enrutamiento deja de funcionar en un evento de salud térmica, es el temporizador de vigilancia de PSM el que detecta este problema y desactiva el sistema.

Tabla de historial de cambios

La compatibilidad con las funciones viene determinada por la plataforma y la versión que esté utilizando. Utilice el Explorador de características para determinar si una característica es compatible con su plataforma.

Lanzamiento

Descripción

18.1R3

A partir de Junos OS versión 18.1R3, los enrutadores serie MX admiten la configuración de umbrales y acciones de error en los niveles de ámbito y categoría de error.

13.3

A partir de Junos OS versión 13.3 o versión 14.2 para enrutadores M320, puede utilizar enrutadores serie MX, serie PTX y serie T para configurar niveles de error relacionados con el motor de reenvío de paquetes (PFE) en FPC y las acciones que se deben realizar cuando se alcanza un umbral especificado.

EN ESTA PÁGINA

Administración de errores

Configurar niveles y acciones de error de FPC

Ejemplo: configuración de la detección de errores FPC y la reparación automática en enrutadores centrales de la serie T

Requisitos

Visión general

Configuración

Configuración rápida de CLI

Configuración de la detección de errores y la recuperación automática

Procedimiento paso a paso

Resultados

Verificación

Comprobación de las acciones configuradas relacionadas con la gravedad grave del error de FPC

Propósito

Acción

Significado

Administrar errores de FPC

Modificar la gravedad de un error

Deshabilitar un error

Configurar sondeo de cordura

Configurar Junos OS para que un concentrador de PIC flexible permanezca sin conexión

Configurar un SFM para permanecer sin conexión

Resincronización de números de secuencia de FPC con FPC activos cuando un FPC se conecta

Habilitar el motor de enrutamiento para que se reinicie con errores de disco duro

Controlar eventos de salud térmica mediante Thermal Health Check y PSM Watchdog

Documentación relacionada

Tabla de historial de cambios