EN ESTA PÁGINA
Configuración de Junos OS para que un concentrador PIC flexible permanezca sin conexión
Resincronización de números de secuencia de FPC con FPC activos cuando un FPC se conecta
Habilitar un motor de enrutamiento para reiniciar con errores de disco duro
Control de eventos de salud térmica mediante Thermal Health Check y PSM Watchdog
Administración de errores
Configuración de niveles y acciones de error de FPC
A partir de Junos OS versión 13.3 o versión 14.2 para enrutadores M320, puede utilizar enrutadores serie MX, serie PTX y serie T para configurar niveles de error relacionados con el motor de reenvío de paquetes (PFE) en FPC y las acciones que se deben realizar cuando se alcanza un umbral especificado. En Junos OS versión 13.2 y anteriores, los errores del motor de reenvío de paquetes deshabilitaban el FPC. Cuando se utiliza el comando, los errores del error
motor de reenvío de paquetes se pueden aislar, lo que reduce la necesidad de un reemplazo de campo. Con el comando, puede clasificar los errores según la error
gravedad, establecer una acción de recuperación automática para cada gravedad y configurar las acciones que se realizarán cuando se alcance un umbral especificado. Este comando está disponible en las [edit chassis fpc slot-number]
jerarquías y [edit chassis]
.
Para configurar los niveles de error y las acciones del motor de reenvío de paquetes para una FPC:
-
(Opcional) Configure el umbral y la acción del nivel de error fatal. Un error grave es un error que provoca el bloqueo de una cantidad considerable de tráfico entre módulos.
[edit chassis fpc fpc-number error] user@host# set fatal action action user@host# set fatal threshold threshold-level
Si el nivel de gravedad del error es fatal, la acción se lleva a cabo cuando el número total de errores alcanza el valor umbral. Después de cruzar el valor de umbral, para cada ocurrencia del error, se lleva a cabo una acción.
-
(Opcional) Configure el umbral y la acción principales del nivel de error. Un error importante es un error que resulta en la pérdida continua de tráfico de paquetes, pero no afecta a otros módulos.
[edit chassis fpc fpc-number error] user@host# set major action action user@host# set major threshold threshold-level
Si el nivel de gravedad del error es mayor, la acción se lleva a cabo cuando el número total de errores alcanza el valor umbral. Después de cruzar el valor de umbral, para cada ocurrencia del error, se lleva a cabo una acción.
-
(Opcional) Configure el umbral y la acción del nivel de error menor. Un error menor es un error que resulta en la pérdida de un solo paquete, pero es totalmente recuperable.
[edit chassis fpc fpc-number error] user@host# set minor action action user@host# set minor threshold threshold-level
Si el nivel de gravedad es menor, la acción solo se lleva a cabo una vez cuando el número total de errores alcanza el valor umbral
A partir de Junos OS versión 18.1R3, los enrutadores serie MX admiten la configuración de umbrales y acciones de error en los niveles de ámbito y categoría de error. Use el comando set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe)
para configurar un umbral y una acción para un ámbito y una categoría de error determinados en el nivel de FPC. También puede configurar estas características en el nivel del chasis (en la [edit chassis]
jerarquía). Sin embargo, el umbral y la acción configurados en la [edit chassis fpc]
jerarquía anulan la misma configuración en la [edit chassis]
jerarquía.
Puede usar el comando show chassis fpc errors
para ver la información del error en el ámbito del error y en el nivel de categoría.
Para Junos OS Evolved, puede utilizar los siguientes show
comandos para ver la información del error:
-
show system errors count
: muestra los errores de todo el sistema y su recuento. -
show system errors active
: muestra los errores activos actuales en el sistema. -
show system errors active fpc <slot number>
: muestra errores activos para el FPC especificado. -
show system errors fru detail
: muestra un error detallado específico de la FRU. -
show system errors fru detail fpc <slot number>
: muestra información sobre los errores detectados en función de la FRU.
Si ha configurado la acción log
con respecto a un umbral de error determinado, el sistema registra el evento cuando el recuento de errores supera el umbral establecido. Los siguientes mensajes syslog de ejemplo indican una infracción del umbral de error y la acción resultante que se está tomando:
Sep 17 23:12:10 sw-s3-u8-03 fpc0 Error: /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b), scope: pfe, category: functional, severity: minor, module: PE Chip, type: Description for PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR Sep 17 23:12:10 sw-s3-u8-03 fpc0 Performing action log for error /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b) in module: PE Chip with scope: pfe category: functional level: minor
Las offline, reset, disable-pfe, offline-pfe
acciones y reset-pfe
son mutuamente excluyentes con respecto a la configuración. El PFE especificado se desactiva automáticamente, si offline-pfe
está reset-pfe
configurado.
disable-pfe
está disponible a partir de Junos 17.4 y versiones posteriores.
En la tabla siguiente se proporcionan detalles sobre las acciones de asignación de errores de PFE y la respuesta del sistema:
Respuesta a la acción | |
---|---|
disable-pfe |
Deshabilita todas las interfaces, alarmas y registros de PFE. |
offline |
Desconecta la FPC, deshabilita las alarmas y los registros. |
reset |
Desconecta la FPC y la restablece a conexión, habilita las alarmas y los registros. |
reset-pfe |
Apaga el PFE, desactiva las alarmas y registra y, luego, enciende el PFE, habilita las alarmas y los registros. |
offline-pfe |
Apaga el PFE, desactiva las alarmas y los registros, |
Ejemplo: configuración de la detección de errores FPC y la reparación automática en enrutadores centrales de la serie T
En este ejemplo se muestra cómo configurar la detección de errores y la reparación automática en un enrutador central de la serie T de Juniper Networks con FPC tipo 5.
Requisitos
En este ejemplo se utilizan los siguientes componentes de hardware y software:
Enrutador de núcleo T4000 de Juniper Networks con FPC tipo 5.
Junos OS versión 13.3 o posterior.
Antes de continuar, asegúrese de que las conexiones necesarias estén completas y de que las interfaces funcionen.
Visión general
La detección de errores de FPC y la recuperación automática implican configurar un conjunto de acciones que se realizarán en cada FPC, cuando el número de errores para una gravedad determinada aumenta más allá de un umbral configurado por el usuario. La gravedad del error se clasifica en grave, mayor y menor. Las acciones de recuperación incluyen activar una alarma, generar entradas de registro, obtener el estado actual de la FPC, reiniciar la FPC, desconectar la FPC y restablecer la FPC. Para una FPC y una gravedad de error determinadas, puede configurar el umbral de error en cualquier valor dentro de los límites permitidos y asignar el umbral a una acción. En este ejemplo, establecerá estos errores en FPC 0 en el enrutador central T4000 de Juniper Networks.
Configuración
Para configurar la detección de errores y la autorreparación, debe establecer la gravedad del error, los valores de umbral correspondientes a cada gravedad de error y las acciones que se realizarán cuando se cruce el valor de umbral.
- Configuración rápida de CLI
- Configuración de la detección de errores y la recuperación automática
- Resultados
Configuración rápida de CLI
Para configurar rápidamente este ejemplo, copie los siguientes comandos, péguelos en un archivo de texto, elimine los saltos de línea, cambie los detalles necesarios para que coincidan con su configuración de red y, a continuación, copie y pegue los comandos en la CLI en el nivel de jerarquía [editar interfaces].
set chassis fpc 0 fatal threshold 1 action resetset chassis fpc 0 major threshold 1 action alarmset chassis fpc 0 minor threshold 10 action log
Configuración de la detección de errores y la recuperación automática
Procedimiento paso a paso
En el ejemplo siguiente es necesario navegar por varios niveles en la jerarquía de configuración. Para obtener información acerca de cómo navegar por la CLI, consulte Uso del editor de CLI en el modo de configuración y la Guía del usuario de CLI.
Configure el valor de umbral y la acción asociada para errores fatales.
Establezca la gravedad del error en fatal.
[edit interfaces]
user@host# set chassis fpc 0 error fatal
Establezca el valor de umbral para errores graves.
[edit interfaces]
user@host# set chassis fpc 0 error fatal threshold 1
Establezca la acción asociada para errores fatales.
[edit interfaces]
user@host# set chassis fpc 0 error fatal threshold 1 action reset
Configure el valor de umbral y la acción asociada para errores importantes.
Establezca la gravedad del error en mayor.
[edit interfaces]
user@host# set chassis fpc 0 error major
Establezca el valor de umbral para errores importantes.
[edit interfaces]
user@host# set chassis fpc 0 error major threshold 1
Establezca la acción asociada para errores importantes.
[edit interfaces]
user@host# set chassis fpc 0 error major threshold 1 action alarm
Configure el valor de umbral y la acción asociada para errores menores.
Establezca la gravedad del error en menor.
[edit interfaces]
[edit interfaces]
user@host# set chassis fpc 0 error minor
Establezca el valor de umbral para errores menores.
[edit interfaces]
user@host# set chassis fpc 0 error minor threshold 10
Establezca la acción asociada para errores menores.
[edit interfaces]
user@host# set chassis fpc 0 error minor threshold 10 action log
Resultados
A continuación se muestra el resultado de la configuración del nivel de gravedad grave.
user@host# set chassis fpc 0 error ? Possible completions: + apply-groups Groups from which to inherit configuration data + apply-groups-except Don't inherit configuration data from these groups > fatal FPC Fatal errors (default threshold = 1) > major FPC Major Level errors (default threshold = 1) > minor FPC Minor Level errors (default threshold = 10)user@host# set chassis fpc 0 error fatal action ? Possible completions: alarm Raise FPC alarm get-state Retreive FPC state for debugging log Log occurence to system log file offline Offline FPC offline-pic Offline PICs associated with PFE on FPC reset Reset FPCuser@host# set chassis fpc 0 error fatal action resetuser@host# set chassis fpc 0 error fatal threshold ? Possible completions: <threshold> Error count at which to take the action (0..4294967295)user@host# set chassis fpc 0 error fatal threshold 1
Si ha terminado de configurar los dispositivos, ingrese commit
desde el modo de configuración.
Verificación
Para verificar que la configuración se realiza correctamente y que el enrutador está configurado con la acción correcta, utilice el show chassis fpc errors
comando.
Comprobación de las acciones configuradas relacionadas con la gravedad grave del error de FPC
Propósito
Asegúrese de que el valor de umbral y la acción asociada están configurados para errores fatales.
Acción
user@host> show chassis fpc errors FPC Level Occurred Cleared Threshold Action-Taken Action 0 Fatal 0 0 1 RESET Pfe-State: pfe-0 -ENABLED | pfe-1 -ENABLED | pfe-2 -ENABLED | pfe-3 -ENABLED | pfe-4 -ENABLED | pfe-5 -ENABLED | pfe-6 -ENABLED | pfe-7 -ENABLED |
Significado
La salida de ejemplo muestra Fatal
un error en FPC 0
con 0
error Occurred
(sin repeticiones anteriores), 0
error Cleared
(sin ocurrencias anteriores) con Threshold
el valor establecido en 1
y Action-Taken
establecido en RESET
.
Administración de errores de FPC
En los enrutadores de la serie PTX, puede deshabilitar un error de FPC o modificar la gravedad del error en el nivel de identificador de error. Consulte Autorrecuperación de FPC para obtener más información sobre las plataformas PTX que admiten esta función.
El identificador de error, que identifica de forma exclusiva un error FPC, se representa en el formato de identificador uniforme de recursos (URI) y se compone de un identificador de módulo y un identificador de error. Si se produce un error, puede encontrar el identificador de error en los mensajes de registro del sistema.
Modificación de la gravedad de un error
Aunque no puede configurar una nueva gravedad de error, puede modificar la gravedad existente de un error. Por ejemplo, si ya no desea tratar un error en particular (identificado por un identificador de error) como fatal, puede modificar su gravedad a mayor o menor según sea necesario.
No puede modificar la gravedad del error en un nivel de grupo (por ejemplo, categoría).
Para modificar la gravedad de un error, utilice el siguiente comando:
user@host# set chassis fpc fpc-slot error error-id severity new-severity
Vea el siguiente ejemplo:
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" severity minor
En el ejemplo anterior, modificó la gravedad del identificador “/cpu/0/memory/0/memory-uncorrected-error”
de error en FPC 3 a minor
.
Deshabilitar un error
Para configurar el sistema para que deje de informar de un error, identifique el identificador de error y desactívelo. Puede encontrar el identificador de error en los mensajes de registro del sistema. Para deshabilitar un error, utilice el siguiente comando:
user@host# set chassis fpc fpc-slot error error-id state disable
Vea el siguiente ejemplo:
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" state disable
En el ejemplo anterior, deshabilitó el error “/cpu/0/memory/0/memory-uncorrected-error”
en FPC 3.
Apagar los motores de reenvío de paquetes
Puede encender o apagar los motores de reenvío de paquetes en un sistema en ejecución, o mantener un motor de reenvío de paquetes apagado cuando el FPC esté en línea. A continuación se muestran un par de escenarios en los que se usa esta característica.
Cuando el ASIC del motor de reenvío de paquetes no funciona correctamente.
Para ahorrar energía en caso de que el despliegue no requiera toda la capacidad del sistema.
Para apagar un motor de reenvío de paquetes, siga estos pasos:
user@host# set chassis fpc slot-number pfe pfe-id power off
user@host# commit
Para encender un motor de reenvío de paquetes, siga estos pasos:
user@host# set chassis fpc slot-number pfe pfe-id power on
user@host# commit
Debe aplicar esta configuración a los dos motores de reenvío de paquetes de un ASIC para poder confirmar la configuración.
En los enrutadores de la serie MX con MPC10E-15C-MRATE, solo puede apagar o encender el motor de reenvío de paquetes 2. Los motores de reenvío de paquetes 0 y 1 no admiten este comando. En el MPC10E-15C-MRATE, el funcionamiento del motor de reenvío de paquetes 2 requiere que los motores de reenvío de paquetes 0 y 1 sean funcionales. Puede utilizar el comando show chassis fpc fpc-lot detail
para ver el estado y el ancho de banda y el estado de encendido/apagado del motor de reenvío de paquetes para los motores de reenvío de paquetes individuales en el MPC10E-15C-MRATE.
Puede usar el show chassis fpc fpc-slot detail
comando para ver el estado de configuración de encendido/apagado del motor de reenvío de paquetes. Vea un ejemplo a continuación:
user@router> show chassis fpc 0 detail Slot 0 information: State Online Temperature 41 degrees C / 105 degrees F (PFE_24-HBM) Temperature 44 degrees C / 111 degrees F (PFE_25-HBM) Temperature 43 degrees C / 109 degrees F (PFE_26-HBM) Temperature 41 degrees C / 105 degrees F (PFE_27-HBM) Temperature 40 degrees C / 104 degrees F (PFE_28-HBM) Temperature 40 degrees C / 104 degrees F (PFE_29-HBM) Temperature 38 degrees C / 100 degrees F (PFE_30-HBM) Temperature 39 degrees C / 102 degrees F (PFE_31-HBM) Start time 2020-10-28 00:46:17 PDT Uptime 1 day, 1 hour, 34 minutes, 48 seconds Max power consumption 825 Watts PFE Information: PFE Power ON/OFF Bandwidth SLC 0 On 500 1 On 500 2 On 500 3 On 500 4 On 500 5 On 500 6 On 500 7 On 500
Configuración del sondeo de cordura
Puede configurar la sanity-poll
instrucción para un FPC, FEB o CFEB en particular para iniciar una comprobación periódica de cordura para ese FPC, FEB o CFEB. La comprobación periódica de cordura incluye la comprobación de condiciones de error como "registrar problemas de cordura", "alta temperatura", "error de hardware", etc. Si no configura la instrucción, se deshabilitará el sanity-poll
sondeo de cordura.
Actualmente, la comprobación periódica de la cordura solo se realiza en el registro del chip de enrutamiento.
El sondeo de cordura comprueba periódicamente si hay una condición de error en un FPC, FEB o CFEB y realiza las acciones apropiadas en caso de un error.
Para configurar el sondeo de cordura para una FPC en enrutadores serie T y enrutadores M320, incluya la
sanity-poll
instrucción y sus subinstrucciones en el nivel jerárquico[edit chassis fpc slot-number]
:[edit chassis] fpc slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
Para configurar el sondeo de cordura para un FEB en el enrutador M120, incluya la
sanity-poll
instrucción y sus subinstrucciones en el nivel jerárquico[edit chassis feb slot-number]
:[edit chassis] feb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
Para configurar el sondeo de cordura para un CFEB en enrutadores M7i y M10, incluya la
sanity-poll
instrucción y sus subinstrucciones en el nivel jerárquico[edit chassis cfeb slot-number]
:[edit chassis] cfeb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
En un enrutador TX Matrix o TX Matrix Plus, puede configurar la sanity-poll
instrucción en el nivel de [edit chassis lcc number fpc number]
jerarquía.
La sanity-poll
instrucción comprende las siguientes subdeclaraciones:
La
retry-count
instrucción especifica el número de nuevas comprobaciones que se realizarán después de que se produzca una condición de error determinada. Si existe un error en todas las comprobaciones periódicas, el sondeo de cordura informa de un error y procede a realizar las acciones apropiadas (descritas como opciones de laon-error
instrucción).Por ejemplo, si la comprobación periódica de cordura detecta un error en el FPC, FEB o CFEB y si configura el a 15, el
retry count number
sondeo de cordura no informa el error inmediatamente. El sondeo de cordura comprueba 15 veces la misma condición de error. Si un error persiste en las 15 recomprobaciones, informará de un error y tomará las medidas adecuadas.Si no configura la
retry-count
instrucción, la instrucción vuelve a comprobar de forma predeterminada elsanity-poll
error detectado 10 veces antes de informar de una condición de error.Si el sondeo de cordura detecta una condición de error, la
on-error
instrucción realiza las acciones adecuadas para eliminarlo.Las siguientes acciones son comunes a todo tipo de condiciones de error:
Para generar una alarma de chasis, configure la
raise-alarm
instrucción. La alarma del chasis se muestra en el panel frontal del chasis.Para reiniciar FPC, FEB o CFEB después de generar un archivo de núcleo, configure la
power cycle
instrucción. Esta instrucción es útil para los errores temporales de software que se eliminan después del reinicio.Para detener la FPC, FEB o CFEB, configure la
power off
instrucción. Esta instrucción es útil en caso de fallo permanente de hardware.CAUTELA:La
power off
declaración detiene el FPC. Asegúrese de tener rutas de respaldo a través de un FPC, FEB o CFEB diferente para evitar interrupciones del servicio.Nota:Las
power cycle
instrucciones ypower off
son mutuamente excluyentes: puede configurar lapower cycle
acción o lapower off
acción para un error.Para activar el archivo principal, configure la
write-coredump
instrucción.
Puede configurar varias acciones para un FPC, FEB o CFEB determinado. Si no configura ninguna acción, la instrucción sólo genera mensajes de sanity-poll
registro del sistema FPC, FEB o CFEB.
Configuración de Junos OS para que un concentrador PIC flexible permanezca sin conexión
De forma predeterminada, un concentrador PIC flexible (FPC) está configurado para reiniciarse después de reiniciar el sistema. Puede utilizar el comando del request chassis fpc
modo operativo para desconectar una FPC, pero en Junos OS la FPC intenta reiniciarse cuando se introduce un comando de commit
la CLI. Para configurar una FPC para que permanezca sin conexión e impedir que se reinicie, incluya la power off
instrucción en el nivel de [edit chassis fpc slot-number]
jerarquía:
[edit chassis fpc slot-number] power off;
Para conectar una FPC que está configurada para permanecer sin conexión y configurarla para que permanezca en línea, incluya la power on
instrucción en el nivel de [edit chassis fpc slot-number]
jerarquía:
[edit chassis fpc slot-number] power on;
Configuración de un GFS para permanecer sin conexión
De forma predeterminada, si utiliza el comando de la request chassis sfm
CLI para desconectar un módulo de conmutación y reenvío (SFM), el SFM intenta reiniciarse cuando se introduce un commit
comando de la CLI. Para evitar un reinicio, puede configurar un SFM para que permanezca sin conexión. Esta característica es útil para situaciones de reparación.
Para configurar un MFS para que permanezca sin conexión, incluya la sfm
instrucción en el nivel jerárquico [edit chassis]
:
[edit chassis] sfm slot-number { power off; }
slot number
: número de ranura en el que está instalado el MFS.power off
—Desconecte el MFS y configúrelo para que permanezca sin conexión.
Por ejemplo, la siguiente instrucción desconecta un MFS en la ranura 3:
[edit chassis] sfm 3 power off;
Utilice el comando de la show chassis sfm
CLI para confirmar el estado sin conexión:
user@host# show chassis sfm Temp CPU Utilization (%) Memory Utilization (%) Slot State (C) Total Interrupt DRAM (MB) Heap Buffer 0 Online 34 2 0 64 16 47 1 Online 38 2 0 64 16 47 2 Online 42 2 0 64 16 47 3 Offline --- Configured power off ---
Para volver a poner en línea el SFM, elimine la edit chassis sfm
instrucción y, a continuación, confirme la configuración.
Resincronización de números de secuencia de FPC con FPC activos cuando un FPC se conecta
En los enrutadores M320, T320, T640, T1600, T4000, TX Matrix y TX Matrix Plus, cuando conecta un concentrador de PIC flexible (FPC), es posible que el número de secuencia del FPC no esté sincronizado con los otros FPC activos del enrutador, lo que puede provocar la pérdida de una pequeña cantidad de tráfico inicial.
Para evitar cualquier pérdida de tráfico, incluya la fpc-resync
instrucción en el nivel de [edit chassis]
jerarquía. Esto garantiza que los números de secuencia de la FPC que se pone en línea se vuelvan a sincronizar con las demás FPC activas en el enrutador.
[edit chassis] fpc-resync;
Para evitar el filtrado de ruta nula, el fpc-resync
comando no tendrá ningún efecto si existe un solo FPC basado en LMNR y uno o más FPC de chip I en el mismo chasis.
Habilitar un motor de enrutamiento para reiniciar con errores de disco duro
Cuando se produce un error de disco duro, un motor de enrutamiento puede entrar en un estado en el que responde a pings locales y las interfaces permanecen activas, pero ningún otro proceso responde.
Para recuperarse de esta situación, puede configurar un único motor de enrutamiento para que se reinicie automáticamente cuando se produzca un error en el disco duro. Para habilitar esta característica, incluya la on-disk-failure reboot
instrucción en el nivel de [edit chassis routing-engine]
jerarquía.
[edit chassis routing-engine] on-disk-failure { disk-failure-action (halt | reboot); }
Para entornos de motor de enrutamiento dual, puede configurar un motor de enrutamiento de copia de seguridad para que asuma automáticamente la función principal, si detecta un error de disco duro en el motor de enrutamiento principal. Para habilitar esta característica, incluya la on-disk-failure
instrucción en el nivel de [edit chassis redundancy failover]
jerarquía. Para obtener información sobre esta instrucción, consulte la Guía del usuario de alta disponibilidad de Junos OS.
Puede configurar el motor de enrutamiento para que se detenga (en lugar de reiniciar) cuando se produzca un error en el disco duro del motor de enrutamiento. Para configurar esta característica, incluya la disk-failure-action (halt | reboot)
instrucción en el nivel de [edit chassis routing-engine on-disk-failure]
jerarquía:
[edit chassis routing-engine] on-disk-failure { disk-failure-action (halt | reboot); }
Utilice la opción detener para configurar el motor de enrutamiento para que se detenga cuando se produzca un error en el disco duro. Utilice la opción de reinicio para configurar el motor de enrutamiento para que se reinicie cuando se produzca un error en el disco duro.
Control de eventos de salud térmica mediante Thermal Health Check y PSM Watchdog
Puede utilizar la característica de comprobación de estado térmico para configurar una acción que debe realizarse en caso de detección de un evento de estado térmico, como una fuga de energía. La función de comprobación térmica supervisa la salida de alimentación del módulo de suministro de alimentación (PSM) y el consumo de energía de FRU y, si detecta que la salida de alimentación de PSM supera el consumo de energía de FRU en un umbral definido por el usuario, asume que hay un evento de estado térmico y realiza una acción basada en la configuración del usuario. Puede configurar acciones como el apagado automático o las alarmas que se iniciarán al detectar un evento de estado térmico. Un ejemplo de la configuración es el siguiente: set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700
. Esta configuración de ejemplo permite que el software detecte un evento de salud térmica si la fuga de energía supera los 700 W y apaga el sistema 10 segundos después de que se detecte la falla de salud térmica.
La función de comprobación de estado térmico solo funciona si:
El enrutador tiene las unidades de distribución de alimentación (PDU) de CA o CC de alta capacidad instaladas en ambas ranuras, y cada PDU tiene el mismo número de PSM. Se admiten tanto AC PSM como DC PSM.
A continuación se enumeran los PSM y PDU compatibles:
PSM de CA de alta capacidad (modelo: PSM2-PTX-AC; firmware: 0210 o posterior; revisión de hardware: 06 o posterior)
PSM de alta capacidad de 60A DC (modelo: PSM2-PTX-DC; firmware: 0315 o posterior; revisión de hardware: 09 o posterior)
PDU de CC de 60 A de alta capacidad (modelo: PDU2-PTX-DC; utilice la versión de firmware 0404 o posterior con la revisión de hardware 07; utilice la versión de firmware 0503 o posterior con la revisión de hardware 08)
PDU Delta de CA de alta capacidad (modelo: PDU2-PTX-AC-D; firmware: 0305 o posterior; revisión de hardware: 04 o posterior)
PDU Wye de CA de alta capacidad (modelo: PDU2-PTX-AC-W; firmware: 0305 o posterior; revisión de hardware: 03 o posterior)
PDU AC monofásica de alta capacidad (modelo: PDU2-PTX-AC-SP; firmware: 0102 o posterior; revisión de hardware: 03 o posterior)
Cada PDU tiene al menos tres PSM que están en línea, y cada PSM en línea consume una corriente superior a 60A (en el caso de un PSM de CA) o una corriente superior a 100A (en el caso de un PSM de CC).
Ninguna de las FRU (RE, SIB y FPC) está en el estado "Presente".
En el enrutador, también puede configurar la función de vigilancia PSM en la jerarquía [edit chassis]. Si un evento de estado térmico hace que Junos deje de funcionar, la función de vigilancia de PSM lo detecta y apaga el enrutador. En la configuración del vigilante, puede especificar el temporizador del vigilante en segundos. Después de la duración especificada, el perro guardián expira. También puede especificar la frecuencia (en minutos) con la que Junos restablece el contador de vigilancia. Si el contador de vigilancia no se restablece debido a razones como el bloqueo del motor de enrutamiento, el PSM apaga la potencia de salida en la caducidad del temporizador de vigilancia y, por lo tanto, apaga el enrutador.
Ejemplos de configuraciones son los siguientes:
- Uso
set chassis psm watchdog timeout 600 pat-frequency 2
. Este comando habilita el vigilante PSM con el temporizador de vigilancia establecido en 600 segundos y el contador está configurado para restablecerse cada 2 minutos. - Uso
set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.
. Este comando permite la comprobación del estado térmico y apaga el sistema 10 segundos después de que se detecte una falla de FET.
La función de vigilancia de PSM solo funciona si todos los PSM en línea del enrutador admiten esta función.
En resumen, si el software del motor de enrutamiento se está ejecutando cuando se produce un evento térmico, la función de comprobación de estado térmico detecta el evento térmico y realiza una acción. Sin embargo, si el software del motor de enrutamiento deja de funcionar en un evento de salud térmica, es el temporizador de vigilancia de PSM el que detecta este problema y desactiva el sistema.
Tabla de historial de cambios
La compatibilidad con las funciones viene determinada por la plataforma y la versión que esté utilizando. Utilice el Explorador de características para determinar si una característica es compatible con su plataforma.