오류 관리
FPC 오류 수준 및 작업 구성
M320 라우터용 Junos OS 릴리스 13.3 또는 릴리스 14.2부터 MX 시리즈, PTX 시리즈, T 시리즈 라우터를 사용하여 FPC의 패킷 포워딩 엔진(PFE) 관련 오류 수준과 지정된 임계값에 도달했을 때 수행할 작업을 구성할 수 있습니다. Junos OS 릴리스 13.2 및 이전 버전에서는 패킷 포워딩 엔진 오류로 인해 FPC가 비활성화되었습니다. 명령을 사용하면 error
패킷 포워딩 엔진 오류를 격리할 수 있으므로 필드 교체의 필요성을 줄일 수 있습니다. error
명령을 사용하여 심각도에 따라 오류를 분류하고, 각 심각도에 대한 자동 복구 작업을 설정하고, 지정된 임계값에 도달할 때 수행할 작업을 구성할 수 있습니다. 이 명령은 및 [edit chassis]
계층에서 [edit chassis fpc slot-number]
사용할 수 있습니다.
FPC에 대한 패킷 포워딩 엔진 오류 수준 및 작업을 구성하려면 다음을 수행합니다.
-
(선택 사항) 치명적 오류 수준 임계값 및 작업을 구성합니다. 치명적 오류는 모듈 간에 상당한 양의 트래픽이 차단되는 오류입니다.
[edit chassis fpc fpc-number error] user@host# set fatal action action user@host# set fatal threshold threshold-level
오류의 심각도 수준이 치명적이면 총 오류 수가 임계값에 도달할 때 작업이 수행됩니다. 임계값을 초과한 후에는 오류가 발생할 때마다 작업이 수행됩니다.
-
(선택 사항) 주요 오류 수준 임계값 및 작업을 구성합니다. 주요 오류는 패킷 트래픽의 지속적인 손실을 초래하지만 다른 모듈에는 영향을 미치지 않는 오류입니다.
[edit chassis fpc fpc-number error] user@host# set major action action user@host# set major threshold threshold-level
오류의 심각도 수준이 '주요'인 경우, 총 오류 수가 임계값에 도달하면 작업이 수행됩니다. 임계값을 초과한 후에는 오류가 발생할 때마다 작업이 수행됩니다.
-
(선택 사항) 사소한 오류 수준 임계값 및 작업을 구성합니다. 사소한 오류는 단일 패킷이 손실되지만 완전히 복구할 수 있는 오류입니다.
[edit chassis fpc fpc-number error] user@host# set minor action action user@host# set minor threshold threshold-level
심각도 수준이 경미한 경우, 총 오류 수가 임계값에 도달할 때 작업이 한 번만 수행됩니다
Junos OS 릴리스 18.1R3부터 MX 시리즈 라우터는 오류 범위 및 오류 범주 수준에서 오류 임계값 및 작업 구성을 지원합니다. 명령을 set chassis fpc fpc-slot error scope error-scope category category (fatal | major | minor) threshold error-threshold action (alarm | disable-pfe | get-state | offline | log | reset | trap | online-pfe | reset-pfe)
사용하여 FPC 수준에서 특정 오류 범위 및 범주에 대한 임계값 및 작업을 구성합니다. 섀시 수준(계층 구조)에서도 이러한 기능을 구성할 수 있습니다 [edit chassis]
. 그러나 계층에서 [edit chassis fpc]
구성된 임계값 및 작업은 계층에서 동일한 구성보다 우선합니다 [edit chassis]
.
명령을 show chassis fpc errors
사용하여 오류 범위 및 범주 수준에서 오류 정보를 볼 수 있습니다.
Junos OS Evolved의 경우 다음 show
명령을 사용하여 오류 정보를 확인할 수 있습니다.
-
show system errors count
- 시스템 전체 오류 및 개수를 표시합니다. -
show system errors active
- 시스템의 현재 활성 오류를 표시합니다. -
show system errors active fpc <slot number>
- 지정된 FPC에 대한 활성 오류를 표시합니다. -
show system errors fru detail
- 자세한 FRU 특정 오류를 표시합니다. -
show system errors fru detail fpc <slot number>
- FRU를 기반으로 탐지된 오류에 대한 정보를 표시합니다.
특정 오류 임계값에 대해 작업을 log
구성한 경우 시스템은 오류 카운트가 설정된 임계값을 위반할 때 이벤트를 기록합니다. 다음 샘플 syslog 메시지는 오류 임계값 위반과 수행 중인 결과 조치를 나타냅니다.
Sep 17 23:12:10 sw-s3-u8-03 fpc0 Error: /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b), scope: pfe, category: functional, severity: minor, module: PE Chip, type: Description for PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR Sep 17 23:12:10 sw-s3-u8-03 fpc0 Performing action log for error /fpc/0/pfe/0/cm/0/PE_Chip/1/PECHIP_CMERROR_OQB_INT_REG_RD_ADDR_ERR (0x21078b) in module: PE Chip with scope: pfe category: functional level: minor
offline, reset, disable-pfe, offline-pfe
및 reset-pfe
작업은 구성과 관련하여 상호 배타적입니다. 지정된 PFE는 또는 reset-pfe
구성된 경우 offline-pfe
자동으로 비활성화됩니다.
disable-pfe
Junos 17.4 이상 버전에서 사용할 수 있습니다.
다음 표는 PFE 오류 매핑 작업 및 시스템 응답에 대한 세부 정보를 제공합니다.
작업 | 응답 |
---|---|
disable-pfe |
모든 PFE 인터페이스, 알람 및 로그를 비활성화합니다. |
offline |
FPC를 오프라인으로 전환하고 알람 및 로그를 비활성화합니다. |
reset |
FPC를 오프라인으로 전환하고 온라인으로 재설정하여 알람 및 로그를 활성화합니다. |
reset-pfe |
- PFE의 전원을 끄고, 알람과 로그를 비활성화한 다음, PFE의 전원을 켜고, 알람과 로그를 활성화합니다. |
offline-pfe |
PFE의 전원을 끄고, 알람과 로그를 비활성화하며, |
예: T 시리즈 코어 라우터에서 FPC 오류 감지 및 자가 복구 구성
이 예에서는 유형 5 FPC가 있는 주니퍼 네트웍스 T 시리즈 코어 라우터에서 오류 감지 및 자동 복구를 구성하는 방법을 보여줍니다.
요구 사항
이 예에서 사용되는 하드웨어 및 소프트웨어 구성 요소는 다음과 같습니다.
주니퍼 네트웍스 T4000 코어 라우터(유형 5 FPC 포함).
Junos OS 릴리스 13.3 이상.
계속하기 전에 필요한 연결이 완료되고 인터페이스가 작동하는지 확인하십시오.
개요
FPC 오류 감지 및 자가 복구에는 특정 심각도에 대한 오류 수가 사용자 구성 임계값을 초과하여 증가할 경우 각 FPC에서 수행할 일련의 작업을 구성하는 작업이 포함됩니다. 오류 심각도는 치명적, 주요, 경미로 분류됩니다. 복구 작업에는 알람 발생, 로그 항목 생성, FPC의 현재 상태 가져오기, FPC 다시 시작, FPC 오프라인 전환, FPC 재설정 등이 포함됩니다. 특정 FPC 및 오류 심각도의 경우, 허용된 제한 내의 모든 값으로 오류 임계값을 구성하고 임계값을 작업에 매핑할 수 있습니다. 이 예에서는 주니퍼 네트웍스 T4000 코어 라우터의 FPC 0에 이러한 오류를 설정합니다.
구성
오류 감지 및 자동 복구를 구성하려면 오류 심각도, 각 오류 심각도에 해당하는 임계값 및 임계값을 초과할 때 수행할 작업을 설정해야 합니다.
CLI 빠른 구성
이 예를 빠르게 구성하려면, 아래 명령을 복사하여 텍스트 파일로 붙여 넣은 다음 모든 라인브레이크를 제거하고, 네트워크 구성을 일치하는 데 필요한 세부 사항을 바꾸고 계층 수준에서 명령을 CLI로 복사해 붙여 넣으세요 [edit interfaces] .
set chassis fpc 0 fatal threshold 1 action resetset chassis fpc 0 major threshold 1 action alarmset chassis fpc 0 minor threshold 10 action log
오류 감지 및 자동 복구 구성
단계별 절차
다음 예제에서는 구성 계층에서 다양한 수준의 탐색이 필요합니다. CLI 탐색에 대한 정보는 구성 모드에서 CLI 편집기 사용 및 CLI 사용자 가이드를 참조하십시오.
치명적 오류에 대한 임계값과 관련 작업을 구성합니다.
오류 심각도를 치명적으로 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error fatal
치명적 오류에 대한 임계값을 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error fatal threshold 1
치명적 오류에 대한 관련 작업을 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error fatal threshold 1 action reset
주요 오류에 대한 임계값과 관련 작업을 구성합니다.
오류 심각도를 major로 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error major
주요 오류에 대한 임계값을 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error major threshold 1
주요 오류에 대한 관련 작업을 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error major threshold 1 action alarm
사소한 오류에 대한 임계값과 관련 작업을 구성합니다.
오류 심각도를 경미로 설정합니다.
[edit interfaces]
[edit interfaces]
user@host# set chassis fpc 0 error minor
사소한 오류에 대한 임계값을 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error minor threshold 10
사소한 오류에 대한 관련 작업을 설정합니다.
[edit interfaces]
user@host# set chassis fpc 0 error minor threshold 10 action log
결과
다음은 치명적 심각도 수준에 대한 구성 결과입니다.
user@host# set chassis fpc 0 error ? Possible completions: + apply-groups Groups from which to inherit configuration data + apply-groups-except Don't inherit configuration data from these groups > fatal FPC Fatal errors (default threshold = 1) > major FPC Major Level errors (default threshold = 1) > minor FPC Minor Level errors (default threshold = 10)user@host# set chassis fpc 0 error fatal action ? Possible completions: alarm Raise FPC alarm get-state Retreive FPC state for debugging log Log occurence to system log file offline Offline FPC offline-pic Offline PICs associated with PFE on FPC reset Reset FPCuser@host# set chassis fpc 0 error fatal action resetuser@host# set chassis fpc 0 error fatal threshold ? Possible completions: <threshold> Error count at which to take the action (0..4294967295)user@host# set chassis fpc 0 error fatal threshold 1
디바이스 구성이 완료되면 구성모드에서 을(를) 입력합니다 commit
.
확인
구성이 성공적이고 라우터가 올바른 작업으로 구성되었는지 확인하려면 명령을 사용합니다 show chassis fpc errors
.
FPC 오류의 치명적 심각도와 관련하여 구성된 작업 확인
목적
임계값 및 관련 작업이 치명적 오류에 대해 설정되어 있는지 확인합니다.
행동
user@host> show chassis fpc errors FPC Level Occurred Cleared Threshold Action-Taken Action 0 Fatal 0 0 1 RESET Pfe-State: pfe-0 -ENABLED | pfe-1 -ENABLED | pfe-2 -ENABLED | pfe-3 -ENABLED | pfe-4 -ENABLED | pfe-5 -ENABLED | pfe-6 -ENABLED | pfe-7 -ENABLED |
의미
샘플 출력은 오류가 있는 FPC 0
0
Occurred
의 오류(이전 발생 없음), 0
값이 (으)로 1
설정되고 Action-Taken
(RESET
으)로 설정된 오류 Cleared
(이전 발생 없음)Threshold
를 보여줍니다.Fatal
FPC 오류 관리
PTX 시리즈 라우터에서 FPC 오류를 비활성화하거나 오류 id 수준에서 오류의 심각도를 수정할 수 있습니다. 이 기능을 지원하는 PTX 플랫폼에 대한 자세한 내용은 FPC 자가 치유 를 참조하십시오.
FPC 오류를 고유하게 식별하는 error-id는 URI(Uniform Resource Identifier) 형식으로 표시되며 모듈 식별자와 오류 식별자로 구성됩니다. 오류가 발생하면 시스템 로그 메시지에서 error-id를 찾을 수 있습니다.
오류의 심각도 수정
새 오류 심각도를 구성할 수는 없지만 오류의 기존 심각도를 수정할 수 있습니다. 예를 들어 특정 오류(오류 ID로 식별됨)를 더 이상 치명적인 것으로 처리하지 않으려면 필요에 따라 심각도를 major 또는 minor로 수정할 수 있습니다.
오류 심각도는 그룹(예: 범주) 수준에서 수정할 수 없습니다.
오류의 심각도를 수정하려면 다음 명령을 사용합니다.
user@host# set chassis fpc fpc-slot error error-id severity new-severity
다음 예를 참조하십시오.
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" severity minor
위의 예에서는 FPC 3의 오류 ID “/cpu/0/memory/0/memory-uncorrected-error”
심각도를 로 수정했습니다 minor
.
오류 비활성화
오류 보고를 중지하도록 시스템을 구성하려면 오류 ID를 식별하고 비활성화합니다. 시스템 로그 메시지에서 error-id를 찾을 수 있습니다. 오류를 비활성화하려면 다음 명령을 사용합니다.
user@host# set chassis fpc fpc-slot error error-id state disable
다음 예를 참조하십시오.
user@host# set chassis fpc 3 error "/cpu/0/memory/0/ECC_CORRECTED_ERROR" state disable
위의 예에서는 FPC 3의 오류를 “/cpu/0/memory/0/memory-uncorrected-error”
비활성화했습니다.
패킷 전달 엔진 전원 끄기
실행 중인 시스템에서 패킷 전달 엔진의 전원을 켜거나 끄거나 FPC가 온라인 상태가 될 때 패킷 포워딩 엔진의 전원을 끈 상태로 유지할 수 있습니다. 다음은 이 기능이 사용되는 몇 가지 시나리오입니다.
패킷 포워딩 엔진 ASIC가 오작동하는 경우.
배포에 시스템의 전체 용량이 필요하지 않은 경우 전력을 절약합니다.
패킷 포워딩 엔진의 전원을 끄려면 다음 단계를 따릅니다.
user@host# set chassis fpc slot-number pfe pfe-id power off
user@host# commit
패킷 전달 엔진의 전원을 켜려면 다음 단계를 사용하십시오.
user@host# set chassis fpc slot-number pfe pfe-id power on
user@host# commit
구성을 커밋할 수 있으려면 ASIC의 두 패킷 전달 엔진에 이 구성을 적용해야 합니다.
MPC10E-15C-MRATE가 있는 MX 시리즈 라우터에서는 패킷 포워딩 엔진 2의 전원을 끄거나 켤 수 있습니다. 패킷 전달 엔진 0 및 1은 이 명령을 지원하지 않습니다. MPC10E-15C-MRATE에서 패킷 포워딩 엔진 2를 작동하려면 패킷 전달 엔진 0과 1이 작동해야 합니다. 명령을 show chassis fpc fpc-lot detail
사용하여 MPC10E-15C-MRATE의 개별 패킷 전달 엔진에 대한 패킷 포워딩 엔진 전원 ON/OFF 상태 및 대역폭을 확인할 수 있습니다.
명령을 사용하여 show chassis fpc fpc-slot detail
패킷 포워딩 엔진 전원 켜기/끄기 구성 상태를 확인할 수 있습니다. 아래 예를 참조하십시오.
user@router> show chassis fpc 0 detail Slot 0 information: State Online Temperature 41 degrees C / 105 degrees F (PFE_24-HBM) Temperature 44 degrees C / 111 degrees F (PFE_25-HBM) Temperature 43 degrees C / 109 degrees F (PFE_26-HBM) Temperature 41 degrees C / 105 degrees F (PFE_27-HBM) Temperature 40 degrees C / 104 degrees F (PFE_28-HBM) Temperature 40 degrees C / 104 degrees F (PFE_29-HBM) Temperature 38 degrees C / 100 degrees F (PFE_30-HBM) Temperature 39 degrees C / 102 degrees F (PFE_31-HBM) Start time 2020-10-28 00:46:17 PDT Uptime 1 day, 1 hour, 34 minutes, 48 seconds Max power consumption 825 Watts PFE Information: PFE Power ON/OFF Bandwidth SLC 0 On 500 1 On 500 2 On 500 3 On 500 4 On 500 5 On 500 6 On 500 7 On 500
온전성 폴링 구성
특정 FPC 또는 FEB 또는 CFEB에 대한 명령문을 구성 sanity-poll
하여 해당 FPC 또는 FEB 또는 CFEB에 대한 주기적인 온전성 검사를 시작할 수 있습니다. 주기적인 온전성 검사에는 "등록 온전성 문제", "고온", "하드웨어 오류" 등과 같은 오류 조건 확인이 포함됩니다. 문을 구성 sanity-poll
하지 않으면 온전성 폴링이 비활성화됩니다.
현재 주기적인 온전성 검사는 라우팅 칩 레지스터에서만 수행됩니다.
온전성 폴링은 FPC, FEB 또는 CFEB의 오류 조건을 주기적으로 확인하고 오류 발생 시 적절한 조치를 수행합니다.
T 시리즈 라우터 및 M320 라우터에서 FPC에 대한 온전성 폴링을 구성하려면 계층 수준에서 문과 하위 문을
[edit chassis fpc slot-number]
포함합니다sanity-poll
.[edit chassis] fpc slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
M120 라우터에서 FEB에 대한 온전성 폴링을 구성하려면 계층 수준에서
[edit chassis feb slot-number]
문과 하위 문을 포함합니다sanity-poll
.[edit chassis] feb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
M7i 및 M10 라우터에서 CFEB에 대한 온전성 폴링을 구성하려면 계층 수준에서
[edit chassis cfeb slot-number]
문과 해당 하위 문을 포함합니다sanity-poll
.[edit chassis] cfeb slot-number { sanity-poll { retry-count number; on-error { raise-alarm; power (cycle | off); write-coredump; } } }
TX Matrix 또는 TX Matrix Plus 라우터에서는 계층 수준에서 명령문을 [edit chassis lcc number fpc number]
구성할 sanity-poll
수 있습니다.
명령문은 sanity-poll
다음과 같은 하위 명령문으로 구성됩니다.
명령문은
retry-count
특정 오류 조건이 발생한 후 수행할 재검사 횟수를 지정합니다. 모든 정기 검사에 오류가 있는 경우, 온전성 폴링은 오류를 보고하고 적절한 조치(명령문의 옵션on-error
으로 설명)를 수행합니다.예를 들어, 주기적인 온전성 검사가 FPC 또는 FEB 또는 CFEB에서 오류를 감지하고 을(를)
retry count number
15로 구성하는 경우, 온전성 폴링은 오류를 즉시 보고하지 않습니다. 온전성 폴링은 동일한 오류 조건을 15번 확인합니다. 15번의 재검사 모두에서 오류가 지속되면 오류를 보고하고 적절한 조치를 취합니다.문을 구성
retry-count
하지 않으면 기본적으로 문은sanity-poll
오류 조건을 보고하기 전에 탐지된 오류를 10번 다시 확인합니다.온전성 폴링이 오류 조건을 감지하면 문은
on-error
적절한 조치를 수행하여 오류를 제거합니다.다음 작업은 모든 종류의 오류 조건에 공통적으로 적용됩니다.
섀시 알람을 생성하려면 문을 구성합니다
raise-alarm
. 섀시 알람은 섀시의 전면 패널에 표시됩니다.코어 파일을 생성한 후 FPC, FEB 또는 CFEB를 재부팅하려면 문을 구성합니다
power cycle
. 이 명령문은 재부팅 후 제거되는 임시 소프트웨어 오류에 유용합니다.FPC 또는 FEB 또는 CFEB를 중지하려면 문을 구성합니다
power off
. 이 명령문은 영구적인 하드웨어 장애가 발생한 경우에 유용합니다.주의:명령문은
power off
FPC를 중단합니다. 서비스 중단을 방지하기 위해 다른 FPC 또는 FEB 또는 CFEB를 통한 백업 경로가 있는지 확인합니다.메모:power cycle
및power off
명령문은 상호 배타적입니다. 오류에 대해 또는power off
작업 중 하나를power cycle
구성할 수 있습니다.코어 파일을 트리거하려면 문을 구성합니다
write-coredump
.
해당 FPC 또는 FEB 또는 CFEB에 대해 여러 작업을 구성할 수 있습니다. 작업을 구성하지 않으면 문은 sanity-poll
FPC 또는 FEB 또는 CFEB 시스템 로그 메시지만 생성합니다.
유연한 PIC Concentrator를 오프라인 상태로 유지하도록 Junos OS 구성
기본적으로 FPC(Flexible PIC Concentrator)는 시스템 재부팅 후 다시 시작하도록 구성됩니다. 운영 모드 명령을 사용하여 request chassis fpc
FPC를 오프라인으로 전환할 수 있지만, Junos OS에서는 CLI 명령을 입력할 때 FPC가 commit
다시 시작을 시도합니다. FPC가 오프라인 상태를 유지하고 재시작되지 않도록 구성하려면 계층 수준에서 문을 [edit chassis fpc slot-number]
포함합니다power off
.
[edit chassis fpc slot-number] power off;
오프라인 상태를 유지하도록 구성된 FPC를 온라인 상태로 만들고 온라인 상태를 유지하도록 구성하려면 계층 수준에서 문을 [edit chassis fpc slot-number]
포함합니다power on
.
[edit chassis fpc slot-number] power on;
오프라인 상태를 유지하도록 SFM 구성
기본적으로 CLI 명령을 사용하여 request chassis sfm
SFM(스위칭 및 전송 모듈)을 오프라인으로 전환하면 CLI 명령을 입력할 때 SFM이 다시 시작을 시도합니다 commit
. 재시작을 방지하기 위해 오프라인 상태를 유지하도록 SFM을 구성할 수 있습니다. 이 기능은 수리 상황에 유용합니다.
오프라인 상태를 유지하도록 SFM을 구성하려면 계층 수준에서 문을 [edit chassis]
포함합니다sfm
.
[edit chassis] sfm slot-number { power off; }
slot number
- SFM이 설치된 슬롯 번호입니다.power off
- SFM을 오프라인으로 전환하고 오프라인 상태를 유지하도록 구성합니다.
예를 들어, 다음 문은 슬롯 3의 SFM을 오프라인으로 간주합니다.
[edit chassis] sfm 3 power off;
show chassis sfm
CLI 명령을 사용하여 오프라인 상태를 확인합니다.
user@host# show chassis sfm Temp CPU Utilization (%) Memory Utilization (%) Slot State (C) Total Interrupt DRAM (MB) Heap Buffer 0 Online 34 2 0 64 16 47 1 Online 38 2 0 64 16 47 2 Online 42 2 0 64 16 47 3 Offline --- Configured power off ---
SFM을 다시 온라인 상태로 만들려면 문을 삭제 edit chassis sfm
한 다음 구성을 커밋합니다.
FPC가 온라인 상태가 될 때 FPC 시퀀스 번호를 활성 FPC와 재동기화
M320, T320, T640, T1600, T4000, TX Matrix, TX Matrix Plus 라우터에서 FPC(Flexible PIC Concentrator)를 온라인으로 전환하면 FPC의 시퀀스 번호가 라우터의 다른 활성 FPC와 동기화되지 않을 수 있으며, 이로 인해 소량의 초기 트래픽이 손실될 수 있습니다.
트래픽 손실을 방지하려면 계층 수준에서 [edit chassis]
명령문을 포함 fpc-resync
하십시오. 이렇게 하면 온라인 상태가 된 FPC의 시퀀스 번호가 라우터의 다른 활성 FPC와 재동기화됩니다.
[edit chassis] fpc-resync;
null-route 필터링을 fpc-resync
방지하기 위해 단일 LMNR 기반 FPC와 하나 이상의 I-chip FPC가 동일한 섀시에 존재하는 경우 명령이 적용되지 않습니다.
하드 디스크 오류 발생 시 라우팅 엔진의 재부팅 활성화
하드 디스크 오류가 발생하면 라우팅 엔진이 로컬 ping에 응답하고 인터페이스가 작동 상태를 유지하지만 다른 프로세스는 응답하지 않는 상태로 들어갈 수 있습니다.
이 상황에서 복구하려면 하드 디스크 오류가 발생할 때 단일 라우팅 엔진이 자동으로 재부팅되도록 구성할 수 있습니다. 이 기능을 사용하려면 계층 수준에서 문을 [edit chassis routing-engine]
포함합니다on-disk-failure reboot
.
[edit chassis routing-engine] on-disk-failure { disk-failure-action (halt | reboot); }
이중 라우팅 엔진 환경의 경우, 기본 라우팅 엔진에서 하드 디스크 오류를 감지하면 백업 라우팅 엔진이 자동으로 기본 역할을 맡도록 구성할 수 있습니다. 이 기능을 사용하려면 계층 수준에서 문을 [edit chassis redundancy failover]
포함합니다on-disk-failure
. 이 성명서에 대한 자세한 내용은 Junos OS 고가용성 사용자 가이드 를 참조하십시오.
라우팅 엔진에서 하드 디스크가 실패할 때 라우팅 엔진이 중단(재부팅 대신)하도록 구성할 수 있습니다. 이 기능을 구성하려면 계층 수준에서 [edit chassis routing-engine on-disk-failure]
문을 포함합니다disk-failure-action (halt | reboot)
.
[edit chassis routing-engine] on-disk-failure { disk-failure-action (halt | reboot); }
halt 옵션을 사용하여 하드 디스크 장애 시 정지하도록 라우팅 엔진을 구성합니다. 재부팅 옵션을 사용하여 하드 디스크 장애 시 재부팅할 라우팅 엔진을 구성합니다.
열 상태 점검 및 PSM Watchdog을 사용하여 열 상태 이벤트 처리
열 상태 확인 기능을 사용하여 누전과 같은 열 상태 이벤트 감지 시 수행할 작업을 구성할 수 있습니다. 열 점검 기능은 전원 공급 모듈(PSM) 전원 출력 및 FRU 전력 소비를 모니터링하고, PSM 전원 출력이 사용자 정의 임계값만큼 FRU 전력 소비량을 초과하는 것을 감지하면 열 상태 이벤트가 있다고 가정하고 사용자 구성에 따라 조치를 취합니다. 열 상태 이벤트 감지 시 시작되도록 자동 종료 또는 알람과 같은 작업을 구성할 수 있습니다. 구성의 예는 다음과 같습니다 set chassis thermal-health-check action-onfail auto-shutdown shutdown-timer 10 power-threshold 700
. 이 예제 구성을 사용하면 전원 누출이 700W를 초과하는 경우 소프트웨어가 열 상태 이벤트를 감지하고 열 상태 오류가 감지된 후 10초 후에 시스템을 종료할 수 있습니다.
열 상태 확인 기능은 다음과 같은 경우에만 작동합니다.
라우터에는 두 슬롯 모두에 고용량 AC 또는 DC 배전 장치(PDU)가 설치되어 있으며 각 PDU에는 동일한 수의 PSM이 있습니다. AC PSM 및 DC PSM이 모두 지원됩니다.
지원되는 PSM 및 PDU는 다음과 같습니다.
대용량 AC PSM(모델: PSM2-PTX-AC, 펌웨어: 0210 이상, 하드웨어 개정: 06 이상)
고용량 60A DC PSM(모델: PSM2-PTX-DC, 펌웨어: 0315 이상, 하드웨어 개정: 09 이상)
고용량 60A DC PDU(모델: PDU2-PTX-DC, 하드웨어 버전 07의 펌웨어 버전 0404 이상 사용, 하드웨어 버전 08의 펌웨어 버전 0503 이상 사용)
고용량 AC Delta PDU(모델: PDU2-PTX-AC-D, 펌웨어: 0305 이상, 하드웨어 개정: 04 이상)
고용량 AC Wye PDU(모델: PDU2-PTX-AC-W, 펌웨어: 0305 이상, 하드웨어 개정: 03 이상)
고용량 단상 AC PDU(모델: PDU2-PTX-AC-SP, 펌웨어: 0102 이상, 하드웨어 개정: 03 이상)
각 PDU에는 온라인 상태인 PSM이 3개 이상 있으며, 각 온라인 PSM은 60A 이상의 전류(AC PSM의 경우) 또는 100A 이상의 전류(DC PSM의 경우)를 소비합니다.
FRU(RE, SIB, FPC) 중 어느 것도 '현재' 상태가 아닙니다.
라우터에서 [edit chassis] 계층에서 PSM 워치독 기능을 구성할 수도 있습니다. 열 상태 이벤트로 인해 Junos가 다운되는 경우, PSM 워치독 기능이 이를 감지하고 라우터를 종료합니다. 워치독 구성에서 워치독 타이머를 초 단위로 지정할 수 있습니다. 지정된 기간이 지나면 워치독이 만료됩니다. 또한 Junos가 워치독 카운터를 재설정하는 빈도(분)를 지정할 수도 있습니다. 라우팅 엔진 충돌과 같은 이유로 워치독 카운터가 재설정되지 않으면 PSM은 워치독 타이머 만료 시 출력 전원을 끄므로 라우터가 종료됩니다.
구성 예는 다음과 같습니다.
- 을(를) 사용합니다
set chassis psm watchdog timeout 600 pat-frequency 2
. 이 명령은 워치독 타이머가 600초로 설정되고 카운터가 2분마다 재설정되도록 설정된 PSM 워치독을 활성화합니다. - 을(를) 사용합니다
set chassis thermal-health-check fet-failure-check action-onfail auto-shutdown shutdown-timer 10.
. 이 명령은 열 상태를 확인하고 FET 오류가 감지된 후 10초 후에 시스템을 종료합니다.
PSM 워치독 기능은 라우터의 모든 온라인 PSM이 이 기능을 지원하는 경우에만 작동합니다.
간단히 말해, 열 이벤트가 발생할 때 라우팅 엔진 소프트웨어가 실행 중이면 열 상태 점검 기능이 열 이벤트를 감지하고 조치를 취합니다. 그러나 열 상태 이벤트에서 라우팅 엔진 소프트웨어가 다운되면 이 문제를 감지하고 시스템을 다운시키는 것은 PSM 워치독 타이머입니다.
변경 내역 표
기능 지원은 사용 중인 플랫폼과 릴리스에 따라 결정됩니다. 기능 탐색기 를 사용하여 플랫폼에서 기능이 지원되는지 확인하세요.