Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

패브릭 복원력

패브릭 복원력 및 성능 저하

주니퍼 라우터와 스위치는 정상 작동 중에 발생하는 장애 및 오류 조건을 해결할 수 있는 복원력을 내장하고 있습니다. JUNOS 소프트웨어는 트래픽 손실을 최소화하기 위해 장애 조건을 해결하기 위해 즉각적인 조치를 취합니다. 수동 개입이 필요하지 않습니다. 패브릭 성능 저하가 이러한 오류 조건으로 이어지는 이유 중 하나일 수 있습니다. 다음 섹션에서는 PFE가 이러한 장애로부터 탄력적인 방식으로 복구하는 방법에 대해 설명합니다.

PTX 시리즈 라우터의 패킷 전달 엔진 오류 및 복구

패킷 전달 엔진 대상은 다음과 같은 이유로 PTX 시리즈 라우터에서 도달하지 못할 수 있습니다.

  • 패브릭 SIB(Switch Interface Boards)는 CLI 명령의 결과로 오프라인 상태입니다.

  • 패브릭 SIB는 고온 조건으로 인해 컨트롤 보드에 의해 오프라인으로 전환됩니다.

  • SIB의 전압 또는 폴링된 I/O 오류는 컨트롤 보드에 의해 감지됩니다.

  • 연결된 모든 플레인에서 예기치 않은 링크 학습 오류가 발생합니다.

  • 두 개의 패킷 전달 엔진은 패브릭에 연결할 수 있지만 서로 연결할 수는 없습니다.

  • 링크 오류는 두 개의 패킷 전달 엔진이 패브릭과 연결되지만 공통 플레인을 통하지 않는 경우 발생합니다.

Junos OS 릴리스 13.3부터 PTX 시리즈 라우터를 사용하여 지정된 임계값에 도달했을 때 수행할 PFE(패킷 전달 엔진) 관련 오류 수준과 작업을 구성할 수 있습니다.

오류 수준이 정의되지 않은 경우, PTX 시리즈 라우터는 복구 프로세스에서 다음 단계를 시작합니다.

  1. SIB 재시작 단계: 라우터는 SIB를 하나씩 재시작하여 문제를 해결하려고 시도합니다. SIB가 제대로 작동하고 단일 라인 카드에 문제가 발생하면 이 단계가 시작되지 않습니다.

  2. SIB 및 라인 카드 재시작 단계: 라우터는 SIB와 라인 카드를 모두 다시 시작합니다. 재부팅 후 패브릭에 대한 고속 링크를 시작할 수 없는 라인 카드가 있는 경우, 이러한 라인 카드에 대한 인터페이스가 생성되지 않아 시스템에 문제가 발생하지 않으므로 라이브 트래픽 손실과 관련이 없습니다.

  3. 라인 카드 오프라인 단계: 이전의 복구 시도가 실패했기 때문에 라인 카드 및 인터페이스가 꺼지고 시스템이 문제 및 오류 조건을 방지합니다.

패브릭 복원력 및 성능 저하된 패브릭 자동 복구

Junos Evolved 릴리스 23.4R1부터 패브릭 자동 복구 기능을 사용하여 데이터 손실을 제한할 수 있습니다. 수행된 복구 작업에는 FRU 재시작, 링크 재시작 등이 포함됩니다.

다음 3단계 패브릭 복구 작업은 FRU 수준에서 시도됩니다.

1. SIB 재시작을 사용한 FRU 레벨 복구.

2. FPC 재시작 또는 PFE 재시작을 사용한 FRU 레벨 복구.

3. 복구할 수 없는 PFE(IFD 비활성화 또는 PFE 오프라인)에 대한 조치.

메모: PFE-restart가 지원되지 않는 플랫폼의 경우 FPC restart가 기본 작업으로 제공됩니다.

SIB 장애 조건에 대한 패브릭 복구 작업: SIB 부재(시스템 전원 공급 시 사용자 주도 오프라인 또는 SIB가 존재하지 않음)로 인한 도달 가능성 장애의 경우, 패브릭 복원력은 복구를 시도하지 않습니다. 패브릭 복구를 지원하지 않는 시스템에서는 도달 가능성 결함에 대해 섀시 알람이 생성됩니다.

PTX 시리즈 라우터(PTX10004, PTX10008 및 PTX10016 라우터)의 PFE 수준 복구 작업

PFE 재시작을 지원할 수 있는 플랫폼의 경우 PFE 재시작이 기본 2단계 복구 작업으로 추가됩니다.

메모: 여러 PFE가 있는 ASIC에서 재시작은 PFE 오프라인 작업과 유사하게 PPFE(Per-plane PFE)에 영향을 미칩니다.
2단계 조치에 대한 복구 결정은 다음 시나리오 중 하나에 대해 이루어집니다.
  • 도달 가능성 결함이 있는 PFE는 모두 단일 FPC에 상주합니다.
  • 하나 이상의 FPC에 도달 가능성 결함이 있고 공통적인 장애가 없는 PFE.

2단계 복구는 1단계 복구 후 연결성 장애에서 복구되지 않은 PPFE에서 시도됩니다.

FPC에서 자체 도달 가능성 결함이 있는 PFE의 수가 PFE의 50% 이상을 차지하면 FPC가 다시 시작됩니다.

다음 CLI 옵션을 사용하여 기본 PFE 재시작 작업을 수동으로 구성합니다.

다음 표는 FPC에서 결함이 있는 PFE의 구성 및 수에 기반한 2단계 복구에 대한 작업을 보여줍니다.

복구 결정 FPC에 연루된 PFE 수 PFE 재시작 지원 PFE 재시작 비활성화 FPC 재시작 비활성화 행동
2단계 작업 <= 50% 아니요 x PFE 재시작
2단계 작업 <= 50% 아니요 FPC 재시작
2단계 작업 <= 50% PFE 재시작
2단계 작업 >50% x 아니요 FPC 재시작
2단계 작업 >50% PFE 재시작
2단계 작업 >50% 아니요 PFE 재시작

T640, T1600 또는 TX Matrix 라우터의 패킷 전달 엔진 오류 및 복구

패킷 전달 엔진 대상은 다음과 같은 이유로 T640, T1600 또는 TX Matrix 라우터에서 연결하지 못할 수 있습니다.

  • 패브릭 SIB(Switch Interface Boards)는 CLI 명령 또는 누른 물리적 버튼의 결과로 오프라인 상태가 됩니다.

  • 패브릭 SIB는 고온 조건으로 인해 SPMB(Switch Processor Mezzanine Board)에 의해 오프라인으로 전환됩니다.

  • SIB의 전압 또는 폴링된 I/O 오류는 SPMB에 의해 감지됩니다.

  • 모든 패킷 포워딩 엔진은 SIB가 온라인 상태인 경우에도 원격 패킷 포워딩 엔진으로부터 모든 플레인에서 대상 오류를 수신합니다.

  • 완전한 패브릭 손실은 SIB가 온라인 상태인 경우에도 대상 시간 초과로 인해 발생합니다.

복구 프로세스는 다음 단계로 구성됩니다.

  1. 라우터가 패브릭 플레인을 하나씩 다시 시작합니다. 패브릭 플레인이 제대로 작동하고 단일 라인 카드에 문제가 있는 경우 이 단계가 시작되지 않습니다.

  2. 패브릭 플레인 및 라인 카드 재시작 단계: 라우터는 SIB와 라인 카드를 모두 다시 시작합니다. 재부팅 후 패브릭에 대한 고속 링크를 시작할 수 없는 라인 카드가 있는 경우, 이러한 라인 카드에 대한 인터페이스가 생성되지 않아 시스템에 문제가 발생하지 않으므로 라이브 트래픽 손실과 관련이 없습니다.

  3. 라인 카드 오프라인 단계: 이전의 복구 시도가 실패했기 때문에 라인 카드와 인터페이스가 꺼지고 시스템이 심각한 결과를 초래하는 문제 및 오류 조건을 방지합니다.

메모:

Junos OS 릴리스 14.2R6부터 고전압 또는 고온과 같은 극한 조건으로 인해 SIB가 오프라인 상태가 되면 복구 프로세스의 일부로 라우터는 해당 SIB에 대한 패브릭 플레인을 다시 시작하지 않습니다.

위에서 언급한 단계적 복구 메커니즘은 이러한 문제와 관련될 수 있는 다른 오류가 없는 한 철저합니다.

Junos OS 릴리스 14.2R6부터 패브릭 셀프 핑 및 패킷 전달 엔진 활성화 메커니즘을 통합하여 단일 섀시 시스템의 패브릭 성능 저하를 보다 효과적으로 관리할 수 있습니다. 패브릭 자체 핑은 패브릭 데이터 경로에서 문제를 감지하는 메커니즘입니다. 모든 패킷 전달 엔진은 패브릭 셀프 핑 메커니즘을 사용하여 패킷이 패브릭 경로를 통해 전송될 때 자신에게 전달되는 패킷이 자신에게 도달하는지 확인합니다. 패킷 전달 엔진 활성화는 패브릭 플레인에서 패킷 전달 엔진에 연결할 수 있는지 여부를 감지하는 메커니즘입니다. 도달 가능한지 확인하기 위해 패킷 전달 엔진은 패브릭 플레인을 통해 주기적으로 자체 대상 패킷을 보냅니다. 이러한 두 메커니즘에서 오류가 감지되면 패브릭 관리자는 패브릭 성능 저하 경보 를 발생시키고 라인 카드를 다시 시작하여 복구를 시작합니다.

MX 시리즈 라우터 패브릭 복원력

MX 라우터는 하드웨어 장애 시나리오에서 패킷 손실을 줄이는 지능형 메커니즘을 제공합니다. MX 시리즈 라우터는 다양한 멀티레이어 물리적, 논리적, 프로토콜 수준의 복원력 측면을 통해 네트워크 및 서비스 가용성을 보장합니다

MX10008는 중복성과 복원력을 제공합니다. 전원 시스템, 냉각 시스템 및 제어 보드를 포함한 모든 주요 하드웨어 구성 요소는 완전히 이중화됩니다.

MX10004 전원 시스템과 RCB(Routing Control Board)는 이중화 및 복원력을 제공합니다.

MX2020 및 MX2010 섀시는 이중화 및 복원력을 제공합니다. 전원 시스템, 냉각 시스템, 제어 보드 및 스위치 패브릭을 포함한 모든 주요 하드웨어 구성 요소는 완전히 중복됩니다.

SFB(Switch Fabric Boards)는 MX 라우터 섀시의 하위 시스템을 위한 데이터 플레인입니다. SFB는 MX2000 라우터의 각 MPC 슬롯에 최대 4Tbps의 전이중 스위칭 용량을 제공하는 확장성과 복원력이 뛰어난 "올액티브" 중앙 집중식 스위치 패브릭을 생성합니다.

MX240, MX480 및 MX960 섀시는 이중화 및 복원력을 제공합니다. 하드웨어 시스템은 완전 이중화, 전원 공급 장치, 팬 트레이, 라우팅 엔진 및 스위치 컨트롤 보드입니다.

MX304 라우터에는 이중화된 플러그형 라우팅 엔진이 포함되어 있으며 최대 3개의 LMIC(Line-Card MIC)를 지원합니다.

이 주제에는 패브릭 복원 옵션, 사용된 장애 감지 방법 및 시정 조치에 대해 설명하는 다음 섹션이 포함되어 있습니다.

패브릭 연결 복원

패킷 전달 엔진 대상은 다음과 같은 이유로 연결할 수 없게 될 수 있습니다.

  • 컨트롤 보드는 CLI 명령 또는 누른 물리적 버튼의 결과로 오프라인 상태가 됩니다.

  • 패브릭 제어 보드는 고온 때문에 오프라인으로 전환됩니다.

  • 패브릭의 전압 또는 폴링된 I/O 오류.

  • 모든 패킷 전달 엔진은 패브릭이 온라인 상태인 경우에도 원격 패킷 전달 엔진으로부터 모든 평면에서 대상 오류를 수신합니다.

  • 패브릭이 온라인 상태인 경우에도 대상 시간 초과로 인한 완전한 패브릭 손실.

시스템이 연결할 수 없는 패킷 전달 엔진 대상을 탐지하면 패브릭 연결 복원이 시도됩니다. 복원에 실패하면 시스템은 인터페이스를 꺼서 인접 라우터에서 로컬 보호 작업 또는 트래픽 재라우팅을 트리거합니다.

복구 프로세스는 다음 단계로 구성됩니다.

  1. 패브릭 플레인 재시작 단계: 패브릭 플레인을 하나씩 재시작하여 복원을 시도합니다. 패브릭 플레인이 제대로 작동하고 하나의 라인 카드에서만 오류가 보고되는 경우 이 단계는 시작되지 않습니다. 패브릭 플레인이 오프라인으로 전환되는 이유가 연결 손실임을 지정하기 위해 오류 메시지가 생성됩니다. 이 단계는 패브릭 플레인 오류에 대해서만 수행됩니다.

  2. 패브릭 플레인 및 라인 카드 재시작 단계: 시스템은 시스템 상태를 다시 검사하기 전에 첫 번째 단계가 완료될 때까지 기다립니다. 첫 번째 단계가 수행된 후 연결이 복원되지 않거나 10분 이내에 문제가 다시 발생하면 패브릭 플레인과 라인 카드를 모두 다시 시작하여 연결 복원을 시도합니다. 복구를 시도할 때 라인 카드의 재시작을 비활성화하기 위해 계층 수준에서 문을 [edit chassis fabric degraded] 구성 action-fpc-restart-disable 하면 연결 손실이 발생했음을 나타내는 경보가 트리거됩니다. 이 두 번째 단계에서는 다음 세 단계를 수행합니다.

    1. PFE에서 대상 오류가 있는 모든 라인 카드는 오프라인으로 전환됩니다.

    2. 패브릭 플레인이 오프라인으로 전환되었다가 예비 플레인부터 시작하여 하나씩 다시 온라인 상태가 됩니다.

    3. 오프라인으로 전환된 라인 카드는 다시 온라인으로 전환됩니다.

  3. 라인 카드 오프라인 단계: 시스템은 시스템 상태를 다시 검사하기 전에 두 번째 단계가 완료될 때까지 기다립니다. 이전 복구 시도가 실패했기 때문에 라인 카드를 오프라인으로 전환하고 인터페이스를 끄면 연결 손실이 제한됩니다. 라인 카드를 다시 시작해도 문제가 해결되지 않거나 라인 카드를 다시 시작한 후 10분 이내에 문제가 다시 발생하면 이 단계가 수행됩니다.

3단계는 타이머에 의해 제어됩니다. 이러한 단계에서 이벤트(예: 오프라이닝/온라이닝 라인 카드 또는 패브릭 플레인)가 시간 초과되면 해당 이벤트를 건너뛰고 다음 이벤트로 진행합니다. 타이머 컨트롤의 시간 제한 값은 10분입니다. 두 개 이상의 라인 카드가 있는 시스템에서 첫 번째 패브릭 오류가 발생하면 패브릭 플레인이 다시 시작됩니다. 다음 10분 이내에 다른 패브릭 오류가 발생하면 패브릭 플레인과 라인 카드가 다시 시작됩니다. 그러나 두 번째 패브릭 오류가 10분의 타임아웃 기간을 벗어나 발생하면 패브릭 플레인만 다시 시작하는 첫 번째 단계가 수행됩니다.

모든 대상 시간 초과가 특정 라인 카드(예: 소스 라인 카드 1개 또는 대상 라인 카드 1개)로 추적되는 경우 해당 라인 카드만 오프라인 및 온라인으로 전환됩니다. 패브릭 플레인은 오프라인 및 온라인으로 전환되지 않습니다. 10분 이내에 다른 패브릭 결함이 발생하면 라인 카드는 오프라인으로 전환됩니다.

기본적으로 시스템은 심각하게 성능이 저하된 패브릭을 감지하여 연결 손실 시간을 제한합니다. 사용자 상호 작용이 필요하지 않습니다.

성능 저하된 패브릭이 있는 라인 카드

패브릭 성능이 저하된 라인 카드를 구성하여 오프라인 상태로 이동할 수 있습니다. MX10008, MX10004, MX2020, MX2010, MX960, MX480, MX304 또는 MX240 라우터에서 링크 오류 또는 불량 패브릭 플레인을 구성할 수 있습니다. 이 구성은 라인 카드를 오프라인 상태로 전환하면 재라우팅이 더 빨라지는 부분적인 연결 손실 시나리오에서 특히 유용합니다. 라인 카드에서 이 옵션을 구성하려면 계층 수준에서 문을 [edit chassis fpc slot-number] 사용합니다offline-on-fabric-bandwidth-reduction. 자세한 내용은 MX304 라우터의 패브릭 플레인 관리, MX10K-LC9600 및 SFB2(모델 번호: JNP10008-SF2)의 패브릭 플레인 관리, MX10004 디바이스의 패브릭 플레인 관리, JNP10K-LC2101 및 JNP10K-LC480의 패브릭 플레인 관리, 패브릭 플레인 관리 온 MX10004 및 AS MLC 모듈형 캐리어 카드의 MX10008 디바이스 및 패브릭 플레인 관리를 참조하십시오.

단일 목적지에 대해서만 연결 끊김

특정 구축에서 라인 카드는 단일 목적지에 대해서만 완전한 연결 손실을 나타내지만 다른 목적지에 대해서는 제대로 작동합니다. 이러한 사례가 식별되고 영향을 받는 라인 카드가 복구됩니다. 라인 카드 0과 라인 카드 1 사이의 연결에서 활성 플레인이 0,1,2,3이고 예비 플레인이 4,5,6,7인 샘플 시나리오를 고려하십시오. 라인 카드 0에 플레인 0과 1에 대한 단일 링크 장애가 있고 라인 카드 1에 플레인 2와 3에 대한 단일 링크 장애가 있는 경우 두 라인 카드 간에 완전한 연결 손실이 발생합니다. 라인 카드 0과 라인 카드 1 모두 단계적 복구 모드를 거치며 패브릭 복구가 발생합니다.

활성 컨트롤 보드의 이중화 패브릭 모드

활성 컨트롤 보드를 이중화 모드 또는 증가된 패브릭 대역폭 모드로 구성할 수 있습니다. 활성 컨트롤 보드에 대한 이중화 모드를 구성하려면 계층 수준에서 문을 [edit chassis fabric] 사용합니다redundancy-mode redundant.

MX 시리즈 라우터에서 라인 카드의 탐지 및 수정 조치

MX-Series 라우터(예: MX10008, MX10004, MX2020, MX2010, MX2008, MX960, MX480 또는 MX304, MX240 등)에서 라인 카드를 오프라인 상태로 이동하도록 구성할 수 있습니다. 이 기능을 구성해도 시스템에 영향을 주지 않습니다. 라인 카드를 다시 시작하거나 시스템을 다시 시작하지 않고도 이 기능을 구성할 수 있습니다.

라인 카드를 비활성화하도록 기능을 구성할 때 다음과 같은 시나리오가 발생할 수 있습니다.

  • 패브릭 오류로 인해 라인 카드가 오프라인 상태가 되고 라인 카드를 오프라인 상태로 이동하는 이 기능이 비활성화된 경우, 라인 카드는 자동으로 온라인 상태로 전환됩니다.

  • 패브릭 오류로 인해 라인 카드가 오프라인 상태가 되고 라인 카드를 오프라인 상태로 이동하는 이 기능이 비활성화되거나 다른 라인 카드에 대해 구성된 경우, 오프라인으로 전환된 라인 카드는 자동으로 온라인 상태로 전환됩니다.

  • 이 설정을 구성했을 때 오프라인으로 전환된 모든 라인 카드는 계층 수준에서 구성을 [edit chassis] 커밋할 때 다시 온라인 상태가 됩니다. 마찬가지로, 섀시 데몬을 다시 시작하거나 GRES( Graceful Routing Engine Switchover ) 작업을 수행하면 패브릭 성능 저하로 인해 비활성화된 라인 카드가 온라인 상태로 이동됩니다.

라인 카드가 필요한 활성 패브릭 플레인 수보다 적은 수로 작동하는 경우. 라인 카드가 4개 미만의 플레인으로 작동하는 경우 패브릭 트래픽은 감소된 대역폭에서 작동합니다.

다음과 같은 조건에서는 패브릭의 운영 대역폭이 감소할 수 있습니다.

  • 패브릭 컨트롤 보드는 의도하지 않은 갑작스러운 전원 차단의 결과로 오프라인 상태가 됩니다.

  • ASIC(Application-Specific Integrated Circuit) 오류로 인해 컨트롤 보드의 평면이 자동으로 오프라인으로 전환됩니다.

  • 패브릭 플레인 또는 컨트롤 보드를 수동으로 오프라인 상태로 전환합니다.

  • 제어 보드 제거

  • 모든 플레인에서 자체 ping 오류가 발생했습니다.

  • 활성 플레인에 대한 HSL2 학습 실패.

  • 예비 패브릭 플레인에 CRC 오류가 있고 이 예비 플레인이 온라인으로 만들어진 경우 CRC 오류와의 링크가 비활성화됩니다. 이 메커니즘은 한 방향으로는 패브릭 성능 저하를 일으킬 수 있으며 다른 방향으로는 null 경로를 유발할 수 있습니다.

  • 셀프 핑 또는 HSL2 교육 실패가 발생하면 특정 라인 카드에 대해 패브릭 플레인이 비활성화되고 다른 라인 카드에 대해 온라인 상태가 됩니다. 이 조건으로 인해 null 경로가 발생할 수도 있습니다.

시스템 유지 보수 중에 컨트롤 보드를 제거하거나 패브릭 플레인을 오프라인 상태로 이동해야 하는 경우, 계층 수준에서 문을 [edit chassis fpc slot-number] 사용하여 offline-on-fabric-bandwidth-reduction 대역폭이 저하된 라인 카드를 오프라인 상태로 전환하는 기능을 활성화해야 합니다.

패브릭에서 null 경로 또는 운영 대역폭 감소가 발생할 때 다음과 같은 수정 작업이 수행됩니다.

  • 예비 컨트롤 보드의 사용 가능 여부와 상관없이, 라우팅 엔진에서 각 라인 카드의 셀프 핑 상태는 5초 간격으로 모니터링됩니다. 패브릭 관리자는 예비 제어 보드의 존재 여부를 확인합니다.

  • 스위치 패브릭은 MX10008, MX10004, MX2020, MX2010 및 MX2000 디바이스의 SFB(Switch Fabric Boards)에서 호스팅됩니다.

    • MX10008 라우터에는 패킷 전달 엔진(PFE)과 이더넷 인터페이스를 단일 어셈블리에 결합하는 라인 카드 슬롯 0-7이 있는 최대 768개의 100기가비트 이더넷 포트(4x100), 192개의 40기가비트 이더넷 포트, 192개의 100기가비트 이더넷 포트 또는 192개의 400기가비트 이더넷 포트를 지원할 수 있는 라인 카드용 슬롯이 8개 있습니다. MX10008 6개의 SFB(Switch Fabric Boards) 지원 SFB에는 JNP10008-SF와 JNP10008-SF2의 두 가지 모델이 있습니다. 설치된 SFB는 실행 중인 섀시에서 동일한 모델 유형이어야 합니다.

      자세한 내용은 Fabric-Plane-Management-on-MX10004 및 MX10008-Devices를 참조하십시오

    • MX10004는 컴팩트한 7U 모듈형 섀시, 라인 카드 슬롯 0-3개의 실리콘 라인 카드(2.4Tbps, 480Gbps, 9.6Tbps 처리량)를 갖추고 있으며 완전한 하드웨어 이중화 기능을 갖추고 있습니다. SFB(Switch Fabric Boards)는 MX10004에 대한 스위치 패브릭을 생성합니다. 각 SFB에는 라인 카드에 대한 커넥터 집합과 스위치 패브릭에 대한 RCB(Routing and Control Board)가 있습니다. 3개의 SFB는 MX10004 라우터에 대한 축소된 스위칭 기능을 제공합니다. 6개의 SFB가 전체 처리량을 제공합니다. 각 MX10004 SFB에는 4개의 커넥터가 있습니다. 각 커넥터는 라인 카드 슬롯과 일치하므로 백플레인이 필요하지 않습니다.

      패브릭 플레인 관리에 대한 자세한 내용은 MX10004 디바이스의 패브릭 플레인 관리를 참조하십시오.

    • MX10003 라우터에는 모듈형 라우팅 엔진과 PFE가 포함되어 있습니다. 단일 PFE는 수신 및 송신 패킷 전달을 모두 수행합니다. 라우터는 2개의 전용 라인 카드 슬롯을 제공합니다. 라우터는 1개의 기본 및 2개의 중복 RCB(Routing and Control Boards)를 지원합니다.

    • MX2020 및 MX2010 디바이스는 8개의 SFB를 지원합니다. MX2020에는 20개의 전용 라인 카드 슬롯이 있습니다. MX2010 라우터에는 10개의 전용 라인 카드 슬롯이 있습니다 호스트 서브시스템은 2개의 CBRE(Control Board with Routing Engine)와 8개의 SFB(Switch Fabric Board)로 구성됩니다. 데이터 패킷은 SFB의 패브릭 ASIC를 통해 MPC 간의 백플레인을 통해 전송됩니다.

      스위치 패브릭 보드(SFB)는 슬롯당 증가된 패브릭 대역폭을 제공합니다. 최대 8개의 SFB, SFB2 또는

      SFB3는 MX2020 또는 MX2010 라우터에 설치할 수 있습니다. 섀시의 모든 스위치 패브릭 보드는 동일한 유형이어야 합니다. 혼합 모드는 지원되지 않습니다.

    • 3개의 컨트롤 보드를 포함하는 I-칩 또는 I-칩 및 트리오 칩 기반 라인 카드가 장착된 MX960 라우터.

    • 2개의 컨트롤 보드를 포함하는 I-칩 또는 I-칩 및 트리오 칩 기반 라인 카드가 있는 MX240 또는 MX480 라우터.

    • 트리오 기반 라인 카드만 포함하는 MX960, MX480 또는 MX240 라우터는 예비 컨트롤 보드를 포함하는 것으로 간주되지 않습니다.

    이러한 5초 간격 동안 두 개의 라인 카드가 동일한 플레인에 대한 장애를 나타내면 예비 컨트롤 보드로 전환됩니다. 이 경우 오류를 보고한 제어 보드는 오프라인으로 전환되고 예비 제어 보드는 온라인으로 전환됩니다.

  • 예비 컨트롤 보드를 사용할 수 있고 라인 카드를 비활성화하는 기능을 구성하는 경우, 각 라인 카드에 대한 셀프 핑 상태는 라우팅 엔진에서 5초 간격으로 모니터링됩니다. 다음과 같은 상황이 발생할 수 있습니다.

    • 5초 간격 동안 하나의 라인 카드만 평면에 대한 장애를 나타내는 경우 패브릭 관리자는 다음 간격을 기다립니다. 후속 간격 동안 동일한 평면에 대한 장애를 나타내는 다른 라인 카드가 없으면 컨트롤 보드의 전환이 수행됩니다.

    • 5초 간격 동안 여러 라인 카드에 여러 컨트롤 보드에 대한 장애가 표시되면 패브릭 관리자는 다음 간격을 기다립니다. 후속 간격 동안 동일한 조건이 유지되면 예비 컨트롤 보드가 있더라도 실패한 모든 라인 카드가 오프라인으로 전환됩니다.

    • 5초 간격 동안 라인 카드가 여러 컨트롤 보드의 여러 플레인에 대한 장애를 표시하면 패브릭 관리자는 다음 간격을 기다립니다. 후속 간격 동안 동일한 조건이 지속되면 예비 컨트롤 보드가 있더라도 라인 카드가 오프라인으로 전환됩니다.

  • 예비 플레인을 사용할 수 없는 경우, 라인 카드는 단일 플레인 또는 여러 플레인에 대한 실패를 표시할 때 오프라인으로 전환됩니다. 라인 카드는 이전에 계층 수준에서 문을 구성한 offline-on-fabric-bandwidth-reduction 경우에만 오프라인으로 전환됩니다 [edit chassis fpc slot-number] .

T4000 라우터의 패브릭 장애 처리 이해

T4000 라우터는 패브릭 대역폭이 T1600 라우터 용량의 두 배인 SIB(Switch Interface Board)로 구성됩니다. 패브릭 장애 관리 기능은 T1600 라우터의 기능과 유사합니다. 이 주제에서는 T4000 라우터의 패브릭 장애 처리 기능에 대해 설명합니다.

패브릭 장애 관리 기능에는 패브릭에 연결된 모든 고속 링크와 패브릭 코어 내의 링크에 대한 링크 장애 및 링크 오류에 대한 모니터링이 포함됩니다.

결함 및 해당 위치에 따라 조치가 수행됩니다. 작업에는 다음이 포함됩니다.

  • 시스템 로그 파일에 링크 오류를 보고하고 이 정보를 라우팅 엔진으로 보냅니다.

  • FPC(Flexible Port Concentrator) 또는 SIB에서 링크 장애를 보고하고 이 정보를 라우팅 엔진으로 전송합니다.

  • SIB Check 를 상태로 표시합니다.

  • SIB Fault 를 상태로 이동합니다.

T4000 라우터의 SIB는 4:1 중복으로 패브릭의 코어를 형성하며, 활성 SIB가 작동하지 않거나, 비활성화되거나, 제거될 때 중복 SIB가 활성화됩니다. 다음은 Junos OS에서 모니터링하는 패브릭 결함에 대한 개략적인 표시입니다.

  • SNMP 트랩은 SIB가 또는 FaultCheck 보고될 때마다 생성됩니다.

  • show chassis alarms- SIB가 또는 Check Fault 상태임을 나타냅니다.

  • show chassis sibs- SIB가 Check 초기화될 때 SIB가 또는 Fault 상태이거나 SIB가 상태 Offline 임을 나타냅니다(SIB의 전원이 완전히 켜지지 않을 때 발생).

  • show chassis fabric fpcs- FPC 측에서 패브릭 링크에 오류가 있는지 여부를 나타냅니다.

  • show chassis fabric sibs- SIB 측에서 패브릭 링크에 오류가 있는지 여부를 나타냅니다.

  • /var/log/messages 라우팅 엔진의 시스템 로그 메시지 파일에는 접두사CHASSISD_FM_ERROR가 붙은 오류 메시지가 있습니다.

  • SIB는 LED를 FAIL 표시합니다.

메모:

섀시의 패브릭 플레인은 섀시가 T640 라우터인지, T1600 라우터인지, T4000 라우터인지를 결정합니다. 전원 입력 모듈(PEM), FPC 또는 팬 트레이는 섀시 성격을 결정하지 않습니다. T4000 섀시에 기존 PEM 또는 팬 트레이가 있으면 알람이 발생합니다. 패브릭 플레인을 기반으로 라우터를 식별할 수 있습니다.

  • 존재하는 모든 평면이 F16 기반 SIB인 경우 섀시는 T640 섀시입니다.

  • 존재하는 모든 플레인이 SF 기반 SIB인 경우 섀시는 T1600 섀시입니다.

  • 존재하는 모든 플레인이 XF 기반 SIB인 경우 섀시는 T4000 섀시입니다.

패브릭 플레인의 혼합은 업그레이드 중을 제외하고는 지원되는 구성이 아닙니다. 모든 패브릭 플레인을 변경하고 CLI 명령을 실행하여 성격을 확인함으로써 재부팅 없이 섀시의 set chassis fabric upgrade-mode 성격을 변경할 수 있습니다. CLI 명령을 실행 set chassis fabric upgrade-mode 하지 않으면 다음 부팅 시까지 성격이 변경되지 않습니다.

T4000 라우터에서는 다음과 같은 결함이 발생합니다.

  • 보드 수준 결함 - 이러한 결함은 초기화 중 또는 런타임 중에 발생합니다. 보드 초기화 중 정전, 고속 링크 전송 오류 및 런타임 중 폴링된 I/O 오류는 보드 수준 오류의 몇 가지 예입니다.

  • 링크 수준 결함 - 이러한 결함은 초기화 중 또는 런타임 중에 발생합니다. 초기화 시 링크 교육 실패(FPC 또는 SIB가 초기화될 때 훈련될 FPC와 SIB 간의 데이터 플레인 링크 실패), SIB와 패킷 전달 엔진 사이의 채널에서 감지된 오류, 런타임에 감지된 순환 중복 검사(CRC) 오류 및 패킷 전달 엔진 대상 오류는 링크 수준 오류의 유형입니다.

  • 환경 조건에 따른 결함 - 이러한 결함은 런타임 중에 발생합니다. FPC 또는 SIB가 갑자기 제거되면 운영자 오류가 발생할 수 있습니다. SIB가 너무 뜨거워지거나 SIB 전압이 임계값을 초과할 때 발생하는 오류는 환경 오류로 분류됩니다.

다음 옵션 중 하나를 구현하여 오류를 처리할 수 있습니다.

  • 오류를 기록하고 알람을 발생시킵니다.

  • 가능한 경우 예비 플레인으로 전환합니다.

  • 평면의 부품 수를 줄인 상태에서 계속합니다.

  • 사용 가능한 플레인 수를 줄인 상태에서 계속합니다.

  • 폴링 기반 오류 처리를 사용합니다.

  • 고속 링크 오류를 모니터링하고 수동으로 링크를 적절한 임계값으로 낮춥니다.

폴링된 I/O 오류 및 링크 오류는 500밀리초마다 모니터링되며 보드 배기 온도 및 보드 전압은 10초마다 모니터링됩니다.

패킷 전송 라우터PTX5000 패브릭 장애 처리 이해

Junos OS 릴리스 14.1부터 PTX5000 패킷 전송 라우터는 9개의 SIB(Switch Interface Boards)를 지원합니다. 각 FPC2-PTX-P1A FPC는 슬롯당 1Tb의 용량을 지원하므로 초당 16Tbps의 패브릭 대역폭을 제공하며, 전이중(8Tbps의 애니-투-애니, 논블로킹, 반이중) 스위칭을 제공합니다.

패브릭 장애 관리 기능에는 패브릭에 연결된 모든 고속 링크와 패브릭 코어 내의 링크에 대한 링크 장애 및 링크 오류에 대한 모니터링이 포함됩니다.

PTX5000에서 발생하는 장애는 크게 다음과 같이 분류할 수 있습니다.

  • 보드 결함 - 라우터 구성 요소가 SIB 또는 FPC에 액세스할 때 발생하는 문제 또는 미드플레인 장애로 인해 발생하는 문제를 포함하여 초기화 중 또는 런타임 중에 SIB 또는 FPC(Flexible Port Concentrator)에서 발생하는 결함.

  • Link faults(링크 결함) - 초기화 또는 런타임 중에 라우터의 상위 수준 링크에서 발생하는 결함입니다.

  • 환경 조건으로 인한 결함 - 과전압 또는 과열로 인해 발생하는 결함; 운영자가 SIB 또는 FPC를 잘못 취급하여 발생하는 결함 등등.

라우터는 결함 범주 및 결함 위치에 따라 조치를 취합니다. 작업에는 다음이 포함됩니다.

  • 시스템 로그 파일에 링크 오류를 보고하고 이 정보를 라우팅 엔진으로 보냅니다.

  • 표 1에 나열된 작동 명령 중 하나를 실행할 때 링크 오류 표시:

    표 1: 운영 모드 명령 목록

    작동 모드 명령

    묘사

    show chassis sibs

    SIB(Switch Interface Boards) 상태 정보를 표시합니다.

    show chassis fabric fpcs <slot number>

    지정된 FPC 슬롯의 패브릭 상태를 표시합니다. 슬롯 번호가 제공되지 않으면 모든 FPC의 상태가 표시됩니다.

    show chassis fabric sibs <slot number>

    SIB와 FPC 간의 전기 스위치 패브릭 링크 상태를 표시합니다.

    show chassis fabric reachability <detail>

    패브릭 대상 도달 가능성의 현재 상태를 표시합니다.

    show chassis fabric unreachable-destinations

    도달 가능 상태에서 도달 불가 상태로 전환된 수신인 목록을 표시합니다.

    show pfe statistics error

    패킷 전달 엔진 오류 통계를 표시합니다.

    show chassis fabric topology <sib_slot>

    입출력 링크 토폴로지를 표시합니다.

    show chassis fabric summary

    모든 패브릭 플레인의 상태와 경과된 가동 시간을 표시합니다.

  • FPC 수준 또는 SIB 수준에서 링크 실패를 보고하고 이 정보를 라우팅 엔진으로 보냅니다.

  • 작동 명령에서 show chassis alarms 링크 오류 정보를 보고합니다.

  • SIB를 오류 상태로 이동합니다.

다음 섹션에서는 PTX5000의 패브릭 장애 처리 기능에 대해 설명합니다.

SIB 수준 결함

다음 섹션에서는 SIB에서 발생하는 결함 유형과 처리 방법에 대한 간략한 개요를 제공합니다.

SIB에서 발생하는 결함 유형

보드 결함 및 링크 결함은 초기화 및 런타임 중에 SIB에서 발생합니다. 일부 장애는 과전압 또는 과열과 같은 환경 조건으로 인해 발생하거나 운영자가 SIB를 잘못 취급할 때 발생합니다.

메모:

표 1에 나열된 작동 모드 명령을 실행하여 오류를 감지합니다.

SIB 초기화 및 런타임 중에 다음과 같은 오류가 발생할 수 있습니다.

  • SIB의 전원 공급 실패, ASIC 재설정 실패, ASIC에 대한 SPMB(Switch Processor Mezzanine Board) 폴링 I/O 액세스 실패, PIC 오류와 같은 보드 구성 요소 오류 또는 라우터 구성 요소 액세스 실패와 같은 보드 결함.

  • 링크 학습 중에 발생하는 높은 수준의 링크 오류와 같은 링크 장애.

  • 환경 조건 또는 운영자의 SIB 취급 부주의로 인해 발생하는 장애.

SIB 수준 결함 처리

다음 목록은 라우터가 초기화 중, 런타임 중, 환경 조건 및 운영자의 SIB 취급 부주의로 인해 SIB에서 발생하는 장애를 처리하는 방법을 보여줍니다.

  • 초기화 중 SIB에서 보드 결함을 처리하기 위해 섀시 데몬(섀시)은 SIB를 장애 상태로 표시합니다. SIB가 결함으로 표시된 후에는 이 SIB에서 어떠한 작업도 발생하지 않습니다.

  • 런타임 동안 SIB에서 보드 결함을 처리하기 위해 chassisd는 시스템 로그 파일에 오류를 기록하고 알람 표시 오류 유형을 발생시키며 SIB를 결함으로 표시합니다. SIB가 결함으로 표시된 후에는 이 SIB에서 어떠한 작업도 발생하지 않습니다.

  • 런타임 동안 SIB에서 링크 장애를 처리하기 위해 링크 교육 중에 링크 오류가 발생하면 섀시는 오류가 발생한 링크에 해당하는 FPC에 영향을 받는 SIB에 대한 링크를 비활성화하도록 알립니다. 그런 다음 섀시는 라우터의 다른 모든 FPC에 오류 메시지를 전송하여 장애가 발생한 SIB 링크 사용을 중지하고 링크 오류 알람을 생성합니다. 특정 SIB에 대해 두 개 이상의 FPC가 오류를 보고하면 모든 FPC에 대해 SIB가 비활성화되고 영향을 받는 SIB를 통해 패킷 전달 엔진이 트래픽을 전송하지 않습니다.

  • 런타임 동안 SIB에서 링크 장애를 처리하기 위해 chassisd는 SIB를 결함으로 표시하고 오류의 이유를 지정하며 SIB는 비활성화됩니다.

  • 과전압 또는 과열과 같은 환경적 결함이 발생할 경우 SIB는 즉시 오프라인 상태가 됩니다. 온도 또는 전압이 상승함에 따라 오류가 주기적으로 기록되며, SIB가 특정 임계 전압 또는 온도를 초과할 때 SIB가 오프라인으로 전환된다는 점에 유의하십시오.

  • SIB가 갑자기 제거되거나 제거되면 영향을 받는 모든 패킷 전달 엔진은 해당 플레인을 사용하여 라우터의 다른 패킷 전달 엔진에 도달하는 것을 중단합니다.

FPC 수준 결함

다음 섹션에서는 FPC에서 발생하는 결함 유형과 처리 방법에 대한 간략한 개요를 제공합니다.

FPC에서 발생하는 결함 유형

보드 결함 및 링크 결함은 초기화 및 런타임 중에 FPC에서 발생합니다. 일부 결함은 과전압, 과열과 같은 환경 조건으로 인해 발생하거나 작업자가 FPC를 잘못 취급할 때도 발생합니다.

메모:

표 1에 나열된 작동 명령을 실행하여 결함을 감지하십시오.

FPC 초기화 및 런타임 중에 다음과 같은 오류가 발생할 수 있습니다.

  • FPC의 전원 공급 실패, ASIC가 리셋 단계에서 나오지 못함, ASIC에 대한 PMB 폴링 I/O 액세스 실패, PIC 오류와 같은 보드 구성 요소 오류 또는 라우터 구성 요소 액세스 실패와 같은 보드 결함.

  • 링크 학습 중에 발생하는 높은 수준의 링크 오류와 같은 링크 장애.

  • 환경 조건 또는 작업자가 FPC를 잘못 취급하여 발생하는 결함.

FPC 수준 결함 처리

다음 목록은 라우터가 초기화 중, 런타임 중, 환경 조건 및 운영자의 FPC 취급 부주의로 인해 FPC에서 발생하는 결함을 처리하는 방법을 보여줍니다.

  • 초기화 중에 FPC의 보드 결함을 처리하기 위해 chassisd는 FPC를 결함 상태로 표시합니다. SIB가 결함으로 표시된 후에는 이 FPC에서 작업이 발생하지 않습니다.

  • 런타임 동안 FPC의 보드 결함을 처리하기 위해 chassisd는 시스템 로그 파일에 오류를 기록하고 알람 표시 오류 유형을 발생시키며 FPC를 결함으로 표시합니다. FPC에 결함이 있는 것으로 표시된 후에는 이 FPC에서 작업이 발생하지 않습니다.

  • 초기화 또는 런타임 중에 FPC의 온보드 링크 오류를 처리하기 위해 FPC가 중단되고 영향을 받는 모든 패킷 전달 엔진이 해당 플레인을 사용하여 라우터의 다른 패킷 전달 엔진에 도달하는 것을 중단합니다.

    메모:

    패브릭에 대한 링크 교육 프로세스가 아직 완료되지 않았기 때문에 초기화 중에 플레인이 중단되지 않습니다.

    런타임 중 온보드 링크 오류는 현재 구성에 따라 해결됩니다. FPC가 재부팅되거나 오류가 기록되고 FPC가 초기화를 계속합니다.

  • 과전압 또는 과열과 같은 환경적 결함이 발생할 경우 FPC는 즉시 오프라인 상태가 됩니다. 온도 또는 전압이 상승함에 따라 오류가 주기적으로 기록되며, FPC가 특정 임계 전압 또는 온도를 초과하면 FPC가 오프라인으로 전환됩니다.

  • FPC가 갑자기 제거되거나 제거되면 다른 모든 패킷 포워딩 엔진은 이 FPC의 패킷 포워딩 엔진으로의 트래픽 전송을 중단합니다.

SFB2(Enhanced Switch Fabric Board)의 패브릭 장애 처리 이해

MX2000 라인 라우터는 스위치 패브릭 보드(SFB)와 향상된 SFB(SFB2)를 지원하지만 둘 다 동시에 지원하지는 않습니다. SFB와 SFB2는 각각 3개의 패브릭 플레인을 호스팅합니다. 따라서 섀시는 총 24 개의 평면을 지원합니다. Junos OS 릴리스 15.1F6 및 16.1R1은 SFB 및 SFB2의 각 플레인에 대한 패브릭 장애 처리를 지원합니다. 이전 릴리스에서는 패브릭 장애 처리가 각 플레인이 아닌 각 SFB에 대해 지원됩니다.

표 2 에는 플레인과 SFB당 패브릭 장애 처리 간의 차이점이 나와 있습니다.

표 2: SFB vs. SFB2 패브릭 장애 처리

SFB 레벨(SFB)

플레인 레벨(SFB 및 SFB2)

SFB의 모든 링크에 대한 CRC(Cyclic Redundancy Check) 오류는 SFB에 표시됩니다.

SFB 또는 SFB2의 모든 링크에 대한 CRC 오류가 평면에 표시됩니다.

목적지 오류가 발생하면 라인 카드는 SFB(평면 3개 모두)를 격리합니다.

대상 오류가 발생하면 라인 카드는 해당 플레인을 격리합니다. 다른 비행기는 계속 작동합니다.

플레인당 패브릭 결함 처리는 다음과 같은 이점을 제공합니다.

  • 세분성이 향상되어 결함을 식별, 격리 및 복구하는 데 도움이 됩니다.

  • 알람과 로그 메시지는 SFB가 아닌 플레인별로 결함 정보를 제공하므로 디버깅이 더 쉬워집니다.

  • SFB에 결함이 있는 플레인이 하나 있는 경우 다른 두 플레인은 계속 작동할 수 있습니다. 전체 SFB를 오프라인으로 전환할 필요가 없습니다.

  • 일시적인 오류가 발생할 경우 수리하는 동안 바운싱되는 SFB를 격리하는 대신 단일 평면을 분리할 수 있습니다.

24개 플레인 모두에 대한 패브릭 장애 처리 정보를 보려면 기존 패브릭 명령과 함께 옵션을 사용합니다 extended .

대역폭 저하 관리

특정 오류로 인해 시스템에서 알림 없이 패킷이 삭제됩니다. 연결된 다른 시스템은 영향을 받는 시스템으로 트래픽을 계속 전달하여 네트워크 성능에 영향을 미칩니다. 심하게 성능이 저하된 패브릭 평면이 여기의 이유 중 하나일 수 있습니다.

기본적으로 주니퍼 네트웍스 라우터는 시스템이 패킷 전달 엔진에 문제가 감지되면 이러한 상황에서 복구를 시작합니다. 복구에 실패하면 시스템은 인터페이스를 꺼서 더 이상의 에스컬레이션을 방지합니다.

Junos OS에서는 계층의 [edit chassis fpc slot-numberfabric] 구성 문을 bandwidth-degradation 사용하여 적합하다고 판단되는 방식으로 패브릭 플레인 성능 저하를 감지하고 대응할 수 있습니다. 라우터를 구성하여 이러한 조건이 감지되면 라우터가 취해야 하는 복구 조치를 지정할 수 있습니다. 또한 선택적 문을 blackhole-action 사용하여 라인 카드가 100% 패브릭 성능 저하 시나리오에 대응하는 방법을 결정할 수 있습니다. 이 명령은 선택 사항이며 기본 패브릭 강화 절차를 대체합니다.

메모:

bandwidth-degradation 명령과 offline-on-fabric-bandwidth-reduction 명령문은 상호 배타적입니다. 두 명령이 모두 구성되면 커밋 검사 중에 오류가 발생합니다.

문은 bandwidth-degradation 백분율과 행동으로 구성됩니다. percent-age 값의 범위는 1에서 99까지이며, 라인 카드에서 응답을 트리거하는 데 필요한 패브릭 성능 저하의 백분율을 나타냅니다. 속성은 action 패브릭 성능 저하가 구성된 비율에 도달하면 라인 카드가 수행하는 응답 유형을 결정합니다.

명령문은 패브릭 성능 저하 비율이 100%에 도달할 때 트리거되는 속성으로만 action 구성됩니다.

다음 조치는 두 구성 문 중 하나에 적용할 수 있습니다.

  • log-only: 패브릭 성능 저하 임계값에 도달하면 섀시 및 메시지 파일에 메시지가 기록됩니다. 다른 작업은 수행되지 않습니다.

  • restart: 성능 저하된 패브릭 플레인이 있는 라인 카드는 임계값에 도달하면 다시 시작됩니다.

  • offline: 패브릭 플레인의 성능이 저하된 라인 카드는 임계값에 도달하면 오프라인으로 전환됩니다. 라인 카드를 다시 온라인 상태로 전환하려면 수동 개입이 필요합니다. 작업 특성이 구성되지 않은 경우의 기본 작업입니다.

  • restart-then-offline: 임계값에 도달하면 패브릭 플레인 성능이 저하된 라인 카드가 다시 시작되고, 패브릭 플레인 성능 저하가 10분 이내에 다시 감지되면 라인 카드가 오프라인으로 전환됩니다. 라인 카드를 다시 온라인 상태로 전환하려면 수동 개입이 필요합니다.

메모:

이 기능은 Junos OS 릴리스 15.1R1에서 사용할 수 있습니다.

PTX10K-LC1202-36MR 라인 카드를 사용한 PTX10001-36MR, PTX10004, PTX10008 및 PTX100016에서 패브릭 강화 및 복구

PTX10001-36MR, PTX10004, PTX10008 및 PTX100016 라우터는 패브릭 강화를 지원합니다. 패브릭 강화는 패브릭 블랙홀링을 탐지하고 자동 복구 프로세스를 시도하여 패킷 포워딩 엔진을 블랙홀 상태에서 복원하는 복원력 기능입니다.

패브릭 강화는 기본적으로 사용하도록 설정했습니다. 시스템이 연결할 수 없는 패킷 전달 엔진 대상을 탐지하면 이 기능은 자동 패브릭 연결 복원을 시도합니다.

복원에 실패하면 시스템은 인터페이스를 꺼서 블랙홀링을 제한하고 연결할 수 없는 패킷 전달 엔진 대상을 나타내도록 알람을 트리거합니다. 그러나 인터페이스를 끄는 대신 계층 수준에서 문을 [set chassis fabric event] 사용하여 set chassis fabric event reachability-fault actions recovery-failure pfe-offline 패킷 전달 엔진을 오프라인으로 구성할 수 있습니다.

패킷 전달 엔진 대상은 다음과 같은 이유로 연결할 수 없게 될 수 있습니다.

  • 완전한 자체 블랙홀 - 모든 패브릭 플레인에서 완전한 연결 손실이 발생합니다.

  • 완전한 피어 블랙홀 - 두 개의 패킷 포워딩 엔진이 패브릭에 연결할 수 있지만 서로 연결할 수는 없습니다.

계층 수준에서 문을 사용하여 degraded 라우터가 패브릭 대역폭의 저하를 감지할 때 패브릭 복구를 트리거하도록 라우터를 [edit chassis fabric event reachability-fault] 구성할 수 있습니다. 성능 저하 명령문은 1에서 99 사이의 백분율 값으로 구성됩니다. 백분율 값은 패브릭 대역폭 저하에 대한 오류 임계값을 나타내며, 임계값에 도달하면 라우터가 복구를 시작합니다.

성능 저하 오류 임계값이 구성되면 라우터는 다음과 같은 이유로 패브릭 복구를 시도할 수도 있습니다.

  • Self degrdation- 패킷 전달 엔진 대상의 패브릭 상태가 저하되었습니다.

  • 피어 성능 저하 - 두 패킷 전달 엔진 간의 패브릭 상태가 저하되었습니다.

패브릭 복구 프로세스에는 다음 단계 중 하나 이상이 포함됩니다.

  • SIB 재시작 단계: 여러 라인 카드의 패킷 전달 엔진 대상이 플레인에서 패브릭 연결 실패를 겪은 경우, 라우터는 SIB를 다시 시작하여 문제를 해결하려고 시도합니다. 여러 SIB를 다시 시작해야 하는 경우 라우터는 SIB를 하나씩 다시 시작합니다.

  • FPC 재시작 단계: 라우터는 다음 시나리오에 대해 FPC를 다시 시작하여 자동 복구를 시도합니다.

    • 전체 또는 부분 블랙홀 조건을 갖는 모든 패킷 전달 엔진 대상은 단일 FPC에 있습니다.

    • 완전하거나 부분적인 블랙홀 조건을 가진 패킷 전달 엔진 대상이 서로 다른 FPC에서 발생하지만 패킷 전달 엔진 중 어느 것도 공통 실패 플레인을 공유하지 않는 경우.

    • SIB 재시작 단계의 시도가 패킷 전달 엔진을 복구하지 못했습니다.

    FPC의 재시작을 비활성화하여 성능 저하된 패브릭 상태에서 복구 작업을 제한할 수 있습니다. FPC의 재시작을 비활성화하려면 계층 수준에서 문을 [set chassis fabric event] 사용합니다set chassis fabric event reachability-fault actions fpc-restart-disable.

  • 패킷 전달 엔진 오프라인 단계: 이전 복구 단계 시도가 실패하거나 구성에서 복구 작업이 비활성화되었기 때문에 라우터는 기본적으로 블랙홀링을 제한하기 위해 인터페이스를 끕니다. 그러나 인터페이스를 끄는 대신 계층 수준에서 문을 [set chassis fabric event] 사용하여 set chassis fabric event reachability-fault actions recovery-failure pfe-offline 패킷 전달 엔진을 오프라인으로 구성할 수 있습니다.

라우터에 피어 블랙홀 또는 피어 성능 저하 상태의 패킷 전달 엔진만 있는 경우 라우터는 플레인에서 패브릭 링크를 다시 시작하여 링크 자동 복구를 통해 복구를 시도합니다.

혜택

  • 트래픽 손실을 최소화하기 위해 성능 저하된 패브릭 상태에서 패킷 전달 엔진을 복구하기 위해 자동 복구 프로세스를 시도합니다.

  • 복구가 실패할 경우 연결할 수 없는 패킷 전달 엔진 대상을 나타내는 오류 정보를 제공하는 알람을 발생시킵니다.

성능 저하된 패브릭 상태에서 복구 작업을 제한하기 위해 라인 카드 재시작 비활성화

라인 카드 재시작을 비활성화하여 패브릭 성능 저하 상태에서 복구 작업을 제한할 수 있습니다. T640 및 T1600 라우터에서는 패브릭 플레인만 다시 시작됩니다. PTX 시리즈 라우터에서는 SIB(Switch Interface Boards)만 다시 시작됩니다. 라인 카드의 재시작을 비활성화하려면 계층 수준에서 문을 [edit chassis fabric degraded] 사용합니다action-fpc-restart-disable.

라인 카드 재시작이 비활성화될 때마다 라우터에 연결할 수 없는 목적지가 있을 때 경보가 발생하며 라인 카드를 수동으로 다시 시작해야 합니다.

패브릭 플레인(T640 및 T1600 라우터) 또는 SIB(PTX 시리즈 라우터)와 라인 카드가 복구 프로세스 중에 다시 시작되도록 하려면 계층 수준에서 문을 [edit chassis fabric degraded] 구성 action-fpc-restart-disable 하지 마십시오.

패브릭 대역폭 저하로 FPC 비활성화

패브릭 대역폭이 저하된 FPC를 오프라인으로 전환하여 섀시에서 오랜 시간 동안 null 경로가 발생하지 않도록 할 수 있습니다. 대역폭이 저하된 FPC를 비활성화하는 옵션을 구성하려면 계층 수준에서 문을 [edit chassis fpc slot-number] 사용합니다offline-on-fabric-bandwidth-reduction.

패브릭 관리자는 현재 활성 플레인의 수를 주기적으로 확인합니다. 활성 플레인 수가 특정 라우터에 필요한 활성 플레인 수보다 적을 경우 시스템은 10초 동안 기다렸다가 수정 조치를 취합니다. FPC에 대해 감소된 대역폭 조건이 지속되고 이 기능이 FPC에 대해 구성된 경우 시스템은 FPC를 오프라인으로 전환합니다.

패브릭 OAM에 의한 오류 처리

패브릭 OAM(Operation, Administration, Maintenance)은 패브릭 경로의 장애를 감지하는 데 도움이 됩니다. 패브릭 OAM은 PFE에 대한 새 패브릭 경로가 나타날 때마다 패브릭 플레인에서 트래픽을 전송하기 전에 패브릭 연결성을 검증합니다. 장애가 감지되면 소프트웨어는 결함을 보고하고 해당 PFE에 해당 패브릭 플레인을 사용하지 않습니다. 이 기능은 사용 가능한 각 패브릭 플레인에 대해 매우 낮은 PPS(Packets Per Second) 자체 목적지 OAM 트래픽을 전송하고 엔드포인트에서 트래픽 손실을 감지하는 방식으로 작동합니다(패브릭 자체 핑 확인).

메모:
  • Junos OS Evolved 릴리스 20.4R1에서는 패브릭 OAM 기능이 기본적으로 활성화되어 있습니다. CLI 명령을 사용하여 기능을 비활성화할 수 있습니다 set chassis fabric oam detection-disable.
  • Junos OS 진화한 릴리스 20.4R2 및 21.1R1에서 패브릭 OAM 기능은 기본적으로 비활성화되어 있습니다.
  • Junos OS Evolved 릴리스 22.1R1에서는 런타임 패브릭 OAM 기능이 기본적으로 활성화되어 있습니다. CLI 명령을 사용하여 기능을 비활성화할 수 있습니다 edit chassis fabric oam runtime-disable. 런타임 패브릭 OAM 기능은 PTX10004, PTX10008 및 PTX10016 라우터에서 지원됩니다.

패브릭 OAM 검사는 부팅 시 수행됩니다. 실패한 경로는 비활성화됩니다. 시스템은 복구 작업을 수행하지 않습니다. 그러나 SIB를 다시 시작하여 영향을 받는 패브릭 플레인을 복구할 수 있습니다. 복구 단계는 오류의 특성에 따라 달라집니다.

패브릭 플레인은 PFE와 패브릭 ASIC 사이의 독립적인 양방향 경로를 나타냅니다. 런타임 패브릭 OAM은 주기적으로 패브릭 연결을 확인하고 시스템 런타임 중에 패브릭 플레인의 장애를 감지하고 보고하는 데 도움을 줍니다. 런타임 패브릭 OAM은 각 PFE의 패브릭 연결성을 감지합니다.

단일 또는 여러 FPC에서 동일한 패브릭 플레인에 장애가 발생하면 다음 명령을 사용하여 장애가 발생한 평면이 포함된 SIB를 다시 시작합니다.

user@host> request chassis sib slot slot-number offline

user@host> request chassis sib slot slot-number online

여러 FPC에서 랜덤 패브릭 플레인에 장애가 발생하면 장애를 특정 FPC 또는 SIB로 격리할 수 없습니다. 그러나 영향을 받는 플레인을 포함하는 SIB를 순차적으로 다시 시작하여 플레인 복구를 시도할 수 있습니다.

패브릭 OAM 기능에서 감지된 각 오류에 대해 syslog가 생성됩니다. 예를 들면 다음과 같습니다.

다음 syslog 메시지는 패브릭 OAM 관련 오류가 해결되었음을 나타냅니다.

또한 CLI 명령을 show system errors active detail show system alarms 사용하여 패브릭 OAM 관련 오류를 볼 수 있습니다.

다음 출력은 단일 패브릭 플레인 장애(패킷 전달 엔진 0)와 모든 패브릭 플레인 장애(패킷 전달 엔진 1)에 대한 세부 정보를 보여줍니다.

CLI 명령을 show chassis fabric fpcs 사용하여 각 패브릭 플레인의 패브릭 OAM 셀프 핑 상태를 볼 수 있습니다.

show chassis fabric fpcs 패브릭 OAM 기능이 비활성화된 경우 명령은 다음 출력을 표시합니다.

변경 내역 테이블

기능 지원은 사용 중인 플랫폼 및 릴리스에 따라 결정됩니다. 기능 탐색기 를 사용하여 플랫폼에서 기능이 지원되는지 확인합니다.

석방
묘사
14.2R6
Junos OS 릴리스 14.2R6부터 고전압 또는 고온과 같은 극한 조건으로 인해 SIB가 오프라인 상태가 되면 복구 프로세스의 일부로 라우터는 해당 SIB에 대한 패브릭 플레인을 다시 시작하지 않습니다.
14.2R6
Junos OS 릴리스 14.2R6부터 패브릭 셀프 핑 및 패킷 전달 엔진 활성화 메커니즘을 통합하여 단일 섀시 시스템의 패브릭 성능 저하를 보다 효과적으로 관리할 수 있습니다.
14.1
Junos OS 릴리스 14.1부터 PTX5000 패킷 전송 라우터는 9개의 SIB(Switch Interface Boards)를 지원합니다.
13.3
Junos OS 릴리스 13.3부터 PTX 시리즈 라우터를 사용하여 지정된 임계값에 도달했을 때 수행할 PFE(패킷 전달 엔진) 관련 오류 수준과 작업을 구성할 수 있습니다.