Help us improve your experience.

Let us know what you think.

Do you have time for a two-minute survey?

 
 

고가용성 장애 조치(failover) 시나리오 이해

다음 섹션에서는 가능한 고가용성 오류 시나리오, 즉 오류를 감지하는 방법, 수행할 복구 작업 및 해당하는 경우 오류로 인해 시스템에 미치는 영향에 대해 설명합니다.

활성 VIP 노드 충돌

검색

대기 VIP 노드에서 실행 중인 하트비트 서비스는 피어로부터 하트비트 메시지를 수신하지 않은 후 10초 이내에 충돌을 감지합니다. JBoss 클러스터링 메커니즘을 사용하면 다른 노드의 JBoss 서버가 장애가 발생한 노드의 JBoss 서버가 약 52초 내에 응답하지 않음을 감지할 수 있습니다.

복구

대기 노드가 VIP 주소를 즉시 인계받습니다.

장애가 발생한 노드에서 제공하는 디바이스 연결은 클러스터의 나머지 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스를 완료하는 데 걸리는 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 프로세스는 몇 분 내에 완료됩니다.

VIP 주소가 스탠바이 노드에 의해 인수되면 스탠바이 노드에서 네트워크 모니터링 서비스가 시작됩니다. 네트워크 모니터링 서비스가 초기화를 완료하는 데 약 3-5분 정도 걸립니다. 유지 관리되는 FM 및 PM 데이터의 크기에 따라 더 많은 시간이 걸릴 수 있습니다.

영향

VIP 주소는 대기 노드에 의해 인계될 때까지 약 10초 동안 사용할 수 없게 됩니다. 이 기간 동안의 GUI 또는 API 클라이언트 액세스에 일시적인 오류가 발생합니다. 또한 이 간격 동안 디바이스가 VIP 주소로 보낸 모든 SNMP 트랩이 손실됩니다.

장애가 발생한 노드의 JBoss 서버에서 연결을 제공하는 디바이스에 대해 디바이스 연결이 몇 분 동안 중단됩니다.

실패한 노드에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

대기 노드에서 네트워크 모니터링 서비스가 초기화되는 동안 사용자는 약 3-5분 동안 네트워크 모니터링 기능이 중단됩니다.

참고:

Junos Space 네트워크 관리 플랫폼 21.1R1부터 재부팅 대신 수동 페일오버를 수행하려면 VIP 노드 CLI에서 아래 명령을 실행합니다.

  • systemctl restart corosync
  • systemctl restart pacemaker

대기 VIP 노드 충돌

검색

JBoss 클러스터링 메커니즘을 사용하면 다른 노드의 JBoss 서버가 장애가 발생한 노드의 JBoss 서버가 약 52초 내에 응답하지 않음을 감지할 수 있습니다.

복구

장애가 발생한 노드에서 제공하는 디바이스 연결은 클러스터의 나머지 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스 완료 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 이 프로세스는 몇 분 내에 완료됩니다.

영향

장애가 발생한 노드의 JBoss 서버에서 연결을 제공하는 디바이스에 대해 디바이스 연결이 몇 분 동안 중단됩니다.

실패한 노드에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

활성 VIP 노드의 eth0이 다운됩니다.

검색

대기 VIP 노드에서 실행 중인 하트비트 서비스는 피어로부터 하트비트 메시지를 수신하지 않은 후 10초 이내에 충돌을 감지합니다. JBoss 클러스터링 메커니즘을 사용하면 다른 노드의 JBoss 서버가 장애가 발생한 노드의 JBoss 서버가 약 52초 내에 응답하지 않음을 감지할 수 있습니다.

복구

대기 노드가 VIP 주소를 즉시 인계받습니다.

장애가 발생한 노드에서 제공하는 디바이스 연결은 클러스터의 나머지 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스를 완료하는 데 걸리는 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 프로세스는 몇 분 내에 완료됩니다.

VIP 주소가 스탠바이 노드에 의해 인수되면 스탠바이 노드에서 네트워크 모니터링 서비스가 시작됩니다. 네트워크 모니터링 서비스가 초기화를 완료하는 데 약 3-5분 정도 걸립니다. 유지 관리되는 FM 및 PM 데이터의 크기에 따라 더 많은 시간이 걸릴 수 있습니다.

영향

VIP 주소는 대기 노드에 의해 인계될 때까지 약 10초 동안 사용할 수 없게 됩니다. 이 기간 동안의 GUI 또는 API 클라이언트 액세스에 일시적인 오류가 발생합니다. 또한 이 간격 동안 디바이스가 VIP 주소로 보낸 모든 SNMP 트랩이 손실됩니다.

장애가 발생한 노드의 JBoss 서버에서 연결을 제공하는 디바이스에 대해 디바이스 연결이 몇 분 동안 중단되었습니다.

실패한 노드에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

대기 노드에서 네트워크 모니터링 서비스가 초기화되는 동안 사용자는 약 3-5분 동안 네트워크 모니터링 기능이 중단됩니다.

대기 VIP 노드의 eth0이 작동 중단됩니다.

검색

JBoss 클러스터링 메커니즘을 사용하면 다른 노드의 JBoss 서버가 장애가 발생한 노드의 JBoss 서버가 약 52초 내에 응답하지 않음을 감지할 수 있습니다.

복구

장애가 발생한 노드에서 제공하는 디바이스 연결은 클러스터의 나머지 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스 완료 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 이 프로세스는 몇 분 내에 완료됩니다.

영향

장애가 발생한 노드의 JBoss 서버에서 연결을 제공하는 디바이스에 대해 디바이스 연결이 몇 분 동안 중단되었습니다.

실패한 노드에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

VIP가 아닌 노드가 충돌합니다.

검색

JBoss 클러스터링 메커니즘을 사용하면 다른 노드의 JBoss 서버가 장애가 발생한 노드의 JBoss 서버가 약 52초 내에 응답하지 않음을 감지할 수 있습니다.

복구

장애가 발생한 노드에서 제공하는 디바이스 연결은 클러스터의 나머지 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스를 완료하는 데 걸리는 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 이 프로세스는 몇 분 안에 완료됩니다.

영향

장애가 발생한 노드의 JBoss 서버에서 연결을 제공한 디바이스에 대해 디바이스 연결이 몇 분 동안 중단됩니다. 실패한 노드에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

VIP가 아닌 노드의 eth0이 다운됨

검색

JBoss 클러스터링 메커니즘을 사용하면 다른 노드의 JBoss 서버가 장애가 발생한 노드의 JBoss 서버가 약 52초 내에 응답하지 않음을 감지할 수 있습니다.

복구

장애가 발생한 노드에서 제공하는 디바이스 연결은 클러스터의 나머지 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스 완료 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 이 프로세스는 몇 분 내에 완료됩니다.

영향

장애가 발생한 노드의 JBoss 서버에서 연결을 제공하는 디바이스에 대해 디바이스 연결이 몇 분 동안 중단되었습니다.

실패한 노드에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

VIP가 아닌 노드의 eth3가 다운됨

검색

디바이스 킵얼라이브 모니터는 이 노드에서 제공하는 모든 디바이스 연결이 15분 내에 다운되었음을 감지하고 이러한 디바이스의 연결 상태를 다운으로 표시합니다.

복구

Junos Space에 의해 시작된 연결의 경우, Junos Space는 이러한 디바이스와 재연결을 시도합니다. 각 시도는 관리하는 장치 수 측면에서 로드가 가장 적은 것으로 확인된 클러스터 노드에서 수행됩니다. 이 부하 분산 검사에 따라 클러스터의 다른 노드에 이 노드보다 부하가 훨씬 적은 경우 해당 노드에서 다시 연결 시도가 이루어지고 성공합니다. 이 경우 이러한 디바이스에 대한 연결은 몇 분 후에 다시 켜집니다. 이 노드가 가장 적게 로드된 경우 이 노드에서 모든 재연결 시도가 이루어지며 eth3가 다운된 상태로 유지되는 한 이러한 시도는 계속 실패합니다.

디바이스 시작 연결의 경우 디바이스는 약 15분 후에 연결 실패를 감지한 다음 다음 몇 초 내에 클러스터의 다른 노드와 다시 연결합니다.

영향

이 노드에서 연결을 제공하는 디바이스에 대한 디바이스 연결이 중단되었습니다. 15분 동안(최상의 경우) 또는 eth3가 다시 가동될 때까지(최악의 경우) 연결이 중단될 수 있습니다. 또한 중단 시간은 해당 디바이스에 대한 재연결을 시도하기 위해 선택한 노드에 따라 디바이스마다 다를 수 있습니다. 디바이스 시작 연결의 경우 중단이 15분 이상 지속됩니다.

활성 VIP 노드의 eth3이 다운됩니다.

검색

디바이스 킵얼라이브 모니터는 이 노드에서 제공하는 모든 디바이스 연결이 15분 내에 다운되었음을 감지하고 이러한 디바이스의 연결 상태를 다운으로 표시합니다.

복구

Junos Space에서 시작된 Jconnection의 경우, Junos Space는 이러한 디바이스와 재연결을 시도합니다. 각 시도는 관리하는 장치 수 측면에서 로드가 가장 적은 것으로 확인된 클러스터 노드에서 수행됩니다. 이 부하 분산 검사에 따라 클러스터의 다른 노드에 이 노드보다 부하가 훨씬 적은 경우 해당 노드에서 다시 연결 시도가 이루어지고 성공합니다. 이 경우 이러한 디바이스에 대한 연결은 몇 분 후에 다시 켜집니다. 이 노드가 가장 적게 로드된 경우 이 노드에서 모든 재연결 시도가 이루어지며 eth3가 다운된 상태로 유지되는 한 이러한 시도는 계속 실패합니다.

디바이스 시작 연결의 경우 디바이스는 약 15분 후에 연결 실패를 감지한 다음 다음 몇 초 내에 클러스터의 다른 노드와 다시 연결합니다.

영향

이 노드에서 연결을 제공하는 디바이스에 대한 디바이스 연결이 중단되었습니다. 15분 동안(최상의 경우) 또는 eth3가 다시 가동될 때까지(최악의 경우) 연결이 중단될 수 있습니다. 또한 중단 시간은 해당 디바이스에 대한 재연결을 시도하기 위해 선택한 노드에 따라 디바이스마다 다를 수 있습니다. 디바이스 시작 연결의 경우 중단이 15분 이상 지속됩니다.

네트워크 모니터링 서비스도 VIP 노드에서만 실행되므로 영향을 받습니다. 모든 디바이스가 VIP 노드의 eth3 IP 주소를 트랩 대상으로 구성하기 때문에 서비스는 매니지드 디바이스로부터 SNMP 트랩을 수신하지 않습니다. 또한 eth3가 백업될 때까지 모든 관리되는 장치의 모든 성능 및 오류 모니터링이 실패합니다.

노드의 JBoss 서버가 다운됨

검색

노드의 JBoss 서버가 작동 중단되면 실패한 JBoss 서버에 대한 TCP 연결이 운영 체제에 의해 닫히기 때문에 JBoss 클러스터의 다른 노드가 약 2초 내에 실패를 감지합니다.

복구

실패한 JBoss 서버에서 제공하는 디바이스 연결은 클러스터의 다른 노드로 마이그레이션됩니다. 이 프로세스는 JBoss 클러스터 멤버가 장애가 발생한 노드의 JBoss 서버가 다운되었음을 감지한 후 약 1분 후에 시작됩니다. 프로세스를 완료하는 데 걸리는 시간은 마이그레이션할 디바이스 연결 수, 나머지 노드의 부하 등에 따라 달라집니다. 일반적으로 프로세스는 몇 분 내에 완료됩니다.

노드에서 실행 중인 워치독 서비스(jmp-watchdog)는 JBoss 서버가 다운되었음을 감지하고 자동으로 다시 시작합니다. JBoss 서버가 다시 작동하면 다른 클러스터 멤버에 의해 자동으로 감지되어 클러스터에 추가됩니다. 그런 다음 클러스터의 다른 노드에서 캐시를 동기화합니다. JBoss의 일반적인 재시작 시간은 2분에서 5분 사이입니다. 그러나 설치된 응용 프로그램 수, 관리되는 장치 수, 설치된 DMI 스키마 버전 수 등에 따라 시간이 더 걸릴 수 있습니다.

영향

중단된 JBoss 서버에서 연결을 제공하던 디바이스의 경우 디바이스 연결이 몇 분 동안 중단됩니다.

충돌한 JBoss 서버에서 진행 중이던 모든 작업이 실패한 것으로 표시되고 그 이유가 표시됩니다.

활성 VIP 노드의 MySQL 서버가 다운됨

검색

노드의 MySQL 서버가 다운되면 워치독 서비스는 약 1-2초 내에 해당 활성 노드에서 다운된 MySQL 서버를 감지합니다.

복구

워치독 서비스는 노드에서 MySQL 서버를 즉시 다시 시작합니다. 다시 시작하면 MySQL 서버가 약 20-60 초 후에 나타납니다.

영향

VIP 노드의 MySQL 서버는 클러스터에 있는 모든 JBoss 서버의 모든 요청을 처리하는 활성 데이터베이스입니다. 이는 사실상 이 기간(20-60초) 동안 모든 노드의 JBoss에서 짧은 데이터베이스 중단을 경험할 수 있음을 의미합니다. 이 기간 동안 데이터베이스 액세스가 필요한 모든 요청이 실패합니다. 이로 인해 GUI 또는 API 클라이언트의 요청에 대한 오류가 발생하며, 이 기간 동안 내부적으로 데이터베이스 액세스가 필요합니다. 이로 인해 이 기간 동안 데이터베이스 액세스가 필요한 작업도 실패합니다.

대기 VIP 노드의 MySQL 서버가 다운됨

검색

노드의 MySQL 서버가 다운되면 워치독 서비스는 약 1-2초 내에 해당 대기 노드에서 다운된 MySQL 서버를 감지합니다.

복구

워치독 서비스는 노드에서 MySQL 서버를 즉시 다시 시작합니다. 다시 시작하면 MySQL 서버가 나타나기까지 약 20-60 초가 걸립니다. 백업된 후 이 서버는 백그라운드에서 주 서버와 다시 동기화되며 다시 동기화 시간은 중단 중에 발생한 변경 횟수에 따라 달라집니다.

영향

대기 VIP 노드의 MySQL 서버는 JBoss에 의해 액세스되지 않기 때문에 다운타임으로 인해 시스템의 나머지 부분이나 시스템 사용자가 알아차릴 수 있는 부정적인 영향이 발생하지 않습니다.

기본 데이터베이스 노드 충돌

검색

보조 데이터베이스 노드에서 실행 중인 하트비트 서비스는 기본 데이터베이스 노드에서 하트비트 메시지를 수신하지 않은 후 10초 이내에 충돌을 감지합니다.

복구

데이터베이스 VIP 주소는 10-20초 내에 보조 데이터베이스 노드로 전송됩니다. 다른 노드의 JBoss 서버는 보조 데이터베이스 노드에서 데이터베이스 VIP 주소를 인계한 후 데이터베이스에 액세스할 수 있습니다.

영향

데이터베이스 VIP 주소는 보조 데이터베이스 노드에서 인계될 때까지 약 10-20초 동안 사용할 수 없게 됩니다. 기본 데이터베이스 노드의 MySQL 서버는 클러스터에 있는 모든 JBoss 서버의 모든 요청을 처리하는 활성 데이터베이스입니다. 이는 사실상 이 기간(20-60초) 동안 모든 노드의 JBoss에서 짧은 데이터베이스 중단을 경험할 수 있음을 의미합니다. 이 기간 동안 데이터베이스 액세스가 필요한 모든 요청이 실패합니다. 이로 인해 GUI 및 API 클라이언트가 이 기간 동안 내부적으로 데이터베이스 액세스가 필요한 요청에 대해 오류가 발생합니다. 이로 인해 이 기간 동안 데이터베이스 액세스가 필요한 작업도 실패합니다.

보조 데이터베이스 노드 크래시

검색

기본 데이터베이스 노드에서 실행 중인 하트비트 서비스는 보조 데이터베이스 노드에서 하트비트 메시지를 수신하지 못한 후 10초 이내에 충돌을 감지합니다.

복구

노드를 삭제하고 새 노드를 Junos Space 클러스터에 보조 데이터베이스 노드로 추가하여 데이터베이스 고가용성을 유지할 수 있습니다.

영향

보조 데이터베이스 노드의 MySQL 서버는 JBoss에 의해 액세스되지 않기 때문에 다운타임으로 인해 시스템의 나머지 부분이나 시스템 사용자가 알아차릴 수 있는 부정적인 영향이 발생하지 않습니다.

기본 데이터베이스 노드의 MySQL 서버가 다운됨

검색

노드의 MySQL 서버가 다운되면 워치독 서비스는 약 1-2초 내에 해당 활성 노드에서 다운된 MySQL 서버를 감지합니다.

복구

워치독 서비스는 노드에서 MySQL 서버를 즉시 다시 시작합니다. 다시 시작하면 MySQL 서버가 약 20-60 초 후에 나타납니다.

영향

기본 데이터베이스 노드의 MySQL 서버는 클러스터에 있는 모든 JBoss 서버의 모든 요청을 처리하는 활성 데이터베이스입니다. 이는 사실상 이 기간(20-60초) 동안 모든 노드의 JBoss에서 짧은 데이터베이스 중단을 경험할 수 있음을 의미합니다. 이 기간 동안 데이터베이스 액세스가 필요한 모든 요청이 실패합니다. 이로 인해 GUI 및 API 클라이언트가 이 기간 동안 내부적으로 데이터베이스 액세스가 필요한 요청에 대해 오류가 발생합니다. 이로 인해 이 기간 동안 데이터베이스 액세스가 필요한 작업도 실패합니다.

보조 데이터베이스 노드의 MySQL 서버가 중단됨

검색

노드의 MySQL 서버가 다운되면 워치독 서비스는 약 1-2초 내에 해당 대기 노드에서 다운된 MySQL 서버를 감지합니다.

복구

워치독 서비스는 노드에서 MySQL 서버를 즉시 다시 시작합니다. 다시 시작하면 MySQL 서버가 나타나기까지 약 20-60 초가 걸립니다. 백업이 완료되면 이 서버는 백그라운드에서 기본 데이터베이스 노드와 다시 동기화됩니다. 다시 동기화 시간은 중단 중에 발생한 변경 횟수에 따라 달라집니다.

영향

보조 데이터베이스 노드의 MySQL 서버는 JBoss에 의해 액세스되지 않기 때문에 다운타임으로 인해 시스템의 나머지 부분이나 시스템 사용자가 알아차릴 수 있는 부정적인 영향이 발생하지 않습니다.

활성 VIP 노드의 Apache HTTP Server가 다운됨

검색

노드의 Apache HTTP 서버가 다운되면 워치독 서비스는 약 1-2초 내에 해당 노드의 다운된 HTTP 서버를 감지합니다.

복구

워치독 서비스는 노드에서 Apache HTTP 서버를 즉시 다시 시작하고 1초 내에 서비스를 시작할 준비가 됩니다.

영향

Apache HTTP 서버가 다시 시작될 때까지 GUI 및 NBI 클라이언트에서 잠시 서비스 중단이 발생할 수 있습니다. 그러나 이 중단은 몇 초(일반적으로 2초) 동안만 발생하며 클라이언트가 거의 알아차리지 못합니다.

대기 VIP 노드의 Apache HTTP Server가 작동 중단됨

검색

노드의 Apache HTTP 서버가 다운되면 워치독 서비스는 약 1-2초 내에 해당 노드의 다운된 HTTP 서버를 감지합니다.

복구

워치독 서비스는 노드에서 Apache HTTP Server를 즉시 다시 시작하고 1초 내에 서비스를 시작할 준비가 됩니다.

영향

영향 없음.

전용 Cassandra 노드 크래시

검색

Cassandra 노드가 다운되면 워치독 서비스는 약 1-2초 내에 해당 노드에서 Cassandra 서비스가 다운되었음을 감지합니다.

복구

다운된 Cassandra 노드는 패브릭에서 삭제해야 합니다.

영향

다운된 노드가 패브릭에서 삭제될 때까지 Cassandra 데이터베이스에 파일을 업로드하거나 삭제할 수 없습니다.

JBoss 노드의 Cassandra 서비스가 중단됨

검색

JBoss 노드의 Cassandra 서비스가 다운되면 워치독 서비스는 약 1-2초 내에 해당 노드에서 Cassandra 서비스가 다운되었음을 감지합니다.

복구

노드에서 Cassandra 서비스를 사용하지 않도록 설정해야 합니다.

영향

노드에서 Cassandra 서비스를 사용할 수 없도록 설정할 때까지 Cassandra 데이터베이스에 파일을 업로드하거나 삭제할 수 없습니다.