Paragon Automationのノードの再起動
以下の手順をお読みになり、すべてのParagon Automationノードを再起動します。
以下の手順に従って、ノードをリブートします。
- 現在のParagon Automationクラスターデータをバックアップします。
root@primary-node:~# data.sh --backup
- バックアップしたデータを、クラスタ外のセキュリティで保護されたセカンダリ サーバにコピーします。data.sh には、バックアップされたファイルの場所に関する情報が含まれています。
scp -prvコマンドを実行して、バックアップしたファイルをローカルホストからクラスタ外のセカンダリサーバにコピーします。 - health-check.sh スクリプトを使用して、ポッドにエラーがないか確認します。
root@primary-node:~# health-check.sh
kubectl get nodesコマンドを使用して、クラスタノードのステータスを表示します。ノードのステータスはReadyで、ロールは control-plane または none のいずれかである必要があります。- プライマリノードを遮断して、スケジューリングから削除します。
Kubernetes ノードをコード化すると、Kubernetes スケジューラで使用不可としてマークされ、新しいポッドをホストできなくなります。これは、現在実行中のポッドに影響を与えることなくノードのメンテナンスを実行する必要がある場合に便利です。
root@primary-node:~# kubectl cordon <ip-address> cordoned
これにより、ノードが遮断され、新しいポッドをホストできなくなります。
- ノードをコード化した後、ノードをドレインして実行中のポッドを削除し、他のノードに再スケジュールすることができます。次のコマンドを使用して、すべてのノードをドレインします (ノードからすべてのポッドを安全に削除します)。
root@primary-node:~# kubectl drain <node-name/ip-address> --ignore-daemonsets --grace-period=0 --force --delete-emptydir-data
- 再スケジュールを待機しているポッドがあるかどうかを確認します。
[root@rhel-84-node1 ~]# kubectl get po -A -o wide | grep -v Running | grep -v Completed NAMESPACE NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
[root@rhel-84-node1 ~]# kubectl get po -A -o wide | grep -v Running NAMESPACE NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES auditlog auditlog-purge-cron-29139840-g7l4r 0/1 Completed 0 12h 10.244.2.158 172.25.152.20 <none> <none> ems jobmanager-purge-cron-29138400-f4ln5 0/1 Completed 0 36h 10.244.2.175 172.25.152.20 <none> <none> ems jobmanager-purge-cron-29139840-drllc 0/1 Completed 0 12h 10.244.2.176 172.25.152.20 <none> <none> kube-system backup-29140575-p6tpx 0/1 Completed 0 14m 172.25.152.18 172.25.152.18 <none> <none> kube-system backup-29140580-24pq5 0/1 Completed 0 9m50s 172.25.152.18 172.25.152.18 <none> <none> kube-system backup-29140585-t5s6g 0/1 Completed 0 4m50s 172.25.152.18 172.25.152.18 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.18-g72hc 0/1 Completed 0 4h55m 10.244.142.9 172.25.152.18 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.19-9vvx4 0/1 Completed 0 4h55m 10.244.227.21 172.25.152.19 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.20-sklvr 0/1 Completed 0 4h55m 10.244.2.174 172.25.152.20 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.21-q7vdx 0/1 Completed 0 4h55m 10.244.91.143 172.25.152.21 <none> <none>
コード化されたノード上の保留中のプロセスが一覧表示されます。保留中のプロセスがないノードには、
<none>とマークされます。 - スケジュールを待機しているポッドがない場合は、health-check.sh スクリプトを使用してポッドにエラーがないか再確認します。
root@primary-node:~# health-check.sh
- 接続されたノードをリブートします。
ノードの再起動には約 5 分から 10 分かかります。
- プライマリノード1で次のコマンドを実行します。
root@primary-node:~# kubectl uncordon <ip-address>
クラスター内のポッドは、コマンドを実行してから 15 分以内に再分散されます。
- ポッドが再配布されたら、health-check.sh スクリプトを使用してポッドにエラーがないか確認します。
root@primary-node:~# health-check.sh
- 新しく再起動したノードを特定します。
root@primary-node:~# kubectl get po -A -o wide | grep -v Running
[root@rhel-84-node1 ~]# kubectl get po -A -o wide | grep -v Running NAMESPACE NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES auditlog auditlog-purge-cron-29139840-g7l4r 0/1 Completed 0 12h 10.244.2.158 172.25.152.20 <none> <none> ems jobmanager-purge-cron-29138400-f4ln5 0/1 Completed 0 36h 10.244.2.175 172.25.152.20 <none> <none> ems jobmanager-purge-cron-29139840-drllc 0/1 Completed 0 12h 10.244.2.176 172.25.152.20 <none> <none> kube-system backup-29140575-p6tpx 0/1 Completed 0 14m 172.25.152.18 172.25.152.18 <none> <none> kube-system backup-29140580-24pq5 0/1 Completed 0 9m50s 172.25.152.18 172.25.152.18 <none> <none> kube-system backup-29140585-t5s6g 0/1 Completed 0 4m50s 172.25.152.18 172.25.152.18 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.18-g72hc 0/1 Completed 0 4h55m 10.244.142.9 172.25.152.18 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.19-9vvx4 0/1 Completed 0 4h55m 10.244.227.21 172.25.152.19 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.20-sklvr 0/1 Completed 0 4h55m 10.244.2.174 172.25.152.20 <none> <none> rook-ceph rook-ceph-osd-prepare-172.25.152.21-q7vdx 0/1 Completed 0 4h55m 10.244.91.143 172.25.152.21 <none> <none>
- ステップ3からステップ12を繰り返して、Paragon Automationの他のノードを再起動します。