Ceph 和 Rook 问题疑难解答 |Paragon Automation 22.1 |瞻博网络

OSD 创建失败疑难解答

问题

安装失败，因为未创建对象存储守护程序（OSD）。

溶液

安装失败的一个常见原因是未创建对象存储守护程序（OSD）。OSD 在群集节点上配置存储。由于磁盘资源不可用（如资源不足或磁盘空间分区不正确），可能无法创建 OSD。为防止由于磁盘空间不足而导致安装失败，请确保节点有足够的未格式化磁盘空间可用。

问题

当需要格式化磁盘时，安装失败。

溶液

确保有足够的未格式化的磁盘空间。

您必须检查作业的 rook-ceph-osd-prepare-hostname-* 日志，以确定是否需要重新格式化磁盘或分区。要重新格式化磁盘或分区，然后重新启动 Rook：

问题

Ceph OSD 出现故障。

溶液

您必须识别出现故障的 OSD 并将其删除。然后，您可以部分或全部重新格式化或替换磁盘。

要解决磁盘故障问题：

执行以下命令，查看命名空间中安装 rook-ceph 的 Rook 和 Ceph Pod 的状态。

# kubectl get po -n rook-ceph
rook-ceph-osd-*如果 Pod 处于Error或 CrashLoopBackoff 状态，则必须修复磁盘。

按照以下步骤修复磁盘：
1. 停止 rook-ceph-operator。
  
  # kubectl scale deploy -n rook-ceph rook-ceph-operator --replicas=0
2. 删除失败的 OSD 进程。
  
  # kubectl delete deploy -n rook-ceph rook-ceph-osd-number
3. 连接到工具箱。
  
  $ kubectl exec -ti -n rook-ceph $(kubectl get po -n rook-ceph -l app=rook-ceph-tools -o jsonpath={..metadata.name}) -- bash
4. 确定出现故障的 OSD。
  
  # ceph osd status
5. 将失败的 OSD 标记出来。
6. 卸下故障的 OSD。
  
  # ceph osd purge number --yes-i-really-mean-it
7. 连接到托管失败 OSD 的节点，并执行下列操作之一：
  - 在硬件故障时更换硬盘。
  - 完全重新格式化磁盘。
  - 完全重新格式化分区。
8. rook-ceph-operator重新启动。
  
  # kubectl scale deploy -n rook-ceph rook-ceph-operator --replicas=1
9. 监控 OSD Pod。
  
  # kubectl get po -n rook-ceph
  
  如果 OSD 无法恢复，请使用相同的过程删除 OSD，然后删除磁盘或删除分区，然后再重新启动 rook-ceph-operator。

问题

当 Rook 和 Ceph Pod 处于该 error 状态时，安装可能会失败

溶液

硬件功率不足可能会导致 Rook 和 Ceph Pod 错误。Rook 和 Ceph pod 错误也可能导致安装失败。要解决 Rook 和 Ceph Pod 的大多数问题，请确保已安装的 Pod 处于该 running 状态。要确认这一点，您必须：

执行以下命令，查看命名空间中安装 rook-ceph 的 Rook 和 Ceph Pod 的状态。

# kubectl get po -n rook-ceph

确保以下 Pod 处于该 running 状态：

rook-ceph-tools*- 对于其他调试选项

要连接到工具箱，请使用以下命令：

$ kubectl exec -ti -n rook-ceph $(kubectl get po -n rook-ceph -l app=rook-ceph-tools \ -o jsonpath={..metadata.name}) -- bash

有关工具箱中其他常用命令的更多信息，请参阅表 1。