Ceph集群中安全删除OSD磁盘指南：Rocky Linux 9.6 + Ceph 17.2.9容器化环境实践-尧图企业网站定制

Ceph集群中安全删除OSD磁盘指南Rocky Linux 9.6 Ceph 17.2.9容器化环境实践在Ceph分布式存储系统的日常运维中经常会遇到需要安全地从集群中移除某个OSDObject Storage Daemon的场景。这些场景可能包括磁盘故障、硬件升级、容量调整或集群重构等情况。本文将详细介绍在Rocky Linux 9.6环境下使用Ceph 17.2.9 (Quincy)版本时如何安全地将某个OSD磁盘从容器化集群中退出并进行物理移除。适用场景在以下情况下您可能需要从Ceph集群中安全地删除OSD磁盘故障硬盘出现坏道或其他硬件故障需要更换硬件升级需要更换更大容量或更高性能的磁盘集群扩容/缩容根据业务需求调整集群规模节点维护需要对特定节点进行维护或退役容量优化重新平衡集群中的数据分布删除OSD前的准备工作在开始删除OSD之前需要进行充分的准备工作以确保操作的安全性。1. 检查集群状态# 检查集群整体健康状态ceph-s# 查看集群详细健康信息ceph health detail# 查看OSD树状结构ceph osd tree# 查看数据分布情况ceph osddf确保集群处于 HEALTH_OK 或 HEALTH_WARN 状态避免在集群已有问题时进行OSD删除操作。2. 确定要删除的OSD# 列出所有OSD及其状态ceph osdls# 查看特定OSD的详细信息ceph osd info osd.0# 查看OSD的使用情况ceph osddftree|greposd.0# 查看OSD所在的主机ceph osd tree|greposd.03. 检查数据分布影响# 查看集群的副本策略ceph osd poollsdetail# 检查删除OSD对数据冗余的影响ceph pg dump|grep-cactiveclean安全删除OSD的详细步骤步骤1将OSD标记为out状态首先需要将目标OSD标记为out状态让Ceph开始将该OSD上的数据迁移到其他OSD上。# 将OSD标记为out状态以osd.0为例ceph osd out0# 验证OSD状态ceph osd tree|greposd.0当OSD被标记为out后Ceph会自动开始数据重平衡过程将该OSD上的数据复制到其他OSD上。步骤2监控数据迁移进度在数据迁移过程中需要密切关注进度以确保操作顺利完成。# 查看集群状态观察数据迁移进度ceph-s# 查看PG状态详情ceph pgstat# 查看详细的PG状态ceph pg dump# 监控特定OSD的使用情况变化watch-n5ceph osd df | grep osd.0等待直到数据迁移完成集群状态回到 HEALTH_OK 或 HEALTH_WARN 状态。步骤3停止OSD容器数据迁移完成后需要停止目标OSD的容器进程。# 查看OSD容器状态ceph orchps--daemon-type osd# 停止特定OSD容器以osd.0为例ceph orch daemon stop osd.0# 或者停止指定主机上的OSD容器ceph orch daemon stop osd.node1.hostename.vjpidb# 验证OSD容器已停止ceph orchps--daemon-type osd|greposd.0步骤4从集群中移除OSD停止容器后需要将OSD从集群中彻底移除。# 从CRUSH map中移除OSDceph osd crush remove osd.0# 删除OSD的认证密钥ceph auth del osd.0# 最终从OSD map中移除OSDceph osdrm0# 验证OSD已完全移除ceph osd tree|greposd.0||echoOSD已成功移除步骤5使用orchestrator删除OSD推荐方法对于使用cephadm/orchestrator管理的容器化集群推荐使用orchestrator命令来删除OSD# 查看OSD守护进程ceph orchps--daemon-type osd# 删除OSD守护进程以osd.0为例ceph orch osdrm0# 或者强制删除OSD守护进程ceph orch daemonrmosd.0--force# 查看删除状态ceph orch osdrmstatus# 如果需要取消删除操作ceph orch osdrmcancel0步骤6清理磁盘设备最后需要清理物理磁盘上的数据和元数据以便磁盘可以重新使用或安全处置。# 登录到运行OSD的主机sshceph-node-1# 使用ceph-volume清理设备如果使用LVMcephadm shell -- ceph-volume lvm zap--destroy/dev/sdb# 或者手动清理磁盘# 警告以下操作会彻底清除磁盘上的所有数据sgdisk --zap-all /dev/sdbddif/dev/zeroof/dev/sdbbs1Mcount100wipefs-a/dev/sdb刷新设备状态有时候即使已经删除了OSD并清理了磁盘在ceph orch device ls命令输出中仍然可以看到旧的设备信息。这是因为Orchestrator的设备信息缓存尚未刷新。# 刷新设备列表缓存ceph orch devicels--refresh# 查看刷新后的设备列表ceph orch devicels# 只查看特定主机上的可用设备ceph orch devicelshostname--available使用--refresh参数可以强制刷新设备列表更新设备的状态信息。这通常需要几秒钟时间来完成。验证删除结果完成所有操作后需要验证OSD确实已从集群中移除# 检查集群状态ceph-s# 查看OSD列表ceph osdls|grep0||echoOSD 0 已成功移除# 查看OSD树状结构ceph osd tree# 检查PG状态ceph pgstat常见问题及解决方案1. 数据迁移时间过长如果数据迁移耗时过长可能是由于以下原因# 调整恢复参数加快迁移速度ceph configsetosd osd_max_backfills8ceph configsetosd osd_recovery_max_active8# 监控迁移进度ceph pg dump|grep-vactiveclean2. OSD无法正常停止# 强制停止OSD服务systemctlkillceph-osd0 systemctl stop ceph-osd0# 检查是否还有相关进程psaux|grepceph-osd3. 删除后集群状态异常# 重新平衡集群ceph osd reweight-by-utilization# 检查并修复PG状态ceph pg repairpg_id最佳实践建议1. 操作时机选择选择业务低峰期进行操作确保集群有足够的冗余能力提前通知相关人员2. 操作前检查清单集群健康状态检查确定要删除的OSD ID确认数据冗余策略备份重要配置信息准备应急回滚方案3. 操作后验证集群状态恢复正常数据分布均衡应用程序访问正常监控告警消除安全注意事项数据安全确保集群有足够的副本或纠删码保护避免数据丢失逐步操作严格按照步骤执行不要跳过任何环节实时监控操作过程中持续监控集群状态备份准备重要操作前做好配置备份权限控制使用具有足够权限但不过度授权的账户执行操作总结安全地从Ceph集群中删除OSD是一个需要谨慎处理的操作。通过遵循本文介绍的步骤您可以有效地将OSD从集群中移除同时确保数据安全和集群稳定。关键在于充分的准备工作和状态检查正确的数据迁移和等待过程完整的清理和验证步骤及时的监控和问题处理在实际操作中建议先在测试环境中练习相关步骤熟悉整个流程后再在生产环境中执行。同时根据具体的集群规模和业务需求适当调整相关参数和操作策略。参考文档Ceph官方文档 - OSD管理Ceph官方文档 - 数据分布Ceph官方文档 - cephadmCeph存储池管理Ceph Quincy版本发布说明温馨提示由于网络环境或文件存储等因素若相关文件或图片链接暂时无法访问您也可以通过访问张师傅的好来斯技术博客获取更多相关资源和最新信息。本篇文章原始链接https://www.howlaisi.com/categories/ceph/rocky-linux-9.6-ceph-17.2.9rong-qi-hua-huan-jing-shi-jian

相关新闻

别再瞎选 NoSQL 了！Redis、MongoDB、ES 场景边界、底层原理与生产选型全解

Unity数字孪生实战：PiXYZ Plugin工业级模型处理全解析

（三）Python基础入门-流程控制结构

嵌入式开发代码覆盖率实战：MPLAB X IDE工具配置与测试策略

5G mMIMO射频前端预驱动放大器BTS6403U：高增益高线性度设计解析与应用指南

AI辅助编程实战指南：代码理解、上下文感知与领域适配

高效办公新体验：在VS Code中无缝预览Word与Excel文件

LLMP-UCB算法：金融决策中的多模态智能优化方案

如何为OBS直播添加实时语音识别字幕：免费开源方案终极指南

HarmonyOS6踩坑记录之Navigation + Tabs 嵌套后路由栈全乱了？每个 Tab 独立 NavPathStack 才是正解

MC68F375 QSMCM模块深度解析：从寄存器配置到队列SPI实战

深入解析MC9S08GB/GT FLASH编程、擦除与安全机制实战

CTU-13数据集深度使用指南：如何用它训练你的第一个僵尸网络检测模型？

别再手动数圆了！用OpenCV+Python 5行代码自动识别图片中的圆形并标记中心点

遗传算法进阶：算子机制、种群健康度与自适应参数调优

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定