计算机系统运维核心技术栈

计算机系统运维核心技术栈 一个写全栈技术、偏底层基建、爱研究 bug 的程序员博客。技术界的一名小工匠⊥⊤每天进步一点点。计算机系统运维核心技术栈一、硬件与服务器运维基础1.服务器硬件-X86 机架 / 刀片 / 塔式服务器、小型机IBM Power、HP-UX架构-CPU、内存、RAID 阵列RAID0/1/5/6/10、硬盘、HBA 卡、电源冗余-机房设备机柜、PDU、UPS 精密空调、温湿度、消防、接地-存储设备NAS、SAN、磁盘阵列、LUN 划分、快照、存储扩容2.网络硬件运维-交换机二层 VLAN、Trunk、STP、ACL、路由器静态 / OSPF/BGP-防火墙策略、负载均衡 LVS/Nginx/F5、WAF、堡垒机-IP 规划、子网划分、DHCP、DNS 解析、链路聚合、专线、VPNIPsec/SSL二、操作系统运维核心1.Linux运维主流系统基础-发行版CentOS/RHEL、Ubuntu、Debian、Rocky、Alpine-账户权限useradd/sudo/uid/gid、SELinux、sudoers 权限管控-文件系统ext4、xfs、tmpfs、swap 分区、mount/umount、fstab-磁盘管理fdisk、parted、lvmpv/vg/lv 扩容缩容系统命令与进程-进程管理ps、top、htop、systemctl、crontab 定时任务-日志/var/log、rsyslog、journalctl、日志轮转 logrotate-网络工具ip、ss、netstat、tcpdump、wget/curl、route服务与内核-系统启动流程BIOS→GRUB→systemd 运行级别-内核调优sysctlTCP 连接数、内存参数、文件句柄-软件管理yum/dnf、apt、源码编译、rpm/deb 包管理2.Windows Server-AD 域控、组策略 GPO、DNS、DHCP 服务器-IIS 网站、共享文件夹、NTFS 权限、磁盘配额-任务计划程序、性能监视器、事件查看器、远程桌面 RDP-故障转移集群、WSUS 补丁分发、PowerShell 自动化脚本3.小型机 Unix-AIX、HP-UX、SolarisLVM、裸设备、Oracle 小型机环境维护三、虚拟化与云平台运维1.本地虚拟化-VMware vSphereESXi、vCenter、虚拟机克隆 / 快照 / 迁移、资源池-KVM/QEMU、Libvirt、OpenStack 私有云计算节点-Hyper-V 虚拟机、P2V 物理机迁移2.公有云运维阿里云 / 腾讯云 / AWS-云服务器 ECS、镜像、快照、弹性伸缩 AS-对象存储 OSS、块存储云盘、数据库 RDS、负载均衡 SLB-安全组、云防火墙、RAM 权限、监控告警、CDN、OSS 权限策略3.容器与云原生现代运维必备Docker-镜像、容器、Dockerfile、仓库 Registry、数据卷、网络模式 bridge/hostKubernetes(K8s)-Pod、Deployment、Service、Ingress、ConfigMap/Secret-PV/PVC 存储、Namespace、资源配额、HPA 弹性扩缩容-集群部署、kubeadm、kubectl 命令、集群故障排查配套组件Harbor 镜像仓库、PrometheusGrafana 监控、ELK 日志、Jenkins CI/CD四、数据库运维 DBA 基础运维必备1.关系型数据库-MySQL/MariaDB主从复制、分库分表、慢查询、索引优化、备份 mysqldump、binlog-Oracle表空间、RMAN 备份、监听、PL/SQL、RAC 集群-SQL Server备份恢复、事务日志、索引、故障转移2.NoSQL 数据库-Redis持久化 RDB/AOF、主从、哨兵、集群、缓存淘汰策略-MongoDB 副本集、分片集群3.通用操作数据库备份恢复、权限管理、慢日志、连接池、性能调优五、中间件与业务服务运维Web 服务-Nginx反向代理、负载均衡、限流、缓存、SSL 证书、rewrite 规则-Apache、Tomcat、Jetty、JBossJava 应用容器消息队列-RabbitMQ、Kafka消息堆积、分区、持久化、集群运维其他中间件-Nacos 注册中心、Elasticsearch 搜索引擎、Memcached 缓存六、自动化运维高级核心能力1.脚本开发-Shell/Bash 脚本批量巡检、日志清理、备份脚本-Python 运维paramiko 远程执行、psutil 监控、接口调用-PowerShell、Go 简易运维工具2.自动化工具-AnsibleInventory 清单、Playbook、模块批量管理服务器-SaltStack、Puppet 配置管理3.CI/CD 流水线-Jenkins、GitLab CI、代码发布、灰度发布、回滚方案七、监控、告警与日志体系1.监控工具-Zabbix、PrometheusGrafana、SkyWalking 链路监控-监控指标CPU、内存、磁盘 IO、网络流量、端口存活、服务响应时间2.日志管理-ELKElasticsearchLogstashKibana、Fluentd、日志采集、检索、告警3.告警机制-邮件、钉钉 / 企业微信短信告警、阈值配置、故障分级八、信息安全运维1.服务器安全加固-关闭无用端口、最小权限、禁用 root 远程登录、SSH 密钥登录、防火墙策略-系统漏洞修复、定时补丁更新、病毒查杀 ClamAV2.等保安全体系-账号三权分立、操作审计、堡垒机运维审计、日志留存 6 个月3.攻防基础-Web漏洞SQL 注入、XSS、暴力破解防护、CC攻击拦截、主机入侵检测 HIDS九、容灾备份与故障处理1.备份体系-全量备份、增量 / 差异备份、定时备份、异地备份、备份校验恢复演练-数据库备份、文件备份、虚拟机快照备份2.容灾架构-本地高可用 HA、同城双活、异地灾备、RTO 恢复时间、RPO 数据丢失指标3.故障排错核心场景-服务器宕机、磁盘坏道、内存溢出、端口占用、网络不通、数据库卡死-服务启动失败、磁盘满、CPU 打满、内存泄漏、连接数耗尽十、项目流程与运维规范软技术1.标准化服务器命名规范、IP规划、配置文档、变更工单2.变更管理上线审批、灰度发布、回滚预案、变更后验证3.巡检体系日 / 周 / 月度巡检报告、资产台账管理4.应急预案宕机、勒索病毒、数据库故障、机房断电应急方案5.IT资产管理服务器、存储、网络设备生命周期管理十一、进阶运维技术栈大厂 / 云运维加分项1.可观测性Prometheus 自定义指标、Loki 日志、Jaeger 链路追踪2.云原生安全OPA、容器镜像扫描、网络策略 NetworkPolicy3.基础设施即代码 IaCTerraform 云资源编排、Ansible4.性能调优Linux 内核 TCP 调优、JVM 调优、MySQL 慢 SQL 优化5.成本优化云资源闲置清理、弹性伸缩、存储分层降本如上11个技术栈是运维岗最基本要掌握的。