以运维实践的指导手册核心内容,结合最新行业规范(截至2025年)整理而成:
一、日常巡检规范
1
26
基础状态检查
- 数据库启停:
startup
/shutdown
(Oracle)、systemctl status mysql
(MySQL) - 资源监控:CPU/内存/磁盘I/O使用率(阈值建议≤80%)
- 日志分析:
- 错误日志:
grep -E 'ERROR|FATAL' lightdb-*.log
(LightDB) - 慢日志:
show variables like 'log_min_duration_statement'
(MySQL阈值建议≥100ms)13
- 错误日志:
- 数据库启停:
性能瓶颈定位
- 慢SQL排查:
EXPLAIN
分析执行计划(MySQL/Oracle)1
26
- 锁阻塞检测:
- 慢SQL排查:
SQL
-- Oracle SELECT * FROM pg_locks WHERE NOT granted; -- MySQL SHOW ENGINE INNODB STATUS\G
二、存储管理
1
13
- 表空间操作(以Oracle为例)
- 扩容:
ALTER TABLESPACE users ADD DATAFILE '/path/file.dbf' SIZE 100M;
- 迁移数据文件:
ALTER DATABASE MOVE DATAFILE 'old_path' TO 'new_path';
- 使用率监控:
- 扩容:
SQL
SELECT tablespace_name, used_percent FROM dba_tablespace_usage_metrics;
- 表优化
- 碎片整理:定期执行
OPTIMIZE TABLE
(MySQL) - 大表治理:按日期分区(如
PARTITION BY RANGE (date_column)
)26
- 碎片整理:定期执行
三、数据安全与备份
13
26
备份策略
- 全量备份:每周一次(
expdp
/mysqldump
) - 增量备份:每日Binlog(MySQL)或归档日志(Oracle)
1
- 多地存储:本地磁盘+云存储+离线介质(3-2-1原则)
26
- 全量备份:每周一次(
恢复演练
- 频率:每月模拟误删除/硬件故障场景
- 验证:检查数据一致性与业务连续性(RTO≤30分钟)
26
四、高可用架构
26
- 集群部署
- 主从复制:MySQL GTID复制、Oracle Data Guard
- 读写分离:应用层路由读请求到从节点
- 故障切换
- 自动切换:Keepalived+VIP(LightDB高可用方案)
- 人工干预:记录故障切换清单(优先恢复核心业务表)
五、安全加固
13
26
- 账户治理
- 密码策略:
ALTER USER 'root'@'localhost' PASSWORD EXPIRE INTERVAL 180 DAY;
(MySQL)13
- 权限最小化:回收非必要
SUPER
权限
- 密码策略:
- 传输加密
- SSL连接:
SQL
-- MySQL启用SSL ALTER USER 'user'@'%' REQUIRE SSL; # 配置my.cnf: ssl-ca=/etc/mysql/ca.pem ssl-cert=/etc/mysql/server-cert.pem
六、监控与预警
26
- 精细化指标
- 关键指标:缓冲区命中率(Oracle)、线程池使用率(MySQL)、锁等待时间
- 工具集成:Prometheus+Granafa可视化看板
- 智能告警
- 阈值动态调整(如并发连接数突破历史峰值120%时告警)
- 多通道通知:企业微信/短信/邮件
26
附:紧急故障响应流程
图表
代码
下载
是
否
故障发现
是否影响业务?
启动应急预案
分析日志定位根源
优先恢复业务
根因修复与验证
提交故障报告
运维提示:
- 定期更新统计信息:
ANALYZE TABLE
(MySQL)/DBMS_STATS.GATHER_TABLE_STATS
(Oracle)- 保留操作记录:所有生产变更需通过工单系统留痕
1
26