职位描述
一、岗位职责:
1.设计、规划和实施高可用性系统的故障演练方案(如混沌工程、容灾演练等)。
2.演练动作执行,模拟生产环境故障场景(如服务器宕机、网络中断、数据库崩溃等),验证系统容错能力。
3.记录演练过程中的问题,协同开发、运维团队制定改进措施。
4.编写演练报告,分析系统风险隐患点并提出优化建议。
5.维护演练工具链(如ChaosBlade、ChaosMesh等),确保演练自动化与标准化。
二、任职要求:
1.熟悉Linux系统、网络基础、云计算(AWS/Azure/阿里云等)及常见中间件(如Nginx、MySQL、Redis)。
2.了解分布式系统架构,对高可用、容灾有实际部署经验。
3.掌握至少一种脚本语言(Python/Shell/JMeter等),能编写自动化测试脚本。
4.具备故障排查能力,熟悉监控工具(Prometheus、Zabbix等)。
5.有混沌工程或故障演练经验者优先,抗压能力强。
三、加分项:
1.有主流公有云使用经验;
2.熟悉行业标准(如ITIL、SRE理念);
3.持有相关认证(如AWS Certified DevOps Engineer、CKA等)。