职位描述
岗位描述
1、负责项目全生命周期交付及维护,包括需求分析、架构设计、部署实施、监控运维、故障排查及优化,确保系统的高可用性和稳定性,响应突发性故障并处理,及时通告故障及处理状态,评估故障风险,给出建议;
2、建立并完善监控告警体系,实时监控系统性能,快速定位并解决故障,确保系统的高可用性;
3、主导CI/CD体系建设,基于Jenkins/GitLab CI等工具实现自动化构建、测试、发布全流程;
4、执行日常运维操作,如备份恢复、日志分析、容量规划等;
5、有一定的数据库运维能力,数据库的优化,数据库的备份与恢复,死锁问题处理,主从库的搭建与修复,问题SQL的跟踪;
6、负责响应突发性故障并处理,及时通告故障及处理状态,评估故障风险,给出建议;
7、负责阿里云服务器的维护工作,包括涉及的域名、证书的管理以及安全组的维护等;
任职资格
1、本科学历,计算机、软件工程等相关专业,5年以上运维岗位经验;
2、熟悉及掌握linux、windows等操作系统的日常运维,熟练使用主流操作系统命令,能分析系统运行瓶颈,并针对性进行调优工作;
3、熟悉关键系统数据库运行架构,熟悉关键系统数据库整体资产及业务规律,业务高峰期之前做好应急保障工作;
4、能够使用shell、Python等语言编写自动化运维脚本,熟悉使用Ansible、cobbler,结合编写shell、python脚本实现自动化运维工作;
5、精通阿里云运维体系和相关中间件,有ACP认证者优先;
6、熟悉Kubernetes、Docker等容器化技术及云平台(阿里云/百度云),能独立搭建和管理K8s集群;
7、具备基础数据分析能力,熟悉Sqlserver、MySQL等常用数据库,深入理解数据库原理,掌握数据库性能调优和日常故障解决方法,熟悉数据库容灾备份等维护工作;