职位描述
工作职责:
负责大数据AI平台技术运维相关工作,保障系统运行稳定,监控系统异常并及时处置,通过开发工具增强系统运行自动化能力;
任职资格:
1、2年以上IAAS/PAAS/大数据平台类系统运维经验;熟悉Hadoop生态组件(HDFS/YARN/Hive/HBase/Kafka/Spark/Flink)的集群部署、调优及故障排查
2、熟悉Linux系统管理,熟练使用Shell/Python脚本实现自动化运维(如日志清理、扩容脚本开发)
3、至少3年以上大数据集群运维经验,主导过千台规模集群的规划、扩容及性能调优,熟悉跨机房或政务、金融等行业的特定需求
5、熟练使用Zabbix、Prometheus等监控工具,以及Ansible、Jenkins等自动化运维平台,实现集群状态实时监控和批量操作"