职位描述
职责描述:
一.战略规划与架构设计
(1)制定算⼒中⼼中⻓期发展战略,匹配公司业务(如AI训练、科学计算、云服务等)的 算⼒需求。
(2)设计⾼可⽤、可扩展的算⼒架构,包括硬件选型、⽹络拓扑、存储与能源⽅案。
二.基础设施建设与运维
(1)主导算⼒中⼼的建设(⾃建或合作),管理从选址、电⼒、制冷到硬件部署的全流程。
(2)建⽴运维体系,保障算⼒资源的稳定性、安全性(物理/⽹络隔离)与能效优化。
三.资源调度与成本管控
(1)设计资源调度策略,平衡⾼性能计算、批处理任务与实时服务的需求。
(2)制定预算并优化TCO(总拥有成本),通过精细化监控降低能耗与运维成本。
四.技术前瞻与创新
(1)跟踪算⼒技术趋势(如液冷、Chiplet、异构计算),推动技术迭代与架构升级。
(2)探索绿⾊算⼒⽅案,应对碳减排要求。
五.团队管理与协同
(1)领导跨职能团队(⼯程师、运维、安全专家),建⽴on-call应急机制与知识库。
(2)协同业务部⻔、云⼚商、芯⽚供应商及科研机构,构建算⼒⽣态合作。
六.⻛险管理与合规
(1)制定灾难恢复(DR)与数据安全⽅案,满⾜等保、GDPR等合规要求。
(2)应对供应链⻛险(如芯⽚禁运),设计国产化替代或多元供应⽅案。
任职要求:
1.10年以上数据中⼼/HPC领域经验,主导过超千卡集群建设项⽬;计算机/电⼦⼯程专业硕⼠以上学历。
2.有⼤型互联⽹公司或国家超算中⼼从业经历;参与过国产算⼒国产化项⽬。
3.硬技能
(1)技术深度:精通⾼性能计算(HPC)/分布式系统架构,熟悉主芯⽚(NVIDIA/AMD/ 华为昇腾等)、⾼速⽹络与存储技术。
(2)运维能⼒:掌握运维⾃动化⼯具(Ansible/K8s)、监控体系(Prometheus/Zabbix)及故障根因分析。
(3)能效管理:具备数据中⼼能源效率优化经验,熟悉PUE、WUE等指标。
4.软技能
(1)战略思维:能将业务需求转化为技术路线图,平衡短期投⼊与⻓期技术债。
(2)成本敏锐度:擅⻓CAPEX/OPEX分析,能通过混部、削峰填⾕等⽅式提升资源利⽤。
(3)领导⼒:具备跨团队协作能⼒,能在⾼压下决策(如⼤规模故障应急)。
5.⾏业认知
(1)了解全球算⼒竞争格局(如中美芯⽚政策)、国内外主流云服务商定价策略。
(2)熟悉AI⼤模型训练对算⼒的特殊需求(如万卡集群通信优化)。