职位描述
工作职责:
1.深入基础大模型前沿技术研究,突破长文本理解、复杂推理和知识应用瓶颈;
2.设计创新的多模态对齐与融合机制,实现文本-图像-音频等跨模态深度理解;
3.研发高效训练方法,解决大规模预训练和多模态学习中的关键技术挑战;
4.探索模型涌现能力和指令跟随能力提升路径,推动语言与视觉能力协同增强;
5.紧跟前沿技术与合作,引领团队攻克语言与多模态模型前沿难题,支撑公司技术领先。
6.负责杭州研发团队的搭建。
任职要求:
1.人工智能、计算机或相关领域博士学位(优秀硕士需3年以上强相关经验),在大语言模型或多模态领域有深厚研究积累;
2.精通Transformer及MoE、State Space Models等新型架构设计,对模型涌现能力有深刻理解;
3.深入掌握自监督预训练、对比学习、对齐学习和指令微调等核心技术路线;
4.具备大规模分布式训练经验,熟悉混合精度、流水线并行、张量并行等训练加速技术;
5.熟悉CLIP、ImageBind等视觉-语言对齐技术和Diffusion Models等生成模型原理;
6.了解Chain-of-Thought、Tree-of-Thought等推理增强技术和RLHF、DPO、RLAIF等对齐优化方法;
7.在NLP、CV或多模态领域顶级会议发表高水平论文,或主导过业界重要模型项目优先。
8.具有1年以上团队管理经验。