职位描述
岗位职责:1.深入前沿推理加速技术研究,突破大语言模型解码速度瓶颈和多模态融合计算挑战;
2.设计创新的注意力机制优化算法,加速大语言模型长文本理解和多轮对话能力;
3.研发高效视觉-语言模型推理架构,解决图像特征提取与文本生成的计算协同问题;
4.开发面向不同语言任务和多模态场景的自适应推理技术,实现动态计算资源分配;
5.主导大规模模型服务体系设计,解决百亿/千亿参数模型的低成本部署挑战。
任职要求:1.人工智能、计算机或相关领域博士学位(优秀硕士需3年以上强相关经验),在大语言模型、多模态理解及生成模型优化领域有深厚研究积累;
2.精通Transformer计算优化,深入理解Flash Attention、Speculative Decoding、MQA/GQA等前沿技术;
3.掌握模型压缩技术栈,包括GPTQ/AWQ量化、SparseGPT稀疏化、知识蒸馏等方法;
4.熟悉vLLM、DeepSpeed-Inference、TGI等大模型推理框架,能进行系统级优化;
5.具备VLM(如CLIP、LLaVA、MiniGPT-4)推理加速经验,了解多GPU推理和Continuous Batching技术;
6.在相关领域会议发表高水平论文,或主导过业界重要语言/多模态模型优化项目。