校招职位
AI算法专家
40-70K/月深圳南山区1人
刺猬平台全部职位均通过刺猬审核且不收费,如在求职过程中遇到涉嫌内容不实、收费等违反平台规定的行为,请联系工作人员0755-26608614
职位描述
工作职责:
负责分布式训练平台开发任务
设计并实现支持千亿参数大模型的分布式训练框架(如Qwen-32B 、DeepSpeed优化),提升训练效率与资源利用率。岗位要求:
精通Python/C++,熟悉PyTorch/TensorFlow框架
深入理解分布式训练技术(数据/模型/流水线并行、ZeRO优化、混合精度训练)
有大规模集群(Kubernetes/Slurm)资源调度经验,熟悉NCCL/RDMA等通信协议
掌握训练性能分析工具(PyTorch Profiler、Nsight Systems、TensorBoard)
熟悉大模型训练全流程(预训练、SFT、RLHF),有LLM/VLM训练调优实战经验
了解推理加速技术(Triton、TensorRT、vLLM)及服务化部署方案(KServe、TFServing)
有AI训练框架或高性能计算(HPC)开发经验,主导过百卡级分布式训练项目
参与过主流AI框架(PyTorch、DeepSpeed)核心功能开发或开源社区贡献
熟悉LLMOps工具链(Weights & Biases、MLflow)或AI编译器(TVM、XLA)
具备CUDA/OpenCL等GPU编程经验,能针对硬件特性进行底层优化
对技术难题有强烈的攻关意愿,能通过系统性方案解决复杂工程问题
具备技术文档撰写与跨团队方案宣讲能力,推动技术方案落地
工作地址
深圳 - 南山区 - 深圳市粤海街道仙洞路16号深信服科技大厦
其他职位
公司名称 · 公司职务
推荐的相似职位更多





