1.参与自建集群的架构设计与优化,涵盖 /CPU、网络、存储、冷却等核心模块。
2.分析并解决大规模训练和推理中的集群级问题,如通信效率、资源调度、带宽与能耗。
3.硬件与系统协同:结合高性能网卡、SSD、RDMA、SmartNIC/ASIC 等硬件,进行软硬件协同优化。
4.参与平台与自动化运维系统的建设,提升集群的稳定性和利用率。
5.与客户、内部团队协作,推动硬件潜能在端到端场景中的发挥。
企业其他招聘信息
运维开发工程师
2026-03-11
网络工程师
2026-03-11
Python/go开发工程师
2026-03-11
AI推理框架工程师
2026-03-11
Golang开发工程师
2026-03-11
运营专员
2026-03-11