AI overview
Provide technical support and optimize Alluxio for AI/ML workloads in hybrid and multi-cloud environments while collaborating closely with customer and internal teams.
主要职责:
部署与运维: 在客户的混合云或多云环境(如Kubernetes, Hadoop YARN)中,部署、配置和优化Alluxio for AI/ML工作负载,构建和维护高可用的Alluxio集群。
监控及性能调优: 分析与AI框架(如TensorFlow, PyTorch, Spark)交互时的性能瓶颈,对Alluxio、JVM、网络和存储系统提出调优建议。
疑难问题处理: 快速诊断、定位和解决客户生产环境中出现的问题。复杂问题需要拉通销售、产研,推动跨部门协作,提供最终原因分析并推动修复,维护客户满意度。
客户支持与协作: 以客户成功为目标,与客户的技术团队,及内部的产品和研发团队紧密合作,推动架构和产品优化。
知识沉淀与自动化: 善于总结、编写运维手册、最佳实践文档,并开发自动化工具和脚本以提高运维效率。
On-call支持(7*24h): 参与轮值的on-call,解决客户在使用过程中遇到的技术问题,保障核心服务的SLA。
必备条件
计算机科学或相关专业本科及以上学历。
3年以上大规模分布式系统的运维或SRE经验。
精通Linux操作系统和网络原理(TCP/IP, DNS, 负载均衡)。
具备丰富的容器化和编排工具经验,尤其是Kubernetes。
熟悉至少一种主流编程语言(如Python, Go, Java, Shell),并能够编写自动化脚本。
熟悉监控指标、告警设计的基本方法论和可观测性工具的使用经验(如Prometheus, Grafana, ELK Stack)。
出色的故障排查能力,能够系统性分析复杂问题。
优秀的沟通能力和团队协作精神,能够用中英文与全球团队和客户进行有效技术交流。
优先考虑:
有TOB 业务模式下的项目交付经验,接受并有驻场经验。
有项目管理经验的优先考虑,能进行需求管理、客户预期管理、跨团队协作管理。
有AI/ML基础设施运维经验,熟悉主流AI框架(TensorFlow, PyTorch)和GPU资源管理。
有大数据生态系统(Hadoop, Spark, Presto/Trino)的运维或使用经验。
熟悉国内外公有云平台(AWS, GCP, Azure,阿里云、腾讯云、百度云、火山云、华为云)和对象存储(S3, GCS, OSS)。
熟悉Java虚拟机(JVM)性能调优。
有使用或运维Alluxio的经验,具备开源社区贡献经验。