技术支持工程师

AI overview

Provide technical support and optimize Alluxio for AI/ML workloads in hybrid and multi-cloud environments while collaborating closely with customer and internal teams.
主要职责:
  • 部署与运维: 在客户的混合云或多云环境(如Kubernetes, Hadoop YARN)中,部署、配置和优化Alluxio for AI/ML工作负载,构建和维护高可用的Alluxio集群。
  • 监控及性能调优: 分析与AI框架(如TensorFlow, PyTorch, Spark)交互时的性能瓶颈,对Alluxio、JVM、网络和存储系统提出调优建议。
  • 疑难问题处理: 快速诊断、定位和解决客户生产环境中出现的问题。复杂问题需要拉通销售、产研,推动跨部门协作,提供最终原因分析并推动修复,维护客户满意度。
  • 客户支持与协作: 以客户成功为目标,与客户的技术团队,及内部的产品和研发团队紧密合作,推动架构和产品优化。
  • 知识沉淀与自动化: 善于总结、编写运维手册、最佳实践文档,并开发自动化工具和脚本以提高运维效率。
  • On-call支持(7*24h): 参与轮值的on-call,解决客户在使用过程中遇到的技术问题,保障核心服务的SLA。 
  • 必备条件
  • 计算机科学或相关专业本科及以上学历。
  • 3年以上大规模分布式系统的运维或SRE经验。
  • 精通Linux操作系统和网络原理(TCP/IP, DNS, 负载均衡)。
  • 具备丰富的容器化和编排工具经验,尤其是Kubernetes。
  • 熟悉至少一种主流编程语言(如Python, Go, Java, Shell),并能够编写自动化脚本。
  • 熟悉监控指标、告警设计的基本方法论和可观测性工具的使用经验(如Prometheus, Grafana, ELK Stack)。
  • 出色的故障排查能力,能够系统性分析复杂问题。
  • 优秀的沟通能力和团队协作精神,能够用中英文与全球团队和客户进行有效技术交流。
  • 优先考虑:
  • 有TOB 业务模式下的项目交付经验,接受并有驻场经验。
  • 有项目管理经验的优先考虑,能进行需求管理、客户预期管理、跨团队协作管理。
  • 有AI/ML基础设施运维经验,熟悉主流AI框架(TensorFlow, PyTorch)和GPU资源管理。
  • 有大数据生态系统(Hadoop, Spark, Presto/Trino)的运维或使用经验。
  • 熟悉国内外公有云平台(AWS, GCP, Azure,阿里云、腾讯云、百度云、火山云、华为云)和对象存储(S3, GCS, OSS)。
  • 熟悉Java虚拟机(JVM)性能调优。
  • 有使用或运维Alluxio的经验,具备开源社区贡献经验。
  • Alluxio is an open-source virtual distributed file system.

    View all jobs
    Report this job
    Apply for this job