技术支持工程师

AI overview

Provide technical support and optimize Alluxio for AI/ML workloads in hybrid and multi-cloud environments while collaborating closely with customer and internal teams.
主要职责:
  • 部署与运维: 在客户的混合云或多云环境(如Kubernetes, Hadoop YARN)中,部署、配置和优化Alluxio for AI/ML工作负载,构建和维护高可用的Alluxio集群。
  • 监控及性能调优: 分析与AI框架(如TensorFlow, PyTorch, Spark)交互时的性能瓶颈,对Alluxio、JVM、网络和存储系统提出调优建议。
  • 疑难问题处理: 快速诊断、定位和解决客户生产环境中出现的问题。复杂问题需要拉通销售、产研,推动跨部门协作,提供最终原因分析并推动修复,维护客户满意度。
  • 客户支持与协作: 以客户成功为目标,与客户的技术团队,及内部的产品和研发团队紧密合作,推动架构和产品优化。
  • 知识沉淀与自动化: 善于总结、编写运维手册、最佳实践文档,并开发自动化工具和脚本以提高运维效率。
  • On-call支持(7*24h): 参与轮值的on-call,解决客户在使用过程中遇到的技术问题,保障核心服务的SLA。 
  • 必备条件
  • 计算机科学或相关专业本科及以上学历。
  • 3年以上大规模分布式系统的运维或SRE经验。
  • 精通Linux操作系统和网络原理(TCP/IP, DNS, 负载均衡)。
  • 具备丰富的容器化和编排工具经验,尤其是Kubernetes。
  • 熟悉至少一种主流编程语言(如Python, Go, Java, Shell),并能够编写自动化脚本。
  • 熟悉监控指标、告警设计的基本方法论和可观测性工具的使用经验(如Prometheus, Grafana, ELK Stack)。
  • 出色的故障排查能力,能够系统性分析复杂问题。
  • 优秀的沟通能力和团队协作精神,能够用中英文与全球团队和客户进行有效技术交流。
  • 优先考虑:
  • 有TOB 业务模式下的项目交付经验,接受并有驻场经验。
  • 有项目管理经验的优先考虑,能进行需求管理、客户预期管理、跨团队协作管理。
  • 有AI/ML基础设施运维经验,熟悉主流AI框架(TensorFlow, PyTorch)和GPU资源管理。
  • 有大数据生态系统(Hadoop, Spark, Presto/Trino)的运维或使用经验。
  • 熟悉国内外公有云平台(AWS, GCP, Azure,阿里云、腾讯云、百度云、火山云、华为云)和对象存储(S3, GCS, OSS)。
  • 熟悉Java虚拟机(JVM)性能调优。
  • 有使用或运维Alluxio的经验,具备开源社区贡献经验。
  • Alluxio is an open-source virtual distributed file system.

    View all jobs
    Get hired quicker

    Be the first to apply. Receive an email whenever similar jobs are posted.

    Report this job
    Apply for this job