Ingénieur fiabilité des infrastructures

2 hours, 23 minutes ago
Full-time
Senior
DevOps and Infrastructure
Tecsys

Tecsys

Tecsys is a global provider of transformative supply chain solutions, offering innovative warehouse management software and end-to-end visibility for various industries. With a focus on advancing supply chain management since 1983, Tecsys delivers effi...

Air Freight & Logistics
251-1K
Founded 1983
$52M raised

Description

  • Collaborer avec les équipes d’ingénierie pour soutenir les services avant leur mise en service, notamment par la consultation en conception, le développement de plateformes et les revues de lancement.
  • Maintenir les services en production en surveillant la disponibilité, la latence et l’état général du système.
  • Améliorer l’observabilité en optimisant la surveillance et l’alerte avec Datadog et en définissant des SLO/SLI.
  • Créer des tableaux de bord exploitables et mettre en place le signalement des SLA.
  • Développer et faire évoluer l’automatisation avec les outils internes, les cadres IaC et les pipelines CI/CD.
  • Réduire les interventions manuelles et favoriser des systèmes d’auto-réparation.
  • Piloter une gestion durable des incidents et des analyses post-incident sans reproche.
  • Diriger les revues post-incident (RCA) et suivre les correctifs à long terme pour améliorer la stabilité et l’expérience développeur.
  • Créer et maintenir la documentation technique.
  • Agir comme commandant d’incident pour coordonner la réponse interéquipes, les communications et le rétablissement rapide des services.

Requirements

  • Expérience en ingénierie de fiabilité des infrastructures, SRE ou opérations de plateformes dans un environnement SaaS critique.
  • Expérience de travail avec AWS et Kubernetes.
  • Expérience avec Datadog pour la surveillance et l’alerte.
  • Expérience avec Terraform et GitLab CI/CD.
  • Capacité à gérer des incidents, des RCA et des pratiques d’amélioration continue.
  • Solide sens de l’automatisation et de l’ingénierie de la résilience.
  • Disponibilité pour une rotation en cas d’escalade d’incidents.
  • Disponibilité pour des voyages occasionnels, y compris des visites trimestrielles sur site et des conférences, à moins de 10 %.
  • Être citoyen canadien, résident permanent du Canada ou détenir un permis de travail canadien valide.

Benefits

  • Entreprise privilégiant le travail à distance avec flexibilité de travail.
  • Bureaux bien situés et espaces de travail collaboratifs disponibles.
  • Environnement favorisant le bien-être des employés, la productivité et la réduction des trajets domicile-travail.
  • Opportunités d’apprentissage continu.
  • Employeur offrant l’égalité des chances.
  • Accommodements offerts aux candidats sélectionnés pour une entrevue.
  • Processus d’embauche sans filtrage ou rejet automatisé par IA.

Interested in this position?

Apply directly on the company website

Apply Now

Similar Roles

Site Reliability Engineer - Backstage

Spotify Media

Site Reliability Engineer for Spotify’s Backstage team in New York City, focused on building and operating cloud infrastructure for an external developer portal and internal AI-driven coding workflows.

AWS GCP Go Java LLM Microservices Python React Terraform TypeScript
23 minutes ago

Blockchain Site Reliability Engineer

InfStones 51-250 Internet Software & Services

InfStones is hiring a remote Blockchain Site Reliability Engineer in Dallas to ensure the reliability, availability, and performance of its blockchain node infrastructure.

Docker Ethereum Go Grafana JavaScript Kubernetes Linux Prometheus Python Rust Solana
1 hour, 8 minutes ago

Lead Engineer - Platform Performance & Reliability

HighLevel 251-1K Internet Software & Services

HighLevel is hiring a Lead Engineer for its Platform Performance & Reliability team to improve the speed, stability, and operational health of a high-traffic global SaaS platform.

AWS ClickHouse Firestore GCP Grafana Kubernetes Microservices MongoDB MySQL Node.js OpenTelemetry PostgreSQL Prometheus Redis
1 hour, 53 minutes ago

Senior Cluster Site Reliability Engineer

The Voleon Group 51-250 Capital Markets

Senior Cluster Site Reliability Engineer at Voleon, responsible for scaling and operating the company’s research compute cluster that supports machine learning research and investment management workloads across on-prem and cloud environments.

Ansible Apache Airflow Apache Spark AWS Docker GCP Grafana Kubeflow Kubernetes Machine Learning OpenTelemetry Podman Prometheus Python PyTorch Ruby TensorFlow Terraform
2 hours, 8 minutes ago

You're on a roll! Sign up now to keep applying.

Sign Up

Already have an account? Log in

Used by 14,729+ remote workers