Échelle Salariale Sans S’y Limiter: 109,900 - 134,300 Ce que vous ferez Conseiller(ère) en ingénierie de la fiabilité des sites (SRE) pragmatique au sein de l’équipe SRE & Résilience du département Intelligence opérationnelle. Ce rôle couvre Azure, AWS, GCP et les environnements sur-site, et s’inscrit dans la stratégie globale de résilience d’entreprise et de fiabilité en production. Évoluer au sein d’une unité d’enquêtes spéciales qui soutient et habilite le Support Applicatif, le Support Infrastructure et l’équipe de Gestion des Incidents, en coachant, guidant et dirigeant les enquêtes sur les incidents en cours ainsi que les améliorations proactives de la fiabilité. Conduire des investigations approfondies, assurer l’observabilité avancée (OpenTelemetry, Dynatrace, Elastic), développer des outils d’auto-réparation et gérer les indicateurs et objectifs de service (SLI/SLO) et les rapports de fiabilité. Responsabilités clés Mener des investigations critiques et des analyses de causes profondes (RCA) avec les équipes Application, Infrastructure et gestion des Incidents; identifier les risques systémiques et déployer des solutions durables; réaliser des analyses post-mortem et accompagner les équipes. Mettre en œuvre des traces, des métriques et des journaux de bout en bout; développer des analyses et la détection d’anomalies; intégrer des tests synthétiques, des tests de contrats et le traçage distribué. Développer des mécanismes de remédiation basés sur des politiques (coupe-circuit, limitation, reprises); définir des stratégies de déploiements progressifs et fournir des outils de résilience et de reprise après sinistre. Définir et publier des SLI/SLO centrés sur l’utilisateur; assurer la gestion des erreurs et favoriser l’amélioration continue; encadrer les équipes et promouvoir l’automatisation et la résilience. Contribuer à la fiabilité cloud et plateforme (Azure, AWS, GCP; Kubernetes/mesh; réseaux et flux de données); travailler sur la résilience des architectures et des flux de données. Qualifications 8+ années d’expérience en ingénierie de la fiabilité des sites, avec expérience sur des systèmes de production à grande échelle et sur plusieurs environnements cloud et sur site. Compétences en observabilité et ingénierie de fiabilité: SLI/SLO/SLA, gestion des budgets d’erreurs, CI/CD, déploiement bleu-vert/canari et IaC (Terraform) et GitOps (Argo CD/Flux). Connaissances approfondies de Kubernetes et des maillages de services; gestion du réseau et du trafic (DNS, équilibreurs de charge, TLS/mTLS, CDN). Développement logiciel dans Go, Python ou TypeScript; expérience en PaC (politiques en tant que code) et IaC et expériences en chaos engineering et reprise après sinistre. Excellentes aptitudes en communication; capacité à encadrer, à mener des investigations et à présenter à des parties prenantes techniques et métier; bilingue (français et anglais). Aucune expérience de travail au Canada requise, mais nécessité d’avoir l’autorisation de travailler au Canada. Égalité d’accès à l’emploi: Le respect est une valeur chez Intact; nous veillons à offrir un milieu de travail accessible où chacun se sent valorisé et inclus. Nous encourageons les candidatures de personnes appartenant à des groupes dignes d’équité et prenons des mesures d’adaptation pour l’accès et la participation. Si vous travaillez déjà pour Intact ou belairdirect, veuillez postuler à ce poste sur notre site carrière interne. Merci de noter qu’Intact n’offre ni parrainage ni soutien concernant les démarches d’immigration. Les candidats doivent être admissibles à travailler au Canada à la date de début et durant toute la période d’emploi. #J-18808-Ljbffr
Conseiller(Ère) En Ingénierie De La Fiabilité Des Sites (Sre) - Spécialiste
INTACT
montreal (administrative region), montreal (administrative region)
Published 18 days ago
Report job