Description de l'entreprise :
Au cœur des enjeux de la planète, CLS, Tech4Good company, filiale du CNES et de la CNP, est une société à mission internationale, pionnière dans la fourniture de solutions d'observation et de surveillance de la Terre.
Opérateur historique des balises Argos, CLS, depuis 1986, avec plus de 900 salariés dans 30 pays et un chiffre d'affaires annuel de plus de 173 millions d'euros, figure parmi les spécialistes des services satellitaires en utilisant les technologies spatiales les plus avancées, couplées au génie logiciel et à la data-sciences.
Vous souhaitez rejoindre des équipes agiles et dynamiques sur des projets innovants et ambitieux ? Explorer de nouvelles technologies ? Evoluer sur des projets transverses et variés autour des 5 secteurs d'activité de CLS ?
Ceci est possible au sein de notre Direction Systèmes d'Informations (DSI), dont le défi, pour soutenir la croissance de CLS, est de bâtir un socle solide et partagé au sein du groupe pour l'ensemble de ses systèmes et services actuels et futurs !
Au sein de la DSI, le département OPERATIONS assure le maintien en conditions opérationnelles, la fiabilité, la disponibilité et la performance des logiciels et des systèmes fournissant l'ensemble des services de CLS.
Le poste :
Dans ce contexte, nous recherchons pour renforcer nos équipes un :
Ingénieur DevOps - SRE (F/H)
Vous jouerez un rôle central dans la gestion, l'optimisation et la disponibilité d'une ou plusieurs applications opérationnelles. En appliquant les principes du Site Reliability Engineering, vous serez responsable d'automatiser, de surveiller et d'améliorer continuellement la fiabilité des systèmes critiques 24/7 de CLS hébergés dans le cloud et/ou on premise. Votre mission inclut la gestion proactive des incidents, la réduction du temps moyen de réparation et l'amélioration des indicateurs clés de fiabilité (SLO, SLA, SLIs) pour garantir des opérations fluides et une disponibilité optimale des services proposés à nos utilisateurs.
Vos missions :
• Gestion des infrastructures Cloud IAC : Déployer et monitorer les environnements et services Cloud (AWS, Azure).
• Approche SRE :
- Implémenter et mesurer des Service Level Indicators (SLIs), Service Level Objectives (SLOs) et Service Level Agreements (SLAs) pour garantir la performance et la disponibilité des services.
- Automatiser les processus de maintenance et de gestion des incidents pour améliorer la fiabilité et la robustesse des services.
• Opérations critiques 24/7 :
- Mettre en place les outils de monitoring et d'alerting (NAGIOS, Grafana, Prometheus, CloudWatch) pour surveiller les systèmes, détecter les incidents et optimiser les performances opérationnelles.
- Rédaction/maintien des procédures opérationnelles pour permettre aux techniciens d'Operations 24/7 de résoudre rapidement et de manière autonome les incidents.
- Assurer le support, la formation et le maintien en compétence des techniciens d'Operations 24/7
• Automatisation et CI/CD : Maintenir des pipelines d'automatisation (Terraform, Ansible, Jenkins, etc.) pour améliorer l'efficacité des déploiements.
• Gestion des incidents : Diagnostiquer rapidement les problèmes, effectuer des analyses approfondies des root causes et mettre en place des solutions pérennes.
• Coordination interservices pour le suivi opérationnel (équipe IT, développeurs, architectes, business, techniciens d'opérations H24)
Profil recherché :
De formation supérieure en informatique, vous détenez une première expérience réussie dans en gestion d'infrastructure Cloud ou SRE idéalement dans des environnements opérationnels à haute disponibilité.
• Compétences techniques :
Connaissances avancées dans au moins une plateforme Cloud majeure (AWS ou Azure). Maitrise des outils d'automatisation (Terraform, Ansible, ou équivalent).
Connaissances avancées en conteneurisation (Docker, Kubernetes).
Solide compréhension des protocoles réseau, systèmes Linux/Windows et concepts CI/CD.
Expérience dans la mise en œuvre des pratiques SRE (SLOs, SLIs, SLA).
Familiarité avec les environnements nécessitant une disponibilité en continu (24/7).
Maitrise des outils de monitoring et d'alerting : Prometeus, OpenSearch, NAGIOS, Grafana, CloudWatch)
• Soft skills :
Capacité à gérer des situations sous pression et à réagir rapidement en cas d'incident critique.
Approche méthodique pour résoudre les problèmes complexes.
Proactivité, curiosité technique, esprit collaboratif et aisance relationnelle.
Nous sommes impatients de vous rencontrer pour discuter de votre avenir chez CLS ! Rejoignez-nous pour construire des systèmes fiables et performants au service d'opérations critiques en 24/7.