Contexte
Intégration au sein d'une équipe de 10 développeurs pour moderniser
l'infrastructure de traitement des données des 30 millions de compteurs Linky,
avec pour objectif d'améliorer les performances et la fiabilité des traitements à
grande échelle.
Missions et réalisations
Optimisation des traitements Big Data
Page
1
of
5
- Développement et refactoring de jobs Spark
- Réduction de 40% du temps d'exécution des traitements grâce à
l'optimisation des partitions et de la gestion mémoire - Migration de jobs legacy vers Spark 3
Industrialisation et qualité
- Implémentation d'une stratégie de tests automatisés (unitaires, d'intégration)
- Mise en place de pipelines CI/CD (Jenkins) avec validation pré-déploiement
Monitoring et fiabilité
- Conception d'un système de suivi des métriques de traitement
- Détection des jobs "vides" (succès sans données traitées)
Environnement technique
Spark 3, Java 11, Spring, Scala, Ceph/S3, Git
Nice et périphérie
Contexte
Membre d'une équipe de 3 développeurs en charge d'une plateforme fast
data critique traitant des flux temps-réel pour les opérations aéronautiques de
compagnies majeures, avec des exigences strictes de disponibilité.
Missions et réalisations
- Développement de nouvelles fonctionnalités pour les microservices en Java/
Scala - Mise en place d'une stratégie de test (unitaires, intégration, E2E)
- Développement de scénarios Robot Framework pour les tests
- Élimination des régressions en production
Environnement technique
Java 11, Scala, Kafka, MongoDB, OpenShift/Helm, Docker Desktop, CI/CD,
SAFe Agile, Robot Framework, JUnit, Postman, SonarQube
2
of
5
Valbonne, Provence-Alpes-Côte d’Azur, France
Contexte
Premier développeur en mission sur le tout nouveau projet de data lake,
avec pour objectif de structurer les données pour les rendre exploitables par
les équipes opérationnelles et analytiques. En quasi-autonomie technique
pendant la majeure partie de la mission, avec une étroite collaboration avec
les équipes KLM consommatrices des données.
Missions
- Conception et développement des pipelines de traitement des données
brutes - Transformation des données XML/JSON en datasets Parquet structurés
- Maintenance opérationnelle et monitoring des jobs en production
Résultats
- Croissance du data lake : passage de 5 à 50+ datasets structurés en 2 ans ;
intégration de 15+ sources de données hétérogènes. - Amélioration de l'exploitabilité : documentation complète permettant
l'adoption par de nouveaux utilisateurs ; réduction du temps d'accès aux
données pour les analystes. - Efficacité opérationnelle : stabilité des jobs en production, automatisation des
processus réduisant les interventions manuelles ; préparation du terrain pour
l'industrialisation avec l'arrivée d'un second développeur.
Environnement technique
Spark 2 (Core, SQL, Dataset), Hadoop (HDP 2.6, HDFS, YARN), Kafka, Java
8, Python, PySpark, Bash, Control-M, MongoDB, Spring Boot, Cloud Foundry
- Français
- Anglais