OPA — Pipeline automatisé de traitement de données
Pipeline de données complet pour le traitement automatisé de données financières, avec API REST, base de données et déploiement conteneurisé.
Contexte
Projet de certification Data Engineer (Mines Paris PSL) : concevoir un pipeline de bout en bout capable d'ingérer, transformer, stocker et servir des données financières de manière automatisée et robuste.
Approche
Architecture microservices avec FastAPI pour l'API REST, MongoDB pour le stockage flexible des données brutes, PostgreSQL pour les données structurées, le tout orchestré avec Docker Compose et déployable sur Kubernetes via Helm charts. Pipeline CI/CD avec Jenkins.
Difficultés techniques
Orchestration de multiples services, gestion de la cohérence des données entre MongoDB et PostgreSQL, mise en place d'un pipeline de déploiement reproductible, gestion des secrets et de la configuration multi-environnement.
Résultat
Pipeline entièrement automatisé, de l'ingestion au serving, avec monitoring intégré. Déploiement reproductible en un clic via Helm. Architecture documentée et testée.