OPA — Pipeline automatisé de traitement de données

Pipeline de données complet pour le traitement automatisé de données financières, avec API REST, base de données et déploiement conteneurisé.

Contexte

Projet de certification Data Engineer (Mines Paris PSL) : concevoir un pipeline de bout en bout capable d'ingérer, transformer, stocker et servir des données financières de manière automatisée et robuste.

Approche

Architecture microservices avec FastAPI pour l'API REST, MongoDB pour le stockage flexible des données brutes, PostgreSQL pour les données structurées, le tout orchestré avec Docker Compose et déployable sur Kubernetes via Helm charts. Pipeline CI/CD avec Jenkins.

Difficultés techniques

Orchestration de multiples services, gestion de la cohérence des données entre MongoDB et PostgreSQL, mise en place d'un pipeline de déploiement reproductible, gestion des secrets et de la configuration multi-environnement.

Résultat

Pipeline entièrement automatisé, de l'ingestion au serving, avec monitoring intégré. Déploiement reproductible en un clic via Helm. Architecture documentée et testée.

Stack technique

PythonFastAPIMongoDBPostgreSQLDockerKubernetesHelmJenkins

Voir sur GitHub →