Je peux vous aider dans la création de vos pipelines d'ingestion et de traitement de données sur Google Cloud Platform.
Je connais les solutions telles que : Airflow - Composer, dataflow, kubeflow, data studio, BigQuery, Google Storage, Docker, Kubernetes, Github Actions, Cloud Bluid, Terraform, etc.
Je mets à disposition mes compétences en data au service de votre société.
Je peux aider vos équipes dans la réalisation de POC mais aussi dans l'industrialisation des modèles de machine learning
Construction d’un pipeline de data pour mettre en production un modèle de machine learning spécialisé sur la formulation de couleurs.
Tâches réalisées :
• Réalisation du pipeline en utilisant kuberflow.
• Mise en œuvre de l’orchestration des tâches sous forme de D.A.G.
• Mise en œuvre d’une chaine CI/CD entre repo Github et Kubeflow en utilisant Cloud Build.
• Automatisation de l’optimisation des hyperparamètres des modèles.
• Automatisation de l’entrainement des modèles.
• Création d'une API REST pour déployer un modèle de ML en utilisant Python/FastApi.
• Réalisation de script python pour ingérer des fichiers dans BigQuery en utilisant python.
Objectifs :
Le but de ce projet est de réaliser des pipelines de traitement et d’ingestion de données dans le data warehouse (BiGquery).
Tâches réalisées :
- Réalisation d’un pipeline d’ingestion de fichiers Json stockés en local vers Cloud Storage en utilisant Cloud Composer.
- Ingestion des fichiers json stockés sur cloud Storage vers BigQuery. Ce pipeline permet de lire les fichiers json et réalise une extraction de certaines informations du fichier avant de les charger dans des tables BigQuery.
- Réalisation d’une connexion entre BigQuery et Data Studio pour afficher des Dashboards avec les données ingérées.