Baptiste Blouin — Data Scientist & AI Engineer

A propos

Data Scientist et Ingénieur IA avec un Doctorat en Informatique, je combine une expertise en recherche ML/NLP publiée avec une pratique croissante de l'ingénierie produit.

J'ai conçu et développé de A à Z une plateforme SaaS de transformation de données par IA : pipeline RAG avancé (hybride, GraphRAG, RAPTOR), moteur text-to-SQL, extraction documentaire multi-format, connecteurs multi-sources et architecture multi-tenant.

Ma formation par la recherche (5+ publications, conférences internationales, subvention ERC) me donne une rigueur méthodologique que j'applique aussi bien à la conception d'architectures techniques qu'à la résolution de problèmes complexes.

Aix-en-Provence, France

Français, Anglais

Recherche

Investigation indépendante, conception expérimentale, publication académique

Ingénierie

Full-stack ML, architecture évolutive, déploiement production

Collaboration

Travail interculturel, mentorat, présentations internationales

Compétences

Langages

Python Rust JavaScript / TypeScript Java C++ R SQL

ML & Data Science

PyTorch TensorFlow Hugging Face scikit-learn FLAML / AutoML Sentence Transformers NetworkX UMAP Analyse Statistique

NLP & Traitement de Documents

spaCy NLTK NER Multilingue Extraction d'Événements Transfer Learning Adaptation de Domaine Segmentation de Mots Annotation de Données OCR (Docling, Google Cloud Vision) Traitement de Textes Historiques

LLM & IA Générative

litellm LangChain LangGraph Langfuse Prompt Engineering Structured Output Routing Multi-provider & Fallback RAG / GraphRAG / RAPTOR Recherche Hybride (BM25 + Vector) Reranking (Cross-Encoder) Embeddings / Vector Search VLM (Vision Language Models) Text-to-SQL Suivi de Coûts LLM

Développement Full-Stack

React Vue.js TailwindCSS D3.js Shiny Node.js FastAPI Flask SQLAlchemy Pydantic Async Python REST API WebSockets Auth / RBAC pytest / TDD Playwright Git CI/CD

Infrastructure & DevOps

PostgreSQL MySQL pgvector Elasticsearch Apache Solr Redis Celery Alembic Docker Nginx S3 / MinIO Prometheus / Grafana OpenTelemetry GCP Linux

Recherche & Communication

Méthodologie Scientifique Conception Expérimentale Rédaction Technique & Publication Présentations Internationales Revue de Littérature Mentorat Collaboration Interculturelle LaTeX

Expérience

Développeur Full-Stack & Ingénieur IA — Projet Personnel

2025 – Présent

Conception et développement autonomes d'une plateforme SaaS de transformation de données par IA, de l'architecture à la mise en production
Implémentation de systèmes LLM en production : RAG hybride (pgvector + BM25), GraphRAG, RAPTOR, text-to-SQL avec streaming SSE
Intégration de 15+ connecteurs de sources de données (bases relationnelles, APIs SaaS, S3, scraping web) et pipeline d'extraction documentaire multi-format
Architecture de sécurité complète : multi-tenant, RBAC, JWT RS256, SSO, 2FA, GDPR, audit logging, billing Stripe

Data Scientist & Ingénieur ML

Projet ENP-China — Aix-Marseille Université

2023 – 2025

Chercheur principal et développeur pour la plateforme HistText, gestion de projet indépendante
Exploration et résolution de défis ML complexes dans le traitement de textes historiques à grande échelle
Communication de concepts techniques par ateliers de formation dans 4 pays
Collaboration interdisciplinaire avec historiens, linguistes et informaticiens internationaux

Doctorant & Scientifique ML

Laboratoire LIS / IrAsia — Aix-Marseille Université

2019 – 2022

Recherche indépendante sur subvention ERC Avancée européenne, apprentissage auto-dirigé
Publié 5+ articles à comité de lecture, rédaction technique et communication
Présenté la recherche dans des conférences internationales
Mentoré et collaboré avec équipes de recherche internationales

Projets Clés

2025 –

Plateforme Data & IA SaaS

Projet Entrepreneurial — En développement

Plateforme SaaS de transformation et d'analyse de données combinant extraction IA, RAG avancé, text-to-SQL, connecteurs multi-sources et tableaux de bord analytiques. Architecture multi-tenant avec pipeline de traitement.

FastAPIReactTypeScriptPostgreSQLpgvectorLangChainLangGraphlitellmCeleryDocker

En cours

2023 – 2025

HistText

Plateforme d'Analyse de Textes à Grande Échelle

Plateforme full-stack traitant des milliards de tokens de documents historiques avec NER, recherche full-text, visualisations interactives et package R client. Déployée pour la communauté internationale.

RustReactPythonRPostgreSQLApache SolrDocker

Démo live GitHub JDMDH 2024

2020 –

EventExtractionPapers

Ressource communautaire Open Source

Liste curated de ressources NLP sur l'extraction d'événements. Référence largement utilisée dans la communauté de recherche.

NLPEvent ExtractionOpen Source

GitHub 580+ stars

2024

ENP-Corpus Creator

Pipeline OCR & Annotation

Suite d'outils transformant des images numérisées en corpus sémantiquement enrichis : OCR (Google Vision), interface d'annotation web interactive, classification par raccourcis clavier. Conçu pour documents multilingues complexes.

PythonGoogle Vision APIWebOCR

Article

2023 – 2024

Dataset NER Chinois & Pipeline ML

Ingénierie de Données & ML

Le plus grand dataset NER annoté de textes chinois historiques (1872–1949) avec contrôle qualité automatisé, pipeline ML et benchmarks reproductibles. Données librement disponibles.

PythonPostgreSQLAnnotationML Pipeline

LREC-COLING 2024

2023

Modèle de Langue & Tokenisation Chinoise

Développement de Modèles ML

Modèles de tokenisation atteignant 83% de précision (+35% d'amélioration) pour le chinois transitionnel, en collaboration avec Academia Sinica.

PyTorchTensorFlowTokenisationFine-tuning

NLP4DH 2023

2022

Simulation OCR & Robustesse ML

Recherche Expérimentale

Approche d'augmentation de données réduisant l'impact d'erreur OCR de 50%, avec framework de benchmarking pour la robustesse des modèles.

PyTorchTransformersData Augmentation

TALN 2022

2021

Transfer Learning & Adaptation

Développement & Optimisation ML

Few-shot learning atteignant 93% de récupération de performance avec données minimales, architectures character-aware pour textes historiques.

BERTTransformersFew-shotAdaptation

NLP4DH 2021

Publications

2024

HistText: An Application for Leveraging Large-Scale Historical Textbases

JDMDH 2024 — Journal of Data Mining & Digital Humanities

Paper · HAL

2024

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

B. Blouin, C. Armand, C. Henriot

LREC-COLING 2024, Torino, Italy

ACL Anthology

2023

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

B. Blouin, H.-H. Huang, C. Henriot, C. Armand

NLP4DH 2023, Tokyo, Japan

ACL Anthology

2022

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

B. Blouin, B. Favre, J. Auguste

TALN 2022 (JEP-TALN-RECITAL), Avignon

ACL Anthology

2021

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

B. Blouin, B. Favre, J. Auguste, C. Henriot

NLP4DH 2021, Silchar, India

ACL Anthology

2021

Creating Biographical Networks from Chinese and English Wikipedia

B. Blouin, N. van den Bosch, P. Magistry

Journal of Historical Network Research, Vol. 5, No. 1

JHNR · HAL

2020

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

B. Blouin, P. Magistry

PACLIC 34, Hanoi, Vietnam

ACL Anthology

Formation

2022

Doctorat en Informatique (Machine Learning)

Aix-Marseille Université

Thèse : Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire

Directeur : Prof. Benoit Favre — Subvention ERC Avancée ENP-China (n° 788476)

Lire la thèse

2019

Master Informatique (IA/ML)

Aix-Marseille Université

2016

Licence Informatique

Aix-Marseille Université

Bonjour, je suis Baptiste Blouin

A propos

Recherche

Ingénierie

Collaboration

Compétences

Langages

ML & Data Science

NLP & Traitement de Documents

LLM & IA Générative

Développement Full-Stack

Infrastructure & DevOps

Recherche & Communication

Expérience

Développeur Full-Stack & Ingénieur IA — Projet Personnel

Data Scientist & Ingénieur ML

Doctorant & Scientifique ML

Projets Clés

Plateforme Data & IA SaaS

HistText

EventExtractionPapers

ENP-Corpus Creator

Dataset NER Chinois & Pipeline ML

Modèle de Langue & Tokenisation Chinoise

Simulation OCR & Robustesse ML

Transfer Learning & Adaptation

Publications

HistText: An Application for Leveraging Large-Scale Historical Textbases

A Dataset for Named Entity Recognition and Entity Linking in Chinese Historical Newspapers

Unlocking Transitional Chinese: Word Segmentation in Modern Historical Texts

Simulation d'erreurs d'OCR dans les systèmes de TAL pour le traitement de données anachroniques

Transferring Modern Named Entity Recognition to the Historical Domain: How to Take the Step?

Creating Biographical Networks from Chinese and English Wikipedia

Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese

Formation

Doctorat en Informatique (Machine Learning)

Master Informatique (IA/ML)

Licence Informatique

Contact