|
Data Scientist et Ingénieur IA avec un Doctorat en Informatique, combinant recherche ML/NLP et ingénierie produit : RAG, text-to-SQL, extraction documentaire, architecture SaaS.
Data Scientist et Ingénieur IA avec un Doctorat en Informatique, je combine une expertise en recherche ML/NLP publiée avec une pratique croissante de l'ingénierie produit.
J'ai conçu et développé de A à Z une plateforme SaaS de transformation de données par IA : pipeline RAG avancé (hybride, GraphRAG, RAPTOR), moteur text-to-SQL, extraction documentaire multi-format, connecteurs multi-sources et architecture multi-tenant.
Ma formation par la recherche (5+ publications, conférences internationales, subvention ERC) me donne une rigueur méthodologique que j'applique aussi bien à la conception d'architectures techniques qu'à la résolution de problèmes complexes.
Investigation indépendante, conception expérimentale, publication académique
Full-stack ML, architecture évolutive, déploiement production
Travail interculturel, mentorat, présentations internationales
Projet ENP-China — Aix-Marseille Université
Laboratoire LIS / IrAsia — Aix-Marseille Université
Projet Entrepreneurial — En développement
Plateforme SaaS de transformation et d'analyse de données combinant extraction IA, RAG avancé, text-to-SQL, connecteurs multi-sources et tableaux de bord analytiques. Architecture multi-tenant avec pipeline de traitement.
Plateforme d'Analyse de Textes à Grande Échelle
Plateforme full-stack traitant des milliards de tokens de documents historiques avec NER, recherche full-text, visualisations interactives et package R client. Déployée pour la communauté internationale.
Ressource communautaire Open Source
Liste curated de ressources NLP sur l'extraction d'événements. Référence largement utilisée dans la communauté de recherche.
Pipeline OCR & Annotation
Suite d'outils transformant des images numérisées en corpus sémantiquement enrichis : OCR (Google Vision), interface d'annotation web interactive, classification par raccourcis clavier. Conçu pour documents multilingues complexes.
Ingénierie de Données & ML
Le plus grand dataset NER annoté de textes chinois historiques (1872–1949) avec contrôle qualité automatisé, pipeline ML et benchmarks reproductibles. Données librement disponibles.
Développement de Modèles ML
Modèles de tokenisation atteignant 83% de précision (+35% d'amélioration) pour le chinois transitionnel, en collaboration avec Academia Sinica.
Recherche Expérimentale
Approche d'augmentation de données réduisant l'impact d'erreur OCR de 50%, avec framework de benchmarking pour la robustesse des modèles.
Développement & Optimisation ML
Few-shot learning atteignant 93% de récupération de performance avec données minimales, architectures character-aware pour textes historiques.
LREC-COLING 2024, Torino, Italy
NLP4DH 2023, Tokyo, Japan
TALN 2022 (JEP-TALN-RECITAL), Avignon
NLP4DH 2021, Silchar, India
PACLIC 34, Hanoi, Vietnam
Aix-Marseille Université
Thèse : Extraction d'événements à partir de fac-similés de documents anciens pour les études en histoire
Directeur : Prof. Benoit Favre — Subvention ERC Avancée ENP-China (n° 788476)
Aix-Marseille Université
Aix-Marseille Université
N'hésitez pas à me contacter pour discuter d'opportunités, de collaborations ou simplement pour échanger.