Après une khâgne B/L et une première année à l’ENSC (École Nationale Supérieure de Cognitique), j’ai été diplômé du Master Langue et Informatique de Sorbonne Université. Je réalise actuellement un doctorat au sein de la même université.

Pour télécharger mon CV (français), cliquez ici.

Pour me suivre :

Ma thèse

Financé par la région Île-de-France (DIM Sciences du Texte et Connaissances nouvelles), et en partenariat avec la Bibliothèque Mazarine, je réalise ma thèse au sein du projet Antonomaz. Cette thèse est à mi-chemin entre le Traitement Automatique des Langues Naturelles (TALN) et les Humanités Numériques - thèse dirigée par Glenn Roe et encadrée Karine Abiven et Gaël Lejeune.

Le travail commence par le rassemblement et la numérisation d’imprimés du XVIIème siècle : les Mazarinades, publiées en France pendant la Fronde (1648-1653). Les premiers objectifs sont :

  • d’acquérir les données textuelles de ces imprimés numérisés par OCR (Optical Character Recognition, ou Reconnaissance Optique de Caractères en français) ;
  • de les structurer dans une base de données tout en les augmentant de métadonnées ;
  • d’exploirer ce nouveau corpus numérique.

Il s’agit finalement de proposer une réflexion épistémologique sur la nature des données en Sciences Humaines et Sociales : leur disponibilité, leur structuration, leur exploitation, leur interopérabilité mais aussi l’impact de leur qualité sur le TALN.

Mes intérêts scientifiques

  • OCR
  • évaluation non-supervisée
  • langue non standard : impacts de la variation et du manque de ressources

Mes publications

À venir.