Après une khâgne B/L et une première année à l’ENSC (École Nationale Supérieure de Cognitique), j’ai été diplômé du Master Langue et Informatique de Sorbonne Université. Je réalise actuellement un doctorat au sein de la même université.

Télécharger mon CV (français), cliquez ici.

Me suivre :

Ma thèse

Financé par la région Île-de-France (DIM Sciences du Texte et Connaissances nouvelles), et en partenariat avec la Bibliothèque Mazarine, je réalise ma thèse au sein du projet Antonomaz. Cette thèse est à mi-chemin entre le Traitement Automatique des Langues Naturelles (TALN) et les Humanités Numériques (HN). Elle est dirigée par Glenn Roe et encadrée Karine Abiven et Gaël Lejeune.

Le travail commence par le rassemblement et la numérisation d’imprimés du XVIIème siècle : les Mazarinades, publiées en France pendant la Fronde (1648-1653). Les premiers objectifs sont :

  • d’acquérir les données textuelles de ces imprimés numérisés par OCR (Optical Character Recognition, ou Reconnaissance Optique de Caractères en français) ;
  • de les structurer dans une base de données tout en les augmentant de métadonnées (lemmatisation, POS-tagging et analyse morphologique) ;
  • d’exploirer ces nouveaux corpus numérique.

Il s’agit finalement de proposer une réflexion épistémologique sur la nature des données en Sciences Humaines et Sociales : leur disponibilité, leur structuration, leur exploitation, leur interopérabilité mais aussi l’impact de leur qualité sur le TALN.

Des motivations patrimoniales aux usages en HN, je m’intéresse à l’acquisition et l’exploitation des données textuelles numérisées - des imprimés « anciens ». Les questions de constitution de corpus numériques, de textualité mais aussi d’O.C.R. et de corpus bruités sont au cœur de mon travail.

Mes intérêts scientifiques

  • OCR
  • logométrie
  • langue non standard : impacts de la variation et du manque de ressources

Mes publications

Actes de conférence

  • Jean-Baptiste Tanguy. Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle. 6e conférence conjointe Journées d’Études sur la Parole (JEP, 31e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition), 2020, Nancy, France. pp.205-217. ⟨hal-02786201v2⟩

Evenements

  • « Myriadisation de ressources linguistiques pour le TAL de langues non standardisées » (Alice Millour), Participant, 1/10/20, Serpente, Paris
  • « Questions de méthodes numériques pour les thèses en SHS : circulation des signes, circulation du sens » (Thomas Bottini et Virginie Julliard), Participant, 12/10/20, campus des Cordeliers, Paris
  • Séminaire de Linguistique Computationnelle : « CNU et qualifications » (Karën Fort), Participant, 08/10/20, Serpente, Paris
  • Séminaire OBVIL : « Humanités numériques » (Glenn Roe), Participant, 29/09/20, Serpente, Paris
  • Masterclass « Communication Grand Public », Participant, 25/09/20, Espace des sciences Pierre-Gilles de Gennes, Paris
  • Séminaire Linguistique Computationnelle : « Speed Dating de rentrée » , Intervenant/Participant, 10/09/20, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Faire face à la variabilité en TAL: pistes épistémologiques et pratiques » (Gaël Lejeune), Participant, 02/07/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Exploiter les modèles de langue pour évaluer la qualité des sorties d’OCR pour des documents du XVIIème siècle » (Jean-Baptiste Tanguy), Intervenant, 13/06/20, Virtuel – COVID-19
  • ETeRNAL 2 « Répliquer et étendre pour l’alsacien “Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux” » (Alice Millour, Karën Fort et Pierre Magistry), Participant, 08/06/20, Virtuel – COVID-19
  • ETeRNAL 2 « Que recèlent les données textuelles issues du web ? » (Adrien Barbaresi et Gaël Lejeune), Participant, 08/06/20, Virtuel – COVID-19
  • RECITAL 2020 (asynchrone) : « Exploiter les modèles de langue pour évaluer la qualité des sorties d’OCR pour des documents du XVIIème siècle » (Jean-Baptiste Tanguy), Intervenant, 08/06/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Il a cru j’étais un second choix » : analyse syntaxique et sociolinguistique des constructions [CV. Ø CV.] en français parlé contemporain » (Auphélie Ferreira), Participant, 28/05/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « HIPE – Shared Task, identification d’entités nommées dans des journaux historiques océrisés (adaptation de SEM)  » (Yoann Dupont), Participant, 14/05/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Knowledge Graph Embedding - RDF2Vec » (Vincent Lully), Participant, 07/05/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Visualisation du réseau sémantique des unités mono et polylexicales d’un dictionnaire électronique » (Lichao Zhu), Participant, 30/04/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Réseaux de neurones et Word2Vec » 3/3 (Tian Tian et Yoann Dupont), Participant, 16/04/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Réseaux de neurones et Word2Vec » 2/3 (Tian Tian), Participant, 09/04/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Réseaux de neurones et Word2Vec » 1/3 (Tian Tian), Participant, 02/04/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Classification des dialectes arabes » (Dhaou Ghoul), Participant, 26/03/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Apprentissage automatique supervisé avec réseaux de neurones » (Tian Tian et Yohann Dupont), Participant, 19/03/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Apprentissage automatique supervisé avec réseaux de neurones » (Tian Tian), Participant, 12/03/20, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « CamemBERT: Yet Another Cheese Strategy for Attaigning State-of-the-Art » (Yoann Dupont), Participant, 27/02/20, Serpente, Paris
  • Séminaire OBVIL : « Humanités numériques : la correspondance des écrivains à l’ère du numérique » (Nicholas Cronk et Ruggero Scuito, Oxford), Participant, 05/02/20, Serpente, Paris
  • Ateliers Numériques de l’OBVIL : « Moteur de recherche intertextuel “Tesserae” (et sa version française “Tesserae-OBVIL”) : trouver des similarités entre des poèmes français ou bien entre des poèmes français et latins » (James Gawley), Participant, 31/01/20, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Etudes des Mèmes textuels : hypothèses de travail » (Lichao Zhu), Participant, 23/01/20, Serpente, Paris
  • Journée d’études SIBON : Sociologie et Informatique, Intervenant, 16/01/20, Serpente, Paris
  • Séminaire doctoral (ED5) : Questions de méthodes et numérique pour les thèses en SHS : « La constitution des corpus (les questions scientifiques et méthodologiques suscitées par la constitution de corpus) » (Séance 1), Participant, 13/01/19, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Redescription en analyse de données : exemples variés » (François Rioult), Participant, 19/12/19, Serpente, Paris
  • Séminaire OBVIL : « Détection d’entités dans le domaine biomédical » (Pierre Zweigenbaum), Participant, 04/12/19, Serpente, Paris
  • Séminaire OBVIL : « Palmyre de La Touanne et Côme Saignol : exposés de l’état d’avancement de leurs travaux de recherche et de leur thèse », Participant, 27/11/19, Serpente, Paris
  • L’hypothèse de la compositionnalité en sémantique (Philippe De Groote), Participant, 21/11/19, Sorbonne, Paris
  • Séminaire OBVIL : « Les entités nommées, du prétraitement à la sémantique, théorie et pratique » (Damien Nouvel), Participant, 20/11/19, Serpente, Paris
  • « Chaîne de traitement des données textuelles - Atelier 1 »b>, Participant, 18/11/19 → 19/11/19, Ecole des Chartes, Paris
  • Séminaire Linguistique Computationnelle : « Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines » (Tian Tian), Participant, 14/11/19, Serpente, Paris
  • Séminaire OBVIL : « Construction, exploitation et exploration de ressources d’expressions polylexicales » (Mathieu Constant), Participant, 13/11/19, Serpente, Paris
  • Atelier Nouveaux Outils « Du parchemin à la fouille de données » (COSME2)b>, Participant, 28/10/19 → 20/10/19, IRHT, Campus Condorcet, Aubervilliers
  • Séminaire OBVIL : « Acquisition terminologique et fouille de texte » (Thierry Hamon), Participant, 23/10/19, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Rencontre Minuit Science », Intervenant, 12/09/19, Serpente, Paris