Après une khâgne B/L et une première année à l’ENSC (École Nationale Supérieure de Cognitique), j’ai été diplômé du Master Langue et Informatique de Sorbonne Université. Je réalise actuellement un doctorat au sein de la même université.

Télécharger mon CV (français), cliquez ici.

Me suivre :

Ma thèse

Financé par la région Île-de-France (DIM Sciences du Texte et Connaissances nouvelles), et en partenariat avec la Bibliothèque Mazarine, je réalise ma thèse au sein du projet Antonomaz. Cette thèse est à mi-chemin entre le Traitement Automatique des Langues Naturelles (TALN) et les Humanités Numériques (HN). Elle est dirigée par Glenn Roe et encadrée Karine Abiven et Gaël Lejeune.

Le travail commence par le rassemblement et la numérisation d’imprimés du XVIIème siècle : les mazarinades, parues en France pendant la Fronde (1648-1653). Ce projet tente de définir et d’étudier le concept de « bruit » dans les données textuelles océrisées, c’est-à-dire les textes résultats du processus d’OCR (reconnaissance optique de caractères). Il s’agit de constituer un corpus de textes (les mazarinades), de proposer des versions numériques de ces textes et d’étudier les données textuelles ainsi acquises (par OCR). Le « bruit » que ce processus d’océrisation implique ne rend pas impossible toute mesure ou étude de ces textes, ce que ce projet tente de démontrer. L’océrisation des collections numérisées est ici revendiquée en tant que moyen d’accélérer l’accessibilité aux textes, mais aussi leur exploitation tant par les chercheurs (de toute discipline) que par les utilisateurs des bibliothèques numériques (indexation, citations, etc.).

Je cherche à proposer une réflexion épistémologique sur la nature des données en Sciences Humaines et Sociales : leur disponibilité, leur structuration, leur exploitation, leur interopérabilité mais aussi l’impact de leur “qualité”.

Des motivations patrimoniales aux usages en HN, je m’intéresse à l’acquisition et l’exploitation des données textuelles numérisées - des imprimés « anciens ». Les questions de constitution de corpus numériques, de textualité mais aussi d’OCR et de corpus bruités sont au cœur de mon travail.

Mes intérêts scientifiques

  • données bruitées
  • OCR
  • logométrie
  • langue non standard : impacts de la variation et du manque de ressources

Mes publications

Articles

Actes de conférence

  • Y Dupont, CE González-Gallardo, G Lejeune, A Millour, JB Tanguy (2021), QUEER@ DEFT2021: Identification du Profil Clinique de Patients et Notation Automatique de Copies d’Étudiants, Traitement Automatique des Langues Naturelles, 95-107
  • Gabay, S., Clérice, T., Camps, J. B., Tanguy, J. B., & Gille-Levenson, M. (2020, October). Standardizing linguistic data: method and tools for annotating (pre-orthographic) French. In Proceedings of the 2nd International Conference on Digital Tools & Uses Congress (pp. 1-7).
  • Giguet, E., Lejeune, G., & Tanguy, J. B. (2020, December). Daniel@ FinTOC’2 Shared Task: Title Detection and Structure Extraction. In Proceedings of the 1st Joint Workshop on Financial Narrative Processing and MultiLing Financial Summarisation (pp. 174-180).
  • TANGUY, Jean-Baptiste. Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle. 6e conférence conjointe Journées d’Études sur la Parole (JEP, 31e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition), 2020, Nancy, France. pp.205-217. ⟨hal-02786201v2⟩
  • Tellier, I., Hammouche, H., Cholvy, D., & Tanguy, J. B. Analyse d’opinions multi-aspects pour la recommandation fine de restaurants. CNIA & RJCIA 2018, 110.

Enseignements

2021-2022

ISIT

Introduction à la programmation Python (TD)

Introduction au T.A.L. (TD)

Introduction analyse morphosyntaxique (TD)

Evenements

  • « Clustering de textes pour l’extraction de néologismes : justification du coût de construction d’un petit corpus. », Participant, Virtuel, 20/05/21
  • « Investing Dominant Word Order on Universal Dependencies with Graph Rewriting » (Hee-Soo), Participant, 15/04/21, Virtuel
  • « Reconnaissance d’entités nommées dans des textes de littérature française du 19ème : le poids du bruit ? » (Caroline Parfait), Participant, 18/03/21, Serpente, Paris
  • NewsEye : Session 3 « Digitised Historical Material: Improving Data Quality », Participant, 17/03/21, Serpente, Paris
  • « Théorie de l’information », Intervenant, 18/02/21, Serpente, Paris
  • « L’écriture burlesque dans les “mazarinades” : un exemple d’exploration outillée de corpus océrisés », Intervenant, 25/11/20, Virtuel – COVID-19
  • « Veille épidémiologique » (Gaël Lejeune), Participant, 12/11/20, Virtuel – COVID-19
  • « Complexité des structures linguistiques, simplicité des mécanismes du langage » (Luigi Rizzi), Participant, 05/11/20, Virtuel – COVID-19
  • « Myriadisation de ressources linguistiques pour le TAL de langues non standardisées » (Alice Millour), Participant, 1/10/20, Serpente, Paris
  • « Questions de méthodes numériques pour les thèses en SHS : circulation des signes, circulation du sens » (Thomas Bottini et Virginie Julliard), Participant, 12/10/20, campus des Cordeliers, Paris
  • Séminaire de Linguistique Computationnelle : « CNU et qualifications » (Karën Fort), Participant, 08/10/20, Serpente, Paris
  • Séminaire OBVIL : « Humanités numériques » (Glenn Roe), Participant, 29/09/20, Serpente, Paris
  • Masterclass « Communication Grand Public », Participant, 25/09/20, Espace des sciences Pierre-Gilles de Gennes, Paris
  • Séminaire Linguistique Computationnelle : « Speed Dating de rentrée » , Intervenant/Participant, 10/09/20, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Faire face à la variabilité en TAL: pistes épistémologiques et pratiques » (Gaël Lejeune), Participant, 02/07/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Exploiter les modèles de langue pour évaluer la qualité des sorties d’OCR pour des documents du XVIIème siècle » (Jean-Baptiste Tanguy), Intervenant, 13/06/20, Virtuel – COVID-19
  • ETeRNAL 2 « Répliquer et étendre pour l’alsacien “Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux” » (Alice Millour, Karën Fort et Pierre Magistry), Participant, 08/06/20, Virtuel – COVID-19
  • ETeRNAL 2 « Que recèlent les données textuelles issues du web ? » (Adrien Barbaresi et Gaël Lejeune), Participant, 08/06/20, Virtuel – COVID-19
  • RECITAL 2020 (asynchrone) : « Exploiter les modèles de langue pour évaluer la qualité des sorties d’OCR pour des documents du XVIIème siècle » (Jean-Baptiste Tanguy), Intervenant, 08/06/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Il a cru j’étais un second choix » : analyse syntaxique et sociolinguistique des constructions [CV. Ø CV.] en français parlé contemporain » (Auphélie Ferreira), Participant, 28/05/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « HIPE – Shared Task, identification d’entités nommées dans des journaux historiques océrisés (adaptation de SEM)  » (Yoann Dupont), Participant, 14/05/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Knowledge Graph Embedding - RDF2Vec » (Vincent Lully), Participant, 07/05/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Visualisation du réseau sémantique des unités mono et polylexicales d’un dictionnaire électronique » (Lichao Zhu), Participant, 30/04/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Réseaux de neurones et Word2Vec » 3/3 (Tian Tian et Yoann Dupont), Participant, 16/04/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Réseaux de neurones et Word2Vec » 2/3 (Tian Tian), Participant, 09/04/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Réseaux de neurones et Word2Vec » 1/3 (Tian Tian), Participant, 02/04/20, Virtuel – COVID-19
  • Séminaire Linguistique Computationnelle : « Classification des dialectes arabes » (Dhaou Ghoul), Participant, 26/03/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Apprentissage automatique supervisé avec réseaux de neurones » (Tian Tian et Yohann Dupont), Participant, 19/03/20, Virtuel – COVID-19
  • DOJO Machine Learning : « Apprentissage automatique supervisé avec réseaux de neurones » (Tian Tian), Participant, 12/03/20, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « CamemBERT: Yet Another Cheese Strategy for Attaigning State-of-the-Art » (Yoann Dupont), Participant, 27/02/20, Serpente, Paris
  • Séminaire OBVIL : « Humanités numériques : la correspondance des écrivains à l’ère du numérique » (Nicholas Cronk et Ruggero Scuito, Oxford), Participant, 05/02/20, Serpente, Paris
  • Ateliers Numériques de l’OBVIL : « Moteur de recherche intertextuel “Tesserae” (et sa version française “Tesserae-OBVIL”) : trouver des similarités entre des poèmes français ou bien entre des poèmes français et latins » (James Gawley), Participant, 31/01/20, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Etudes des Mèmes textuels : hypothèses de travail » (Lichao Zhu), Participant, 23/01/20, Serpente, Paris
  • Journée d’études SIBON : Sociologie et Informatique, Intervenant, 16/01/20, Serpente, Paris
  • Séminaire doctoral (ED5) : Questions de méthodes et numérique pour les thèses en SHS : « La constitution des corpus (les questions scientifiques et méthodologiques suscitées par la constitution de corpus) » (Séance 1), Participant, 13/01/19, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Redescription en analyse de données : exemples variés » (François Rioult), Participant, 19/12/19, Serpente, Paris
  • Séminaire OBVIL : « Détection d’entités dans le domaine biomédical » (Pierre Zweigenbaum), Participant, 04/12/19, Serpente, Paris
  • Séminaire OBVIL : « Palmyre de La Touanne et Côme Saignol : exposés de l’état d’avancement de leurs travaux de recherche et de leur thèse », Participant, 27/11/19, Serpente, Paris
  • L’hypothèse de la compositionnalité en sémantique (Philippe De Groote), Participant, 21/11/19, Sorbonne, Paris
  • Séminaire OBVIL : « Les entités nommées, du prétraitement à la sémantique, théorie et pratique » (Damien Nouvel), Participant, 20/11/19, Serpente, Paris
  • « Chaîne de traitement des données textuelles - Atelier 1 »b>, Participant, 18/11/19 → 19/11/19, Ecole des Chartes, Paris
  • Séminaire Linguistique Computationnelle : « Adaptation au domaine et combinaison de modèles pour l’annotation de textes multi-sources et multi-domaines » (Tian Tian), Participant, 14/11/19, Serpente, Paris
  • Séminaire OBVIL : « Construction, exploitation et exploration de ressources d’expressions polylexicales » (Mathieu Constant), Participant, 13/11/19, Serpente, Paris
  • Atelier Nouveaux Outils « Du parchemin à la fouille de données » (COSME2)b>, Participant, 28/10/19 → 20/10/19, IRHT, Campus Condorcet, Aubervilliers
  • Séminaire OBVIL : « Acquisition terminologique et fouille de texte » (Thierry Hamon), Participant, 23/10/19, Serpente, Paris
  • Séminaire Linguistique Computationnelle : « Rencontre Minuit Science », Intervenant, 12/09/19, Serpente, Paris