Projet GEODE


Siteweb du projet GEODE

Projet GEODE

Siteweb du projet GEODE

Le projet interdisciplinaire GEODE (2020-2024) financé par le LabEX ASLAN réunit des chercheurs en linguistique, informatique et géographie des laboratoires ICAR, LIRIS et EVS. Ce projet fait suite au projet GéoDISCO (2019-2020) financé par la MSH Lyon St-Etienne. Notre objectif est d’étudier dans un corpus de quatre encyclopédies françaises les changements survenus dans les discours géographiques entre 1750 et nos jours. Pour cela, nous nous aiderons des méthodes de classification semi-supervisée des textes, de génération de modèles de langues et de repérage automatique de routines discursives.

Contexte de l’étude

GEODE est une collaboration interdisciplinaire où les méthodes de linguistique de corpus, d'informatique, de science de l'information géographique et d'histoire des idées convergent autour d'un objectif scientifique déjà partagé par les laboratoires ICAR et LIRIS : les discours géographiques dans les encyclopédies françaises. Qu’il s’agisse de l’Encyclopédie de Diderot, d’Alembert et Jaucourt au XVIIIe s. (1751-1772), de La Grande Encyclopédie au XIX e s. (1886-1902), de l’Encyclopædia Universalis ou de Wikipédia au XXI e s., chacune de ces vastes entreprises intellectuelles et éditoriales a cherché à présenter à ses lecteurs une synthèse des savoirs de son temps, parmi lesquels les savoirs géographiques. C’est à ces derniers que nous nous intéressons.



Cadre Théorique

Dans GEODE, nous assignons au « discours géographique » deux acceptions. La première vise la structure intraphrastique topic-comment impliquant une relation d’aboutness (Reinhart 1982, Lambrecht 1994, Berthoud 1996). Il s’agit pour nous de construire, en nous fondant sur une approche statistique, une représentation sémantique des propos tenus dans les articles à propos d’entités spatiales évoquées (villes, rivières, montagnes, ...). Pour la seconde acception, de niveau discursif, nous faisons l’hypothèse qu’entre le XVIIIe s. et aujourd’hui s’est mise en place une norme discursive encadrant l’énonciation des informations géographiques, en lien avec le processus d’institutionnalisation de cette discipline (Péaud 2016, Laboulais 2001). Notre objectif est de cerner l’émergence des structures linguistiques caractéristiques de cette norme.


Méthode

Tout d’abord, nous nous concentrerons sur la préparation des corpus (homogénéisation des formats, corrections, annotations) afin que le contenu de chaque encyclopédie puisse être traité automatiquement. Ensuite, notre proposition consistera à développer des algorithmes adaptés pour l'analyse automatique et la recherche d’information géo- sémantiques. Nous nous intéressons en particulier au développement de modèles linguistiques adaptés à l'analyse diachronique du discours géographique dans un corpus de documents textuels publiés entre le XVIIIe et le XXIe siècle. Notre méthodologie est basée sur le développement d'une chaîne de traitement composée de différentes tâches qui nécessitent des ressources spécifiques (documents annotés, modèles linguistiques, ressources géographiques, etc.).


L'équipe


  • Denis Vigier, Université Lyon 2, ICAR UMR 5191 - coordinateur scientifique
  • Ludovic Moncla, INSA Lyon, LIRIS UMR 5205 - coordinateur scientifique
  • Thierry Joliveau, Université de Saint-Etienne EVS UMR 5600
  • Katherine McDonough, The Alan Turing Institute, London UK
  • Benoît Crabbé, Université Paris Diderot, LLF UMR 7110
  • Achille Falaise, CNRS, LLF UMR 7110
  • Olivier Kraif, Univeristé Grenoble Alpes, LIDILEM
  • Frédérique Laforest, INSA Lyon, LIRIS UMR 5205
  • Alice Brenon (Doctorante), INSA Lyon, LIRIS UMR 5205
  • Antoine Taroni (Ingénieur d'étude), CNRS, LIRIS UMR 5205
  • Khaled Chabane (stagiaire), LIRIS UMR 5205
  • Tiphaine Bourgeois (stagiaire), LIRIS UMR 5205
  • Matheus Saraiva (stagiaire), EVS UMR 5600
  • Marc-Antoine Péguet (stagiaire), ERIC & LIRIS UMR 5205
  • Hedi Zeghidi (stagiaire), LIRIS UMR 5205




Publications


Moncla L., Vigier D. and McDonough K. (2024).
GeoEDdA: A Gold Standard Dataset for Geo- semantic Annotation of Diderot & d’Alembert’s Encyclopédie.
In proceedings of the Second International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04511909

Moncla L., Gaio, M. (2023).
Perdido: Python library for geoparsing and geocoding French texts.
In proceedings of the First International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04049794

Moncla L., Gaio, M. (2023).
Perdido : librairie Python pour le geoparsing et le geocoding de textes en français. (démo)
23ème conférence francophone sur l'Extraction et la Gestion de Connaissances (EGC'2023), Lyon France.
https://github.com/ludovicmoncla/demo-perdido-egc-2023

Brenon A. , Moncla L., McDonough, K. (2022).
Classifying encyclopedia articles: Comparing machine and deep learning methods and exploring their predictions.
Data and Knowledge Engineering, Elsevier.
https://doi.org/10.1016/j.datak.2022.102098

Vigier D. , Moncla L., Monfort, I., McDonough, K. & T. Joliveau (2022).
Les articles de géographie dans le Dictionnaire Universel de Trévoux et l’Encyclopédie de Diderot et d’Alembert.
Revue Langue Française, n° 214 (2022/2).
https://doi.org/10.3917/lf.214.0059

Moncla, L., Chabane, K., & Brenon, A. (2022).
Classification automatique d'articles encyclopédiques.
22ème Conférence francophone sur l'Extraction et la Gestion des Connaissances (EGC). Blois, France (Prix du meilleur article applicatif)
hal-03481219

Brenon, A. & Vigier, D. (2021).
The specificities of encoding encyclopedias: towards a new standard?.
11th International Conference on Historical Lexicography and Lexicology. La Rioja, Spain.
halshs-03266745v1

Moncla, L., Vigier, D., Mcdonough, K., Brenon, A., & Joliveau, T. (2021).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’​Encyclopédie​ de Diderot et d’Alembert (1751-1772).
International Symposium of Theoretical linguistics in the light of the interaction of qualitative and quantitative approaches. Neuchâtel, Switzerland.
halshs-03271672

  • Dans le cadre du projet précédent GéoDISCO (2019-2020)
Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau, T. (2020).
Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772).
7e Congrès Mondial de Linguistique Française (CMLF). Montpellier, France.
https://doi.org/10.1051/shsconf/20207811008

Vigier, D., Moncla, L., Joliveau, T., Mcdonough, K., & Brenon, A. (2019).
GeoDISCO: Encyclopedic Geographical Discourse in France from the Enlightenment to Wikipedia.
13th International Workshop on Geographic Information Retrieval (GIR’19). Lyon, France.
hal-02474835

Moncla, L., McDonough, K., Vigier, D., Joliveau, T., & Brenon, A. (2019).
Toponym disambiguation in historical documents using network analysis of qualitative relationships.
Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Geospatial Humanities, 1–4. Chicago, IL, USA.
https://doi.org/10.1145/3356991.3365471

McDonough, K., Moncla, L., & van de Camp, M. (2019).
Named entity recognition goes to old regime France: geographic text analysis for early modern French corpora.
International Journal of Geographical Information Science, 33, 2498–2522.
https://doi.org/10.1080/13658816.2019.1620235



Communications orales


Moncla, L. (10 septembre 2024).
From BERT Fine-tuning to LLM Prompting: Geospatial Named Entity Recognition in Historical French Texts
First workshop of the PHC GeoLiaison project Paris, France (invited talk).
Slides

Joliveau, T., Moncla, L., Taroni, A., Vigier, D., and McDonough, K. (5 juillet 2024).
A digital exploration of geographic knowledge in Diderot and d’Alembert’s Encyclopédie.
International Conference on the History of Cartography (ICHC2024) Lyon, France.

Moncla, L., Joliveau, T., Vigier, D. (6 juin 2024).
Propositions pour une étude interdisciplinaire de la géographie dans un dictionnaire universel et une encyclopédie du XVIIIe siècle.
1er colloque du réseau METALEX CY Cergy Paris Université, Neuville-sur-Oise, France.

Vigier, D., Joliveau, T. (27 mai 2024).
Un projet cartographique pour l’Encyclopédie de Diderot, d’Alembert (et Jaucourt)
Rencontre du Pôle HUNIS, Université Lumière Lyon 2, Lyon, France.

Joliveau, T., Moncla, L. et McDonough, K. (10 octobre 2023).
Un projet cartographique pour l’Encyclopédie. Localisation par coordonnées et géovisualisation des articles de l'Encyclopédie de Diderot et d'Alembert.
Séminaire d’histoire des sciences astronomiques Observatoire de Paris, Paris, France.

Brenon, A., Vigier, D., Moncla, L. and Laforest, F. (4 juillet 2023).
Comparaison diachronique de motifs récurrents dans deux encyclopédies.
11ème Journées Internationales de la Linguistique de Corpus. Grenoble, France.
hal-04146494

Moncla, L. (16 mars 2023).
Vers une cartographie de l’Encyclopédie de Diderot et d’Alembert.
Journée d'étude : La littérature au prisme des humanités numériques. ObTIC, Sorbonne Université, Paris, France.

McDonough, K. and Moncla, L. (2 novembre 2022).
Maps as Text and Text as Maps..
Talk and tutorial at the University of Washington, Seattle, WA, USA.

Joliveau, T. (15 mars 2022).
Inventaire, localisation et cartographie des lieux cités dans l'Encyclopédie de Diderot et d'Alembert..
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Vigier, D. et Moncla, L. (14 février 2022).
Classification d’articles encyclopédiques et reconnaissance d’entités nommées : Application à l’Encyclopédie de Diderot et d’Alembert.
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Vigier, D., Moncla, L., Lefort, I., McDonough, K., Joliveau, T. (24 janvier 2022).
Les articles de géographie traitant de la France dans le Dictionnaire Universel de Trevoux (1704-1771) et l'Encyclopédie de Diderot et d'Alembert (1751-1772).
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Moncla, L., Vigier, D. (17 janvier 2022).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’"Encyclopédie" de Diderot et d’Alembert (1751-1772).
Séminaire de l'équipe "Sciences du texte", laboratoire ICAR, Lyon.

Vigier, D., Moncla, L., Mcdonough, K., Joliveau, T. Lefort, I. (15 juin 2021).
Workshop Données et discours géographiques en France au 18e siècle. UChicago Center, Paris.



Ressources





Actualités

Offre de stage M2 Informatique

Graph Neural Network pour l'annotation automatique d'entités nommées imbriquées
Ce stage s’inscrit dans les objectifs du projet interdisciplinaire GEODE ayant comme thème principal une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne sur le volet informatique et a pour but la conception de méthodes innovantes et automatiques d’extraction d’information à partir d’articles encyclopédiques.... [Read More]
Tags: recrutement

Workshop at UChicago Center in Paris

Données et discours géographiques en France au 18e siècle
Le discours géographique fait partie à la fois de la langue scientifique développée depuis le début du 17e siècle mais on le trouve également dans les textes politiques (discours révolutionnaires), culturels (encyclopédies) ou encore dans le discours littéraire (romans). Nous discuterons en particulier de la place centrale qu’il occupe dans... [Read More]
Tags: workshop

Offre de stage M2 Informatique

Machine Learning et Word embeddings pour la classification et l’analyse d’articles encyclopédiques
Ce stage s’inscrit dans le cadre d’une collaboration interdisciplinaire (informatique, linguistique et géographie) ayant comme objet principale une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne en amont du travail qui sera mené dans le projet GEODE et nécessite une activité à l’interface de... [Read More]
Tags: recrutement