Projet GEODE


Siteweb du projet GEODE

Projet GEODE

Siteweb du projet GEODE

Le projet interdisciplinaire GEODE (2020-2024) financé par le LabEX ASLAN réunit des chercheurs en linguistique, informatique et géographie des laboratoires ICAR, LIRIS et EVS. Ce projet fait suite au projet GéoDISCO (2019-2020) financé par la MSH Lyon St-Etienne. Notre objectif est d’étudier dans un corpus de quatre encyclopédies françaises les changements survenus dans les discours géographiques entre 1750 et nos jours. Pour cela, nous nous aiderons des méthodes de classification semi-supervisée des textes, de génération de modèles de langues et de repérage automatique de routines discursives.

Contexte de l’étude

GEODE est une collaboration interdisciplinaire où les méthodes de linguistique de corpus, d'informatique, de science de l'information géographique et d'histoire des idées convergent autour d'un objectif scientifique déjà partagé par les laboratoires ICAR et LIRIS : les discours géographiques dans les encyclopédies françaises. Qu’il s’agisse de l’Encyclopédie de Diderot, d’Alembert et Jaucourt au XVIIIe s. (1751-1772), de La Grande Encyclopédie au XIX e s. (1886-1902), de l’Encyclopædia Universalis ou de Wikipédia au XXI e s., chacune de ces vastes entreprises intellectuelles et éditoriales a cherché à présenter à ses lecteurs une synthèse des savoirs de son temps, parmi lesquels les savoirs géographiques. C’est à ces derniers que nous nous intéressons.



Cadre Théorique

Dans GEODE, nous assignons au « discours géographique » deux acceptions. La première vise la structure intraphrastique topic-comment impliquant une relation d’aboutness (Reinhart 1982, Lambrecht 1994, Berthoud 1996). Il s’agit pour nous de construire, en nous fondant sur une approche statistique, une représentation sémantique des propos tenus dans les articles à propos d’entités spatiales évoquées (villes, rivières, montagnes, ...). Pour la seconde acception, de niveau discursif, nous faisons l’hypothèse qu’entre le XVIIIe s. et aujourd’hui s’est mise en place une norme discursive encadrant l’énonciation des informations géographiques, en lien avec le processus d’institutionnalisation de cette discipline (Péaud 2016, Laboulais 2001). Notre objectif est de cerner l’émergence des structures linguistiques caractéristiques de cette norme.


Méthode

Tout d’abord, nous nous concentrerons sur la préparation des corpus (homogénéisation des formats, corrections, annotations) afin que le contenu de chaque encyclopédie puisse être traité automatiquement. Ensuite, notre proposition consistera à développer des algorithmes adaptés pour l'analyse automatique et la recherche d’information géo- sémantiques. Nous nous intéressons en particulier au développement de modèles linguistiques adaptés à l'analyse diachronique du discours géographique dans un corpus de documents textuels publiés entre le XVIIIe et le XXIe siècle. Notre méthodologie est basée sur le développement d'une chaîne de traitement composée de différentes tâches qui nécessitent des ressources spécifiques (documents annotés, modèles linguistiques, ressources géographiques, etc.).


L'équipe


  • Denis Vigier, Université Lyon 2, ICAR UMR 5191 - coordinateur scientifique
  • Ludovic Moncla, INSA Lyon, LIRIS UMR 5205 - coordinateur scientifique
  • Thierry Joliveau, Université de Saint-Etienne EVS UMR 5600
  • Katherine McDonough, The Alan Turing Institute, London UK
  • Benoît Crabbé, Université Paris Diderot, LLF UMR 7110
  • Achille Falaise, CNRS, LLF UMR 7110
  • Olivier Kraif, Univeristé Grenoble Alpes, LIDILEM
  • Frédérique Laforest, INSA Lyon, LIRIS UMR 5205
  • Alice Brenon (Doctorante), INSA Lyon, LIRIS UMR 5205
  • Antoine Taroni (Ingénieur d'étude), CNRS, LIRIS UMR 5205
  • Khaled Chabane (stagiaire), LIRIS UMR 5205
  • Tiphaine Bourgeois (stagiaire), LIRIS UMR 5205
  • Matheus Saraiva (stagiaire), EVS UMR 5600
  • Marc-Antoine Péguet (stagiaire), ERIC & LIRIS UMR 5205
  • Hedi Zeghidi (stagiaire), LIRIS UMR 5205




Publications


Moncla L., Gaio, M. (2023).
Perdido: Python library for geoparsing and geocoding French texts.
In proceedings of the First International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04049794

Moncla L., Gaio, M. (2023).
Perdido : librairie Python pour le geoparsing et le geocoding de textes en français. (démo)
23ème conférence francophone sur l'Extraction et la Gestion de Connaissances (EGC'2023), Lyon France.
https://github.com/ludovicmoncla/demo-perdido-egc-2023

Brenon A. , Moncla L., McDonough, K. (2022).
Classifying encyclopedia articles: Comparing machine and deep learning methods and exploring their predictions.
Data and Knowledge Engineering, Elsevier.
https://doi.org/10.1016/j.datak.2022.102098

Vigier D. , Moncla L., Monfort, I., McDonough, K. & T. Joliveau (2022).
Les articles de géographie dans le Dictionnaire Universel de Trévoux et l’Encyclopédie de Diderot et d’Alembert.
Revue Langue Française, n° 214 (2022/2).
https://doi.org/10.3917/lf.214.0059

Moncla, L., Chabane, K., & Brenon, A. (2022).
Classification automatique d'articles encyclopédiques.
22ème Conférence francophone sur l'Extraction et la Gestion des Connaissances (EGC). Blois, France (Prix du meilleur article applicatif)
hal-03481219

Brenon, A. & Vigier, D. (2021).
The specificities of encoding encyclopedias: towards a new standard?.
11th International Conference on Historical Lexicography and Lexicology. La Rioja, Spain.
halshs-03266745v1

Moncla, L., Vigier, D., Mcdonough, K., Brenon, A., & Joliveau, T. (2021).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’​Encyclopédie​ de Diderot et d’Alembert (1751-1772).
International Symposium of Theoretical linguistics in the light of the interaction of qualitative and quantitative approaches. Neuchâtel, Switzerland.
halshs-03271672

  • Dans le cadre du projet précédent GéoDISCO (2019-2020)
Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau, T. (2020).
Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772).
7e Congrès Mondial de Linguistique Française (CMLF). Montpellier, France.
https://doi.org/10.1051/shsconf/20207811008

Vigier, D., Moncla, L., Joliveau, T., Mcdonough, K., & Brenon, A. (2019).
GeoDISCO: Encyclopedic Geographical Discourse in France from the Enlightenment to Wikipedia.
13th International Workshop on Geographic Information Retrieval (GIR’19). Lyon, France.
hal-02474835

Moncla, L., McDonough, K., Vigier, D., Joliveau, T., & Brenon, A. (2019).
Toponym disambiguation in historical documents using network analysis of qualitative relationships.
Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Geospatial Humanities, 1–4. Chicago, IL, USA.
https://doi.org/10.1145/3356991.3365471

McDonough, K., Moncla, L., & van de Camp, M. (2019).
Named entity recognition goes to old regime France: geographic text analysis for early modern French corpora.
International Journal of Geographical Information Science, 33, 2498–2522.
https://doi.org/10.1080/13658816.2019.1620235



Communications orales


Brenon, A., Vigier, D., Moncla, L. and Laforest, F. (4 juillet 2023).
Comparaison diachronique de motifs récurrents dans deux encyclopédies.
11ème Journées Internationales de la Linguistique de Corpus. Grenoble, France.
hal-04146494

Moncla, L. (16 mars 2023).
Vers une cartographie de l’Encyclopédie de Diderot et d’Alembert.
Journée d'étude : La littérature au prisme des humanités numériques. ObTIC, Sorbonne Université, Paris, France.

McDonough, K. and Moncla, L. (2 novembre 2022).
Maps as Text and Text as Maps..
Talk and tutorial at the University of Washington, Seattle, WA, USA.

Joliveau, T. (15 mars 2022).
Inventaire, localisation et cartographie des lieux cités dans l'Encyclopédie de Diderot et d'Alembert..
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Vigier, D. et Moncla, L. (14 février 2022).
Classification d’articles encyclopédiques et reconnaissance d’entités nommées : Application à l’Encyclopédie de Diderot et d’Alembert.
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Vigier, D., Moncla, L., Lefort, I., McDonough, K., Joliveau, T. (24 janvier 2022).
Les articles de géographie traitant de la France dans le Dictionnaire Universel de Trevoux (1704-1771) et l'Encyclopédie de Diderot et d'Alembert (1751-1772).
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Moncla, L., Vigier, D. (17 janvier 2022).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’"Encyclopédie" de Diderot et d’Alembert (1751-1772).
Séminaire de l'équipe "Sciences du texte", laboratoire ICAR, Lyon.

Vigier, D., Moncla, L., Mcdonough, K., Joliveau, T. Lefort, I. (15 juin 2021).
Workshop Données et discours géographiques en France au 18e siècle. UChicago Center, Paris.



Ressources





Actualités

Offre de stage M2 Informatique

Classification automatique des domaines de connaissance d'entrées lexicographiques
Ce stage s'inscrit dans un projet interdisciplinaire dont l’objectif consiste à conduire des études exploratoires en traitement automatique de données lexicographiques extraites du Dictionnaire Universel François-Latin de Trévoux (DUFLT). Dans ce contexte, le travail de stage s'intéressera à l'expérimentation de méthodes d'apprentissage automatique pour l'entraînement de modèles de classification afin... [Read More]
Tags: recrutement

Offre de stage M1 Géomatique

Stage en Géomatique et Humanités Numériques
Le projet GEODE financé par le Labex ASLAN rassemble linguistes, informaticiens, historiens, géographes et géomaticiens et a pour objectif d’étudier le discours géographique et ses évolutions dans quatre encyclopédies françaises parues entre 1750 et nos jours en couplant différentes méthodes : classification semi-supervisée des textes, génération de modèles de langues,... [Read More]
Tags: recrutement

Offre de stage M2 Informatique

Graph Neural Network pour l'annotation automatique d'entités nommées imbriquées
Ce stage s’inscrit dans les objectifs du projet interdisciplinaire GEODE ayant comme thème principal une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne sur le volet informatique et a pour but la conception de méthodes innovantes et automatiques d’extraction d’information à partir d’articles encyclopédiques.... [Read More]
Tags: recrutement