Projet GEODE


Siteweb du projet GEODE

Projet GEODE

Siteweb du projet GEODE

Le projet interdisciplinaire GEODE (2020-2024) financé par le LabEX ASLAN réunit des chercheurs en linguistique, informatique et géographie des laboratoires ICAR, LIRIS et EVS. Ce projet fait suite au projet GéoDISCO (2019-2020) financé par la MSH Lyon St-Etienne. Notre objectif est d’étudier dans un corpus de quatre encyclopédies françaises les changements survenus dans les discours géographiques entre 1750 et nos jours. Pour cela, nous nous aiderons des méthodes de classification semi-supervisée des textes, de génération de modèles de langues et de repérage automatique de routines discursives.

Contexte de l’étude

GEODE est une collaboration interdisciplinaire où les méthodes de linguistique de corpus, d'informatique, de science de l'information géographique et d'histoire des idées convergent autour d'un objectif scientifique déjà partagé par les laboratoires ICAR et LIRIS : les discours géographiques dans les encyclopédies françaises. Qu’il s’agisse de l’Encyclopédie de Diderot, d’Alembert et Jaucourt au XVIIIe s. (1751-1772), de La Grande Encyclopédie au XIX e s. (1886-1902), de l’Encyclopædia Universalis ou de Wikipédia au XXI e s., chacune de ces vastes entreprises intellectuelles et éditoriales a cherché à présenter à ses lecteurs une synthèse des savoirs de son temps, parmi lesquels les savoirs géographiques. C’est à ces derniers que nous nous intéressons.



Cadre Théorique

Dans GEODE, nous assignons au « discours géographique » deux acceptions. La première vise la structure intraphrastique topic-comment impliquant une relation d’aboutness (Reinhart 1982, Lambrecht 1994, Berthoud 1996). Il s’agit pour nous de construire, en nous fondant sur une approche statistique, une représentation sémantique des propos tenus dans les articles à propos d’entités spatiales évoquées (villes, rivières, montagnes, ...). Pour la seconde acception, de niveau discursif, nous faisons l’hypothèse qu’entre le XVIIIe s. et aujourd’hui s’est mise en place une norme discursive encadrant l’énonciation des informations géographiques, en lien avec le processus d’institutionnalisation de cette discipline (Péaud 2016, Laboulais 2001). Notre objectif est de cerner l’émergence des structures linguistiques caractéristiques de cette norme.


Méthode

Tout d’abord, nous nous concentrerons sur la préparation des corpus (homogénéisation des formats, corrections, annotations) afin que le contenu de chaque encyclopédie puisse être traité automatiquement. Ensuite, notre proposition consistera à développer des algorithmes adaptés pour l'analyse automatique et la recherche d’information géo- sémantiques. Nous nous intéressons en particulier au développement de modèles linguistiques adaptés à l'analyse diachronique du discours géographique dans un corpus de documents textuels publiés entre le XVIIIe et le XXIe siècle. Notre méthodologie est basée sur le développement d'une chaîne de traitement composée de différentes tâches qui nécessitent des ressources spécifiques (documents annotés, modèles linguistiques, ressources géographiques, etc.).


L'équipe






Publications


Brenon A. (2024).
Encoding the Specificities of Encyclopedias.
Structuring Lexical Data and Digitising Dictionaries: Grammatical Theory, Language Processing and Databases in Historical Linguistics, 36.
https://doi.org/10.1163/9789004702660_004

Moncla L., Vigier D. and McDonough K. (2024).
GeoEDdA: A Gold Standard Dataset for Geo- semantic Annotation of Diderot & d’Alembert’s Encyclopédie.
In proceedings of the Second International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04511909

Moncla L., Gaio, M. (2023).
Perdido: Python library for geoparsing and geocoding French texts.
In proceedings of the First International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04049794

Moncla L., Gaio, M. (2023).
Perdido : librairie Python pour le geoparsing et le geocoding de textes en français. (démo)
23ème conférence francophone sur l'Extraction et la Gestion de Connaissances (EGC'2023), Lyon France.
https://github.com/ludovicmoncla/demo-perdido-egc-2023

Brenon A. , Moncla L., McDonough, K. (2022).
Classifying encyclopedia articles: Comparing machine and deep learning methods and exploring their predictions.
Data and Knowledge Engineering, Elsevier.
https://doi.org/10.1016/j.datak.2022.102098

Vigier (D.) (éd.) (2022).
L’esprit encyclopédique moderne en France entre 1690 et 1902.
Revue Langue Française, n° 214, 124 p.
https://doi.org/10.3917/lf.214.0059

Vigier D. , Moncla L., Monfort, I., McDonough, K. & T. Joliveau (2022).
Les articles de géographie dans le Dictionnaire Universel de Trévoux et l’Encyclopédie de Diderot et d’Alembert.
Revue Langue Française, n° 214 (2022/2).
https://doi.org/10.3917/lf.214.0059

Moncla, L., Chabane, K., & Brenon, A. (2022).
Classification automatique d'articles encyclopédiques.
22ème Conférence francophone sur l'Extraction et la Gestion des Connaissances (EGC). Blois, France (Prix du meilleur article applicatif)
hal-03481219

Brenon, A. & Vigier, D. (2021).
The specificities of encoding encyclopedias: towards a new standard?.
11th International Conference on Historical Lexicography and Lexicology. La Rioja, Spain.
halshs-03266745v1

Moncla, L., Vigier, D., Mcdonough, K., Brenon, A., & Joliveau, T. (2021).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’​Encyclopédie​ de Diderot et d’Alembert (1751-1772).
International Symposium of Theoretical linguistics in the light of the interaction of qualitative and quantitative approaches. Neuchâtel, Switzerland.
halshs-03271672

  • Dans le cadre du projet précédent GéoDISCO (2019-2020)
Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau, T. (2020).
Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772).
7e Congrès Mondial de Linguistique Française (CMLF). Montpellier, France.
https://doi.org/10.1051/shsconf/20207811008

Vigier, D., Moncla, L., Joliveau, T., Mcdonough, K., & Brenon, A. (2019).
GeoDISCO: Encyclopedic Geographical Discourse in France from the Enlightenment to Wikipedia.
13th International Workshop on Geographic Information Retrieval (GIR’19). Lyon, France.
hal-02474835

Moncla, L., McDonough, K., Vigier, D., Joliveau, T., & Brenon, A. (2019).
Toponym disambiguation in historical documents using network analysis of qualitative relationships.
Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Geospatial Humanities, 1–4. Chicago, IL, USA.
https://doi.org/10.1145/3356991.3365471

McDonough, K., Moncla, L., & van de Camp, M. (2019).
Named entity recognition goes to old regime France: geographic text analysis for early modern French corpora.
International Journal of Geographical Information Science, 33, 2498–2522.
https://doi.org/10.1080/13658816.2019.1620235



Communications orales


Zeghidi, H. and Moncla, L. (26 novembre 2024).
Évaluation des Grands Modèles de Langage pour la Reconnaissance d'Entités Nommées
L'impact des larges modèles de langue et des agents conversationels sur les études du texte Aubervilliers, France.

Zeghidi, H. and Moncla, L. (14 novembre 2024).
Evaluating Named Entity Recognition Using Few-Shot Prompting with Large Language Models
A Conversation between AI and the Humanities Lyon, France.
[Slides]

Vigier, D. (12 novembre 2024).
Un programme de recherche en lexicographie historique et computationnelle
Journée IA, MSH-LSE Lyon, France (invited talk).

Brenon, A. (7 novembre 2024).
D'une encyclopédie à l'autre: le corpus «parallèle» du projet GEODE
La constitution de corpus en diachronie longue, entre tradition philologique et analyse quantitative (ConCorDiaL) Lyon, France.

Moncla, L. (10 septembre 2024).
From BERT Fine-tuning to LLM Prompting: Geospatial Named Entity Recognition in Historical French Texts
First workshop of the PHC GeoLiaison project Paris, France (invited talk).
[Slides]

Joliveau, T., Moncla, L., Taroni, A., Vigier, D., and McDonough, K. (5 juillet 2024).
A digital exploration of geographic knowledge in Diderot and d’Alembert’s Encyclopédie.
International Conference on the History of Cartography (ICHC2024) Lyon, France.

Moncla, L., Joliveau, T., Vigier, D. (6 juin 2024).
Propositions pour une étude interdisciplinaire de la géographie dans un dictionnaire universel et une encyclopédie du XVIIIe siècle.
1er colloque du réseau METALEX CY Cergy Paris Université, Neuville-sur-Oise, France.

Vigier, D., Joliveau, T. (27 mai 2024).
Un projet cartographique pour l’Encyclopédie de Diderot, d’Alembert (et Jaucourt)
Rencontre du Pôle HUNIS, Université Lumière Lyon 2, Lyon, France.

Joliveau, T., Moncla, L. et McDonough, K. (10 octobre 2023).
Un projet cartographique pour l’Encyclopédie. Localisation par coordonnées et géovisualisation des articles de l'Encyclopédie de Diderot et d'Alembert.
Séminaire d’histoire des sciences astronomiques Observatoire de Paris, Paris, France.

Brenon, A., Vigier, D., Moncla, L. and Laforest, F. (4 juillet 2023).
Comparaison diachronique de motifs récurrents dans deux encyclopédies.
11ème Journées Internationales de la Linguistique de Corpus. Grenoble, France.
[hal-04146494]

Moncla, L. (16 mars 2023).
Vers une cartographie de l’Encyclopédie de Diderot et d’Alembert.
Journée d'étude : La littérature au prisme des humanités numériques. ObTIC, Sorbonne Université, Paris, France.

McDonough, K. and Moncla, L. (2 novembre 2022).
Maps as Text and Text as Maps..
Talk and tutorial at the University of Washington, Seattle, WA, USA.

Joliveau, T. (15 mars 2022).
Inventaire, localisation et cartographie des lieux cités dans l'Encyclopédie de Diderot et d'Alembert..
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Vigier, D. et Moncla, L. (14 février 2022).
Classification d’articles encyclopédiques et reconnaissance d’entités nommées : Application à l’Encyclopédie de Diderot et d’Alembert.
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Vigier, D., Moncla, L., Lefort, I., McDonough, K., Joliveau, T. (24 janvier 2022).
Les articles de géographie traitant de la France dans le Dictionnaire Universel de Trevoux (1704-1771) et l'Encyclopédie de Diderot et d'Alembert (1751-1772).
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.

Moncla, L., Vigier, D. (17 janvier 2022).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’"Encyclopédie" de Diderot et d’Alembert (1751-1772).
Séminaire de l'équipe "Sciences du texte", laboratoire ICAR, Lyon.

Vigier, D., Moncla, L., Mcdonough, K., Joliveau, T. Lefort, I. (15 juin 2021).
Workshop Données et discours géographiques en France au 18e siècle. UChicago Center, Paris.



Ressources





Actualités

Offre de stage M2 Informatique

Classification automatique des domaines de connaissance d'entrées lexicographiques
Ce stage s'inscrit dans un projet interdisciplinaire dont l’objectif consiste à conduire des études exploratoires en traitement automatique de données lexicographiques extraites du Dictionnaire Universel François-Latin de Trévoux (DUFLT). Dans ce contexte, le travail de stage s'intéressera à l'expérimentation de méthodes d'apprentissage automatique pour l'entraînement de modèles de classification afin... [Read More]
Tags: recrutement

Offre de stage M1 Géomatique

Stage en Géomatique et Humanités Numériques
Le projet GEODE financé par le Labex ASLAN rassemble linguistes, informaticiens, historiens, géographes et géomaticiens et a pour objectif d’étudier le discours géographique et ses évolutions dans quatre encyclopédies françaises parues entre 1750 et nos jours en couplant différentes méthodes : classification semi-supervisée des textes, génération de modèles de langues,... [Read More]
Tags: recrutement