Ce stage s’inscrit dans les objectifs du projet interdisciplinaire GEODE ayant comme thème principal une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne sur le volet informatique et a pour but la conception de méthodes innovantes et automatiques d’extraction d’information à partir d’articles encyclopédiques....
[Read More]
Projet GEODE
Siteweb du projet GEODE
Le projet interdisciplinaire GEODE (2020-2024) financé par le LabEX ASLAN réunit des chercheurs en linguistique, informatique et géographie des laboratoires ICAR, LIRIS et EVS. Ce projet fait suite au projet GéoDISCO (2019-2020) financé par la MSH Lyon St-Etienne. Notre objectif est d’étudier dans un corpus de quatre encyclopédies françaises les changements survenus dans les discours géographiques entre 1750 et nos jours. Pour cela, nous nous aiderons des méthodes de classification semi-supervisée des textes, de génération de modèles de langues et de repérage automatique de routines discursives.
Contexte de l’étude
GEODE est une collaboration interdisciplinaire où les méthodes de linguistique de corpus, d'informatique, de science de l'information géographique et d'histoire des idées convergent autour d'un objectif scientifique déjà partagé par les laboratoires ICAR et LIRIS : les discours géographiques dans les encyclopédies françaises. Qu’il s’agisse de l’Encyclopédie de Diderot, d’Alembert et Jaucourt au XVIIIe s. (1751-1772), de La Grande Encyclopédie au XIX e s. (1886-1902), de l’Encyclopædia Universalis ou de Wikipédia au XXI e s., chacune de ces vastes entreprises intellectuelles et éditoriales a cherché à présenter à ses lecteurs une synthèse des savoirs de son temps, parmi lesquels les savoirs géographiques. C’est à ces derniers que nous nous intéressons.Cadre Théorique
Dans GEODE, nous assignons au « discours géographique » deux acceptions. La première vise la structure intraphrastique topic-comment impliquant une relation d’aboutness (Reinhart 1982, Lambrecht 1994, Berthoud 1996). Il s’agit pour nous de construire, en nous fondant sur une approche statistique, une représentation sémantique des propos tenus dans les articles à propos d’entités spatiales évoquées (villes, rivières, montagnes, ...). Pour la seconde acception, de niveau discursif, nous faisons l’hypothèse qu’entre le XVIIIe s. et aujourd’hui s’est mise en place une norme discursive encadrant l’énonciation des informations géographiques, en lien avec le processus d’institutionnalisation de cette discipline (Péaud 2016, Laboulais 2001). Notre objectif est de cerner l’émergence des structures linguistiques caractéristiques de cette norme.Méthode
Tout d’abord, nous nous concentrerons sur la préparation des corpus (homogénéisation des formats, corrections, annotations) afin que le contenu de chaque encyclopédie puisse être traité automatiquement. Ensuite, notre proposition consistera à développer des algorithmes adaptés pour l'analyse automatique et la recherche d’information géo- sémantiques. Nous nous intéressons en particulier au développement de modèles linguistiques adaptés à l'analyse diachronique du discours géographique dans un corpus de documents textuels publiés entre le XVIIIe et le XXIe siècle. Notre méthodologie est basée sur le développement d'une chaîne de traitement composée de différentes tâches qui nécessitent des ressources spécifiques (documents annotés, modèles linguistiques, ressources géographiques, etc.).L'équipe
- Denis Vigier, Université Lyon 2, ICAR UMR 5191 - coordinateur scientifique
- Ludovic Moncla, INSA Lyon, LIRIS UMR 5205 - coordinateur scientifique
- Thierry Joliveau, Université de Saint-Etienne EVS UMR 5600
- Katherine McDonough, The Alan Turing Institute, London UK
- Benoît Crabbé, Université Paris Diderot, LLF UMR 7110
- Achille Falaise, CNRS, LLF UMR 7110
- Olivier Kraif, Univeristé Grenoble Alpes, LIDILEM
- Frédérique Laforest, INSA Lyon, LIRIS UMR 5205
- Alice Brenon (Doctorante), INSA Lyon, LIRIS UMR 5205
- Antoine Taroni (Ingénieur d'étude), CNRS, LIRIS UMR 5205
- Khaled Chabane (stagiaire), LIRIS UMR 5205
- Tiphaine Bourgeois (stagiaire), LIRIS UMR 5205
- Matheus Saraiva (stagiaire), EVS UMR 5600
- Hedi Zeghidi (stagiaire), LIRIS UMR 5205
Publications
Brenon A. (2024).
Encoding the Specificities of Encyclopedias.
Structuring Lexical Data and Digitising Dictionaries: Grammatical Theory, Language Processing and Databases in Historical Linguistics, 36.
https://doi.org/10.1163/9789004702660_004
Moncla L., Vigier D. and McDonough K. (2024).
GeoEDdA: A Gold Standard Dataset for Geo- semantic Annotation of Diderot & d’Alembert’s Encyclopédie.
In proceedings of the Second International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04511909
Moncla L., Gaio, M. (2023).
Perdido: Python library for geoparsing and geocoding French texts.
In proceedings of the First International Workshop on Geographic Information Extraction from Texts (GeoExT'23), ECIR Conference, Dublin, Ireland.
hal-04049794
Moncla L., Gaio, M. (2023).
Perdido : librairie Python pour le geoparsing et le geocoding de textes en français. (démo)
23ème conférence francophone sur l'Extraction et la Gestion de Connaissances (EGC'2023), Lyon France.
https://github.com/ludovicmoncla/demo-perdido-egc-2023
Brenon A. , Moncla L., McDonough, K. (2022).
Classifying encyclopedia articles: Comparing machine and deep learning methods and exploring their predictions.
Data and Knowledge Engineering, Elsevier.
https://doi.org/10.1016/j.datak.2022.102098
Vigier (D.) (éd.) (2022).
L’esprit encyclopédique moderne en France entre 1690 et 1902.
Revue Langue Française, n° 214, 124 p.
https://doi.org/10.3917/lf.214.0059
Vigier D. , Moncla L., Monfort, I., McDonough, K. & T. Joliveau (2022).
Les articles de géographie dans le Dictionnaire Universel de Trévoux et l’Encyclopédie de Diderot et d’Alembert.
Revue Langue Française, n° 214 (2022/2).
https://doi.org/10.3917/lf.214.0059
Moncla, L., Chabane, K., & Brenon, A. (2022).
Classification automatique d'articles encyclopédiques.
22ème Conférence francophone sur l'Extraction et la Gestion des Connaissances (EGC). Blois, France (Prix du meilleur article applicatif)
hal-03481219
Brenon, A. & Vigier, D. (2021).
The specificities of encoding encyclopedias: towards a new standard?.
11th International Conference on Historical Lexicography and Lexicology. La Rioja, Spain.
halshs-03266745v1
Moncla, L., Vigier, D., Mcdonough, K., Brenon, A., & Joliveau, T. (2021).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’Encyclopédie de Diderot et d’Alembert (1751-1772).
International Symposium of Theoretical linguistics in the light of the interaction of qualitative and quantitative approaches. Neuchâtel, Switzerland.
halshs-03271672
- Dans le cadre du projet précédent GéoDISCO (2019-2020)
Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772).
7e Congrès Mondial de Linguistique Française (CMLF). Montpellier, France.
https://doi.org/10.1051/shsconf/20207811008
Vigier, D., Moncla, L., Joliveau, T., Mcdonough, K., & Brenon, A. (2019).
GeoDISCO: Encyclopedic Geographical Discourse in France from the Enlightenment to Wikipedia.
13th International Workshop on Geographic Information Retrieval (GIR’19). Lyon, France.
hal-02474835
Moncla, L., McDonough, K., Vigier, D., Joliveau, T., & Brenon, A. (2019).
Toponym disambiguation in historical documents using network analysis of qualitative relationships.
Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Geospatial Humanities, 1–4. Chicago, IL, USA.
https://doi.org/10.1145/3356991.3365471
McDonough, K., Moncla, L., & van de Camp, M. (2019).
Named entity recognition goes to old regime France: geographic text analysis for early modern French corpora.
International Journal of Geographical Information Science, 33, 2498–2522.
https://doi.org/10.1080/13658816.2019.1620235
Communications orales
Zeghidi, H. and Moncla, L. (26 novembre 2024).
Évaluation des Grands Modèles de Langage pour la Reconnaissance d'Entités Nommées
L'impact des larges modèles de langue et des agents conversationels sur les études du texte Aubervilliers, France.
Zeghidi, H. and Moncla, L. (14 novembre 2024).
Evaluating Named Entity Recognition Using Few-Shot Prompting with Large Language Models
A Conversation between AI and the Humanities Lyon, France.
[Slides]
Vigier, D. (12 novembre 2024).
Un programme de recherche en lexicographie historique et computationnelle
Journée IA, MSH-LSE Lyon, France (invited talk).
Brenon, A. (7 novembre 2024).
D'une encyclopédie à l'autre: le corpus «parallèle» du projet GEODE
La constitution de corpus en diachronie longue, entre tradition philologique et analyse quantitative (ConCorDiaL) Lyon, France.
Moncla, L. (10 septembre 2024).
From BERT Fine-tuning to LLM Prompting: Geospatial Named Entity Recognition in Historical French Texts
First workshop of the PHC GeoLiaison project Paris, France (invited talk).
[Slides]
Joliveau, T., Moncla, L., Taroni, A., Vigier, D., and McDonough, K. (5 juillet 2024).
A digital exploration of geographic knowledge in Diderot and d’Alembert’s Encyclopédie.
International Conference on the History of Cartography (ICHC2024) Lyon, France.
Moncla, L., Joliveau, T., Vigier, D. (6 juin 2024).
Propositions pour une étude interdisciplinaire de la géographie dans un dictionnaire universel et une encyclopédie du XVIIIe siècle.
1er colloque du réseau METALEX CY Cergy Paris Université, Neuville-sur-Oise, France.
Vigier, D., Joliveau, T. (27 mai 2024).
Un projet cartographique pour l’Encyclopédie de Diderot, d’Alembert (et Jaucourt)
Rencontre du Pôle HUNIS, Université Lumière Lyon 2, Lyon, France.
Joliveau, T., Moncla, L. et McDonough, K. (10 octobre 2023).
Un projet cartographique pour l’Encyclopédie. Localisation par coordonnées et géovisualisation des articles de l'Encyclopédie de Diderot et d'Alembert.
Séminaire d’histoire des sciences astronomiques Observatoire de Paris, Paris, France.
Brenon, A., Vigier, D., Moncla, L. and Laforest, F. (4 juillet 2023).
Comparaison diachronique de motifs récurrents dans deux encyclopédies.
11ème Journées Internationales de la Linguistique de Corpus. Grenoble, France.
[hal-04146494]
Moncla, L. (16 mars 2023).
Vers une cartographie de l’Encyclopédie de Diderot et d’Alembert.
Journée d'étude : La littérature au prisme des humanités numériques. ObTIC, Sorbonne Université, Paris, France.
McDonough, K. and Moncla, L. (2 novembre 2022).
Maps as Text and Text as Maps..
Talk and tutorial at the University of Washington, Seattle, WA, USA.
Joliveau, T. (15 mars 2022).
Inventaire, localisation et cartographie des lieux cités dans l'Encyclopédie de Diderot et d'Alembert..
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.
Vigier, D. et Moncla, L. (14 février 2022).
Classification d’articles encyclopédiques et reconnaissance d’entités nommées : Application à l’Encyclopédie de Diderot et d’Alembert.
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.
Vigier, D., Moncla, L., Lefort, I., McDonough, K., Joliveau, T. (24 janvier 2022).
Les articles de géographie traitant de la France dans le Dictionnaire Universel de Trevoux (1704-1771) et l'Encyclopédie de Diderot et d'Alembert (1751-1772).
Séminaire IXXI Traitement de données complexes en Géographie. ENS Lyon, Lyon.
Moncla, L., Vigier, D. (17 janvier 2022).
Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’"Encyclopédie" de Diderot et d’Alembert (1751-1772).
Séminaire de l'équipe "Sciences du texte", laboratoire ICAR, Lyon.
Vigier, D., Moncla, L., Mcdonough, K., Joliveau, T. Lefort, I. (15 juin 2021).
Workshop Données et discours géographiques en France au 18e siècle. UChicago Center, Paris.
Ressources
-
Classification automatique des articles de l'EDdA :
- Code source : Gitlab LIRIS
- Modèle BERT : HuggingFace
-
Modèles et jeu de données pour l'annotation géo-sémantique :
- Code source : Github
- Jeu de données : HuggingFace, Zenodo
- Custom spaCy spancat model : HuggingFace
- Geoparsing de documents historiques en français avec PERDIDO Geoparser : Jupyter notebook
-
Execution de cascades de transducteurs
Unitex/GramLab en Python : code source - Perdido : librairie Python pour le geoparsing et le geocoding de textes en français : Session démonstration EGC 2023
-
Tutoriel - CNRS
ANF TDM 2022 Python Geoparsing. Jupyter notebook - SunoikisisDC Summer 2022 Course on Natural Language Processing (NLP) for historical texts (Session 9)
Actualités
Workshop at UChicago Center in Paris
Données et discours géographiques en France au 18e siècle
Le discours géographique fait partie à la fois de la langue scientifique développée depuis le début du 17e siècle mais on le trouve également dans les textes politiques (discours révolutionnaires), culturels (encyclopédies) ou encore dans le discours littéraire (romans). Nous discuterons en particulier de la place centrale qu’il occupe dans...
[Read More]
Offre de stage M2 Informatique
Machine Learning et Word embeddings pour la classification et l’analyse d’articles encyclopédiques
Ce stage s’inscrit dans le cadre d’une collaboration interdisciplinaire (informatique, linguistique et géographie) ayant comme objet principale une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne en amont du travail qui sera mené dans le projet GEODE et nécessite une activité à l’interface de...
[Read More]
Offre de thèse en informatique
TAL et Humanités Numériques
Ce projet de thèse s’inscrit dans le cadre du projet GEODE (“Encyclopedic GEOgraphical DiscoursE: Writing about Geography in France from the Enlightenment to the Age of Wikipedia”) financé par le LabEx ASLAN sur la période 2020-2024.
[Read More]
Géoparsing appliqués à l’Encyclopédie
Démo atelier Humanités Numériques Spatialisées
Nous avons fait une démo sur le thème “Reconnaissance d’entités nommées et géoparsing appliqués à l’Encyclopédie” à l’atelier Humanités Numériques Spatialisées lors des Assises du GdR CNRS MAGIS.
[Read More]