Ce stage s’inscrit dans les objectifs du projet interdisciplinaire GEODE ayant comme thème principal une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne sur le volet informatique et a pour but la conception de méthodes innovantes et automatiques d’extraction d’information à partir d’articles encyclopédiques.

ASLAN INSA LIRIS ICAR

Objectifs du stage

Ce stage a pour objectif principal la conception d’une méthode d’annotation automatique d’entités nommées imbriquées. L’imbrication d’entités nommées présente un défi en TAL pour la tâche de Reconnaissance d’Entités Nommées (NER) et se rapproche de la tâche d’analyse syntaxique. Dans ce contexte, les entités nommées peuvent être considérées comme des arbres et non plus comme des séquences d’étiquettes. Conserver l’information de chaque entité imbriquée et englobante nous permet de considérer différents niveaux d’analyse. En effet, en fonction de la tâche considérée, chaque entité peut avoir son importance et fournir des informations cruciales (permettant par exemple d’améliorer la classification des entités identifiées). Dans le cas des entités de lieux, l’imbrication permet également de mettre en évidence certaines relations spatiales (topologique notamment) entre les différentes entités (ex : [[ville du [comté de [Rouergue]]] en [France]]).

Dans ce travail, nous nous intéresserons en particulier à l’implémentation et l’expérimentation de méthodes de Deep Learning telles que les GNN (Graph Neural Network) pour s’adapter au mieux à la structure hiérarchique des entités imbriquées et ainsi obtenir de meilleurs résultats pour les tâches d’identification et de classification. Les expérimentations (entraînement et évaluation) seront menées sur un échantillon d’articles de l’Encyclopédie de Diderot et d’Alembert (1751-1772) pour lesquels les entités nommées imbriquées ont été annotées manuellement. On s’intéressera également à comparer les résultats obtenus avec d’autres outils de NER telles que des approches de Machine Learning (ex : CRF, LSTM) ou d’approches à base de règles (ex : PERDIDO).

Des compétences sont attendues en programmation et en science des données (Machine Learning et Deep Learning). Des connaissances en traitement automatique de la langue (TAL) seront appréciées.

Profil recherché : Master 2 Informatique Lieu du stage : Laboratoire LIRIS – INSA Lyon, Campus La Doua, Villeurbanne. Période de stage : 5 à 6 mois entre février et juillet 2022

Encadrants

Ludovic Moncla, Maître de conférences en Informatique (Laboratoire LIRIS, INSA Lyon) Alice Brenon​, Doctorante en Informatique (Laboratoire LIRIS, INSA Lyon et Laboratoire ICAR)

Références

  • Carbonell, M., Riba, P., Villegas, M., Fornés, A. and Lladós, J. Named Entity Recognition and Relation Extraction with Graph Neural Networks in Semi Structured Documents. * 25th International Conference on Pattern Recognition (ICPR)*, 2021, pp. 9622-9627
  • Finkel, J.-R., and Manning, C. 2009. Nested named entity recognition. In Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP ‘09). Association for Computational Linguistics, USA. pp.141–150.
  • Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau, T. (2020) Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772). 7e Congrès Mondial de Linguistique Française (CMLF), Montpellier, France.
  • Wang, B., Lu, W., Wang, Y., Jin, H. A Neural Transition-based Model for Nested Mention Recognition. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2018. Brussels, Belgium. pp.1011–1017.
  • Xia, C., Zhang, C., Yang, T., Li, Y., Du, N,. Wu, X., Fan, W., Ma, F., Yu, P. Multi-grained Named Entity Recognition. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, Florence, Italy. pp.1430– 1440.