Ce stage s’inscrit dans le cadre d’une collaboration interdisciplinaire (informatique, linguistique et géographie) ayant comme objet principale une étude diachronique des discours géographiques au sein des encyclopédies. Ce projet exploratoire se positionne en amont du travail qui sera mené dans le projet GEODE et nécessite une activité à l’interface de plusieurs disciplines (intelligence artificielle, informatique, et linguistique) pour élaborer des méthodes innovantes, rapides et fiables de classification de textes et des modes adéquats de représentation et de visualisation de l’information.
Objectifs du stage
Ce stage a pour objectif principal de développer des modèles de classification des articles de différentes encyclopédies (l’Encyclopédie de Diderot et d’Alembert (1751-1772), La Grande Encyclopédie, l’Encyclopædia Universalis et Wikipedia). Une première tâche s’intéressera en particulier à la sous-classification des articles de géographie (articles décrivant des lieux : ville, rivière, pays, etc.). Une deuxième tâche sera consacrée à l’expérimentation et la génération de modèles de langue (word embeddings) permettant une représentation informatique des articles pour réaliser une analyse et une comparaison des différents corpus. L’utilisation de méthodes d’apprentissage supervisé ou d’apprentissage profond (telles que SVM, Random Forest, SGD, LSTM, ...) sera privilégiée et nécessitera de réaliser un travail important pour la préparation des données afin de constituer les jeux d’entrainement et de validation.
Des compétences sont attendues en programmation et en science des données (Data Mining et Machine Learning). Des connaissances en traitement automatique de la langue (TAL) seront appréciées.
Profil recherché : Master 2 Informatique Lieu du stage : Laboratoire LIRIS – INSA Lyon, Bâtiment Blaise Pascal, Campus La Doua, Villeurbanne. Période de stage : 5 à 6 mois entre février et juillet 2021
Encadrants
Ludovic Moncla, Maître de conférences en Informatique (Laboratoire LIRIS, INSA Lyon) Denis Vigier, Maître de conférences HDR en Langue et Linguistique Françaises (Laboratoire ICAR, Université Lumière Lyon 2)
Références
- Horton, R., Morrissey, R., Olsen, M., Roe, G., & Voyer, R. (2009) Mining Eighteenth Century Ontologies: Machine Learning and Knowledge Classification in the Encyclopédie, Digital Humanities Quarterly, Volume 3 Number 2.
- Roe, G., Gladstone, C. & Morrissey, R. (2016), Discourses and Disciplines in the Enlightenment: Topic Modeling the French Encyclopédie. Frontiers in Digital Humanities 2.
- Vigier, D., Moncla, L., Brenon, A., Mcdonough, K., & Joliveau, T. (2020) Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772). 7e Congrès Mondial de Linguistique Française (CMLF), Montpellier, France.