News

PhD Defense Mouna Elashter

Dates

on the July 4, 2017

14h00

Location

à préciser (Tours)

Gestion et extension automatiques du dictionnaire relationnel multilingues de noms propres Prolexbase - Mise à jour multilingues et création d'un volume arable via la Wikipedia

Les bases de données lexicales jouent un rôle important dans plusieurs domaines du traitement automatique des langues (TAL), comme l’extraction d'information, la reconnaissance d’entités nommées et la traduction automatique des noms propres. Toutefois, elles nécessitent un développement et un enrichissement permanents via l’exploitation des ressources libres et riches en textes du web sémantique, entre autres, l’encyclopédie universelle Wikipédia, DBpedia (Auer et al., 2007), Geonames et Yago2 (Hoffart et al., 2012).
Le dictionnaire électronique relationnel multilingue de noms propres, Prolexbase, issu de nombreux travaux de recherche sur le TAL, comporte à ce jour dix langues, parmi lesquelles trois sont bien couvertes : le français, l’anglais et le polonais. Il a été conçu manuellement et une première tentative semi-automatique a été réalisée par le projet ProlexFeeder (Savary et al. 2013).
Notre travail avait pour objectif d’élaborer un outil de mise à jour et d’extension automatiques de ce lexique, et l'ajout de la langue arabe. Tout d’abord, une mise à jour multilingue de la base de données a été effectuée grâce à l’établissement d’un système automatique de consolidation des liens Wikipédia dans Prolexbase en nous servant du concept interlangue de Wikipédia. En conséquence, un nombre considérable de nouveaux liens Wikipédia a été ajouté dans toutes les langues constituant la base de données, et cet ajout a été précédé, le cas échéant, d’un traitement des redirections.
Un système entièrement automatique a également été mis en place qui permet de calculer, via l'encyclopédie Wikipédia, un indice de notoriété pour les entrées de Prolexbase ; cet indice dépend de la langue et participe, d'une part, à la construction d'un module de Prolexbase pour la langue arabe et, d'autre part, à la révision de la notoriété actuellement présente pour les autres langues de la base. Pour calculer la notoriété, une technique multicritères de l’aide à la décision a été utilisée : la méthode SAW incluant le calcul de l’entropie de Shannon, à partir de cinq valeurs numériques déduites de l'encyclopédie Wikipédia.
Finalement, l’utilisation des liens Wikipédia a été l’instrument fondamental pour la création d’un volume arabe dans Prolexbase par un processus d’extraction de noms propres arabes depuis leurs liens Wikipédia obtenus précédemment.

PhD Defense Mouna Elashter

Learn more