Dans notre projet, nous avons décidé d'extraire, à partir des flux RSS, les entités nommées qui appartiennent aux catégories "Personnes" et "Lieux". Plus précisémment, nous avons extrait tous les noms propres et les noms des pays se trouvant dans notre corpus afin d'établir par la suite des relations entre ces noms. Le domaine des entités nommées étant relativement complexe, nous avons décidé d'en faire ci-dessous une brève présentation.
La notion des entités nommées a été introduite dans la sixième conférence MUC1,2. Mais comment définit-on les entités nommées ? Et, par la suite, quelle formule doit-on choisir pour leur catégorisation ? Existe-il une annotation globale ?
Selon Thierry Poibeau3, les entités nommées sont des séquences, notamment des noms propres, considérés comme des éléments essentiels pour une prise de connaissance rapide du contenu d'un document. A cette notion, Eric Gaussier et François Yvon4 ajoutent que ces mots, ou encore groupes de mots, sont généralement absents des dictionnaires usuels et ils identifient soit des noms propres (comme des personnes, des lieux ou des organisations) soit des quantités mesurables (comme des dates et des valeurs numériques ou monétaires).
En ce qui concerne l'annotation des entités nommées, et par conséquent leur reconnaissance, nous nous sommes aperçues, en cherchant dans la littérature, qu'une annotation dite "globale" de ces entités n'existe pas. Il en ressort que les entités nommées ne se limitent pas à une catégorisation ou à une mention, et que chaque décision prise à leur sujet doit faire l'objet d'une démarche de réflexion préalable5.
Ce qu'il faut retenir, finalement, c'est que les entités nommées sont des unités linguistiques au sein de réalisations informatiques et démontrent bien le lien existant entre la linguistique, l'informatique et le TAL. Leur absence de définition les apparente en outre bien plus à l'objet d'expérimentation d'un ingénieur qu'à l'objet d'étude d'un théoricien, ce qui explique les difficultés qui se présentent lors de leur reconnaissance à l'aide d'outils informatiques5.
Bibliographie :
[1] Sekine, S., Elisabete Ranchhod, E. (2009). Named Entities: Recognition, classification and use. Amsterdam : John Benjamins Publishing.
[2] Friburger, N. (2006). Linguistique et reconnaissance automatique des noms propres. Meta. Volume 51, Numéro 4, décembre, 2006, pp. 637–650.
[3] Poibeau, T. (2001). Traitement automatique du contenu textuel. Paris : Lavoisier.
[4] Gaussier, E., Yvon, F. (2011). Modèles statistiques pour l'accès à l'information textuelle. Paris : Lavoisier.
[5] Nouvel, D., Ehrmann, M., Rosset, S. (2015). Les entités nommées pour le traitement automatique des langues. ISTE Editions.