On appelle corpus multilingues des corpus électroniques constitués
de groupes de textes, généralement des textes source et leurs
traductions (effectuées manuellement). L’alignement
de corpus signifie la mise en correspondance de ces textes multilingues,
c’est-à-dire un stockage conjoint des textes originaux avec leurs
traductions existantes, utilisés parmi d'autres à des fins d’automatisation
de certaines étapes de la traduction ou d’enrichissement de lexiques.
L’alignement s’appuie sur le repérage d’un certain
nombre d’éléments d’un type défini (chapitres,
paragraphes, phrases, syntagmes, mots ou morphèmes) et la création
de liens entre ces éléments dans le texte original et leur traduction
dans les autres versions.
Parmi ces éléments venant à l'assistance de l'alignement
de textes, on parlera dans cet article de la dite entité nommée, "séquence
lexicale faisant référence à une entité du monde
concret" comme définie par Thierry Poibeau. La préparation à l'alignement
consiste à mettre en rapport ces entités nommées (par
exemple les dates, les noms de lieu, les noms de personne ou d'organisme) reconnues
dans les différentes traductions du même texte-source. Les entités
nommées repérées servent par la suite comme points d’ "ancrage" sur
lesquels s’appuient des méthodes statistiques d’alignement
au niveau des phrases, des paragraphes…
UNITEX est un logiciel utilisé, parmi
d'autres, pour la reconnaissance des "entités nommées".
UNITEX reconnaît des entités linguistiques en usant d'un ensemble
de schémas traitant de phénomènes linguistiques isolés, à l'aide
de repères grammaticaux, morphosyntaxiques et lexicaux. Les repères
lexicaux peuvent être des amorces telles que "le ministre",
pour la reconnaissance d'un nom de personne, ou "le mont", pour la
reconnaissance d'un nom de lieu. Un schéma simple de reconnaissance
d'un nom de personne est par exemple "Monsieur ou
Madame, suivi d'un mot commençant par une majuscule, puis éventuellement suivi par un
deuxième mot commençant par une majuscule". Des entités
nommées susceptibles d'être reconnues par ce schéma sont "Monsieur
Zola", "Monsieur Emile Zola", "Madame
Marie", "Madame
Marie Curie"... L'utilisateur définit manuellement ce type de schémas
(appelés "graphes"), à l'aide d'UNITEX, puis les projète
sur le texte pour extraire les informations qui intéressent son étude.
L'extraction est assistée par un ensemble de dictionnaires de noms
propres ou de syntagmes nominaux, souvent comportant des informations grammaticales,
sémantiques et flexionnelles. Un tel dictionnaire est intégré au
logiciel, mais l'utilisateur peut également définir, en fonction
de son texte et de son domaine de travail, des dictionnaires isolés,
par exemple pour les noms de mois et de jour, les noms de famille et prénoms,
les noms géographiques, les noms des personnages s'il s'agit d'un roman...
Chaque langue pose des problèmes spécifiques au répérage
des entités nommées, dépendant de ses particularités,
qu'elles soient grammaticales, syntaxiques, orthographiques, lexicales ou autres.
Références:
-Thierry Poibeau, Extraction
automatique d'information: Du texte brut au web sémantique, 2003, éd. Lavoisier.
-Logiciel UNITEX: http://www-igm.univ-mlv.fr/~unitex/
Marina's Homepage:
http://www.inamarr.com