Sur l’alignement et la mise en correspondance de terminologies

Jean Delahousse

Introduction

Dans notre pratique quotidienne de mise en œuvre de solutions sémantiques, nous rencontrons de plus en plus régulièrement des besoins de mise en correspondances de référentiels. Cet article a pour objectif de dégager, à partir d’expériences concrètes une typologie des types d’alignement, des besoins métiers et des méthodes de mise en œuvre.

Remarque 1 : on utilisera le terme de « Terminologie » pour tout ensemble de ressources décrivant des concepts et l’organisation de ces concepts : thésaurus, taxonomies,  ontologie…
Remarque 2 : nous ne traitons pas ici de la mise en relation entre des modèles d’ontologies (par exemple : alignement entre les classes de deux modèles d’ontologie décrivant un même domaine)
Remarque 3 : nous utiliserons le terme d’ »alignement », qui laisse entendre que les concepts des deux terminologies décrivent le même domaine, et le terme de « mise en correspondance » qui laisse entendre que les concepts des deux terminologies peuvent décrire des domaines différents, mais qu’il y a une raison de mettre en correspondance les concepts des deux terminologies.

Alignement et mise en correspondance entre terminologies

Différents types d’alignement et de mise en correspondances répondent à différents type de besoins.

Aligner des terminologies traitant du même domaine

Objectif : gérer de manière unifiée des contenus annotés par des référentiels différents mais traitant au moins pour une partie des mêmes sujets. L’alignement entre les deux terminologies doit permettre d’accéder à partir d’une requête unique à des contenus annotés par des terminologies différentes.

Ex1 : un alignement entre l’index Rameau, utilisé pour l’indexation des livres, et l’index Garnier, utilisé pour l’indexation des images, permettra aux utilisateurs d’accéder à l’ensemble des ressources livres et images via une recherche unifiée dans le portail d’un musée.

Ex2 : alignement entre le thésaurus Rameau en français et le thésaurus de la librairie du Congrès en anglais pour permettre des recherches multilingue sur l’ensemble des contenus de la BNF et de la Librairie du Congrès

Ex 3 : alignement entre le référentiel des résultats d’analyse biomédicales de l’AP-HP avec le référentiel international des résultats d’analyse biomédicales LOINC pour permettre un interopérabilité entre les dossiers patient à travers l’Europe

Ex 4 : alignement entre les codes « SLUG » utilisés par les journalistes de l’AFP et la taxonomie internationale IPTC utilisée pour l’annotation des dépêches dans les agences de presse. Cette alignement permet de conserver un système de codification rapide, connu des utilisateurs pour l’annotation des dépêches lors de leur rédaction tout en permettant de diffuser des dépêches avec une codification standard aux autres agences de presse.

Ex5 : alignement entre un ancien référentiel et un nouveau référentiel pour permettre la reclassification des fonds documentaires qui était basé sur l’ancien système de codification (ex: projet de Thomson Scientific pour la création de la base d’articles scientifiques Biosis).

Mettre en correspondance des terminologies décrivant des domaines différents mais complémentaires

Objectif : permettre la mise en relation de contenus annotés par une terminologie avec des contenus annotés par une terminologie décrivant un domaine complémentaire. La mise en relation des concepts permettra de mettre automatiquement en correspondance les documents indexés par ces concepts

Ex1 : mise en relation entre la terminologie médicale Snomed décrivant les maladies avec un référentiel du médicament. Cette mise en relation des deux terminologies permettra lorsque l’on consulte un article décrivant une maladie, de disposer automatiquement des documents décrivant des médicaments soignant cette maladie.

Mise en relation de terminologies traitant du même domaine mais sous un angle différent et/ou avec une granularité différente

Objectif : pouvoir inférer l’annotation d’un contenu dans une terminologie à partir d’une annotation existante basée sur une autre terminologie

Ex : la terminologie Snomed permet le codage clinique des dossiers patient, le référentiel CCAM permet le codage économique du même dossier pour permettre la facturation de l’acte. La terminologie Snomed est plus précise que le référentiel CCAM et son organisation répond à des exigences scientifiques. Le référentiel CCAM a été construit pour des raisons économiques ; il ne couvre pas l’ensemble du domaine traité par Snomed et traite les concepts avec une granularité moins fine. La mise en correspondance de Snomed et CCAM permet de proposer une liste de code CCAM possible en fonction des codes Snomed utilisés pour coder un dossier patient et réciproquement. Cette mise en correspondance permet également de contrôler la cohérence des codes CCAM et Snomed utilisés lors du codage d’un dossier patient.

Au vue de ces exemple, on voit que l’alignement et la mise en correspondance de terminologies répondent à des besoins très divers :

– migration de données,
– interopérabilité entre fonds documentaires,
– mise en relation de contenus complémentaires,
– prise en compte de normes interprofessionnelles sans perturber l’organisation du travail dans l’organisation….

Les types d’alignements et mise en correspondances de terminologies sont variés et des méthodes différentes vont être mise en œuvre pour la réalisation de ces alignements et mises en correspondance ainsi que pour leur exploitation.

Obtenir un alignement ou une mise en correspondance

Trouver un alignement existant est certainement la solution la plus simple, l’alignement peut également être le résultat d’un travail d’expert, assisté selon le contexte par des outils automatisés.

Trouver un alignement existant et l’intégrer dans son système de gestion de terminologies

La méthode la plus simple pour disposer d’un alignement entre des terminologies n’est pas de le créer mais d’en trouver un tout fait et de l’utiliser.
De nombreux chantiers de création d’alignements entre terminologies ont été réalisés ou sont en cours pour des terminologies médicales, des thésaurus de bibliothèques, des référentiels géographiques… Le projet LOD qui permet un accès à de multiples ressources structurées sur le web est à l’origine de nombreux chantiers d’alignement de référentiels assurant l’interopérabilité des données mises à disposition par les différents éditeurs.
Il n’existe pas encore d’annuaire des alignements, le plus simple reste donc de se renseigner auprès des éditeurs de chaque terminologie sur l’existence d’alignements avec d’autres terminologies.

Créer un alignement entre terminologies

La création d’un alignement entre deux terminologies peut être un chantier simple et rapide si les terminologies sont petites et les concepts traités proches et traités avec le même niveau de détail. Ce peut être un chantier long et couteux si les volumes sont importants, et que la conception des deux terminologies est très différentes ou organise l’information avec une granularité différente.
L’alignement « manuel » consiste à créer des relations entre les concepts décrits dans chacune des terminologies en examinant en détail les deux terminologies et les concepts qui les composent.
Le libellé des concepts, les attributs descriptifs des concepts et leurs relations avec les autres concepts sont les éléments pris en compte pour décider d’un alignement et du type d’alignement à réaliser (mise en correspondance exacte, mise en correspondance relative…). Dans certains cas la mise en correspondance n’est pas binaire ; par exemple on mettra en correspondance les concepts de « Conduite de véhicule » ET d’ « Alcoolisme » identifiés dans une première terminologie avec le concept de « Conduite en état d’ivresse » dans une seconde terminologie.

Mettre en correspondance

Concernant la mise en relation de deux terminologies traitant de domaines complémentaires (ex : référentiel des maladies et référentiel des médicaments), seul les experts du domaine peuvent créer et maintenir cette mise en correspondance, qui ne s’appuie pas sur la comparaison de la description de concepts, mais sur une connaissance externe aux deux terminologies. Il s’agit bien de formaliser une connaissance externe lors de la mise en correspondance de terminologies (ex : il faut connaitre les relations entre les maladies et les médicaments réaliser la mise en correspondance de la terminologie des maladies et des médicaments).

Outillage pour l’alignement et la mise en correspondance

Les outils d’édition d’alignement et de mise en correspondance de terminologies sont assez rares et se trouvent aujourd’hui principalement dans les laboratoires de recherche. Dans le cadre d’une collaboration avec l’Inserm, Mondeca dispose aujourd’hui d’un outil de ce type qui peut être mis à la disposition des projets.

Se faire assister par des outils automatisés

Alignement de terminologies traitant d’un même domaine dans une même langue

Plusieurs équipes internationales (dont en France l’équipe de Jérôme Euzenat – INRA) travaille sur la mise au point de logiciels capables de proposer des alignements entre deux terminologies. Ces logiciels s’appuient sur différents algorithmes (linguistiques, liés à l’organisation des terminologies…) et sur des ressources linguistiques et sémantiques externes.
Ces outils d’assistance à l’alignement donnent des résultats tout à fait valables qui peuvent grandement faciliter le travail d’alignement de terminologies. Ces outils devraient être progressivement industrialisés et rendus disponibles dans les solutions de gestion de terminologies.

Alignement de terminologies traitant d’un même domaine dans des langues différentes

Nous ne connaissons pas d’outils permettant de faire ce travail, mais il en existe probablement.
Le travail revient en général à trouver des ressources linguistiques traduites dans la langue cible pour traduire les concepts d’une des deux terminologies. Ensuite on revient au cas décrit ci-dessus concernant l’alignement de deux terminologies du même domaine dans une même langue.
Des outils d’extraction de terminologies multilingues à partir de documents identiques et traduit doivent pouvoir faciliter ce processus.

Différentes relations d’alignement entre les concepts

L’alignement et la mise en correspondance entre des concepts de terminologies différentes, amènene à spécifier plusieurs types de relation pour décrire ces alignements (ou mise en correspondance) :

  • Relation d’équivalence : les deux concepts sont strictement identiques
  • Relation de généricité/spécificité : un des concepts est plus général que le concept de l’autre terminologie
  • Relation complexe impliquant plus de 2 concepts : la conjonction du concept A ET du concept B de la terminologie T1 est équivalente au concept C de la terminologie T2
  • Relation sémantique entre les concepts : ex : « ….à un impact sur… » entre un médicament et une maladie

Standards de représentation des alignements de terminologies

Les alignements entre terminologies doivent pouvoir être publiés, distribués et réintégrés dans des applications, il est donc nécessaire de disposer de formats de sérialisation standardisés.
Dans le cadre de la norme SKOS (W3C) ce besoin a été pris en compte, il existe donc aujourd’hui une possibilité de sérialisation normalisée en RDF/SKOS des données décrivant les alignements et mise en correspondance.
La réutilisation et la distribution des alignements entre terminologies nécessitent l’utilisation des URI pour identifier les concepts mis en relation et permettre une réutilisation de l’alignement dans n’importe quel contexte par la suite.

Exploitation des alignements et mise en correspondance

Nous donnons ici quelques exemples d’exploitation des alignements par le système d’information, cette liste n’est bien sur pas exhaustive.

Alimentation des lexiques des moteurs de recherche

Les moteurs de recherche utilisent des lexiques pour l’indexation des ressources documentaires. Une des raisons pour réaliser un alignement entre deux terminologies est de fournir un lexique enrichi au moteur de recherche, lexique qui intégre les noms, synonymes, acronymes des concepts dans les deux terminologies, permettant ainsi d’accéder à l’information avec un vocabulaire plus riche et couvrant les deux référentiels utilisés pour l’indexation des contenus.
Ex : fournir un lexique décrivant les concepts avec le vocabulaire du thésaurus Garnier (pour le fond photos) et du thésaurus Rameau (pour le fonds livres) afin de permettre aux utilisateurs d’utiliser les termes de l’un ou l’autre des thésaurus pour chercher indifféremment des livres et des photos.
La production du lexique pour le moteur de recherche effectuera, sur la base des relations d’alignement, une fusion des termes utilisés pour décrire les concepts dans chacune des terminologies en décrivant chacun d’eux comme des synonymes.

Enrichissement du lexique du moteur de recherche pour traiter des requêtes multilingues.

On fusionnera dans un lexique unique les ressources linguistiques sur la base de l’alignement des deux terminologies pour disposer d’un lexique décrivant les concepts dans deux langues. A partir de ces ressources lexicales le moteur de recherche pourra effectuer des recherches sur la base de requêtes dans l’une ou l’autre langue pour arriver aux mêmes ressources documentaires.

Enrichissement de l’annotation des contenus

L’alignement peut être utilisé pour permettre une annotation des contenus en utilisant deux terminologies (ex : une terminologie interne et une terminologie normalisée pour la diffusion externe).
Des traitements spécifiques s’appuyant sur la description des alignements permettront un enrichissement automatique de l’annotation d’origine avec les concepts décrits dans la seconde terminologie.
Exemple : une dépêche annoté avec les codes internes de l’agence de presse, seront automatiquement annotées avec la codification internationale IPTC.

Enrichissement du contenu publié (semantic mashup)

Lors de la publication d’un contenu, le système examinera les concepts utilisés pour son annotation, cherchera les concepts mis en correspondance, trouvera des contenus annotés par ces concepts et proposera à l’utilisateur de consulter ces contenus
Ex : lors de la consultation d’un dossier patient décrivant une maladie, le système rendra disponible une liste de contenus décrivant des médicaments permettant de guérir cette maladie.

Semantic Mashup en utilisant les ressources de projet LOD (Linking Open Data)

L’alignement entre terminologies permet à des web services de requérir des données sur un sujet dans un serveur externe et ouvert, de trouver le code d’identification de ce sujet dans un autre serveur et d’y accéder pour disposer de données complémentaires sur le même sujet.
Ex : en disposant d’une longitude/latitude, je peux accéder au serveur GeoNames pour demander une description sur le lieu (nom de la commune, de son département, de son pays…), le serveur GeoNames me fournit également un l’identification (URI) de ce lieu dans DBPédia (version RDF de Wikipédia). J’accède à DBPédia sur la base de ce code afin de trouver une description de la ville, l’image de son drapeau, sa population…

Mise en œuvre des fonctions de gestion de l’alignement de terminologies/ontologies dans le logiciel ITM de Mondeca

Le logiciel ITM offre de nombreuses fonctions pour gérer les alignements et mise en correspondance entre terminologies

  • Utilisation d’un modèle d’ontologie permettant de modéliser des relations d’alignement entre concepts définis dans une terminologie ou ontologie. La modélisation, évolutive, permet d’enrichir les relations utilisées pour l’alignement et la mise en correspondance
  • Capacité d’importer plusieurs terminologies mais aussi des fichiers décrivant les alignements entre terminologies. Les imports s’appuient sur les formats SKOS/RDF
  • Capacité de créer et maintenir des relations d’alignement/mise en correspondance entre concepts via des interfaces utilisateurs
  • Gestion fine de chaque relation d’alignement ou mise en correspondance (origine, créateur, validité, statut…)
  • Capacité de conserver les informations d’alignement lors des imports de nouvelles versions de terminologies avec indications inconsistances éventuelles apparues suite au processus de mise à jour d’une des terminologies
  • Capacité d’export des relations d’alignement sous forme de fichiers SKOS
  • Service web d’interrogation permettant de connaitre les relations d’alignement d’un concept avec des concepts d’autres terminologies
  • Export de lexiques pour les moteurs de recherche et outils de text-mining intégrant les ressources issues des terminologies alignées
  • Utilisation des relations d’alignement et mise en correspondance par les outils de raisonnement

Outillage et méthodologie pour l’alignement
Mondeca, dans le cadre d’un travail de collaboration scientifique avec l’INSERM, dispose d’un outillage spécifique permettant d’assister le travail d’alignement de terminologies. Les outils permettent, pour des alignements de terminologies dans une même langue, de générer automatiquement des propositions d’alignement entre les concepts, mais aussi pour l’éditeur d’invalider les propositions, de les affiner ou de créer manuellement de nouvelles relations d’alignement.
Les résultats finaux peuvent être automatiquement exploités dans le logiciel ITM de gestion de terminologies/ontologies.

Conclusion

Le sujet des alignements et mise en correspondance de terminologies et ontologies est un sujet neuf et appelé à un avenir riche en particulier pour des besoins d’interopérabilité entre systèmes d’information. Nous travaillons sur ces sujets chez Mondeca et sommes toujours très attentifs à des collaborations possibles que ce soit sur des projets concrets ou des travaux de recherche.

Un commentaire pour Sur l’alignement et la mise en correspondance de terminologies

  1. Dalb dit :

    Merci Jean, cela va enrichir les travaux sur la norme ISO 25964 Thésaurus plus particulièrement la partie 2 sur l’interopérabilité entre « terminologies » (puisque c’est ton terme préféré;-), travaux qui on démarré mi juin ! A suivre… Dalb

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :