Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle

avril 20, 2007

10 mai 2007 – Soutenance de thèse – Florence Amardeilh

Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle

Date : le jeudi 10 mai 2007 – 13h

Lieu : Université Paris-X-Nanterre, Salle René Rémond (B015) , Batiment B

Accès : http://www.modyco.fr/?Start:access

Jury :

Mme Nathalie Aussenac-Gilles, Chargée de recherche (HDR) au CNRS, Rapporteur

Mr Gilles Kassel, Professeur d’université, Université de Picardie, Rapporteur

Mr Benoît Habert, Professeur d’université, Université Paris X-Nanterre, Examinateur

Mme Maria-Teresa Pazienza, Professeur d’université, Università di Roma Tor Vergata, Examinateur

Mr Philippe Laublet, Maître de conférences, Université Paris IV-Sorbonne, Co-Directeur de Thèse

Mr Jean-Luc Minel, Ingénieur de recherche (HDR), CNRS, Co-Directeur de Thèse

Mr Jean Delahousse, PDG de Mondeca

Résumé :

Cette thèse aborde les problématiques liées à l’annotation sémantique et au peuplement d’ontologies dans le cadre défini par le Web Sémantique (WS). La vision du Web Sémantique initiée en 1998 par Sir Tim Berners-Lee a pour objectif de permettre une meilleure exploitation des informations disponibles sur le Web par les agents logiciels. Pour cela, les ressources, textuelles ou multimédias, doivent être sémantiquement étiquetées par des annotations structurées. Dans ce processus d’annotation sémantique, les ontologies jouent un rôle primordial puisqu’elles modélisent les concepts, attributs et relations utilisées pour annoter le contenu des ressources. Mais, il est tout aussi important que la base de connaissance, associée à cette ontologie, contienne les instances à utiliser pour l’annotation sémantique. C’est pourquoi la tâche de peuplement d’ontologie a pour but d’enrichir (semi-)automatiquement la base de connaissance avec les nouvelles instances de concepts, d’attributs et de relations.

La réalisation de ces deux tâches consiste à combiner les outils d’extraction d’information (EI) avec les outils de représentation des connaissances du WS. En effet, le principal mode de transfert de la connaissance se fait par l’utilisation du langage naturel dans les ressources documentaires. Malgré tout, il existe actuellement un fossé entre les formats de représentation des analyses linguistiques et ceux de représentation des connaissances. Cette thèse propose de combler ce fossé en concevant un médiateur capable de transformer les étiquettes linguistiques générées par les outils d’EI en des représentations plus formelles, annotations sémantiques des textes ou instances d’une ontologie donnée et relations entre celles-ci. L’enjeu consiste aussi bien à proposer une réflexion méthodologique sur l’interopérabilité des différentes technologies qu’une conception de solutions opérationnelles dans le monde des entreprises, et à plus large échelle du Web.

Dans le cadre de cette thèse, nous avons donc conçu une démarche, nommée OntoPop pour « Ontology Population », qui met en place une passerelle reposant sur un ensemble de règles, dites « d’Acquisition de Connaissance » et sur un langage d’implémentation de ces règles, OPAL (Ontology Population and Annotation Language. Nous montrons comment cette passerelle peut être utilisée dans un cycle complet d’extraction d’information, d’enrichissement des ressources terminologiques et ontologiques, d’annotation sémantique et de mise à jour des lexiques utilisés par l’outil d’EI. L’accent est porté sur la résolution des problèmes soulevés par un tel cycle de vie, notamment à propos de la consolidation des nouvelles annotations et instances vis-à-vis du modèle de l’ontologie. Enfin, nous soumettons des propositions pour l’opérationnalisation de la démarche OntoPop à travers une méthodologie et une plateforme logicielle basée sur l’outil de représentation des connaissances ITM de la société Mondeca. La méthodologie a pour objectif de fournir un mode d’emploi simple et efficace pour la réalisation d’une application concrète d’annotation sémantique ou de peuplement d’ontologie au sein d’une entreprise. La plateforme logicielle offre des exemples de composants logiciels modulaires, autorisant un maximum de flexibilité vis-à-vis des besoins et objectifs de chaque nouvelle application d’annotation sémantique ou de peuplement d’ontologie.

Abstract :

This thesis deals with the issues related to semantic annotation and ontology population within the framework defined by the Semantic Web (SW). The vision of the Semantic Web aims to structure information available on the Web. To achieve that goal, the resources, textual or multimedias, must be semantically tagged by metadata so that the software agents can exploit them. In the process of semantic annotation, ontologies play a major part since they model the concepts, their attributes and the relations used to annotate the contents of the documents. But it is also important that the knowledge base, associated with this ontology, contains the instances to be used for semantic annotation. This is why the purpose of the ontology population task aims to enrich (semi-)automatically the knowledge base with new instances of concepts, attributes and relations as defined by the ontology model.
The idea suggested in this thesis is to combine the information extraction (IE) tools with the knowledge representation tools of the WS for the achievement of these two tasks. Despite all integration efforts, there is currently a gap between the representation formats of the linguistic tools and those of the knowledge representation tools in the field of the Semantic Web. This thesis proposes to fill this gap by designing a mediator able to transform the tags generated by the IE tools into a more formal representation. In other words, we try to answer the following issue: how can we map a certain textual representation into a semantic knowledge representation? The stake consists in proposing a methodological reflexion about the interoperability of various technologies as well as a design of operational solutions in the world of the companies, and on broader scale of the Web.
Within this thesis, we thus conceived a framework named OntoPop for « Ontology Population ». This framework proposes a bridge in the form of rules, known as « Knowledge Acquisition Rules ». The OPAL language (Ontology Population and Annotation Language) defines a grammar for the implementation of these rules. Lastly, we submit proposals for the implementation of the OntoPop through a methodology in five stages and a software platform based on the knowledge repository ITM designed by Mondeca.

Site Web : http://www.modyco.fr/?u_s=1&u_a=613&sid=


Construire une ontologie : la voie du milieu

avril 18, 2007

Il y a quelques mois j’évoquais ici le fait que le tissage du Web sémantique est en cours de construction pratique à partir de concepts très communs comme Personne, Document, Projet, Lieu etc.  On a évoqué à ce sujet une démarche « bottom up », issue de la base sociale et communautaire du Web, par opposition à une démarche « top down » qui partirait d’une définition académique des ontologies à partir de concepts très abstraits comme « endurant » ou « perdurant« .  Cette opposition est effective, et ses enjeux sociaux et idéologiques sont assez évidents, cependant un autre axe d’analyse est possible. Si on considère une ontologie définissant ou utilisant un de ces concepts « communs », celui-ci n’apparait en général ni à la racine de la hiérarchie (appelée quelquefois de façon paradoxale le ‘sommet’), ni à l’extrêmité d’une branche, mais quelque part entre les deux, du genre :

  • Entité > Acteur > Personne > Médecin > Chirurgien
  • Etre > Etre Vivant > Personne > Personne Adulte >  Mère de Famille

Donc le concept de Personne est quelque part au niveau du sol, à mi-chemin entre les racines profondes, abstraites et obscures que sont Entité ou Etre, et les concepts très spécifiques que sont Mère de Famille et Ophtalmologiste. Une ontologie qui se développe comme un arbre, partant au niveau du sol par la jeune pousse représentée par le concept de Personne, se raffinera vers le haut en branches spécifiques de plus en plus contraintes, et en sens opposé s’enracinera dans les concepts plus génériques et plus abstraits. Il s’agit donc d’une démarche ni « top down », ni « bottom up », mais plutôt à la fois « ground up » et « ground down ». 

Autre point important visible dans l’exemple ci-dessus : un arbre a en général autant de racines que de branches, ce qui veut dire qu’il y a mille façons de définir les concepts plus génériques que Personne, tout comme les concepts plus spécifiques. Et toutes se justifient, si elles permettent de reconnaître une Personne quand on en rencontre une.

Un autre argument dans ce sens nous vient du Chinois, langue conceptuelle s’il en est, dont la longue vie montre la robustesse de sa conception originale, et dont tout constructeur d’ontologie devrait avoir au moins quelques rudiments (j’y travaille). Les sinogrammes (caractères chinois) s’ils se comptent par millers, sont construits sur un noyau dont la liste est nettement plus courte, 214 signes appelés « radicaux« . Si on parcourt cette liste, on y trouve essentiellement des concepts communs au sens dit plus haut, tels que homme, femme, enfant, ciel, terre, eau, feu, arbre, montagne, couteau … Ces concepts sont ensuite combinés pour former soit des concepts plus spécifiques (火山 feu + montagne = volcan), ou plus abstraits (休 homme + arbre = se reposer).  Le nom même de la langue écrite chinoise est construit de cette manière, en une de ces ellipses auto-explicatives qui font toute la saveur de cette langue :  中文 (zhōng wén), c’est littéralement « l’écriture (文) du milieu (中) ».  Et 中道 (zhōng dào) c’est pour le bouddhisme le chemin juste, la « voie du mileu », loin des extrêmes.

NB: Toute ressemblance avec la campagne présidentielle en cours est bien sûr pure coïncidence.

Note éditoriale du 11-05-2007 : J’ai révisé le vocabulaire de ce billet, qui parlait d’abord de concepts pour ensuite dévier en parlant de classes, ce qui pouvait prêter à confusion. J’ai supprimé le mot classe, qui semblait indiquer que dans toute ontologie, un concept est représenté par une classe. Ce n’est pas forcément le cas. La hiérarchie des concepts peut être formalisée comme une hiérarchie de classes, ou de descripteurs dans un thésaurus, ou de rubriques de taxonomie … suivant l’usage fonctionnel de l’ontologie. J’y reviendrai, car c’est une question importante.