Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle

10 mai 2007 – Soutenance de thèse – Florence Amardeilh

Web Sémantique et Informatique Linguistique : propositions méthodologiques et réalisation d’une plateforme logicielle

Date : le jeudi 10 mai 2007 – 13h

Lieu : Université Paris-X-Nanterre, Salle René Rémond (B015) , Batiment B

Accès : http://www.modyco.fr/?Start:access

Jury :

Mme Nathalie Aussenac-Gilles, Chargée de recherche (HDR) au CNRS, Rapporteur

Mr Gilles Kassel, Professeur d’université, Université de Picardie, Rapporteur

Mr Benoît Habert, Professeur d’université, Université Paris X-Nanterre, Examinateur

Mme Maria-Teresa Pazienza, Professeur d’université, Università di Roma Tor Vergata, Examinateur

Mr Philippe Laublet, Maître de conférences, Université Paris IV-Sorbonne, Co-Directeur de Thèse

Mr Jean-Luc Minel, Ingénieur de recherche (HDR), CNRS, Co-Directeur de Thèse

Mr Jean Delahousse, PDG de Mondeca

Résumé :

Cette thèse aborde les problématiques liées à l’annotation sémantique et au peuplement d’ontologies dans le cadre défini par le Web Sémantique (WS). La vision du Web Sémantique initiée en 1998 par Sir Tim Berners-Lee a pour objectif de permettre une meilleure exploitation des informations disponibles sur le Web par les agents logiciels. Pour cela, les ressources, textuelles ou multimédias, doivent être sémantiquement étiquetées par des annotations structurées. Dans ce processus d’annotation sémantique, les ontologies jouent un rôle primordial puisqu’elles modélisent les concepts, attributs et relations utilisées pour annoter le contenu des ressources. Mais, il est tout aussi important que la base de connaissance, associée à cette ontologie, contienne les instances à utiliser pour l’annotation sémantique. C’est pourquoi la tâche de peuplement d’ontologie a pour but d’enrichir (semi-)automatiquement la base de connaissance avec les nouvelles instances de concepts, d’attributs et de relations.

La réalisation de ces deux tâches consiste à combiner les outils d’extraction d’information (EI) avec les outils de représentation des connaissances du WS. En effet, le principal mode de transfert de la connaissance se fait par l’utilisation du langage naturel dans les ressources documentaires. Malgré tout, il existe actuellement un fossé entre les formats de représentation des analyses linguistiques et ceux de représentation des connaissances. Cette thèse propose de combler ce fossé en concevant un médiateur capable de transformer les étiquettes linguistiques générées par les outils d’EI en des représentations plus formelles, annotations sémantiques des textes ou instances d’une ontologie donnée et relations entre celles-ci. L’enjeu consiste aussi bien à proposer une réflexion méthodologique sur l’interopérabilité des différentes technologies qu’une conception de solutions opérationnelles dans le monde des entreprises, et à plus large échelle du Web.

Dans le cadre de cette thèse, nous avons donc conçu une démarche, nommée OntoPop pour « Ontology Population », qui met en place une passerelle reposant sur un ensemble de règles, dites « d’Acquisition de Connaissance » et sur un langage d’implémentation de ces règles, OPAL (Ontology Population and Annotation Language. Nous montrons comment cette passerelle peut être utilisée dans un cycle complet d’extraction d’information, d’enrichissement des ressources terminologiques et ontologiques, d’annotation sémantique et de mise à jour des lexiques utilisés par l’outil d’EI. L’accent est porté sur la résolution des problèmes soulevés par un tel cycle de vie, notamment à propos de la consolidation des nouvelles annotations et instances vis-à-vis du modèle de l’ontologie. Enfin, nous soumettons des propositions pour l’opérationnalisation de la démarche OntoPop à travers une méthodologie et une plateforme logicielle basée sur l’outil de représentation des connaissances ITM de la société Mondeca. La méthodologie a pour objectif de fournir un mode d’emploi simple et efficace pour la réalisation d’une application concrète d’annotation sémantique ou de peuplement d’ontologie au sein d’une entreprise. La plateforme logicielle offre des exemples de composants logiciels modulaires, autorisant un maximum de flexibilité vis-à-vis des besoins et objectifs de chaque nouvelle application d’annotation sémantique ou de peuplement d’ontologie.

Abstract :

This thesis deals with the issues related to semantic annotation and ontology population within the framework defined by the Semantic Web (SW). The vision of the Semantic Web aims to structure information available on the Web. To achieve that goal, the resources, textual or multimedias, must be semantically tagged by metadata so that the software agents can exploit them. In the process of semantic annotation, ontologies play a major part since they model the concepts, their attributes and the relations used to annotate the contents of the documents. But it is also important that the knowledge base, associated with this ontology, contains the instances to be used for semantic annotation. This is why the purpose of the ontology population task aims to enrich (semi-)automatically the knowledge base with new instances of concepts, attributes and relations as defined by the ontology model.
The idea suggested in this thesis is to combine the information extraction (IE) tools with the knowledge representation tools of the WS for the achievement of these two tasks. Despite all integration efforts, there is currently a gap between the representation formats of the linguistic tools and those of the knowledge representation tools in the field of the Semantic Web. This thesis proposes to fill this gap by designing a mediator able to transform the tags generated by the IE tools into a more formal representation. In other words, we try to answer the following issue: how can we map a certain textual representation into a semantic knowledge representation? The stake consists in proposing a methodological reflexion about the interoperability of various technologies as well as a design of operational solutions in the world of the companies, and on broader scale of the Web.
Within this thesis, we thus conceived a framework named OntoPop for "Ontology Population". This framework proposes a bridge in the form of rules, known as "Knowledge Acquisition Rules". The OPAL language (Ontology Population and Annotation Language) defines a grammar for the implementation of these rules. Lastly, we submit proposals for the implementation of the OntoPop through a methodology in five stages and a software platform based on the knowledge repository ITM designed by Mondeca.

Site Web : http://www.modyco.fr/?u_s=1&u_a=613&sid=

About these ads

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

%d bloggers like this: