Un petit air de renouveau

février 15, 2013

Bientôt trois années depuis mon précédent billet dans ces pages un peu à l’abandon. Manque de disponibilité, manque de motivation … peut-être.  Et sans doute la plus mauvaise des raisons que personne ne s’avoue vraiment,  c’est tellement plus amusant de commencer quelque chose que de le faire durer dans ce grand terrain de jeu des technologies du Web. Le tissage de la Toile est plein de choses inachevées,  j’ai écrit là-dessus ailleurs un soir de décembre un peu déprimé.

En réunion d’équipe hier, donc, une décision terrible : puisqu’on ne fait plus rien de ce vieux blog, on le ferme. Dans le feu de l’action, j’ai dit oui. Et puis ce matin j’ai relu de vieux billets, regardé les statistiques de fréquentation qui s’essoufflent, et je me suis dit que c’était trop bête de jeter tout çà.  Comme lorsqu’il faut vider un grenier. On a tellement de « choses » passionnantes qui se passent dans notre métier en ce moment et sur lesquelles on a toujours des « choses » à dire, pourquoi ne pas plutôt ranimer les braises et remettre du bois dans la conversation ici? Lire la suite »


Talk at the International Society for Knowledge Organization (ISKO)

octobre 18, 2010

Bernard Vatant from Mondeca was invited to speak at the Linked Open Data ISKO conference in London (September 14th, 2010) on the topic of « Porting terminologies to the Semantic Web ». Below is the abstract of his talk:

Terminologies have been developed for years in the closed world of enterprises, targeting the specific technical needs or specific communities of users. Their aim is to ease semantic interoperability across resources and systems dealing with well-defined, vertical domains. On the other hand, Semantic Web technologies and the growing Linked Data Cloud are deploying in a global scope, using a unified system of identifiers (URI), a generic data model (RDF) and the universal HTTP protocol to identify and exchange description of resources.

The glue between the terminology world and the Semantic Web will be ensured by nothing but vocabularies published in RDF, and currently SKOS is the favourite language for such publication. But SKOS has been built on a concept-centric model, leveraging mainly the thesaurus world, standards and best practices. In SKOS, concepts and their semantic relationships are defined independently of the terms used to name them (labels). SKOS is quickly becoming the lingua franca to migrate legacy vocabularies to the Semantic Web across the librarian community.

The SKOS-XL extension makes provision for description of terms themselves, considering them as first-order citizens, allowing the description of more specific relationships to concepts than just “preferred” and “alternative”, as well as other fine-grained information such as context of use, translation, acronyms, lexical variants. But does this (non-normative) extension meet the requirements of terminologists? Does it meet the requirements of terminology standards such as developed by ISO/TC 37? How is the terminology community involved in this process?

As approaches to this issue, we’ll first quickly present the model underlying the new management system for EUROVOC, a vocabulary presenting itself as a thesaurus, but with extensions of expressivity at the terminological level. We’ll also look at the lexvo.org initiative, which proposes a semiotic approach to terminology in the Semantic Web framework.

Presentation slides are available here: http://www.slideshare.net/event/linked-data-the-future-of-knowledge-organization-on-the-web
.


La modélisation, un art?

avril 27, 2010

Comme le constatait déjà Paul Valéry, le fonctionnement de la pensée humaine s’appuie largement sur des modélisations du monde qui nous entoure : « Nous ne raisonnons que sur des modèles ». En informatique et plus spécifiquement en ingénierie de la connaissance, nous parlons souvent de modélisation comme la base de la construction d’un système d’information. Derrière cette notion de modèle, on pense souvent à un dessin d’un schéma assez simple sur une feuille de papier qui explique un fonctionnement de la réalité. On trouve dans cette description hâtive les caractéristiques d’abstraction et de simplification inhérentes à un modèle, mais elles ne sont pas suffisantes pour définir la modélisation.

La modélisation permet de représenter un phénomène complexe qu’il n’est pas possible d’observer directement. L’OMG donne la définition suivante : “A model represents some concrete or abstract thing of interest, with a specific purpose in mind.”. Cette définition met en avant la notion capitale d’intention d’une modélisation. Une modélisation est toujours faite avec un objectif précis (s’il n’est pas clairement défini, le modèle sera mal utilisé) qui va guider certains choix quant au modèle produit (granularité de la représentation, langage de description choisi, etc.). Ces choix auront un impact sur le périmètre de validité du modèle. Par exemple, si nous représentons l’eau comme un liquide, alors notre modèle n’aura de validité que dans les conditions de pression et de température où l’eau est en phase liquide. Le choix d’un langage de description va être contraint par les objectifs du modèle : est-ce un modèle destiné à la communication, au traitement informatique ?

Rothenberg insiste dans sa definition sur l’efficacité et la simplification d’un modèle vis-à-vis de la réalité qu’il se propose de représenter: “Modeling, in the broadest sense, is the cost-effective use of something in place of  something else  for some cognitive purpose.  It allows us to use something that is simpler, safer or cheaper than reality instead of reality for some purpose. A model represents reality for the given purpose; the model is an abstraction of reality in the sense that it cannot represent all aspects of reality. This allows us to deal with the world in a simplified manner, avoiding the complexity, danger and irreversibility of reality.”. Le degré de simplification choisi va directement impacter la granularité du modèle produit. La difficulté est de simplifier au maximum la représentation d’une partie du réel pour faciliter sa compréhension et son utilisation tout en gardant un niveau de détail suffisant afin d’être efficace pour l’objectif qu’il lui est donné. Ce même travail de simplification est illustré dans les 11 états de la lithographie « Le Taureau » par Pablo Picasso dans lesquels il cherche le juste niveau de simplification correspondant à sa vision.

Pablo Picasso, Les 11 états successifs de la lithographie Le Taureau , 1945.

La modélisation, comme toutes les activités humaines, est fondée sur des choix. Malgré la volonté d’objectivité, un modèle reste néanmoins subjectif. Il est important de veiller à son aspect consensuel dans la communauté de pratiques partageant les mêmes intentions comme nous le fait comprendre la parabole des aveugles et de l’éléphant. Ceci peut être atteint en impliquant un groupe d’experts représentatif de cette communauté. Cette subjectivité est un des écueils majeurs pour de futures utilisations ou réutilisations. Un objet du monde réel peut être modélisé au travers d’une infinité de points de vues comme le montre l’illustration de Grady Booch.

Illustration de Grady Booch, 2000

Pour réussir une bonne modélisation, il faut veiller à définir clairement :

  • le phénomène représenté ;
  • l’intention du modèle;
  • le périmètre de validité ;
  • le niveau de simplification et de granularité adéquats;
  • le langage de description ;
  • les choix pris au cours de la modélisation.

Nous insisterons dans ce paragraphe sur le danger que représente la réutilisation de modèles. En effet, il est très séduisant de réutiliser un modèle existant pour économiser du temps et pour s’appuyer sur une modélisation qui a déjà été éprouvée. Mais avant de réutiliser un modèle existant il faut se poser les questions suivantes : est-ce le même phénomène que je veux représenter ? Ai-je les mêmes intentions ? Est-ce que j’adhère aux principes adoptés lors de la modélisation ?  Il existe des représentations consensuelles qui sont reconnues comme efficaces dans  un but donné. C’est ce que l’on appelle les patrons de modélisation « design pattern ».

Comme nous venons de le voir, il est  imprudent de penser qu’à un phénomène réel corresponde une unique représentation. Un modèle (à la manière d’une œuvre d’art) ne décrira jamais de manière complète l’objet étudié, dès lors, c’est par la multiplicité des représentations (diversité des œuvres et des sensibilités des artistes) pour des intentions différentes qu’un objet sera le mieux décrit. Chaque modèle présente de manière différente, parfois conciliable et complémentaire, un fait réel. C’est le sens même d’une re-présentation.


Genèse des Systèmes d’Organisation de la Connaissance

avril 22, 2010

Depuis le début des peintures rupestres jusqu’à aujourd’hui, la transmission de connaissances n’a eu de cesse de s’organiser afin d’améliorer l’accès à l’information véhiculée. Dès la préhistoire, les peintures dans les grottes s’organisaient selon l’histoire qu’elles racontaient, puis se sont réparties en trois zones spatiales (l’entrée, la zone de passage et le fond) de la grotte, aux environs de 12000 avant notre ère.

Les premières apparitions de structurations après l’invention de l’écriture picto-idéographique en -4000 étaient des tableaux à buts administratifs, suivi en -800 des premiers catalogues avec un classement thématique. C’est au premier siècle avant notre ère qu’apparait la première encyclopédie « Antiquitates rerum humanarum et divinarum » de Varron présentant un classement systématique qui décrit, en 41 livres, l’histoire de l’Italie et de ses habitants. La première classification bibliothécaire apparaît au XVIe siècle avec une proposition de classification Universelle des œuvres passées et présentes.

Il faut attendre le début du XVIIe siècle à Londres pour voir apparaître une terminologie, dans le domaine médical. Celle-ci sert à recenser, de manière hebdomadaire, les cas de mort selon leurs causes au moyen de 44 termes comme « Peste, étouffé, subitement ou arrêt de l’estomac ». Les premières apparitions de collections de mots structurés selon leurs sens datent du XIXe siècle et sont nommées « thésaurus » par Rodget dans le « Thesaurus of English Words and Phrases ».

La dernière révolution majeure se passe dans les années 1960 avec l’apparition de l’informatique. Les recherches portent alors sur les techniques automatiques de recherche d’information linguistique (centrée sur le terme) mais également sémantique (centrée sur le concept) . L’utilisation des thésaurus devient alors une évidence. Ces réflexions sont même à l’origine des liens hypertexte qui permettent de relier des notions ayant un sens proche ou connexe. Suite à l’utilisation de l’outil informatique, le monde de la documentation se divise en deux pratiques (i) celle des bibliothèques qui utilisent les classifications et les listes de mots-vedettes et (ii) les centres de documentation qui développent des thésaurus permettant d’indexer automatiquement des documents.

L’intention de ces nouvelles organisations qui capturent de la sémantique, est de se rapprocher du fonctionnement non linéaire des idées dans la pensée humaine. Cette possibilité nourrit l’ambition de construire une unique ontologie décrivant formellement les concepts régissant le monde par analogie à l’Ontologie en philosophie ( étude des propriétés générales de tout ce qui est). La validité d’une telle ontologie est toutefois vite remise en question. Comme tout fruit de modélisation, cette ontologie est limitée par les outils de modélisation (expressivité du langage de représentation), les connaissances implicites (émotions, connaissances communes inconscientes, éducation, langue, etc.) qui participent néanmoins à la description du monde. Dans les années 1990, l’utilisation des ontologies en informatique se veut pragmatique et accepte la définition communément admise de Tom Gruber limitant sa validité à un domaine spécifique et dans un but donné.

Les thésaurus et ontologies capturent tous deux de la sémantique, mais leur engagement formel est différent : alors que les thésaurus reposent sur quelques notions formelles telle que la subsomption, les ontologies utilisent l’expressivité d’un langage formel mathématique. Cette différence influe directement sur l’utilisation que l’on aura de ces référentiels.

L’informatique a énormément changé la conception, la maintenance et l’utilisation des systèmes d’organisation de la connaissance. Leur nombre et leur volume ont considérablement augmenté ces dernières décennies. Cet outil permet de réaliser des manipulations automatiques complexes qui produisent des résultats jusqu’alors impensables comme la déduction automatique de nouvelles connaissances. Il reste toutefois de grands progrès à effectuer pour approcher le fonctionnement de l’information dans la pensée humaine.

Longue vie aux référentiels !

Références:

Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l’information : http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_1tab.html

Gruber, T.R., Towards Principles for the Design of Ontologies Used for Knowledge Sharing in Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers, 1993

Charlet, J., L’Ingénierie des connaissances : développements, résultats et perspectives pour la gestion des connaissances médicales, Université Paris 6, 2002


Sur l’alignement et la mise en correspondance de terminologies

juin 29, 2009

Jean Delahousse

Introduction

Dans notre pratique quotidienne de mise en œuvre de solutions sémantiques, nous rencontrons de plus en plus régulièrement des besoins de mise en correspondances de référentiels. Cet article a pour objectif de dégager, à partir d’expériences concrètes une typologie des types d’alignement, des besoins métiers et des méthodes de mise en œuvre.

Lire la suite »


Comment installer OWLIM dans Sesame – et jouer avec

octobre 29, 2008

Une des choses frustrante quand vous travaillez dans les technologies du web sémantique c’est que leur intérêt n’est pas facile à expliquer à des techniciens qui ont l’habitude de travailler sur des applications fermées, des bases de données, et du XML; exemple :

« RDF ? hé bien tu vois, c’est un peu comme du XML mais en mieux… »

« OWL ? hé bien tu vois, c’est un peu comme un schéma de base de données mais en mieux… »

« Les données ouvertes ? hé bien tu vois, tu peux partager tes données sur le web et les lier aux autres données existantes pour… comment ça tu t’en fiche ? »

Bref. Lire la suite »


pourquoi les thésaurus et taxonomies évoluent ? et comment ?

septembre 29, 2008

Il y a quelque jour un journaliste me posait des questions sur les thésaurus, j’ai essayé de lui expliquer au mieux les évolutions en cours, je pense que c’était un peu confus. Un court essai pour essayer de mieux comprendre comment et pourquoi les thésaurus et systèmes de classification évoluent rapidement et quels sont les besoins très pragmatiques qui les font évoluer.

Nous avons besoin d’un outil de recherche plein texte plus efficace et précis 

L’entreprise dispose de terminologies permettant de décrire son domaine et d’indexer des documents, il s’agit d’un vocabulaire métier assez pointu et fermé (juridique, médical, scientifique, gestion des retraites…) mais ou chaque concept peut, selon le public, être exprimé avec des termes un peu différents. L’idée est d’enrichir le vocabulaire métier avec toutes les expressions répertoriées pour désigner les concepts métiers. Le thésaurus existant est enrichi de ces termes et l’on suit avec attention les statistiques de recherche sur le moteur pour capturer les expressions utilisées lors des recherches et continuer d’enrichir la terminologie associée aux thésaurus / référentiels.

Nous implémentons un outil de text mining pour automatiser (assister) le processus d’indexation des contenus

L’entreprise veut automatiser l’indexation des documents. Les outils de text mining sont d’autant plus efficaces qu’ils connaissent les termes et expressions à chercher dans les documents. Les termes extraits seront rapprochés automatiquement du thésaurus pour déterminer le concept à utiliser. Il s’agit ici aussi d’enrichir les termes et expressions utilisées pour désigner un concept,  une entreprise, un produit, un lieu, une personne…

L’entreprise peut procéder en compilant des ressources internes existantes, ou en faisant une analyse systématique d’un corpus de documents représentatifs de l’activité afin d’en extraire le vocabulaire métier. Ces terminologies métier seront rapprochés de thésaurus existants ou à construire.

Nous devons assister les utilisateurs de notre portail dans sa navigation 

Nous devons suggérer des produits et contenus en fonction des recherches de l’utilisateur

Dans les deux cas l’utilisateur ne peut connaître la richesse des contenus du portail (documents, produits, réglementations, maladies…), il est utile de pouvoir lui proposer des liens le guidant de sujets en sujets, de lui proposer des informations complémentaires, ou de lui suggérer une réponse à sa recherche à partir d’un raisonnement sur sa demande.

Pour répondre à ces besoins, il est nécessaire d’établir des relations fines entre les sujets métiers décrits dans le thésaurus et les listes d’autorité. On établira une relation entre « sport nautique » et « gites ruraux » ayant le label « pêche », une relation entre une partie du corps et des infections, entre des infections et des molécules, entre une décision de justice et une réglementation, entre un produit et une thématique…

L’ensemble de ces relations (relations sémantiques car il est nécessaire de décrire finement les relations si l’on ne veut pas confondre « produits recommandés » avec « contre indication ») viendront progressivement enrichir le référentiel d’origine pour construire une réelle description de connaissances sur le domaine d’activité.

Ces liens pourront être utilisés dans le portail comme

- de simples suggestions de navigation,  

- pour pousser automatiquement des contenus dans la page,  

- pour proposer un ensemble de contenus intelligemment choisi en fonction de quelques informations données par l’utilisateur (proposer automatiquement un package « week end dans la Nièvre » pour quelqu’un qui veut se détendre, pas trop loin de Paris et avec un budget raisonnable).

Nous devons avoir une indexation très riche des contenus à partir de très peu d’information de base

Nous indexons des images de sport, de télé, d’imagerie médicale…, il est hors de question que quelqu’un remplisse toutes ces données d’indexation dont nous avons pourtant absolument besoin pour la recherche et le filtrage dans le portail, comment enrichir automatiquement à partir d’une saisie minimale ?

Le système de text mining extrait peu d’information, principalement des noms de personnne, de sociétés et de produits, ca ne suffit pas du tout pour notre indexation qui est beaucoup plus riche.

L’idée est ici de confier au référentiel le soin de déduire du peu d’information fournie toutes les autres données d’indexation. En donnant le nom de l’émission de télé et la date, le système devra déduire le producteur, la chaîne de télévision, le présentateur, les droits de rediffusion par pays, la thématique de l’émission.

On enrichira ici le référentiel pour le transformer en une véritable base de connaissance du domaine, avec l’ensemble des liens entre les sujets (telle émission est produite par TF1, animée par Ruquiet, traite des sujets de sociétés et spectacle…), et avec les capacités d’inférer toutes les métadonnées à partir d’une simple information de départ comme le nom de l’émission.

Conclusion

On remarque deux types d’évolution et d’enrichissement des thésaurus :

- un enrichissement de la terminologie métier autour des concepts utilisés pour décrire le domaine,

- un enrichissement des relations entre les concepts du domaine pour former une véritable représentation des connaissances

On remarque aussi le transfert progressif de services habituellement rendus par un humain vers les machines. 

  • La documentaliste ou l’expert métier sont capables à partir d’une information partielle de réaliser une indexation complète du contenu sur un système de classement complexe et formel, ils sont aussi capables de rapprocher automatiquement les expressions utilisées dans un document aux concepts utilisés dans l’entreprise pour la classification.
  • Le vendeur, la documentaliste, l’expert sont capables de comprendre une question d’un utilisateur, de la transcrire dans la représentation utilisée pour la classification des contenus, d’effectuer la recherche, mais aussi de suggérer à l’utilisateur des thèmes de recherche connexes, d’autres produits utiles, des contre indications, des suggestions de voyage…

Ce sont ces services que l’on transfère progressivement aux machines, en leur fournissant des terminologies et des représentations riches, détaillées et formelles de l’univers métier.


Suivre

Recevez les nouvelles publications par mail.