Talk at the International Society for Knowledge Organization (ISKO)

octobre 18, 2010

Bernard Vatant from Mondeca was invited to speak at the Linked Open Data ISKO conference in London (September 14th, 2010) on the topic of "Porting terminologies to the Semantic Web". Below is the abstract of his talk:

Terminologies have been developed for years in the closed world of enterprises, targeting the specific technical needs or specific communities of users. Their aim is to ease semantic interoperability across resources and systems dealing with well-defined, vertical domains. On the other hand, Semantic Web technologies and the growing Linked Data Cloud are deploying in a global scope, using a unified system of identifiers (URI), a generic data model (RDF) and the universal HTTP protocol to identify and exchange description of resources.

The glue between the terminology world and the Semantic Web will be ensured by nothing but vocabularies published in RDF, and currently SKOS is the favourite language for such publication. But SKOS has been built on a concept-centric model, leveraging mainly the thesaurus world, standards and best practices. In SKOS, concepts and their semantic relationships are defined independently of the terms used to name them (labels). SKOS is quickly becoming the lingua franca to migrate legacy vocabularies to the Semantic Web across the librarian community.

The SKOS-XL extension makes provision for description of terms themselves, considering them as first-order citizens, allowing the description of more specific relationships to concepts than just “preferred” and “alternative”, as well as other fine-grained information such as context of use, translation, acronyms, lexical variants. But does this (non-normative) extension meet the requirements of terminologists? Does it meet the requirements of terminology standards such as developed by ISO/TC 37? How is the terminology community involved in this process?

As approaches to this issue, we’ll first quickly present the model underlying the new management system for EUROVOC, a vocabulary presenting itself as a thesaurus, but with extensions of expressivity at the terminological level. We’ll also look at the lexvo.org initiative, which proposes a semiotic approach to terminology in the Semantic Web framework.

Presentation slides are available here: http://www.slideshare.net/event/linked-data-the-future-of-knowledge-organization-on-the-web
.


Genèse des Systèmes d’Organisation de la Connaissance

avril 22, 2010

Depuis le début des peintures rupestres jusqu’à aujourd’hui, la transmission de connaissances n’a eu de cesse de s’organiser afin d’améliorer l’accès à l’information véhiculée. Dès la préhistoire, les peintures dans les grottes s’organisaient selon l’histoire qu’elles racontaient, puis se sont réparties en trois zones spatiales (l’entrée, la zone de passage et le fond) de la grotte, aux environs de 12000 avant notre ère.

Les premières apparitions de structurations après l’invention de l’écriture picto-idéographique en -4000 étaient des tableaux à buts administratifs, suivi en -800 des premiers catalogues avec un classement thématique. C’est au premier siècle avant notre ère qu’apparait la première encyclopédie « Antiquitates rerum humanarum et divinarum » de Varron présentant un classement systématique qui décrit, en 41 livres, l’histoire de l’Italie et de ses habitants. La première classification bibliothécaire apparaît au XVIe siècle avec une proposition de classification Universelle des œuvres passées et présentes.

Il faut attendre le début du XVIIe siècle à Londres pour voir apparaître une terminologie, dans le domaine médical. Celle-ci sert à recenser, de manière hebdomadaire, les cas de mort selon leurs causes au moyen de 44 termes comme « Peste, étouffé, subitement ou arrêt de l’estomac ». Les premières apparitions de collections de mots structurés selon leurs sens datent du XIXe siècle et sont nommées « thésaurus » par Rodget dans le « Thesaurus of English Words and Phrases ».

La dernière révolution majeure se passe dans les années 1960 avec l’apparition de l’informatique. Les recherches portent alors sur les techniques automatiques de recherche d’information linguistique (centrée sur le terme) mais également sémantique (centrée sur le concept) . L’utilisation des thésaurus devient alors une évidence. Ces réflexions sont même à l’origine des liens hypertexte qui permettent de relier des notions ayant un sens proche ou connexe. Suite à l’utilisation de l’outil informatique, le monde de la documentation se divise en deux pratiques (i) celle des bibliothèques qui utilisent les classifications et les listes de mots-vedettes et (ii) les centres de documentation qui développent des thésaurus permettant d’indexer automatiquement des documents.

L’intention de ces nouvelles organisations qui capturent de la sémantique, est de se rapprocher du fonctionnement non linéaire des idées dans la pensée humaine. Cette possibilité nourrit l’ambition de construire une unique ontologie décrivant formellement les concepts régissant le monde par analogie à l’Ontologie en philosophie ( étude des propriétés générales de tout ce qui est). La validité d’une telle ontologie est toutefois vite remise en question. Comme tout fruit de modélisation, cette ontologie est limitée par les outils de modélisation (expressivité du langage de représentation), les connaissances implicites (émotions, connaissances communes inconscientes, éducation, langue, etc.) qui participent néanmoins à la description du monde. Dans les années 1990, l’utilisation des ontologies en informatique se veut pragmatique et accepte la définition communément admise de Tom Gruber limitant sa validité à un domaine spécifique et dans un but donné.

Les thésaurus et ontologies capturent tous deux de la sémantique, mais leur engagement formel est différent : alors que les thésaurus reposent sur quelques notions formelles telle que la subsomption, les ontologies utilisent l’expressivité d’un langage formel mathématique. Cette différence influe directement sur l’utilisation que l’on aura de ces référentiels.

L’informatique a énormément changé la conception, la maintenance et l’utilisation des systèmes d’organisation de la connaissance. Leur nombre et leur volume ont considérablement augmenté ces dernières décennies. Cet outil permet de réaliser des manipulations automatiques complexes qui produisent des résultats jusqu’alors impensables comme la déduction automatique de nouvelles connaissances. Il reste toutefois de grands progrès à effectuer pour approcher le fonctionnement de l’information dans la pensée humaine.

Longue vie aux référentiels !

Références:

Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l’information : http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_1tab.html

Gruber, T.R., Towards Principles for the Design of Ontologies Used for Knowledge Sharing in Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers, 1993

Charlet, J., L’Ingénierie des connaissances : développements, résultats et perspectives pour la gestion des connaissances médicales, Université Paris 6, 2002


Sur l’alignement et la mise en correspondance de terminologies

juin 29, 2009

Jean Delahousse

Introduction

Dans notre pratique quotidienne de mise en œuvre de solutions sémantiques, nous rencontrons de plus en plus régulièrement des besoins de mise en correspondances de référentiels. Cet article a pour objectif de dégager, à partir d’expériences concrètes une typologie des types d’alignement, des besoins métiers et des méthodes de mise en œuvre.

Lire la suite »


pourquoi les thésaurus et taxonomies évoluent ? et comment ?

septembre 29, 2008

Il y a quelque jour un journaliste me posait des questions sur les thésaurus, j’ai essayé de lui expliquer au mieux les évolutions en cours, je pense que c’était un peu confus. Un court essai pour essayer de mieux comprendre comment et pourquoi les thésaurus et systèmes de classification évoluent rapidement et quels sont les besoins très pragmatiques qui les font évoluer.

Nous avons besoin d’un outil de recherche plein texte plus efficace et précis 

L’entreprise dispose de terminologies permettant de décrire son domaine et d’indexer des documents, il s’agit d’un vocabulaire métier assez pointu et fermé (juridique, médical, scientifique, gestion des retraites…) mais ou chaque concept peut, selon le public, être exprimé avec des termes un peu différents. L’idée est d’enrichir le vocabulaire métier avec toutes les expressions répertoriées pour désigner les concepts métiers. Le thésaurus existant est enrichi de ces termes et l’on suit avec attention les statistiques de recherche sur le moteur pour capturer les expressions utilisées lors des recherches et continuer d’enrichir la terminologie associée aux thésaurus / référentiels.

Nous implémentons un outil de text mining pour automatiser (assister) le processus d’indexation des contenus

L’entreprise veut automatiser l’indexation des documents. Les outils de text mining sont d’autant plus efficaces qu’ils connaissent les termes et expressions à chercher dans les documents. Les termes extraits seront rapprochés automatiquement du thésaurus pour déterminer le concept à utiliser. Il s’agit ici aussi d’enrichir les termes et expressions utilisées pour désigner un concept,  une entreprise, un produit, un lieu, une personne…

L’entreprise peut procéder en compilant des ressources internes existantes, ou en faisant une analyse systématique d’un corpus de documents représentatifs de l’activité afin d’en extraire le vocabulaire métier. Ces terminologies métier seront rapprochés de thésaurus existants ou à construire.

Nous devons assister les utilisateurs de notre portail dans sa navigation 

Nous devons suggérer des produits et contenus en fonction des recherches de l’utilisateur

Dans les deux cas l’utilisateur ne peut connaître la richesse des contenus du portail (documents, produits, réglementations, maladies…), il est utile de pouvoir lui proposer des liens le guidant de sujets en sujets, de lui proposer des informations complémentaires, ou de lui suggérer une réponse à sa recherche à partir d’un raisonnement sur sa demande.

Pour répondre à ces besoins, il est nécessaire d’établir des relations fines entre les sujets métiers décrits dans le thésaurus et les listes d’autorité. On établira une relation entre "sport nautique" et "gites ruraux" ayant le label "pêche", une relation entre une partie du corps et des infections, entre des infections et des molécules, entre une décision de justice et une réglementation, entre un produit et une thématique…

L’ensemble de ces relations (relations sémantiques car il est nécessaire de décrire finement les relations si l’on ne veut pas confondre "produits recommandés" avec "contre indication") viendront progressivement enrichir le référentiel d’origine pour construire une réelle description de connaissances sur le domaine d’activité.

Ces liens pourront être utilisés dans le portail comme

- de simples suggestions de navigation,  

- pour pousser automatiquement des contenus dans la page,  

- pour proposer un ensemble de contenus intelligemment choisi en fonction de quelques informations données par l’utilisateur (proposer automatiquement un package "week end dans la Nièvre" pour quelqu’un qui veut se détendre, pas trop loin de Paris et avec un budget raisonnable).

Nous devons avoir une indexation très riche des contenus à partir de très peu d’information de base

Nous indexons des images de sport, de télé, d’imagerie médicale…, il est hors de question que quelqu’un remplisse toutes ces données d’indexation dont nous avons pourtant absolument besoin pour la recherche et le filtrage dans le portail, comment enrichir automatiquement à partir d’une saisie minimale ?

Le système de text mining extrait peu d’information, principalement des noms de personnne, de sociétés et de produits, ca ne suffit pas du tout pour notre indexation qui est beaucoup plus riche.

L’idée est ici de confier au référentiel le soin de déduire du peu d’information fournie toutes les autres données d’indexation. En donnant le nom de l’émission de télé et la date, le système devra déduire le producteur, la chaîne de télévision, le présentateur, les droits de rediffusion par pays, la thématique de l’émission.

On enrichira ici le référentiel pour le transformer en une véritable base de connaissance du domaine, avec l’ensemble des liens entre les sujets (telle émission est produite par TF1, animée par Ruquiet, traite des sujets de sociétés et spectacle…), et avec les capacités d’inférer toutes les métadonnées à partir d’une simple information de départ comme le nom de l’émission.

Conclusion

On remarque deux types d’évolution et d’enrichissement des thésaurus :

- un enrichissement de la terminologie métier autour des concepts utilisés pour décrire le domaine,

- un enrichissement des relations entre les concepts du domaine pour former une véritable représentation des connaissances

On remarque aussi le transfert progressif de services habituellement rendus par un humain vers les machines. 

  • La documentaliste ou l’expert métier sont capables à partir d’une information partielle de réaliser une indexation complète du contenu sur un système de classement complexe et formel, ils sont aussi capables de rapprocher automatiquement les expressions utilisées dans un document aux concepts utilisés dans l’entreprise pour la classification.
  • Le vendeur, la documentaliste, l’expert sont capables de comprendre une question d’un utilisateur, de la transcrire dans la représentation utilisée pour la classification des contenus, d’effectuer la recherche, mais aussi de suggérer à l’utilisateur des thèmes de recherche connexes, d’autres produits utiles, des contre indications, des suggestions de voyage…

Ce sont ces services que l’on transfère progressivement aux machines, en leur fournissant des terminologies et des représentations riches, détaillées et formelles de l’univers métier.


[Press Release] Mondeca Announce ITM T3

janvier 24, 2008

Multi-lingual Taxonomy, Terminology and Thesaurus Server Eases Integration of Reference Vocabularies in Enterprise Information Systems

T3 BOX cropped

Mondeca S.A., a leader in applying semantic technology to help organizations gain maximum return from their accumulated knowledge and content, today announced the forthcoming release of ITM T3, a collaborative server based environment for the creation, maintenance and sharing of multi-lingual taxonomies, terminologies and thesauri.

ITM T3 is based on Mondeca’s Intelligent Topic Manager semantic software platform, already in use by large organizations including Thomson, LexisNexis, Lafarge and Wolters Kluwer. ITM T3 will allow enterprises and organizations to manage reference vocabularies and make them interoperable with other information system applications such as search engine, text mining, translation and classification tools. Reference taxonomies and vocabularies may also be published in standard formats including XML, RDF, SKOS and Topic Maps.

“Organizations recognize the importance of reference taxonomies and thesauri to the provision of efficient content access and metadata management”, says Jean Delahousse, CEO of Mondeca. “Using ITM T3 enterprises can quickly and easily create internal reference taxonomies and map them to external partner or standard taxonomies to facilitate information sharing across corporate boundaries”.

Read the full press release at http://www.mondeca.com/index.php/en/news/mondeca_announce_itm_t3


Un moteur de transformation RDF basé sur SPARQL (2)

janvier 19, 2008

[la suite du billet précédent sur le manque d'outil pour effectuer des transformations sur un graphe RDF, et la pertinence de cette opération pour l'échange de données.]

Pourquoi faire ?

La problématique est la suivante : je veux échanger des données exprimées en RDF, d’un système de départ à un système d’arrivée; les ontologies de départ et d’arrivée sont différentes, je dois donc transformer les données de départ pour construire un graphe conforme à l’ontologie d’arrivée. Il sera possible que seule une partie m’intéresse, et que toute l’information ne soit pas transformée.

Chaque opération de transformation est exprimée sous la forme d’une requête CONSTRUCT en SPARQL (1), qui permet de construire un pattern dans le graphe d’arrivée en fonction d’un pattern dans le graphe de départ; la requête s’exécute sur le graphe de départ, et ses résultats sont insérés dans le graphe d’arrivée.

Il suffit donc de décrire les requêtes SPARQL à exécuter à chaque opération. A l’usage, un peu de "sucre syntaxique" ne sera pas complètement inutile; certaines opérations de transformations vont en effet souvent revenir, et des raccourcis pour les écrire seront les bienvenus :

  • recopier tous les statements RDF qui ont un prédicat donné (typiquement recopier tous les rdfs:label);
  • recopier tous les statements rdf:type qui ont une certaines valeur, éventuellement en changeant cette valeur si elle n’est pas dans mon ontologie d’arrivée;
  • etc;

Et maintenant… un exemple. Lire la suite »


Gestion d’une terminologie d’entreprise : utilisations, enjeux et différentes formes d’organisation

octobre 10, 2007

L’accès efficace aux contenus et connaissances au sein de l’entreprise, à destination de ses clients ou de ses partenaires est un enjeu de tous les jours. Intranet, sites internet, accès aux documentations techniques, centres d’appel, partage de connaissances, réutilisation de contenus, partage de contenus avec les filiales étrangères, veille économique et technique sont autant de facettes de cette problématique unique.

Les investissements pour répondre à ces enjeux sont nombreux et souvent dispersés : moteurs de recherche, portails, intranets, systèmes de gestion documentaire, outils de texte mining, outils d’aide à la traduction, bases de connaissance. Tous ces outils participent à l’acquisition des connaissances, des contenus, à leur organisation et à leur accès.

L’efficacité des solutions mises en œuvre reposent en grande partie sur l’utilisation de terminologies métier propre à l’entreprise permettant de définir, classer, filtrer et naviguer dans les contenus et connaissances de l’entreprise. Les outils spécialisés dans la gestion de la terminologie des entreprises permettent aujourd’hui une unification de la gestion de la terminologie de l’entreprise, sa gestion au jour le jour et l’alimentation régulière des différents outils.

L’objectif de cette présentation est de décrire les apports d’une terminologie d’entreprise dans le processus de rédaction, capitalisation, organisation et accès aux contenus et connaissances.

Lire la suite »


Suivre

Recevez les nouvelles publications par mail.