Genèse des Systèmes d’Organisation de la Connaissance

avril 22, 2010

Depuis le début des peintures rupestres jusqu’à aujourd’hui, la transmission de connaissances n’a eu de cesse de s’organiser afin d’améliorer l’accès à l’information véhiculée. Dès la préhistoire, les peintures dans les grottes s’organisaient selon l’histoire qu’elles racontaient, puis se sont réparties en trois zones spatiales (l’entrée, la zone de passage et le fond) de la grotte, aux environs de 12000 avant notre ère.

Les premières apparitions de structurations après l’invention de l’écriture picto-idéographique en -4000 étaient des tableaux à buts administratifs, suivi en -800 des premiers catalogues avec un classement thématique. C’est au premier siècle avant notre ère qu’apparait la première encyclopédie « Antiquitates rerum humanarum et divinarum » de Varron présentant un classement systématique qui décrit, en 41 livres, l’histoire de l’Italie et de ses habitants. La première classification bibliothécaire apparaît au XVIe siècle avec une proposition de classification Universelle des œuvres passées et présentes.

Il faut attendre le début du XVIIe siècle à Londres pour voir apparaître une terminologie, dans le domaine médical. Celle-ci sert à recenser, de manière hebdomadaire, les cas de mort selon leurs causes au moyen de 44 termes comme « Peste, étouffé, subitement ou arrêt de l’estomac ». Les premières apparitions de collections de mots structurés selon leurs sens datent du XIXe siècle et sont nommées « thésaurus » par Rodget dans le « Thesaurus of English Words and Phrases ».

La dernière révolution majeure se passe dans les années 1960 avec l’apparition de l’informatique. Les recherches portent alors sur les techniques automatiques de recherche d’information linguistique (centrée sur le terme) mais également sémantique (centrée sur le concept) . L’utilisation des thésaurus devient alors une évidence. Ces réflexions sont même à l’origine des liens hypertexte qui permettent de relier des notions ayant un sens proche ou connexe. Suite à l’utilisation de l’outil informatique, le monde de la documentation se divise en deux pratiques (i) celle des bibliothèques qui utilisent les classifications et les listes de mots-vedettes et (ii) les centres de documentation qui développent des thésaurus permettant d’indexer automatiquement des documents.

L’intention de ces nouvelles organisations qui capturent de la sémantique, est de se rapprocher du fonctionnement non linéaire des idées dans la pensée humaine. Cette possibilité nourrit l’ambition de construire une unique ontologie décrivant formellement les concepts régissant le monde par analogie à l’Ontologie en philosophie ( étude des propriétés générales de tout ce qui est). La validité d’une telle ontologie est toutefois vite remise en question. Comme tout fruit de modélisation, cette ontologie est limitée par les outils de modélisation (expressivité du langage de représentation), les connaissances implicites (émotions, connaissances communes inconscientes, éducation, langue, etc.) qui participent néanmoins à la description du monde. Dans les années 1990, l’utilisation des ontologies en informatique se veut pragmatique et accepte la définition communément admise de Tom Gruber limitant sa validité à un domaine spécifique et dans un but donné.

Les thésaurus et ontologies capturent tous deux de la sémantique, mais leur engagement formel est différent : alors que les thésaurus reposent sur quelques notions formelles telle que la subsomption, les ontologies utilisent l’expressivité d’un langage formel mathématique. Cette différence influe directement sur l’utilisation que l’on aura de ces référentiels.

L’informatique a énormément changé la conception, la maintenance et l’utilisation des systèmes d’organisation de la connaissance. Leur nombre et leur volume ont considérablement augmenté ces dernières décennies. Cet outil permet de réaliser des manipulations automatiques complexes qui produisent des résultats jusqu’alors impensables comme la déduction automatique de nouvelles connaissances. Il reste toutefois de grands progrès à effectuer pour approcher le fonctionnement de l’information dans la pensée humaine.

Longue vie aux référentiels !

Références:

Chronologie des supports, des dispositifs spatiaux, des outils de repérage de l’information : http://biblio-fr.info.unicaen.fr/bnum/jelec/Solaris/d04/4fayet_1tab.html

Gruber, T.R., Towards Principles for the Design of Ontologies Used for Knowledge Sharing in Formal Ontology in Conceptual Analysis and Knowledge Representation, Kluwer Academic Publishers, 1993

Charlet, J., L’Ingénierie des connaissances : développements, résultats et perspectives pour la gestion des connaissances médicales, Université Paris 6, 2002


Comment installer OWLIM dans Sesame – et jouer avec

octobre 29, 2008

Une des choses frustrante quand vous travaillez dans les technologies du web sémantique c’est que leur intérêt n’est pas facile à expliquer à des techniciens qui ont l’habitude de travailler sur des applications fermées, des bases de données, et du XML; exemple :

« RDF ? hé bien tu vois, c’est un peu comme du XML mais en mieux… »

« OWL ? hé bien tu vois, c’est un peu comme un schéma de base de données mais en mieux… »

« Les données ouvertes ? hé bien tu vois, tu peux partager tes données sur le web et les lier aux autres données existantes pour… comment ça tu t’en fiche ? »

Bref. Lire le reste de cette entrée »


pourquoi les thésaurus et taxonomies évoluent ? et comment ?

septembre 29, 2008

Il y a quelque jour un journaliste me posait des questions sur les thésaurus, j’ai essayé de lui expliquer au mieux les évolutions en cours, je pense que c’était un peu confus. Un court essai pour essayer de mieux comprendre comment et pourquoi les thésaurus et systèmes de classification évoluent rapidement et quels sont les besoins très pragmatiques qui les font évoluer.

Nous avons besoin d’un outil de recherche plein texte plus efficace et précis 

L’entreprise dispose de terminologies permettant de décrire son domaine et d’indexer des documents, il s’agit d’un vocabulaire métier assez pointu et fermé (juridique, médical, scientifique, gestion des retraites…) mais ou chaque concept peut, selon le public, être exprimé avec des termes un peu différents. L’idée est d’enrichir le vocabulaire métier avec toutes les expressions répertoriées pour désigner les concepts métiers. Le thésaurus existant est enrichi de ces termes et l’on suit avec attention les statistiques de recherche sur le moteur pour capturer les expressions utilisées lors des recherches et continuer d’enrichir la terminologie associée aux thésaurus / référentiels.

Nous implémentons un outil de text mining pour automatiser (assister) le processus d’indexation des contenus

L’entreprise veut automatiser l’indexation des documents. Les outils de text mining sont d’autant plus efficaces qu’ils connaissent les termes et expressions à chercher dans les documents. Les termes extraits seront rapprochés automatiquement du thésaurus pour déterminer le concept à utiliser. Il s’agit ici aussi d’enrichir les termes et expressions utilisées pour désigner un concept,  une entreprise, un produit, un lieu, une personne…

L’entreprise peut procéder en compilant des ressources internes existantes, ou en faisant une analyse systématique d’un corpus de documents représentatifs de l’activité afin d’en extraire le vocabulaire métier. Ces terminologies métier seront rapprochés de thésaurus existants ou à construire.

Nous devons assister les utilisateurs de notre portail dans sa navigation 

Nous devons suggérer des produits et contenus en fonction des recherches de l’utilisateur

Dans les deux cas l’utilisateur ne peut connaître la richesse des contenus du portail (documents, produits, réglementations, maladies…), il est utile de pouvoir lui proposer des liens le guidant de sujets en sujets, de lui proposer des informations complémentaires, ou de lui suggérer une réponse à sa recherche à partir d’un raisonnement sur sa demande.

Pour répondre à ces besoins, il est nécessaire d’établir des relations fines entre les sujets métiers décrits dans le thésaurus et les listes d’autorité. On établira une relation entre « sport nautique » et « gites ruraux » ayant le label « pêche », une relation entre une partie du corps et des infections, entre des infections et des molécules, entre une décision de justice et une réglementation, entre un produit et une thématique…

L’ensemble de ces relations (relations sémantiques car il est nécessaire de décrire finement les relations si l’on ne veut pas confondre « produits recommandés » avec « contre indication ») viendront progressivement enrichir le référentiel d’origine pour construire une réelle description de connaissances sur le domaine d’activité.

Ces liens pourront être utilisés dans le portail comme

– de simples suggestions de navigation,  

– pour pousser automatiquement des contenus dans la page,  

– pour proposer un ensemble de contenus intelligemment choisi en fonction de quelques informations données par l’utilisateur (proposer automatiquement un package « week end dans la Nièvre » pour quelqu’un qui veut se détendre, pas trop loin de Paris et avec un budget raisonnable).

Nous devons avoir une indexation très riche des contenus à partir de très peu d’information de base

Nous indexons des images de sport, de télé, d’imagerie médicale…, il est hors de question que quelqu’un remplisse toutes ces données d’indexation dont nous avons pourtant absolument besoin pour la recherche et le filtrage dans le portail, comment enrichir automatiquement à partir d’une saisie minimale ?

Le système de text mining extrait peu d’information, principalement des noms de personnne, de sociétés et de produits, ca ne suffit pas du tout pour notre indexation qui est beaucoup plus riche.

L’idée est ici de confier au référentiel le soin de déduire du peu d’information fournie toutes les autres données d’indexation. En donnant le nom de l’émission de télé et la date, le système devra déduire le producteur, la chaîne de télévision, le présentateur, les droits de rediffusion par pays, la thématique de l’émission.

On enrichira ici le référentiel pour le transformer en une véritable base de connaissance du domaine, avec l’ensemble des liens entre les sujets (telle émission est produite par TF1, animée par Ruquiet, traite des sujets de sociétés et spectacle…), et avec les capacités d’inférer toutes les métadonnées à partir d’une simple information de départ comme le nom de l’émission.

Conclusion

On remarque deux types d’évolution et d’enrichissement des thésaurus :

– un enrichissement de la terminologie métier autour des concepts utilisés pour décrire le domaine,

– un enrichissement des relations entre les concepts du domaine pour former une véritable représentation des connaissances

On remarque aussi le transfert progressif de services habituellement rendus par un humain vers les machines. 

  • La documentaliste ou l’expert métier sont capables à partir d’une information partielle de réaliser une indexation complète du contenu sur un système de classement complexe et formel, ils sont aussi capables de rapprocher automatiquement les expressions utilisées dans un document aux concepts utilisés dans l’entreprise pour la classification.
  • Le vendeur, la documentaliste, l’expert sont capables de comprendre une question d’un utilisateur, de la transcrire dans la représentation utilisée pour la classification des contenus, d’effectuer la recherche, mais aussi de suggérer à l’utilisateur des thèmes de recherche connexes, d’autres produits utiles, des contre indications, des suggestions de voyage…

Ce sont ces services que l’on transfère progressivement aux machines, en leur fournissant des terminologies et des représentations riches, détaillées et formelles de l’univers métier.


Carto 2.0 : Mondeca sera présent !

mars 21, 2008

“Où en êtes-vous de la mise en scène de vos informations ?”

Face à la quantité d’information sans cesse croissante que les organisations sont contraintes de gérer, leur mise en scène au travers de représentations graphiques permet de mieux les appréhender et les valoriser. Intelligence économique, gestion des connaissances, apprentissage, réseaux sociaux, aide à la décision sont autant de domaines où la cartographie de l’information est de plus en plus populaire car elle permet en amont d’organiser et d’appréhender des données, puis en aval d’évaluer et de communiquer les résultats obtenus. Cette journée sera donc l’occasion de mettre en valeur le rôle majeur que peux jouer la cartographie dans nos sociétés dîtes de l’information.


Jean Delahousse, fondateur de la société Mondeca, interviendra sur le thème : « Cartographie et Ontologie : Généricité, réutilisabilité et spécificité »

Il présentera comment il est possible dans le contexte des technologies du Web Sémantique et des ontologies, de disposer de composants de représentation cartographique des connaissances réutilisables dans des contextes métiers très diverses. Lire le reste de cette entrée »


Mondeca et les ontologies sur videolectures.net

février 22, 2008

2 vidéos de présentations réalisées par Jean Delahousse ont été enregistrées sur videolectures.net .

  1. La première a été enregistrée à l’ESWC06 (3rd Annual European Semantic Web Conference), et a pour thème l’utilisation des ontologies dans le domaine de l’édition juridique :


    Use of Ontology for production of access systems on Legislation Jurisprudence and Comments
  2. Et la seconde lors de la réunion du projet européen TAO (Transitionning Applications to Ontologies) auquel Mondeca participe, et qui a pour thème l’utilisation des ontologies dans le domaine du tourisme, et les enjeux de la transition vers des systèmes à base d’ontologies :


    WP8: Exploitation and Dissemination

[Press Release] Mondeca Announce ITM T3

janvier 24, 2008

Multi-lingual Taxonomy, Terminology and Thesaurus Server Eases Integration of Reference Vocabularies in Enterprise Information Systems

T3 BOX cropped

Mondeca S.A., a leader in applying semantic technology to help organizations gain maximum return from their accumulated knowledge and content, today announced the forthcoming release of ITM T3, a collaborative server based environment for the creation, maintenance and sharing of multi-lingual taxonomies, terminologies and thesauri.

ITM T3 is based on Mondeca’s Intelligent Topic Manager semantic software platform, already in use by large organizations including Thomson, LexisNexis, Lafarge and Wolters Kluwer. ITM T3 will allow enterprises and organizations to manage reference vocabularies and make them interoperable with other information system applications such as search engine, text mining, translation and classification tools. Reference taxonomies and vocabularies may also be published in standard formats including XML, RDF, SKOS and Topic Maps.

“Organizations recognize the importance of reference taxonomies and thesauri to the provision of efficient content access and metadata management”, says Jean Delahousse, CEO of Mondeca. “Using ITM T3 enterprises can quickly and easily create internal reference taxonomies and map them to external partner or standard taxonomies to facilitate information sharing across corporate boundaries”.

Read the full press release at http://www.mondeca.com/index.php/en/news/mondeca_announce_itm_t3


Gestion d’une terminologie d’entreprise : utilisations, enjeux et différentes formes d’organisation

octobre 10, 2007

L’accès efficace aux contenus et connaissances au sein de l’entreprise, à destination de ses clients ou de ses partenaires est un enjeu de tous les jours. Intranet, sites internet, accès aux documentations techniques, centres d’appel, partage de connaissances, réutilisation de contenus, partage de contenus avec les filiales étrangères, veille économique et technique sont autant de facettes de cette problématique unique.

Les investissements pour répondre à ces enjeux sont nombreux et souvent dispersés : moteurs de recherche, portails, intranets, systèmes de gestion documentaire, outils de texte mining, outils d’aide à la traduction, bases de connaissance. Tous ces outils participent à l’acquisition des connaissances, des contenus, à leur organisation et à leur accès.

L’efficacité des solutions mises en œuvre reposent en grande partie sur l’utilisation de terminologies métier propre à l’entreprise permettant de définir, classer, filtrer et naviguer dans les contenus et connaissances de l’entreprise. Les outils spécialisés dans la gestion de la terminologie des entreprises permettent aujourd’hui une unification de la gestion de la terminologie de l’entreprise, sa gestion au jour le jour et l’alimentation régulière des différents outils.

L’objectif de cette présentation est de décrire les apports d’une terminologie d’entreprise dans le processus de rédaction, capitalisation, organisation et accès aux contenus et connaissances.

Lire le reste de cette entrée »