Données, Information, Connaissance… et champignons ?

novembre 28, 2006

Croyez-vous (crois-tu, Bernard ?) en la noosphère, cette conscience collective de l’humanité, dans laquelle les idées circulent librement d’un cerveau à l’autre, captées par nos inconscients, créant ainsi modes, courants intellectuels, et tendances ? Me croyez-vous si je dis que je préparais un article justement intitulé… « Data, Information… and Knowledge ? », expliquant les mêmes idées que celui-ci trouvé par Bernard dans un précédent post ?

Encore que, à bien y réfléchir, ce n’étaient pas exactement les mêmes idées, même si le découpage (somme toute classique) « Données / Information / Connaissance » était le même. L’un de mes anciens professeurs de l’UTC, Jean-Paul Barthes, dans cette description condensée du domaine du « Knowledge Management », décrit en effet un point de vue légèrement différent de celui des technologies de l’information, que je n’hésite pas à reprendre à mon compte, en m’essayant à la comparaison des deux points de vue.

Le premier, décrit dans l’article de SemanticWeb.org pointé plus haut, est celui de la technologie de l’information, presque du programme informatique, dont on pourrait résumer les étapes comme suit :

  • un programme reçoit un fichier (de la data, suite de 0 et de 1)
  • une syntaxe (XML) permet au programme de parser le fichier
  • une sémantique (Dublin Core) lui permet de trouver l’information de date de modification du fichier (à ce stade, le programme est passé de la data à l’information)
  • Puisque le but du programme est de rechercher les documents ayant la date de modification la plus récente, une comparaison est faite entre les documents A et B, pour trouver que B a une date de modification plus récente que A.
  • Le programme en déduit donc que B a un contenu plus récent que A (à ce stade, le programme est passé de l’information à la connaissance).

C’est dans cette dernière étape que réside d’après moi la faiblesse de cette description. En effet, dire que B a un contenu plus récent que A n’est pas une connaissance, c’est toujours une information, certe contextualisée entre 2 entités, mais qui reste au stade de l’information. Ce qui a été réalisé ici est une inférence, une déduction, la création d’une nouvelle information. On confond ici connaissance et inférence.

L’autre point de vue, celui de Barthes, est plus généraliste. Je reprend ici son exemple :

  • Je pars à la cueillette des champignons en forêt. Je ramène un plein panier de champignons (de la data)
  • De retour à la maison, je consulte des livres sur les champignons dans le but d’identifier les champignons que j’ai ramenés (et de savoir s’ils sont comestibles ou pas !). J’y trouve 3 descriptions de champignon toutes très similaires à ceux de mon panier. J’ai donc traité et contextualisé la donnée (je sais qu’il y a 3 descriptions candidates possibles, que les autres descriptions ne correspondent pas, que sur les 3 descriptions possibles 1 seule est comestible, etc…). A ce stade, la donnée contextualisée est devenue une information.
  • Cependant, l’information en ma possession ne me permet pas encore de savoir si mes champignons sont comestibles ou pas, puisque sur les 3 descriptions trouvées, 1 seule est dite comestible (les autres causant d’horribles maux de ventre…). Pour déterminer cela, je me rend chez mon pharmacien, qui saura me dire (en fonction de ses connaissances) si mes champignons sont comestibles. Au fil des années, en continuant à ramasser des champignons régulièrement, j’intégrerai moi aussi cette connaissance, en faisant passer des informations dans mon système de valeurs (mon histoire, mes jugements, mon environnement, mes buts, mes peurs, etc…), passant ainsi de l’information à la connaissance.

De la donnée contextualisée donne de l’information, et de l’information intégrée par une personne dans son système de valeurs devient de la connaissance. En conséquence de quoi :

  1. ce qui s’échange entre 2 personnes (ou 2 systèmes) est toujours de l’information
  2. la connaissance reste toujours propre à une personne

Dans cette stricte perspective, parler de « systèmes de gestion de connaissances » ou de « bases de connaissances » est donc abusif (à moins de savoir transférer dans une machine un système de valeurs et de jugements…). Tout au plus peut-on parler d’information fortement structurée, fortement contextualisée, et présentée de manière sensible à l’utilisateur du système de façon à ce qu’il se l’approprie facilement et qu’il en fasse sa propre connaissance.

Cette définition – je trouve – a le mérite de recadrer le concept de connaissance (légèrement galvaudé dans le domaine des technologies de l’information). Notez par exemple que, dans le cas du programme informatique plus haut, une personne regardant le contenu du document B pourrait savoir (par une foule d’indices étonnement complexes) qu’il n’est pas plus récent que le document A, même si sa date de modification dit le contraire; ou encore, elle pourrait très bien faire le choix de préférer un document plus vieux, là aussi pour une foules de raisons compliquées. Ca, c’est de la connaissance.

A bien y regarder, les deux définitions ne sont pas si éloignées l’une de l’autre (on pourrait dire que le livre sur les champignons fait office à la fois de syntaxe et de sémantique par rapport au panier de champignons); simplement, elle ne s’entendent pas sur ce que veux dire « connaissance »; pour l’une, c’est une requête informatique, pour l’autre, c’est indissociable de la personne humaine.

Publicités

Le tissage de la Toile

novembre 27, 2006

Weaving the Web est bien sûr le titre du fameux livre de Tim Berners-Lee sur le passé, le présent et l’avenir du Web dont il inventa le concept, et dont il continue à contribuer à l’histoire. Une histoire qui a déjà – seulement – quinze ans. On a du mal à le croire en effet aujourd’hui, mais alors que le premier serveur Web était mis en service au CERN, l’Allemagne était déjà réunifiée, le télescope spatial Hubble déjà en service, et les premiers hommes sur la Lune un souvenir déjà vieux de plus de 20 ans.

Le tissage du Web commence donc à peine malgré les dimensions respectables de l’édifice déjà construit, et en particulier le tissage du Web sémantique. Il faut bien avoir en tête qu’il ne s’agit pas de tissage régulier, avec trame et chaîne, mais de tissage méthode araignée. On part de quelques points d’appui évidents dans l’univers solide, on lance de façon hardie quelques liens dans le vide entre ces points, et sur ces bases encore un peu indécises une structure plus méthodique va se construire. Et ce en dépit des plans totalement irréalistes, pour ne pas dire totalitaires, de ceux qui rêvaient de voir le Web s’organiser à partir d’une ontologie globale de référence.

Quels sont donc les points d’ancrage du Web sémantique? Des vocabulaires décrivant non pas les concepts très abstraits de la Upper Ontology, mais des utilitaires comme FOAF, SIOC, DOAP, qui définissent des concepts de la vie courante comme Personne, Organisation, Document, Projet, Lieu … et sont typiquement liés à la construction de communautés. Les liens entre ces points d’ancrage sont en cours de construction, avec la problématique de savoir comment les concepts définis ici se raccordent ou s’identifient à ceux définis là. Dans ce processus, une question critique commence à être abordée de front, celle des représentations différentes de concepts considérés malgré tous comme plus ou moins « les mêmes ». Exprimer qu’on parle de la même chose est beaucoup plus compliqué qu’il n’y parait à première vue, et la notion de « même » supporte bien des nuances que le Web sémantique commence à découvrir. Voir par exemple cette discussion ou celle-là.


SemanticWeb.org : le retour

novembre 15, 2006

SemanticWeb.org était il y a quelques années une mine d’information sur le Web Sémantique, ses concepts, ses outils, ses projets. Puis le site était un peu tombé à l’abandon. Le voici de retour avec un look et un programme résolument Web 2.0 : le site se présente toujours comme le Semantic Web Community Portal (Portail de la Communauté Web Sémantique) et annonce qu’il compte devenir (à une échéance non précisée) un Semantic Social Networking Service. La densité de buzzwords dans cette dernière expression semble trop forte pour tenter une traduction, mais essayez toujours de placer Service de Réseautage Social Sémantique dans une conversation branchée. Si vous avez des doutes sur réseautage pour traduire networking, ne cherchez pas dans votre dictionnaire, je viens de découvrir ce néologisme dans Wikipedia, ici et .

Cela dit le contenu de SemanticWeb.org est pour l’instant fort réduit, mais le seul article publié sous le titre Data – Information – Knowledge est une excellente introduction à ces choses fort difficiles à décrire, et pour le coup très loin de la langue de bois qu’on pouvait craindre en lisant les remarques ci-dessus. Court, clair, aussi simple que possible, mais pas plus simple, et illlustré par de nombreux exemples.

Donc, pour cette nouvelle version, une mention : Débuts prometteurs, continuez.


Knowledge is Music (et vice-versa) (0)

novembre 14, 2006

J’ai lu il y a quelques jours dans le magazine Inside Knowledge, édition de septembre 2006, un extrait du livre The Organizational Zoo : A Survival Guide to Workplace Behavior, qui dresse un parallèle entre la musique et la gestion de connaissances dans le monde de l’entreprise, je recopie :

 »
Music is written, recorded, filed, archived, accessed, performed and used in many ways by different people for different reasons.
We may participate as writer, performer, teacher, critic or just as a listener. We can be influenced by others or be divergent in what we deliver. Music/knowledge can be done very well or very badly by individuals, small or large groups.
In very large groups it usually involves some common documentation in an understood format and structure so that each person knows what part he or she is responsible for and at what stage. The oboe may not always be heard but it intermittently contributes to the harmony, only occasionnally in evidence as a a solo. Trombones, on the other hand, are usually heard every time they contribute.
(…)
Music can be categorised, used, experienced, enjoyed or hated very differently depending on who we are, what we want from it and in what situations we find ourselves.
No wonder we can never agree on what music/knowledge is. It is a thing, a process and a range of other things depending upon our individual perspective. It becomes something different just through our involvment with it. Because we are all doing different things with our music and engaging it with entities differently, we can never collectively agree on exactly what it is.
 »

Le parallèle est intéressant et pour le moins original, et permet de faire émerger des idées. C’est en tous cas une bonne introduction, car on peut comparer la gestion de connaissances à la musique, mais on peut aussi l’appliquer à la musique… c’est ce que je vais essayer de faire, dans un exemple concret de mise en application d’une base de connaissances… à suivre…


Wiki et Sémantique : marions-les, marions-les …

novembre 10, 2006

Découvert hier sur Planète Web Sémantique cet excellent billet présentant en détail l’intégration des technologies sémantiques aux technologies Wiki – et en français, chose assez rare pour être soulignée. L’auteur est ébloui à juste titre par ce beau mariage, mais ce qu’il ne dit pas, c’est qu’il s’agit là de la chronique d’un événement anoncé, qu’un observateur attentif aurait vu venir de loin.

J’ai déjà expliqué ailleurs (mais en anglais cette fois) que si ce mariage semble voué d’avance à la réussite, c’est que les futurs époux avaient déjà bien des choses en commun avant de se rencontrer. En effet les Wiki ont toujours fait de la sémantique sans le savoir, ou du moins sans le dire. J’ai découvert la technologie Wiki à la fin des années 1990 sur le WikiWikiWeb original de Ward Cunnigham, qui mérite encore la visite, tant par son contenu que pour sa forme, qui est restée identique depuis plus de dix ans. Bien sûr elle n’offre pas le luxe de fonctionnalités aujourd’hui disponible à l’éditeur de Wikipedia (que je suis de façon intermittente depuis sa création). Ce qui m’avait séduit à l’époque, autant sinon plus que le côté sympa-anarcho-collaboratif de la technologie, c’étaient ses principes architecturaux simplissimes, et fondamentalement sémantiques s’il en est.

  • Une page pour chaque chose, une chose pour chaque page, un nom unique pour la chose et la page. Pour employer la terminologie des Topic Maps, chaque page d’un Wiki est par définition, et de façon native, un indicateur de sujet. Que dit le Web Sémantique? « Donnez une URI à chaque chose, et documentez-là ». La technologie Wiki fait les deux choses de façon automatique, en tâche de fond du travail de l’éditeur.
  • Nommer, c’est relier. Soulignez le nom de la chose par un marquage spécifique, et il se transforme en lien vers la page de la chose. Que dit le Web sémantique? « Une URI est à la fois un nom et une adresse ». Le marquage Wiki associe les deux de façon automatique.

Ces principes se sont avérés robustes et scalables, comme le montre la croissance phénoménale de Wikipedia (taille de la base, nombre de collaborateurs et de requêtes, évolution des fonctionnalités). Se sont ajoutés au fil du temps des fonctionnalités comme la catégorisation, les pages d’homonymie, les modèles de métadonnées associées à une catégorie, etc …

Mais au fond que manquait-il au wiki, qu’il soit classique comme celui de Ward, ou plus sophistiqué comme Wikipedia, pour être prêt à la migration vers RDF? Simplement le typage des liens. Le type de marquage utilisé par les wiki sémantiques pour typer les liens ressemble furieusement à une variante de RDFa simplement adaptée à la syntaxe habituelle des wiki.