Carto 2.0 : Mondeca sera présent !

mars 21, 2008

“Où en êtes-vous de la mise en scène de vos informations ?”

Face à la quantité d’information sans cesse croissante que les organisations sont contraintes de gérer, leur mise en scène au travers de représentations graphiques permet de mieux les appréhender et les valoriser. Intelligence économique, gestion des connaissances, apprentissage, réseaux sociaux, aide à la décision sont autant de domaines où la cartographie de l’information est de plus en plus populaire car elle permet en amont d’organiser et d’appréhender des données, puis en aval d’évaluer et de communiquer les résultats obtenus. Cette journée sera donc l’occasion de mettre en valeur le rôle majeur que peux jouer la cartographie dans nos sociétés dîtes de l’information.


Jean Delahousse, fondateur de la société Mondeca, interviendra sur le thème : « Cartographie et Ontologie : Généricité, réutilisabilité et spécificité »

Il présentera comment il est possible dans le contexte des technologies du Web Sémantique et des ontologies, de disposer de composants de représentation cartographique des connaissances réutilisables dans des contextes métiers très diverses. Lisez la suite de cette entrée »


“De tribus maximis circumstantiis gestorum” Hugues de Saint-Victor (vers 1135)

mai 1, 2007

* Traduit du latin en français par Diane Meur - extrait publié dans ”Le livre de la Mémoire - La mémoire dans la culture médiévale” Mary Carruthers - Ed Macula - Collection ARGO

Une description vivante, précise et pédagogique de méthodes d’indexation de savoirs, d’annotation sémantique de briques de contenus réutilisables, de modélisation d’une base de données historique comme support à une capitalisation de connaissances, de l’importance de la représentation visuelle.

La mémoire humaine était l’outil de travail de Hugues de Saint-Victor et son élève, le mémoire électronique est le notre mais les méthodes dont on trouve la filiation dans la réthorique romaine restent bien semblables. - Jean Delahousse

 

Mon fils, le savoir (sapienta) est un trésor (thesaurus) et ton cœur son coffre-fort (archa). En l’acquérant, thésaurises-en les bons trésors, les trésors immortels et incorruptibles qui jamais de vieillissent ni ne perdent de leur éclatante apparence. Dans les trésors du savoir se trouvent diverses richesses, et le coffre de ton cœur renferme de nombreux compartiments. Ici est déposé l’or, là l’argent, ailleurs encore les pierres précieuses. Leur disposition ordonnée éclaire la connaissance. Range-les et distingue-les chacun dans leurs lieux respectifs, les uns avec les uns et les autres avec les autres, afin de savoir ce que chaque lieu abrite. Si la confusion est mère de l’ignorance et de l’oubli, la séparation éclaire l’intelligence et affermit la mémoire.

Tu le vois : le changeur qui détient divers monnaies divise son unique bourse en multiples poches, qui sont comme les nombreuses cellules d’un même cloître. Car, ayant trié son pécule et successivement séparé chaque monnaie, il la range à sa place pour la conserver, puis cette répartition spatiale (distincion locurum), de même qu’elle permet de trier les objets, les garde à l’abri de tout mélange. Ensuite, pendant le change, tu observes l’aisance avec laquelle sa main rapide se dirige dans tel ou tel endroit que lui a désigné la volonté de son client, et aussitôt disposes séparément et sans confusion tout ce qu’il a demandé à recevoir ou s’est engagé à donner. Et il offrirait sans doute un spectacle ridicule et plutôt surprenant si son unique sacoche, déversant au dehors tant d’espèces sans les mélanger, ne laissait voir en son dedans, une fois ouverte, le même nombre de cavités internes. Cette séparation (discretio) des lieux, qu’elle laisse voir,  ôte à l’action tout mystère pour ceux qui l’observent, et toute difficulté pour ceux qui l’effectuent.

Comme nous l’avons déjà dit, c’est en effet la séparation des choses qui rende celles-ci visibles (discretio rerum evidentiam facit). Et cette visibilité éclaire l’esprit quand il s’agit de les connaître, tout en l’affermissant quand il s’agit de s’en souvenir (Evidentio vero rerum animum siml et in agnitione illuminat et in meria confirmat). Retourne donc, mon fils, à ton cœur (Redi (…) ad cor tuum), et examine de quelle façon tu dois y ranger et disposer les précieux trésors du savoir afin de bien connaître la place de chacun ; et, quand tu y mettras quelque chose en dépôt, fais le selon un ordre qui, lorsque ta raison le désire, permette  ta mémoire de le retrouver, à ton intelligence de le comprendre et à ton éloquence de l’exprimer. Cet ordre, je te propose de le concevoir de la manière qui suit.

Les choses que tu apprends doivent être mentalement séparées selon trois critères : le nombre, le lieu, et le temps. Ainsi tu saisiras facilement et retiendras longtemps tout ce qui viendra à tes oreilles, si tu as appris à l’examiner selon cette triple distinction. Je vais te montrer par le menu comment y parvenir.

Voyons d’abord la séparation par nombre. Apprends à contempler en esprit une grille numérique, numérotée à partir de un et jusque aussi loin que tu voudras, comme si elle s’étendait sous les yeux de ton cœur. Ensuite, quand tu entendras mentionner n’importe quel nombre, prends l’habitude de porter promptement ta pensée là ou s’arrête sa somme,  au point culminant, en quelques sorte, où il se termine. Autrement dit, quand tu entends “dix”, contemple la dixième case (de la grille), quand tu entends “douze”, la douzième, en sorte d’embrasser en pensée la totalité du nombre à partir de son extrémité ; ainsi de suite. Rends-toi familières et habituelles cette pensée et ces représentations, afin de percevoir quasi visuellement l’extrémité, le terme de chaque nombre, comme s’il était rangé dans un emplacement séparé. Et je vais maintenant te montrer combien cette visualisation mentale (consideratio) est utile à l’apprentissage.

Mettons que je veuille apprendre par cœur, mot pour mot, le Psautier. Je procède ainsi : d’abord je regarde combien de psaumes il contient. J’en trouve cent cinquante. Je me pénètre ensuite de leur ordre, de façon à savoir quel est le premier, quel est le deuxième, quel est le troisième, etc. De cette façon je les range tous en bon ordre dans mon cœur selon une grille numérique, et, à mesure que je les nomme un par un à la place qui leur revient dans cette grille, je m’assure, en les prononçant à haute voix ou en les considérant mentalement, qu’ils sont bien tels que je les vois dans mon cœur : Beatus Vir est le premier psaume, Quare fremuerunt le deuxième, Domine quid multiplicati sunt le troisième; c’est à dire ; ce que je vois dans le premier, le deuxième, le troisième emplacement. Et cette visualisation (consideratio), je l’imprime dans mon cœur avec assez de vigilance pour pouvoir, lorsqu’on m’interroge, dire sans hésitation - soit en les citant dans l’ordre, soit en sautant un ou plusieurs, soit en les nommant en ordre inverse et à rebours de leur disposition usuelle - quel est le premier psaume, quel est le deuxième, voir le vingt-septième, le quarante-huitième, ou n’importe lequel d’entre eux. C’est bien ainsi que les Ecritures se sont fait connaître, et ils montrent, ceux qui, pour s’autoriser d’un psaume, ont dit : ceci est écrit dans le quarante-troisième, dans le soixante-quinzième, etc. Ou bien crois-tu par hasard que, chaque fois qu’ils voulaient désigner un psaume par son numéro, il leur fallait feuilleter les pages pour savoir, en reprenant
le compte du début, quel était leur numéro respectif ? Trop grand aurait été l’effort requis pour une telle tâche. C’est bien dans le cœur qu’ils en avaient la liste, et leur mémoire conservait le numéro et l’ordre de chacun comme ils les avaient appris.

Quand j’ai bien identifié tous les psaumes, dans chacun je fais pour le début des versets ce que j’ai fait à l’échelle du psautier pour le début des psaumes, et il m’est facile de retenir successivement toute la séquence des différents versets, maintenant qu’ayant divisé le livre par psaume puis chaque psaume par verset, j’ai rendu le matériau aussi bref et condensé qu’il était abondant. Et cela est aisé dans les Psaumes ou autres livres comprenant des divisions nettement déterminées. Quand la séquence de lecture est ininterrompue, il faut en revanche procéder artificiellement : au gré du lecteur bien sûr, lorsque cela lui paraîtra plus approprié, l’ensemble de la séquence sera d’abord divisé en parties nettement déterminées, lesquelles seront à leur tour subdivisées, et ainsi de suite jusqu’à ce que tout cet abondant matériau soir resserré au point que ses divers éléments puissent être facilement embrassés par l’esprit. Car la mémoire se réjouit toujours de la brièveté et du petit nombre, et c’est pourquoi il est nécessaire, quand la séquence de lecture tend à être longue, de la diviser tout d’abord en un petit nombre de segments, afin  que l’esprit (animus) puisse au moins appréhender numériquement ce qu’il ne peut appréhender spatialement, et qu’ensuite, lorsque la subdivision l’oblige à se partager entre un plus grand nombre d’éléments, il soit aidé par la petite taille ou la brièveté de chacun.

Je t’ai montré combien la séparation par nombre est précieuse quand il s’agit d’apprendre. A présent, mesure bien tout le prix de la séparation par lieu. N’as-tu pas constaté qu’un élève a plus de mal à se souvenir de ses lectures s’il lit tantôt dans tel exemplaire, tantôt dans tel autre ? Quelle en est la raison, sinon que l’imagination du cœur, sensoriellement partagée entre les apparences si nombreuses des divers livres, n’en retire intérieurement aucune image spécifique sur laquelle la mémoire puisse s’appuyer ? Car, forcé de se modeler indistinctement sur toutes, elle les voit se superposer les unes aux autres et s’effacer successivement, si bien qu’elle n’en conserve pas une,  fidèle et familière (domestica remanet aut familiaris), qu’elle puisse utiliser assidûment et en toute sécurité.

Pour affermir notre mémoire, il est donc très important de veiller, en lisant des livres, à ce que l’imagination de notre mémoire retienne non seulement le numéro et l’ordre des versets ou des périodes, mais aussi la couleur et la forme, la place et la position des lettres ; qu’elle retienne où nous avons vu écrite telle chose et telle autre, dans qu’elle partie, à quel endroit de la page (en haut, au milieu, en bas) nous avons aperçu tel énoncé, de telle couleur était le tracé de la lettre ou l’ornementation du parchemin. Je pense même que, pour stimuler la mémoire, il n’est pas inutile d’apporter une attention minutieuse aux circonstances extérieurs, en nous rappelant par exemple, l’aspect, la nature ou la situation des endroits où nous avons entendu dire telle ou telle chose, ainsi que le visage et le comportement de ceux dont nous les avons apprises, et autres détails de ce genre qui peuvent accompagner une quelconque activité. Tout cela est certes enfantin, mais les enfants peuvent en tirer profit.

Après la séparation par nombre et par lieu vient la séparation par temps (discretio temporis) : elle consiste à se souvenir dans quel ordre et à quel intervalle les choses se sont faites, de combien d’années, de mois et de jours ceci précède cela et telle chose suit telle autre. Pour cette séparation des temps, il importe également de savoir faire en sorte que les caractéristiques mêmes du moment où nous avons appris telle ou telle chose nous ramène plus tard à la mémoire du contenu (ad rerum memoriam), en retenant que telle chose à été exécutée la nuit ou le jour, l’hiver et l’été, par temps couvert ou par beau temps.

Si nous avons tissé tout ce qui précède en sorte de prélude, fournissant aux enfants d’enfantines méthodes, c’est pour éviter que le mépris de ces modestes rudiments de l’enseignement ne nous conduise lentement à nous égarer. Toute l’utilité de l’enseignement consiste en effet dans la mémoire que l’on garde : de même qu’il n’y a aucun profit à écouter ce qu’on ne peut comprendre, à quoi bon comprendre ce qu’on ne veut ni ne peut retenir ? L’écoute ne profite qu’en proportion de ce que l’on comprend, et la compréhension en proportion de ce que l’on retient. Mais il existe certains fondements du savoir qui, fermement imprimés dans la mémoire, servent de socle à tout le reste. Nous te les avons notés ci-après, dans l’ordre où nous voulons que tu les inscrives dans ta mémoire, pour assurer la solidité de tout ce que nous bâtirons ensuite dessus.

Toute explication des divines Ecritures prend en compte trois sens : l’histoire, l’allégorie et la tropologie, c’est à dire la moralité. L’histoire est le récit des événements tel qu’il est directement exposé dans la lettre. L’allégorie consiste à voir, dans l’événement historique que nous montre la lettre, un autre événement passé, présent ou futur. La tropologie consiste à tirer de l’événement dont nous écoutons le récit la connaissance de notre devoir. C’est pourquoi elle porte à juste titre le nom de tropologie, discours retourné ou parole ramenée à soi (sermo conversus sive locution replicata) ; nous “retournons” (convertimus) pour notre instruction la lettre d’un récit concernant autrui lorsque, lisant les hauts faits des autres, nous en retirons un modèle de vie.

Mais c’est de l’histoire que nous nous préoccupons pour l’heure - ce fondement, en quelque sorte, de tout l’enseignement, qui doit être en premier posé dans la mémoire. Or la mémoire, comme nous l’avons dit, se réjouit de la brièveté, alors que les événements de l’histoire sont presque infinis ; il s’agit donc d’en retirer une brève somme - un fondement du fondement, en quelque sorte, ou un fondement premier -, qui puisse être facilement saisie par l’esprit et retenue par la mémoire. Sache donc que la connaissance des événements repose principalement sur trois choses : les personnages qui y ont participé, les lieux qui en ont été le théâtre et le moment où ils se sont produits. Quiconque gardera en mémoire ces trois choses découvrira qu’il possède le bon fondement à partir duquel il n’aura pas de mal à saisir promptement et à retenir longtemps toutes les connaissances qu’il recueillera par la suite. Il s’agit donc de le mémoriser, de se le rendre domestique et bien connu, afin d’être prêt à appliquer son cœur à tout ce qu’on aura entendu, et à se servir de ce qu’on aura ici appris pour soumettre tout de qu’on entendra par la suite à une classification par lieu, par moment et par personnage.

Si le temps et le nombre forment la longueur du coffre de la mémoire, c’est le lieu qui lui donne sa largeur, de façon que tout le reste y trouve ensuite sa place. Nous rangerons donc d’abord, dans l’ordre, les personnages et leur temps, qui décriront dans la longueur une ligne partant des origines. Ensuite nous délimiterons des emplacements - autant qu’il en faudra pour accueillir, sous la forme la plus abrégé possible, la totalité du matériau. Maintenant efforce-toi d’imprimer dans ta mémoire les énoncés suivants, selon la méthode d’apprentissage qui t’a été montrée plus haut ; ainsi tu reconnaîtras d’expérience la vérité de mes dires, en voyant combien il est important de consacrer ton zèle et ton soin, non seulement à écouter et à commenter des Ecritures mais à les mémoriser.

La Création s’est accomplie en six jours, et la Rédemption s’accomplit en six âges. Le monde a été fait au commencement des temps ; il a été formé en six jours - mis en place les trois premiers, aménagé les trois suivants. Le premier jour a été fait de lumière, le deuxième jour le firmament séparant les eaux supérieures des eaux inférieures. Le troisième jour ont été assemblées en un seul lieu les eaux qui étaient sous le firmament, et est apparu le continent qui a produit des arbres et des fruits. Telle a été la mise en place des quatre éléments : le ciel, s’est déployé en haut, puis l’air s’est éclairci, puis les eaux se sont rassemblées en un seuil lieu, puis la terre s’est révélée. Ensuite le monde a été aménagé. Le quatrième jour ont été faits les luminaires pour orner les cieux, le soleil, la lune et les étoiles. Le cinquième jour ont été faits les poissons de l’eau et les oiseaux, les oiseaux pour orner l’air, les poissons pour orner les eaux. Le sixième jour ont été faites les bêtes de somme, les animaux sauvages et les autres créatures vivantes qui si meuvent  sur la terre, afin d’orner les terres. En dernier lieu, pour couronner le tout, a été fait l’homme, c’est à dire Adam et Eve. Adam, à l’âge de cent trente ans, a engendré Seth. Et après avoir engendré Seth il vécu huit cents ans, suivant le texte hébreu (les Septante, il est vrai, indiquent deux cent trente anas avant la naissance de Seth et sept cents après). Ce qui fait, pour toute la vie d’Adam, neuf cent trente ans. Et la suite s’enchaîne comme je le montre ci-après (dans les colonnes du diagramme), établie selon la vérité hébraïque.


Une chose, plusieurs mots / Umberto Eco - “Le Signe”

janvier 17, 2007

Umberto Eco - auteur du Nom de la Rose et spécialiste de sémiotique - a écrit il y a déjà quelques dizaines d’années un essai intitulé “Le Signe” (ISBN-10 : 2253060941, ISBN-13 : 978-2253060949), dont je ne saurais que trop recommander la lecture à tous ceux qui voudraient se lancer dans des réflexions sur la modélisation d’ontologies, l’identification de concepts ou la gestion de thésaurus/vocabulaire. En effet, si l’on considère une ontologie comme un “contrat social” entre plusieurs acteurs (un langage, en somme !), et non pas comme une tentative de description exhaustive et objective du monde en soi, alors on se heurte aux problématiques du langage, du signe, du couple signifiant/signifié… bref, de la sémiotique.

J’en recopie ci-dessous un petit extrait [1] intéressant à plusieurs points de vue :

  • d’abord, il montre qu’un même concept peut être désigné par plusieurs signes; Une chose, plusieurs mots.
  • ensuite, il explique comment la question de l’identité de ce qui est désigné par les signes n’est pas résolue “en étudiant leur contenu, mais par la manière dont [ils] s’opposent aux autres éléments du système”. L’identité de ce à quoi on se réfère n’est donc pas donnée de façon absolue, mais bien de façon relative par rapport aux autres termes d’une langue.
  • il montre également qu’un code (une langue ou une ontologie), est une vision arbitraire du monde, et que deux codes distincts peuvent structurer différemment les mêmes concepts. D’où l’idée qu’un signifié n’est pas “une entité ontologique”, mais un “phénomène culturel”…

<extrait>

Dans le cadre d’un code, un mot voit son signifié délimité dans la mesure où il n’y a pas un autre mot qui soit chargé d’un signifié voisin mais distinct. En français, /neige/ se charge de divers signifiés (neige immaculée, neige molle, neige en train de tomber et neige formant une couche par terre, neige gelée et neige fondante) alors que chez certaines populations d’Esquimaux, ces différents sens sont assumés par des termes distincts. C’est donc le système, qui, instituant une structure relationnelle entre les termes, en différencie la valeur signifiante.

(…)

Dans le schéma qui suit, nous voyons que le mot français /arbre/ recouvre le même champ que le mot allemand /Baum/; le français /bois/ correspond tantôt à l’italien /legno/ (le bois comme matière) tantôt à /bosco/ (le bois comme ensemble d’arbres), tandis que /forêt/ sert à désigner un groupe d’arbres plus dense et plus étendu. D’un autre côté, l’allemand /Holz/ correspond à /legno/ mais non à /bosco/ : c’est /Wald/ qui assume le concept en même temps que celui est désigné par /forêt/.

tableau_plusieurs_mots_une_seule_chose.jpg

Un tableau de ce genre ne nous mets pas en face “d’idées”, mais de valeurs émanant du système. Ces valeurs correspondent à ce que l’on peut nommer des concepts, mais ne naissent et ne peuvent être appréhendées que comme pures différences : elles ne se définissent pas par leur contenu, mais par la manière dont elles s’opposent aux autres éléments du système.

Ici encore, nous avons une série de choix différentiels que l’on peut décrire sur le mode binaire. Il n’est donc pas nécessaire de savoir ce qu’est le signifié (que l’on se place sur le plan physique ou ontologique) : il suffit de pouvoir affirmer que, dans un code donné, des signifiés donnés sont associés à des signifiants donnés. Que ces signifiés soient communément définis commes des “concepts” ou des “idées” n’a rien que de normal; et qu’on les atteigne à travers une sorte d’usage moyen est chose légitime. Mais dès le moment où la sémiotique établit l’existence d’un code, le signifié cesse d’être une entité psychique, ontologique ou sociologique : c’est un phénomène culturel, descriptible grâce à un système de relations que le code nous montre comme reçues par un groupe donné à un moment donné.

</extrait>

[1] : Un autre extrait du livre est disponible ici


Voir, Savoir et/ou Agir

décembre 20, 2006

Dans un papier au titre provocateur présenté à ISWC 2006, une excellente critique des représentations “graphiques” des graphes RDF, et du dogme implicite sous-jacent: “Puisque c’est un graphe, montrez-le comme un graphe”. N’ayant jamais été complètement convaincu des avantages de ce type de visualisation, cette lecture m’a profondément réjoui, et mon point de vue en sort renforcé. En gros, si le graphe est petit, c’est joli mais inutile car la structure serait évidente sous toute autre forme, et si le graphe est grand c’est illisible donc inutilisable. Des interfaces qui s’adapteraient à la structure locale du graphe pour en donner une représentation utile à toutes les échelles, avec des algorithmes savants de réduction, même si elles sont techniquement concevables, entraînent de tels surcoûts en terme d’implémentation et de temps de requête qu’on en voit mal le modèle économique. Le périmètre d’utilité véritable se limite donc à des types de scénario bien choisis, par exemple une démonstration commerciale ou une “preuve de concept”. Enfin attendons ce que Thomas va nous montrer pour sa base musique, il va peut-être vous convaincre du contraire.
Cela dit, la critique du papier va plus loin que le simple problème “graphe ou pas graphe”. Les vrais croyants dans un modèle de représentation des connaissances ont une tendance fâcheuse à vouloir que ce modèle - bien sûr génial - transpire par tous les pores des interfaces utilisateurs, de la même façon qu’une certaine génération d’architectes a tenu absolument à ce que la géniale structure de béton ou de tuyauterie de leurs édifices impérissables s’impose à tout moment aux utilisateurs des lieux … nous avons à Paris des exemples célèbres.
Ayant moi-même succombé à cette tentation plus d’une fois, je me garderai bien de jeter la pierre à tous ces enthousiastes. Aux débuts de Mondeca, je voulais à tout prix que tous les utilisateurs comprennent la beauté du méta-modèle Topic Maps sous-jacent … mais l’expérience amène petit à petit à une conception plus utilitaire des modèles. Et le papier en question le dit fort bien. La question importante en fin de compte à propos des données, quelle que soit la façon dont elles sont représentées et stockées dans les systèmes, est bien de savoir à quoi elles servent et comment on s’en sert. Savoir ce qu’elles “sont” ou ce qu’elles “représentent” n’étant pas la préoccupation essentielle de la majorité des utilisateurs.
Comme l’histoire du Web l’a toujours montré, et comme les applications Web 2.0 qui fleurissent de partout le montrent de nouveau, ce qui intéresse le plus les utilisateurs, c’est bien d’agir sur l’information. On veut interroger et naviguer, mais surtout on veut créer, modifier, copier, ajouter, retrancher, reconnecter, mettre en perspective, republier, renvoyer … et tout cela bien sûr de façon ergonomique. Donc, autant et sinon plus que la structure des données et du système de représentation qu’elles utilisent, c’est la sémantique des actions sur les données qui doit être transparente dans les interfaces.
Si on rapproche cette réflexion de nos propos récents sur la sémiotique de RDF, on pourrait dire que le signifié d’une ressource doit être pensé plus en termes fonctionnels qu’en termes purement descriptifs ou déclararatifs. Certes, une description RDF décrit son référent, mais le choix des éléments de description, et donc les choix de modélisation sont pilotés par l’usage fonctionnel de cette description. La description d’une personne en tant que musicien ne sera pas la même que la description de cette même personne en tant que contribuable parce que l’amateur de musique attend des fonctions comme la découverte des oeuvres ou des musiciens associés (vous avez aimé … vous aimerez aussi), alors que la description du contribuable a de tout autres usages pour d’autres utilisateurs.
Ceci nous renvoie encore une fois à la question de l’identité. Le musicien et le contribuable sont-ils ou non la même personne? Si la question reste ouverte dans la vraie vie, dans nos systèmes d’information il est certain qu’il s’agit bien de deux concepts différents, avec des représentations, des propriétés et des fonctions différentes. Peut-on, doit-on pouvoir les rapprocher, voire les fusionner, et si oui pourquoi et comment? C’est une des grandes questions des technologies sémantiques. Nous y reviendrons.


Leçon 4 : Anatomie d’une Description (2)

décembre 8, 2006

Dans une leçon précédente on avait volontairement laissé en pointillés la chose décrite, pour ne s’intéresser qu’aux éléments de la description elle-même. Je vais donc revenir là-dessus aujourd’hui à partir du même exemple, cette fameuse montagne d’altitude 3913 m, voisine du Mont Pelvoux.
Le lecteur un peu familier du Massif des Ecrins, à l’aide d’une bonne carte, aura tôt fait de s’assurer qu’il ne peut s’agir d’autre chose que de notre bon vieux Pic Sans Nom. Et s’il a suivi les leçons précédentes, il pourra même lui attribuer illico un identifiant homologué Web sémantique. Et il pourra dire que tout est pour le mieux dans le meilleur des mondes sémantiques, où toutes les choses sont identifiées par une URI.
Fort bien. Mais est-ce que deux utilisateurs humains qui effectuent le même processus d’identification ci-dessus, et tombent d’accord sur le fait d’attribuer à la chose cette même URI, sont pour autant d’accord sur l’identité de la chose en question? Après Quine, nous pouvons soutenir qu’une telle conclusion est impossible. Et de fait, on peut raisonnablement douter que Pierre le géographe qui a identifié la montagne à partir d’une carte topographique, et qui n’a encore jamais mis les pieds dans les Ecrins, en aura la même conception que Jacques l’alpiniste qui a failli y mourir de froid lors d’une tentative hivernale sur la redoutable face Nord. Et si l’on va plus loin dans le détail de la description, les éléments que vont y ajouter Pierre et Jacques risquent d’être au mieux singulièrement différents, et au pire totalement contradictoires. On découvrira sans doute assez vite qu’au-delà de leur accord initial sur le fait qu’ils parlent bien de la même montagne, ils ne décrivent pas vraiment la même conception de cette montagne. Et nous arrivons ici à un point fondamental : on ne décrit jamais directement une chose, on décrit le concept qu’on a de la chose. Et même si on s’accorde à parler de la même chose, on peut être en désaccord sur la conception qu’on en a.
L’approche linguistique, et en particulier le triangle sémiotique introduit par Saussure : signifiant, signifié, référent, peut être utilisée ici. Une ressource RDF identifiée par une URI, décrite par un ensemble de propriétés formelles est dans cette approche un signe linguistique. L’URI en est le signifiant, la description formelle associée est une explicitation du signifié, et la chose décrite est le référent.
Dans le triangle sémiotique, la question de l’identification peut se poser à plusieurs niveaux. On peut bien sûr avoir des signifiants différents pour le même signifié (synonymie), ou des signifiés différents pour le même signifiant (homonymie, que le système des URI est censé évacuer). Mais on peut aussi avoir des couples signifiant-signifié différents pour le même référent. C’est la situation évoquée plus haut. Malheureusement les langages, spécifications et pratiques du Web sémantique ne semblent pas avoir vraiment prévu cette dernière situation, pourtant capitale pour la recherche et l’agrégation de l’information. OWL permet d’exprimer l’identité de deux concepts, que ces concepts soient des classes, des propriétés ou des individus, en utilisant respectivement les relations owl:equivalentClass, owl:equivalentProperty et owl:sameAs. Toutes ces relations servent à déclarer l’identité logique des signifiés de deux signifiants (URI) différents. Mais rien n’est prévu dans ce langage, du moins de façon native, pour exprimer que deux signifiés différents ont le même référent.

Pourtant, comme je l’ai suggéré çà et là depuis plus d’un an, RDF possède des caractéristiques qui permettraient de représenter cette situation, en utilisant une ressource anonyme (blank node) pour représenter le référent. Ainsi on pourra dire que le Pic Sans Nom selon Geonames, celui de Pierre et celui de Jacques ont le même référent de la façon suivante.

 geonames:6295658     sem:referent      _:b
 pierre:PicSansNom     sem:referent      _:b
 jacques:PicSansNom     sem:referent      _:b

Le fait d’utiliser une ressource anonyme comme représentation du référent constitue une entorse minimale au principe disant que le référent est en dehors de l’espace linguistique. Le fait de ne pas lui attribuer de signifiant propre (ni nom, ni URI) est conforme toutefois à ce principe. La propriété sem:referent proposée ici n’est bien sûr pour l’instant définie par aucun vocabulaire standard, mais elle pourrait l’être dans une ontologie des signes qui reste à construire. Elle n’entraîne pas la fusion logique des trois ressources, autrement dit elle n’implique pas l’identité des signifiés. On peut la considérer à la rigueur comme une spécification de la propriété Dublin Core dc:subject.

Représenter le référent par une ressource anonyme permet d’en faire un “hub sémantique” sur lequel on pourra par exemple accrocher des “indicateurs de sujet” employant le vocabulaire des Topic Maps repris par SKOS, ou encore des images en utilisant le vocabulaire FOAF.

 _:b      skos:subjectIndicator     <http://yannick.michelat.free.fr/PicSansNomRussenberger1.htm>
 _:b     foaf:depiction      <http://ascensions.free.fr/images/col_est_pelvoux/lever_pic.jpg>

Attacher ces ressources directement à chacun des signifiants spécifiques définis plus haut est encore la pratique courante aujourd’hui dans le Web sémantique, qui n’a pas vraiment intégré le triangle sémiotique, et ce que nous proposons ici a encore un bout de chemin à faire pour être compris et accepté …
 


Données, Information, Connaissance… et champignons ?

novembre 28, 2006

Croyez-vous (crois-tu, Bernard ?) en la noosphère, cette conscience collective de l’humanité, dans laquelle les idées circulent librement d’un cerveau à l’autre, captées par nos inconscients, créant ainsi modes, courants intellectuels, et tendances ? Me croyez-vous si je dis que je préparais un article justement intitulé… “Data, Information… and Knowledge ?”, expliquant les mêmes idées que celui-ci trouvé par Bernard dans un précédent post ?

Encore que, à bien y réfléchir, ce n’étaient pas exactement les mêmes idées, même si le découpage (somme toute classique) “Données / Information / Connaissance” était le même. L’un de mes anciens professeurs de l’UTC, Jean-Paul Barthes, dans cette description condensée du domaine du “Knowledge Management”, décrit en effet un point de vue légèrement différent de celui des technologies de l’information, que je n’hésite pas à reprendre à mon compte, en m’essayant à la comparaison des deux points de vue.

Le premier, décrit dans l’article de SemanticWeb.org pointé plus haut, est celui de la technologie de l’information, presque du programme informatique, dont on pourrait résumer les étapes comme suit :

  • un programme reçoit un fichier (de la data, suite de 0 et de 1)
  • une syntaxe (XML) permet au programme de parser le fichier
  • une sémantique (Dublin Core) lui permet de trouver l’information de date de modification du fichier (à ce stade, le programme est passé de la data à l’information)
  • Puisque le but du programme est de rechercher les documents ayant la date de modification la plus récente, une comparaison est faite entre les documents A et B, pour trouver que B a une date de modification plus récente que A.
  • Le programme en déduit donc que B a un contenu plus récent que A (à ce stade, le programme est passé de l’information à la connaissance).

C’est dans cette dernière étape que réside d’après moi la faiblesse de cette description. En effet, dire que B a un contenu plus récent que A n’est pas une connaissance, c’est toujours une information, certe contextualisée entre 2 entités, mais qui reste au stade de l’information. Ce qui a été réalisé ici est une inférence, une déduction, la création d’une nouvelle information. On confond ici connaissance et inférence.

L’autre point de vue, celui de Barthes, est plus généraliste. Je reprend ici son exemple :

  • Je pars à la cueillette des champignons en forêt. Je ramène un plein panier de champignons (de la data)
  • De retour à la maison, je consulte des livres sur les champignons dans le but d’identifier les champignons que j’ai ramenés (et de savoir s’ils sont comestibles ou pas !). J’y trouve 3 descriptions de champignon toutes très similaires à ceux de mon panier. J’ai donc traité et contextualisé la donnée (je sais qu’il y a 3 descriptions candidates possibles, que les autres descriptions ne correspondent pas, que sur les 3 descriptions possibles 1 seule est comestible, etc…). A ce stade, la donnée contextualisée est devenue une information.
  • Cependant, l’information en ma possession ne me permet pas encore de savoir si mes champignons sont comestibles ou pas, puisque sur les 3 descriptions trouvées, 1 seule est dite comestible (les autres causant d’horribles maux de ventre…). Pour déterminer cela, je me rend chez mon pharmacien, qui saura me dire (en fonction de ses connaissances) si mes champignons sont comestibles. Au fil des années, en continuant à ramasser des champignons régulièrement, j’intégrerai moi aussi cette connaissance, en faisant passer des informations dans mon système de valeurs (mon histoire, mes jugements, mon environnement, mes buts, mes peurs, etc…), passant ainsi de l’information à la connaissance.

De la donnée contextualisée donne de l’information, et de l’information intégrée par une personne dans son système de valeurs devient de la connaissance. En conséquence de quoi :

  1. ce qui s’échange entre 2 personnes (ou 2 systèmes) est toujours de l’information
  2. la connaissance reste toujours propre à une personne

Dans cette stricte perspective, parler de “systèmes de gestion de connaissances” ou de “bases de connaissances” est donc abusif (à moins de savoir transférer dans une machine un système de valeurs et de jugements…). Tout au plus peut-on parler d’information fortement structurée, fortement contextualisée, et présentée de manière sensible à l’utilisateur du système de façon à ce qu’il se l’approprie facilement et qu’il en fasse sa propre connaissance.

Cette définition - je trouve - a le mérite de recadrer le concept de connaissance (légèrement galvaudé dans le domaine des technologies de l’information). Notez par exemple que, dans le cas du programme informatique plus haut, une personne regardant le contenu du document B pourrait savoir (par une foule d’indices étonnement complexes) qu’il n’est pas plus récent que le document A, même si sa date de modification dit le contraire; ou encore, elle pourrait très bien faire le choix de préférer un document plus vieux, là aussi pour une foules de raisons compliquées. Ca, c’est de la connaissance.

A bien y regarder, les deux définitions ne sont pas si éloignées l’une de l’autre (on pourrait dire que le livre sur les champignons fait office à la fois de syntaxe et de sémantique par rapport au panier de champignons); simplement, elle ne s’entendent pas sur ce que veux dire “connaissance”; pour l’une, c’est une requête informatique, pour l’autre, c’est indissociable de la personne humaine.


Un mot, plusieurs choses

octobre 25, 2006

 Les villes et le nom 

“Des dieux de deux sortes protègent la ville de Léandra. Les uns et les autres sont si petits qu’on ne les voit pas et si nombreux qu’on ne peut pas les compter. les uns se tiennent près des portes des maisons, à l’intérieur, près du portemanteau et du porte-parapluies; dans les déménagements, ils suivent les familles et s’installent dans les nouveaux logis, à la remise des clefs. Les autres ont leur séjour dans la cuisine, ils se cachent de préférence sous les marmites, ou dans le manteau de la cheminée, ou dans le réduit aux balais; ils font partie de la maison et quand la famille qui y habitait s’en va, eux-mêmes restent avec les nouveaux locataires; peut-être étaient-ils déjà là quand la maison n’existait pas encore, dans la mauvaise herbe des terrains à bâtir, cachés dans un petit pot couvert de rouille; si l’on rase la maison et qu’à sa place ont construit un immeuble genre caserne pour cinquante familles, on les y retrouve multipliés, dans la cuisine d’autant d’appartements. Pour les distinguer, nous appelerons les uns Pénates, les autres Lares.Il n’est pas dit que dans une maison les Lares se tiennent toujours avec les Lares et les Pénates avec les Pénates; ils se fréquentent les uns et les autres, se promènent ensemble sur les corniches de stuc et les tuyaux de chauffage central, ils commentent ce qui se passe dans la famille, ils se querellent facilement, mais ils peuvent aussi bien s’entendre pendant des années; à les voir en file indienne, on ne fait pas la différence entre les uns et les autres. Les Lares ont vu passer entre leux murs des Pénates d’origine et de coutumes diverses; les Pénates doivent se faire une place au coude à coude avec les Lares d’illustres palais déchus, empreints de dignité, comme avec ceux, susceptibles et méfiants, des bidonvilles.

L’essence véritable de Léandra est un sujet de discussion sans fin. Les Pénates croient qu’ils sont, eux, l’âme de la ville, même s’ils y sont arrivés l’année précédente, et qu’ils l’emportent avec eux quand ils émigrent. Les Lares considérent les Pénates comme des hôtes provisoires, importuns, envahissants; la véritable Léandra c’est la leur, qui donne forme à tout ce qu’elle contient, la Léandra qui était là avant que n’arrivent tous ces intrus, et demeurera lorsque tous seront partis.

Ils ont ceci en commun : que sur ce qui arrive dans une famille et dans la ville, ils trouvent toujours à dire, les Pénates amenant sur le tapis les vieux, les bisaïeux, les grand-tantes, la famille d’autrefois, les Lares l’ambiance comme elle était avant qu’ils ne la détruisent. Mais il n’est pas dit qu’ils ne vivent que de souvenirs : ils rêvent, ils font des projets de carrière pour les enfants quand ils seront devenus grands (il s’agit des Pénates), ou sur ce que pourraient devenir telle maison ou telle zone (les Lares) si elles étaient entre de bonnes mains. Quand on tend l’oreille, spécialement la nuit, dans les maisons de Léandra, on les entend discuter sans arrêt, se rabaissant le caquet, se renvoyer brocards, pouffements, petits rires ironiques.”

Italo Calvino, les villes invisibles (ISBN : 2020016109)

 

…le mot n’est pas la chose, et en construisant des identifiants pour mieux sémantiser le web et asserter sur le monde, il ne faut pas oublier que d’autres pourraient avoir une compréhension différente de la chose qu’essaie de désigner l’identifiant.