Talk at the International Society for Knowledge Organization (ISKO)

octobre 18, 2010

Bernard Vatant from Mondeca was invited to speak at the Linked Open Data ISKO conference in London (September 14th, 2010) on the topic of « Porting terminologies to the Semantic Web ». Below is the abstract of his talk:

Terminologies have been developed for years in the closed world of enterprises, targeting the specific technical needs or specific communities of users. Their aim is to ease semantic interoperability across resources and systems dealing with well-defined, vertical domains. On the other hand, Semantic Web technologies and the growing Linked Data Cloud are deploying in a global scope, using a unified system of identifiers (URI), a generic data model (RDF) and the universal HTTP protocol to identify and exchange description of resources.

The glue between the terminology world and the Semantic Web will be ensured by nothing but vocabularies published in RDF, and currently SKOS is the favourite language for such publication. But SKOS has been built on a concept-centric model, leveraging mainly the thesaurus world, standards and best practices. In SKOS, concepts and their semantic relationships are defined independently of the terms used to name them (labels). SKOS is quickly becoming the lingua franca to migrate legacy vocabularies to the Semantic Web across the librarian community.

The SKOS-XL extension makes provision for description of terms themselves, considering them as first-order citizens, allowing the description of more specific relationships to concepts than just “preferred” and “alternative”, as well as other fine-grained information such as context of use, translation, acronyms, lexical variants. But does this (non-normative) extension meet the requirements of terminologists? Does it meet the requirements of terminology standards such as developed by ISO/TC 37? How is the terminology community involved in this process?

As approaches to this issue, we’ll first quickly present the model underlying the new management system for EUROVOC, a vocabulary presenting itself as a thesaurus, but with extensions of expressivity at the terminological level. We’ll also look at the lexvo.org initiative, which proposes a semiotic approach to terminology in the Semantic Web framework.

Presentation slides are available here: http://www.slideshare.net/event/linked-data-the-future-of-knowledge-organization-on-the-web
.


Web et Philosophie : colloque samedi 16 octobre

octobre 13, 2010

Amis du web (sémantique) et de la philosophie, ce samedi aura lieu PhiloWeb 2010, le « premier symposium international du web et de la philosophie », à Paris; derrière ce titre un tantinet pompeux se cache un univers de réflexion extrêmement intéressant, qui explore l’articulation entre ces deux univers que l’on jugerait trop facilement disjoints; comment la philosophie peut-elle éduquer notre regard sur le web ? comment le web modifie-t-il les pratiques philosophiques ? Si vous aimez comme moi nourrir une activité technique, d’ingénierie, avec des réflexions de fond, ou appuyer une réflexion de fond sur l’actualité de la technique, ce colloque est fait pour vous. Lire la suite »


Société de l’information : entre génie individuel et intelligence collective

juin 9, 2010

Voici quelques notes prises lors de la conférence plénière qui s’est tenue le 9 juin 2010 sur le salon iExpo / KMforum, sur le thème « Quelle société de l’information ? entre génie individuel et intelligence collective ».

Disclaimer : ce sont des notes à peine mises en forme, donc TRES parcellaires, et beaucoup de l’articulation des discours y est perdue. J’espère cependant qu’elles peuvent donner la teneur des exposés, et donner des pointeurs vers les idées de chacun des intervenants pour approfondir leurs points de vue.

Les 4 intervenants dans leur ordre de passage étaient :

Et voici leurs réflexions autour de cette question de l’articulation entre l’individuel et le collectif :

Lire la suite »


semanticoverflow.com

mai 29, 2010

J’ai découvert récemment le nouveau site semanticoverflow.com; c’est un site de questions/réponses dédié aux technologies sémantiques, basé sur le même modèle que stackoverflow.com. Ca me plait bien car cela donne des questions très concrètes et très orientées « mise en oeuvre » des technos (bref, ca doit plaire à des ingénieurs, quoi). Si vous avez des questions à poser ou de l’expérience à partager sur ces technologies (RDF, OWL, triplestore, RDFa, etc, etc.), n’hésitez pas à aller vous y promener.


VoCamp Paris des 13 & 14 mai 2010

mai 25, 2010

J’ai participé les 13 et 14 mai dernier à un VoCamp organisé à Paris par Hypios. Les VoCamp sont des ateliers informels réunissant les acteurs du web sémantique, dans le but de travailler sur la création de nouveaux vocabulaires, ou de nouvelles ontologies, permettant ainsi à la communauté de publier de nouvelles données exprimées grâce à ces vocabulaires.

Les groupes de travail de ce VoCamp se sont réunis autour des thèmes suivants :

  • User (weighted) interest ontology : une modélisation des centres d’intérêt des utilisateurs, avec un focus particulier sur les périodes de temps pendant lesquelles un utilisateur s’intéresse à tel ou tel sujet. C’est le thème qui a de loin intéressé le plus de participants du VoCamp. En toute franchise les objectifs d’une telle modélisation me semblent fortement ambigus; pas besoin d’être devin pour voir là l’utilisation des technologies sémantiques non pas pour rendre les gens plus intelligents, mais pour les abrutir (encore) un peu plus avec de la pub ciblée, comme le use-case de l' »adaptive advertising » pour la télévision, du projet notube; ce qui est finalement, pour les technos sémantiques, aussi une bonne nouvelle : cela veut dire que les grandes industries s’en emparent, ce qui ne peut qu’élargir leur utilisation;
  • Annotation ontology : une modélisation des annotation, ou des « tags » posés par les utilisateurs sur les pages web. Qui a taggé ? quand ? etc;
  • Argumentation ontology : une (tentative de) modélisation des arguments d’un débat, en lien avec l’outil debategraph. C’est le sujet que j’ai trouvé le plus original et le plus intéressant; comment arriver à modéliser les différents arguments et contre-arguments d’une question posée, qui peut être de l’ordre du débat social (fiancement des retraites, pour/contre l’armement nucléaire, etc.) ou simple prise de décision dans un système d’aide à la décision;
  • Vocabulary alignment & translation rule language : réflexion autour de deux problématiques : la modélisation d’alignement de vocabulaires et la modélisation de règles de traduction pour passer des données d’un modèle à un autre. C’est le groupe auquel j’ai participé; nous avons fini par présenter et nous concentrer sur STRL : Semantic Translation Rule Language, déjà discuté en interne à Mondeca avec Bernard. L’idée est de représenter des métadonnées sur des règles de traduction d’un modèle d’ontologie à un autre (quel language, quels éléments de l’ontologie impactés, etc.);

D’autres sujets proposés mais pas développés (mais qui « sont dans l’air ») : l’évolution temporelle des données (sujet sur lequel nous travaillons en ce moment à Mondeca), les « RDF Forms » (quelle connexion entre des formulaires et des données RDF), la modélisation des résultats d’outils d’analyse linguistiques.

Globalement, mon impression de ses deux jours est très positif, autant sur la qualité des participants que des thématiques abordées; il ne faut pas attendre de miracles en terme de résultats/modélisation concrètes de ses deux jours, mais cela permet de faire émerger des problématiques, d’en faire progresser d’autres, et de rencontrer des personnes intéressées par les mêmes sujets.

En tous cas un grand bravo et merci à tous les participants du VoCamp et à ses organisateurs, Milan Stankovic et Alexandre Monnin, l’organisation était parfaite – bon, sauf que c’est tombé un jour férié 🙂


Le toro bravo et le top model

avril 28, 2010

Le dernier billet de Pierre-Yves sur l’art de la modélisation se termine sur l’importance de la re-présentation. On peut mettre en parallèle un billet un peu plus ancien sur le multilinguisme et la traduction, en profiter pour prolonger des réflexions déjà publiées par ailleurs, mais en anglais.  Traduire pour re-présenter.

Dans le magnifique exemple du travail de Picasso sur le taureau, si on parle peinture, on ne nommera pas en général modèle le résultat du travail de réduction à l’essentiel opéré par l’artiste, mais au contraire la réalité dont le peintre s’inspire, le taureau qu’il a pris comme modèle. Ce taureau modèle il l’a d’ailleurs peut-être choisi parmi une collection de taureaux déjà représentés par lui ou par d’autres, et s’il l’a dessiné sur le vif  il n’a certainement pas choisi n’importe quel taureau, mais un toro bravo, un taureau modèle élevé avec amour pour une unique représentation aux arènes le soir… Et ce taureau modèle, avant d’être un vrai taureau en chair et en os, c’est un rêve dans l’esprit des éleveurs, des matadors et des aficionados, le taureau parfait dans le moindre détail jusque dans sa mort, que les arènes applaudiront debout. Et au final ce que capture le génie du peintre, ce n’est pas tel taureau en particulier, mais ce rêve inaccessible du taureau idéal, et ce dessin n’est qu’un épisode après d’autres d’une série de traductions-représentations dont l’origine finalement importe peu.

Et ce n’est pas la fin de l’histoire. Pour des générations suivantes d’étudiants en art, le dessin de Picasso sera aussi un modèle à un autre niveau, un modèle de dépouillement et de maîtrise du trait. Pour ces élèves, la corrida sera peut-être un monde lointain, inconnu ou inquiétant.  A partir du dessin de Picasso, ils traduiront, interpréteront et représenteront à leur tour encore une fois cette réalité intraduisible qu’est le toro bravo. Et pour paraphraser Barbara Cassin c’est justement parce qu’elle est tellement intraduisible qu’il ne faut jamais s’arrêter de la re-traduire, de la re-présenter, en inventant d’autres moyens de la rendre présente à travers nos différences de langage et de culture.

Un autre aspect de la représentation ou du modèle (c’est tout un, on l’a compris), et que la tauromachie illustre bien également, c’est qu’il ne s’agit pas simplement d’une description de la réalité, mais aussi en retour d’une prescription. Voilà comment le toro bravo se doit d’être, et ce caractère prescriptif du modèle est le moteur même du travail de l’éleveur qui va sélectionner, élever, dresser l’animal pour qu’il soit au mieux conforme à ce modèle, et du torero qui doit lui aussi le conduire comme il faut, dans les règles, jusqu’à sa mort.

Dans tout travail de modélisation, il y a ce double aspect descriptif et prescriptif. Le linguiste constate les usages de la langue, les formalise dans une grammaire, et puis les faits de langue sont pris en charge par les grammairiens et les programmes scolaires et deviennent des règles,  normatives et contraignantes.  Et les exemples abondent, jusqu’au top model qui comme le toro bravo est la re-présentation stéréotypée d’un rêve devenu prescriptif.

Très souvent la frontière entre les aspects descriptifs et prescriptifs du  modèle est bien difficile à tracer, dans nos systèmes informatiques également. La forme de l’identité déclarée sur les réseaux sociaux l’illustre assez bien.  L’interface et le modèle de données sous-jacent contraignent de façon insidieuse l’utilisateur. Un champ non rempli  est comme un reproche. Votre profil n’est complet qu’à 60%. Vous pourriez avoir plus d’amis. Vous devriez ajouter des recommandations, vous n’avez pas ajouté votre numéro de téléphone portable, ni votre blog, ni votre compte Twitter.  Là encore, l’utilisateur incomplet, un peu coupable, se rapprochera peu à peu du modèle que le système lui présente.

Comme l’écrit Pierre Levy dans « Vers une science de l’intelligence collective »

… il n’y a pas de modèle qui ne co-produise la réalité qu’il modélise. La carte fait surgir un territoire là où il n’y avait que des expériences de mouvements et des mémoires de trajets … le code de lois transforme les moeurs d’une nation. Les dictionnaires et les grammaires influencent les apprentissages scolaires et les pratiques lettrées des langues … Le modèle est un facteur de l’agencement symbolique qu’il explicite.


La modélisation, un art?

avril 27, 2010

Comme le constatait déjà Paul Valéry, le fonctionnement de la pensée humaine s’appuie largement sur des modélisations du monde qui nous entoure : « Nous ne raisonnons que sur des modèles ». En informatique et plus spécifiquement en ingénierie de la connaissance, nous parlons souvent de modélisation comme la base de la construction d’un système d’information. Derrière cette notion de modèle, on pense souvent à un dessin d’un schéma assez simple sur une feuille de papier qui explique un fonctionnement de la réalité. On trouve dans cette description hâtive les caractéristiques d’abstraction et de simplification inhérentes à un modèle, mais elles ne sont pas suffisantes pour définir la modélisation.

La modélisation permet de représenter un phénomène complexe qu’il n’est pas possible d’observer directement. L’OMG donne la définition suivante : “A model represents some concrete or abstract thing of interest, with a specific purpose in mind.”. Cette définition met en avant la notion capitale d’intention d’une modélisation. Une modélisation est toujours faite avec un objectif précis (s’il n’est pas clairement défini, le modèle sera mal utilisé) qui va guider certains choix quant au modèle produit (granularité de la représentation, langage de description choisi, etc.). Ces choix auront un impact sur le périmètre de validité du modèle. Par exemple, si nous représentons l’eau comme un liquide, alors notre modèle n’aura de validité que dans les conditions de pression et de température où l’eau est en phase liquide. Le choix d’un langage de description va être contraint par les objectifs du modèle : est-ce un modèle destiné à la communication, au traitement informatique ?

Rothenberg insiste dans sa definition sur l’efficacité et la simplification d’un modèle vis-à-vis de la réalité qu’il se propose de représenter: “Modeling, in the broadest sense, is the cost-effective use of something in place of  something else  for some cognitive purpose.  It allows us to use something that is simpler, safer or cheaper than reality instead of reality for some purpose. A model represents reality for the given purpose; the model is an abstraction of reality in the sense that it cannot represent all aspects of reality. This allows us to deal with the world in a simplified manner, avoiding the complexity, danger and irreversibility of reality.”. Le degré de simplification choisi va directement impacter la granularité du modèle produit. La difficulté est de simplifier au maximum la représentation d’une partie du réel pour faciliter sa compréhension et son utilisation tout en gardant un niveau de détail suffisant afin d’être efficace pour l’objectif qu’il lui est donné. Ce même travail de simplification est illustré dans les 11 états de la lithographie « Le Taureau » par Pablo Picasso dans lesquels il cherche le juste niveau de simplification correspondant à sa vision.

Pablo Picasso, Les 11 états successifs de la lithographie Le Taureau , 1945.

La modélisation, comme toutes les activités humaines, est fondée sur des choix. Malgré la volonté d’objectivité, un modèle reste néanmoins subjectif. Il est important de veiller à son aspect consensuel dans la communauté de pratiques partageant les mêmes intentions comme nous le fait comprendre la parabole des aveugles et de l’éléphant. Ceci peut être atteint en impliquant un groupe d’experts représentatif de cette communauté. Cette subjectivité est un des écueils majeurs pour de futures utilisations ou réutilisations. Un objet du monde réel peut être modélisé au travers d’une infinité de points de vues comme le montre l’illustration de Grady Booch.

Illustration de Grady Booch, 2000

Pour réussir une bonne modélisation, il faut veiller à définir clairement :

  • le phénomène représenté ;
  • l’intention du modèle;
  • le périmètre de validité ;
  • le niveau de simplification et de granularité adéquats;
  • le langage de description ;
  • les choix pris au cours de la modélisation.

Nous insisterons dans ce paragraphe sur le danger que représente la réutilisation de modèles. En effet, il est très séduisant de réutiliser un modèle existant pour économiser du temps et pour s’appuyer sur une modélisation qui a déjà été éprouvée. Mais avant de réutiliser un modèle existant il faut se poser les questions suivantes : est-ce le même phénomène que je veux représenter ? Ai-je les mêmes intentions ? Est-ce que j’adhère aux principes adoptés lors de la modélisation ?  Il existe des représentations consensuelles qui sont reconnues comme efficaces dans  un but donné. C’est ce que l’on appelle les patrons de modélisation « design pattern ».

Comme nous venons de le voir, il est  imprudent de penser qu’à un phénomène réel corresponde une unique représentation. Un modèle (à la manière d’une œuvre d’art) ne décrira jamais de manière complète l’objet étudié, dès lors, c’est par la multiplicité des représentations (diversité des œuvres et des sensibilités des artistes) pour des intentions différentes qu’un objet sera le mieux décrit. Chaque modèle présente de manière différente, parfois conciliable et complémentaire, un fait réel. C’est le sens même d’une re-présentation.