Talk at the International Society for Knowledge Organization (ISKO)

octobre 18, 2010

Bernard Vatant from Mondeca was invited to speak at the Linked Open Data ISKO conference in London (September 14th, 2010) on the topic of « Porting terminologies to the Semantic Web ». Below is the abstract of his talk:

Terminologies have been developed for years in the closed world of enterprises, targeting the specific technical needs or specific communities of users. Their aim is to ease semantic interoperability across resources and systems dealing with well-defined, vertical domains. On the other hand, Semantic Web technologies and the growing Linked Data Cloud are deploying in a global scope, using a unified system of identifiers (URI), a generic data model (RDF) and the universal HTTP protocol to identify and exchange description of resources.

The glue between the terminology world and the Semantic Web will be ensured by nothing but vocabularies published in RDF, and currently SKOS is the favourite language for such publication. But SKOS has been built on a concept-centric model, leveraging mainly the thesaurus world, standards and best practices. In SKOS, concepts and their semantic relationships are defined independently of the terms used to name them (labels). SKOS is quickly becoming the lingua franca to migrate legacy vocabularies to the Semantic Web across the librarian community.

The SKOS-XL extension makes provision for description of terms themselves, considering them as first-order citizens, allowing the description of more specific relationships to concepts than just “preferred” and “alternative”, as well as other fine-grained information such as context of use, translation, acronyms, lexical variants. But does this (non-normative) extension meet the requirements of terminologists? Does it meet the requirements of terminology standards such as developed by ISO/TC 37? How is the terminology community involved in this process?

As approaches to this issue, we’ll first quickly present the model underlying the new management system for EUROVOC, a vocabulary presenting itself as a thesaurus, but with extensions of expressivity at the terminological level. We’ll also look at the lexvo.org initiative, which proposes a semiotic approach to terminology in the Semantic Web framework.

Presentation slides are available here: http://www.slideshare.net/event/linked-data-the-future-of-knowledge-organization-on-the-web
.


Web et Philosophie : colloque samedi 16 octobre

octobre 13, 2010

Amis du web (sémantique) et de la philosophie, ce samedi aura lieu PhiloWeb 2010, le « premier symposium international du web et de la philosophie », à Paris; derrière ce titre un tantinet pompeux se cache un univers de réflexion extrêmement intéressant, qui explore l’articulation entre ces deux univers que l’on jugerait trop facilement disjoints; comment la philosophie peut-elle éduquer notre regard sur le web ? comment le web modifie-t-il les pratiques philosophiques ? Si vous aimez comme moi nourrir une activité technique, d’ingénierie, avec des réflexions de fond, ou appuyer une réflexion de fond sur l’actualité de la technique, ce colloque est fait pour vous. Lire le reste de cette entrée »


semanticoverflow.com

mai 29, 2010

J’ai découvert récemment le nouveau site semanticoverflow.com; c’est un site de questions/réponses dédié aux technologies sémantiques, basé sur le même modèle que stackoverflow.com. Ca me plait bien car cela donne des questions très concrètes et très orientées « mise en oeuvre » des technos (bref, ca doit plaire à des ingénieurs, quoi). Si vous avez des questions à poser ou de l’expérience à partager sur ces technologies (RDF, OWL, triplestore, RDFa, etc, etc.), n’hésitez pas à aller vous y promener.


VoCamp Paris des 13 & 14 mai 2010

mai 25, 2010

J’ai participé les 13 et 14 mai dernier à un VoCamp organisé à Paris par Hypios. Les VoCamp sont des ateliers informels réunissant les acteurs du web sémantique, dans le but de travailler sur la création de nouveaux vocabulaires, ou de nouvelles ontologies, permettant ainsi à la communauté de publier de nouvelles données exprimées grâce à ces vocabulaires.

Les groupes de travail de ce VoCamp se sont réunis autour des thèmes suivants :

  • User (weighted) interest ontology : une modélisation des centres d’intérêt des utilisateurs, avec un focus particulier sur les périodes de temps pendant lesquelles un utilisateur s’intéresse à tel ou tel sujet. C’est le thème qui a de loin intéressé le plus de participants du VoCamp. En toute franchise les objectifs d’une telle modélisation me semblent fortement ambigus; pas besoin d’être devin pour voir là l’utilisation des technologies sémantiques non pas pour rendre les gens plus intelligents, mais pour les abrutir (encore) un peu plus avec de la pub ciblée, comme le use-case de l' »adaptive advertising » pour la télévision, du projet notube; ce qui est finalement, pour les technos sémantiques, aussi une bonne nouvelle : cela veut dire que les grandes industries s’en emparent, ce qui ne peut qu’élargir leur utilisation;
  • Annotation ontology : une modélisation des annotation, ou des « tags » posés par les utilisateurs sur les pages web. Qui a taggé ? quand ? etc;
  • Argumentation ontology : une (tentative de) modélisation des arguments d’un débat, en lien avec l’outil debategraph. C’est le sujet que j’ai trouvé le plus original et le plus intéressant; comment arriver à modéliser les différents arguments et contre-arguments d’une question posée, qui peut être de l’ordre du débat social (fiancement des retraites, pour/contre l’armement nucléaire, etc.) ou simple prise de décision dans un système d’aide à la décision;
  • Vocabulary alignment & translation rule language : réflexion autour de deux problématiques : la modélisation d’alignement de vocabulaires et la modélisation de règles de traduction pour passer des données d’un modèle à un autre. C’est le groupe auquel j’ai participé; nous avons fini par présenter et nous concentrer sur STRL : Semantic Translation Rule Language, déjà discuté en interne à Mondeca avec Bernard. L’idée est de représenter des métadonnées sur des règles de traduction d’un modèle d’ontologie à un autre (quel language, quels éléments de l’ontologie impactés, etc.);

D’autres sujets proposés mais pas développés (mais qui « sont dans l’air ») : l’évolution temporelle des données (sujet sur lequel nous travaillons en ce moment à Mondeca), les « RDF Forms » (quelle connexion entre des formulaires et des données RDF), la modélisation des résultats d’outils d’analyse linguistiques.

Globalement, mon impression de ses deux jours est très positif, autant sur la qualité des participants que des thématiques abordées; il ne faut pas attendre de miracles en terme de résultats/modélisation concrètes de ses deux jours, mais cela permet de faire émerger des problématiques, d’en faire progresser d’autres, et de rencontrer des personnes intéressées par les mêmes sujets.

En tous cas un grand bravo et merci à tous les participants du VoCamp et à ses organisateurs, Milan Stankovic et Alexandre Monnin, l’organisation était parfaite – bon, sauf que c’est tombé un jour férié 🙂


Le toro bravo et le top model

avril 28, 2010

Le dernier billet de Pierre-Yves sur l’art de la modélisation se termine sur l’importance de la re-présentation. On peut mettre en parallèle un billet un peu plus ancien sur le multilinguisme et la traduction, en profiter pour prolonger des réflexions déjà publiées par ailleurs, mais en anglais.  Traduire pour re-présenter.

Dans le magnifique exemple du travail de Picasso sur le taureau, si on parle peinture, on ne nommera pas en général modèle le résultat du travail de réduction à l’essentiel opéré par l’artiste, mais au contraire la réalité dont le peintre s’inspire, le taureau qu’il a pris comme modèle. Ce taureau modèle il l’a d’ailleurs peut-être choisi parmi une collection de taureaux déjà représentés par lui ou par d’autres, et s’il l’a dessiné sur le vif  il n’a certainement pas choisi n’importe quel taureau, mais un toro bravo, un taureau modèle élevé avec amour pour une unique représentation aux arènes le soir… Et ce taureau modèle, avant d’être un vrai taureau en chair et en os, c’est un rêve dans l’esprit des éleveurs, des matadors et des aficionados, le taureau parfait dans le moindre détail jusque dans sa mort, que les arènes applaudiront debout. Et au final ce que capture le génie du peintre, ce n’est pas tel taureau en particulier, mais ce rêve inaccessible du taureau idéal, et ce dessin n’est qu’un épisode après d’autres d’une série de traductions-représentations dont l’origine finalement importe peu.

Et ce n’est pas la fin de l’histoire. Pour des générations suivantes d’étudiants en art, le dessin de Picasso sera aussi un modèle à un autre niveau, un modèle de dépouillement et de maîtrise du trait. Pour ces élèves, la corrida sera peut-être un monde lointain, inconnu ou inquiétant.  A partir du dessin de Picasso, ils traduiront, interpréteront et représenteront à leur tour encore une fois cette réalité intraduisible qu’est le toro bravo. Et pour paraphraser Barbara Cassin c’est justement parce qu’elle est tellement intraduisible qu’il ne faut jamais s’arrêter de la re-traduire, de la re-présenter, en inventant d’autres moyens de la rendre présente à travers nos différences de langage et de culture.

Un autre aspect de la représentation ou du modèle (c’est tout un, on l’a compris), et que la tauromachie illustre bien également, c’est qu’il ne s’agit pas simplement d’une description de la réalité, mais aussi en retour d’une prescription. Voilà comment le toro bravo se doit d’être, et ce caractère prescriptif du modèle est le moteur même du travail de l’éleveur qui va sélectionner, élever, dresser l’animal pour qu’il soit au mieux conforme à ce modèle, et du torero qui doit lui aussi le conduire comme il faut, dans les règles, jusqu’à sa mort.

Dans tout travail de modélisation, il y a ce double aspect descriptif et prescriptif. Le linguiste constate les usages de la langue, les formalise dans une grammaire, et puis les faits de langue sont pris en charge par les grammairiens et les programmes scolaires et deviennent des règles,  normatives et contraignantes.  Et les exemples abondent, jusqu’au top model qui comme le toro bravo est la re-présentation stéréotypée d’un rêve devenu prescriptif.

Très souvent la frontière entre les aspects descriptifs et prescriptifs du  modèle est bien difficile à tracer, dans nos systèmes informatiques également. La forme de l’identité déclarée sur les réseaux sociaux l’illustre assez bien.  L’interface et le modèle de données sous-jacent contraignent de façon insidieuse l’utilisateur. Un champ non rempli  est comme un reproche. Votre profil n’est complet qu’à 60%. Vous pourriez avoir plus d’amis. Vous devriez ajouter des recommandations, vous n’avez pas ajouté votre numéro de téléphone portable, ni votre blog, ni votre compte Twitter.  Là encore, l’utilisateur incomplet, un peu coupable, se rapprochera peu à peu du modèle que le système lui présente.

Comme l’écrit Pierre Levy dans « Vers une science de l’intelligence collective »

… il n’y a pas de modèle qui ne co-produise la réalité qu’il modélise. La carte fait surgir un territoire là où il n’y avait que des expériences de mouvements et des mémoires de trajets … le code de lois transforme les moeurs d’une nation. Les dictionnaires et les grammaires influencent les apprentissages scolaires et les pratiques lettrées des langues … Le modèle est un facteur de l’agencement symbolique qu’il explicite.


Convergences

mars 26, 2010

Les lecteurs fidèles de ce blog, et mieux encore ceux qui suivent tout aussi fidèlement the wheel and the hub, sont maintenant familiers avec la métaphore de la roue et de son vide central, employée régulièrement ici et là depuis des années pour illustrer la question de la multiplicité et de la diversité des représentations d’une même chose.  Pour désigner cette notion de vide central vers lequel convergent (ou autour duquel gravitent) ses représentations, j’avais en 2005 forgé le néologisme hubject par concaténation de « hub » et de « subject » (en français, le « moyeu du sujet » passe beaucoup plus difficilement dans la machine à concaténer).  A défaut de valoriser le nom de domaine hubjects.com acheté à tout hasard dans la foulée si jamais le concept avait du succès, et qui n’abrite pour l’instant que le blog, j’en ai fait mon pseudo sur Twitter

Pendant ces cinq années,  l’occasion s’est présentée à maintes reprises de tester la pertinence du concept, que ce soit dans des systèmes d’information de nos clients où la même chose doit être modélisée fonctionnellement de plusieurs façons pour plusieurs usages, ou dans le cadre de débats dans les forums du Web sémantique à propos de l’interopérabilité des vocabulaires. Petit à petit cette idée accueillie au départ avec un scepticisme poli commence à faire son chemin.  Bien sûr la solution technique décrite dans le document original était un peu sommaire et peu réaliste, on peut retenir aujourd’hui le concept de hubject comme un principe général qui dans la pratique peut s’implémenter de toutes sortes de façons techniques.  Représentant la diversité, il ne saurait le faire de façon unique!

Donc j’ai le plaisir de voir converger ces temps-ci un certain nombre de rayons vers ce centre. Le dernier en date est l’annonce par Dan Brickley de l’introduction prochaine dans le vocabulaire FOAF de la propriété foaf:focus. Cette introduction fait suite à de longs échanges à l’interface de trois vocabulaires importants du Web sémantique : FOAF, SKOS et Dublin Core. L’idée ici est de permettre à plusieurs concepts définis dans des vocabulaires SKOS (thésaurus, taxonomies, index …) d’indiquer leur référent commun comme étant un « objet du monde » lui-même décrit en utilisant FOAF par exemple, tel qu’une personne, une organisation, un lieu, un événement … Plusieurs concepts peuvent avoir le même référent mais des sémantiques et des usages différents, voilà l’usage de foaf:focus.  De façon intéressante, le mot assez intraduisible focus choisi pour désigner cette propriété dénote bien une idée de convergence, c’est le foyer au sens optique du terme. Les rayons de notre roue deviennent donc dans le contexte FOAF des rayons de lumière convergeant depuis les concepts de la chose vers la chose elle-même.

Un autre exemple, sur lequel une bonne partie de l’équipe Mondeca planche en ce moment, tant sur le plan conceptuel que sur le plan technique, est la notion d’évolution des concepts dans le temps, et la question associée des versions de vocabulaires. Les exemples abondent: évolution de la taxonomie en microbiologie, évolution de la règlementation et de la matière juridique, évolution des entités géopolitiques ou de la structure des administrations … Intégrer l’aspect temporel dans la représentation des choses, c’est là aussi relier des aspects instantanés d’un concept à un concept plus général qui perdure dans le temps, tout en changeant de représentation formelle.  Nous y reviendrons certainement, un chantier de réflexion est ouvert depuis quelques jours sur le Semantic Web Wiki, où on trouvera déjà des notes de lecture fort intéressantes sur l’état de l’art. Que ce soit dans l’article de Joseph T. Tennis et Stuart A. Sutton ou la présentation d’Aida Slavic et Antoine Isaac, on découvrira des schémas qui ont un air familier.


مفهوم الأنتولوجيا في ميدان الاعلامية : حسب الموسوعة الحرة ويكيبيديا

décembre 7, 2009
إن مفهوم الأنتولوجيا ظهر في الفلسفة بمعنى علم الوجود و لكن منذ التسعينات أصبحت الأنتولوجيا من أهم مجالات البحث العلمي في ميدان الاعلاميةُ. حيث أصبح لها مفهو ما تحديدًا تفصيليًا (ظاهريًا) لتصميم مجال معيّن. و هذا التفصيل يضع معنى لكل مفهوم و مصطلح و لفظ في المجال. و توضع المفاهيم في أنموذج بياني من المصطلحات و العلاقات التركيبيّة و المعينيّة بين هذه المصطلحات. لقد أصبحت للأنتولوجيا, مع ظهور الإنترنت و الويب الدلالي, أهمية كبرى في مجال الهندسة المعرفية حيث أنَها تساعد مستعمليها على إثراء النظام بمعاني المفاهيم و المصطلحات. و لقد أثبتت الأنتولوجيا مردوديّتها في ميادين عدة مثل الذّكاء الصّناعي و الطّب و هندسة البرمجيّات, إلخ. و لقد أصبح البحث مكثّف في مجال الأنتولوجيات منذ التسعينات بمخابر البّحوث في الاعلاميةُ نظرا لأهميتها في مجال تصميم الأنظمة. لقد طُرحت العديد من الإشكاليّات مثل منهجيّة تصميم الأنتولوجيات, صنع أوتوماتيكي للأنتولوجيات, تمثيل الأنتولوجيات المحورية و المقسمة والسياقية و حسب وجهات النظر