Sur l’alignement et la mise en correspondance de terminologies

juin 29, 2009

Jean Delahousse

Introduction

Dans notre pratique quotidienne de mise en œuvre de solutions sémantiques, nous rencontrons de plus en plus régulièrement des besoins de mise en correspondances de référentiels. Cet article a pour objectif de dégager, à partir d’expériences concrètes une typologie des types d’alignement, des besoins métiers et des méthodes de mise en œuvre.

Lire la suite »


« Web of Data » : Et l’état dans tout ça ?

juin 27, 2009

« Linked Data« , ce sont des données mises ensemble, mises en commun; alors quand on y pense, il est troublant de constater que les états, entités représentatives de communautés de personnes, garants d’un certain « vivre ensemble », soient pour l’instant complètement absents de cette réflexion. Il s’agit non seulement de rendre publiques des données qui ne l’étaient pas, mais également de rendre publiques ces données dans des formats interopérables. Il s’agit d’ajouter des bulles de données publiques au « Linked Data Cloud« , car il me semble que les données de ce nuage viennent principalement :

  • de la communauté scientifique (Uniprot etc.)
  • de sites de réseaux sociaux (flickr ou autre myspace wrapper, et dbpedia rentrerait également dans cette catégorie)
  • d’initiatives isolées (geonames ou lingvoj)
  • d’acteurs privés (open calais ou virtuoso)

Les états disposent de beaucoup de données intéressantes qui ne peuvent que gagner à être publiées : transports, administrations, lois, recensement, élections, économie, télévisions et radios publiques, etc. (la crise actuelle, résultat entre autre d’un manque de transparence des marchés financiers, ne pourrait que bénéficier également d’une mise à disposition des informations sur les transactions financières, comme l’avait souligné Christian Fauré). Cela repose la question d’une politique publique volontaire en matière de nouvelles technologies.

Les lignes commencent cependant à bouger :

La mise à disposition de ces données pose bien sûr beaucoup de questions, de sécurité, d’infrastructure, d’interopérabilité, ou plus simplement de guerres de clocher entre services de l’état. Elle ne peut cependant que bénéficier à l’usager ou au citoyen – tout autant d’ailleurs qu’au secteur privé, quand on sait que le marché des données publiques européennes avait été estimé à 27 milliards d’euros par la commission. C’est pourquoi les usagers, citoyens et entreprises vont réclamer à l’état l’ouverture de ses données (« Raw Data Now », comme le scande TBL dans son speech TED), tant cela semble une étape normale dans l’évolution du web.


Mondeca’s new corporate website

juin 25, 2009

Mondeca has just released its new corporate website. check it out at www.mondeca.com ! you’ll find lots of information regarding Mondeca’s products, success stories and technologies.


Mondeca – Offre d’emploi / Open position

juin 19, 2009

Société MONDECA

Editeur logiciel en ingénierie des connaissances

Offre de poste : « Ingénieur Test/Qualité »

J2EE, Intégration continue, tests unitaires, processus support

Société

Mondeca est un éditeur de logiciel fondé en 2000. Notre offre se positionne sur le marché de la gestion des connaissances et adresse les besoins d’organisation de contenu, de vocabulaires, et de connaissances métier. Nos clients sont des grands comptes dans les domaines de l’édition, de l’industrie, du tourisme, ou des sciences de la vie, au niveau national et international. Mondeca s’appuie sur les technologies J2EE et Web sémantique. Mondeca a une forte composante R&D en s’impliquant fortement dans les travaux de normalisation du W3C, en entretenant des relations étroites avec des laboratoires universitaires et en participant à des projets européens.

Mission

  • Mise en place d’outils et de processus qualité pour le développement du logiciel ITM :
    • Spécifications, paramétrage et animation d’un outil d’intégration continue (Hudson, CVS, ant)
    • Spécifications, paramétrage et animation d’un outil de suivi de gestion d’anomalies (Ace Project, Mantis ou outil à définir)
    • Spécifications, paramétrage et animation d’un intranet projets/capitalisation de connaissances/procédures (Google sites ou outil à définir)
    • Réflexion et formalisation des processus de développement et de qualité autour du développement logiciel (méthodes agiles)
  • Développement de tests automatiques en J2EE :
    • Ecriture et mise en oeuvre de tests automatiques d’une application J2EE (JUnit, Maven)
    • Ecriture et mise en oeuvre de tests d’intégration d’une application (Sélénium, tests automatisés d’une application web)
  • Responsable du support du logiciel ITM :
    • centralisation des remontées de bugs de la part des consultants Mondeca
    • formalisation du process de support

Description du poste

  • Type de contrat : CDI avec période d’essai de 3 mois.
  • Lieu de travail : Paris 18.
  • Rémunération : à négocier en fonction du profil et de l’expérience.
  • Equipe : 20 personnes

Compétences/Qualités

  • Profil : dynamique, à l’aise dans la découverte de nouveaux outils, sachant prendre des initiatives et travailler en équipe.

  • Poste qualité à très forte composante technique
  • Expérience et maîtrise de Java, du développement Web, de XML.
  • Connaissance souhaitée des outils de développement libres (Eclipse, Ant, CVS, Maven).
  • Anglais : bon niveau indispensable

Contact


Common Tag Standard : les tags + la sémantique

juin 12, 2009

La publication de Common Tags Standard est à mon avis un événement majeur dans la construction du Web sémantique. J’avais déjà parlé ici de Faviki qui permet le marquage de ses favoris par des concepts de DBpedia, les dits concepts étant suggérés par le moteur Zemanta. Common Tag propose de standardiser ce mécanisme de marquage sémantique par l’utilisation d’un vocabulaire RDF simple, destiné à être utilisé principalement sous forme de RDFa.

Quel est le principe de Common Tag? Au lieu de considérer le marquage comme la pose d’un mot-clé sur une ressource, avec tous les problèmes connus que cela comporte (homonymie, ambiguité, synonymie, langues multiples), on considère que derrière le tag (le libellé en langage naturel, une chaine de caractères) se cache un concept qui lui peut être défini de façon formelle dans l’univers RDF, typiquement défini par une URI décrite dans un vocabulaire contrôlé. Un tag sémantique sera donc un objet de type relation (de classe Tag avec majuscule) à trois pattes dont l’une est le « tag minuscule », c’est-à-dire le libellé, la deuxième la ressource marquée, et la troisième l’URI du concept. Des informations complémentaires portées par le Tag peuvent être l’auteur et la date, l’origine (auteur de la ressource ou lecteur, marquage automatique). Tout cela est très simple.

Les utilisations sont multiples, si on considère que les trois pattes du Tag peuvent être utilisées deux par deux et dans tous les sens.

  1. Attacher un tag(libellé) à une ressource comme dans le tagging ordinaire
  2. Rechercher les ressources marquées par un libellé
  3. Attacher un concept contrôlé à une ressource (indexation sémantique)
  4. Retrouver toutes les ressource attachées à un concept (recherche par métadonnées contrôlées)
  5. Retrouver tous les libellés utilisés pour un même concept, dans toutes les langues ou dans une langue donnée
  6. Retrouver tous les concepts attachés à un libellé

… plus les options de filtrage par date et auteur.

Les utilisations 5 et 6 sont des effets collatéraux du standard qui ne sont pas des moins intéressants. Si le marquage sémantique se fait dans le contexte de la ressource marquée, il est de fait aussi un enrichissement du concept par des libellés. On marque donc le concept en même temps que la ressource, et tout le monde y gagne.

Pour l’instant les outils d’aide au marquage comme Zemanta ne fonctionnent qu’en anglais, mais le standard fournit bel et bien l’infrastructure pour l’intégration du marquage multilingue. Il n’y a plus qu’à …