مفهوم الأنتولوجيا في ميدان الاعلامية : حسب الموسوعة الحرة ويكيبيديا
décembre 7, 2009Notre langue, c’est la traduction
novembre 13, 2009Traduire – Défense et illustration du multilinguisme est le dernier livre de François Ost. On peut en lire une excellente introduction sur le site La vie des idées. Juriste et philosophe, l’auteur ne s’aventure pas à étendre sa thèse de la traduction généralisée à notre domaine des technologies sémantiques, mais je crois qu’elle peut et doit s’y appliquer avec beaucoup de bonheur. Si, selon la formule reprise d’Umberto Eco, la langue commune de l’Europe, c’est la traduction, on peut en dire tout autant de nos métiers. Qu’il s’agisse de modéliser des données, les extraire du texte par un outil linguistique, nettoyer le résultat de cette extraction, migrer un contenu XML dans un format différent, publier dans un portail à destination de différents publics … toutes ces procédures de la logistique sémantique évoquées dans le billet précédent sont bien de l’ordre du dire autrement cher à notre auteur. Autrement dit la traduction est donc au centre de toutes nos entreprises sémantiques, le sens toujours inaccessible restant entre les lignes du processus, dans le vide central de la roue qui permet le jeu du langage. Dans notre travail quotidien, chaque nouveau projet, qu’il soit monolingue ou multilingue, est un nouvel itinéraire d’interprétation et de traduction, et donc d’invention renouvelée du langage. Que celui-ci soit plus structuré et pus formalisé que la langue naturelle ne change pas le fonds de la question, comme le montre aussi François Ost dans le chapitre consacré au droit.
Malgré tout, on rencontre encore ça et là dans les sphères du Web sémantique quelques irréductibles partisans du sens unique, de la langue parfaite et de l’ontologie scientifique, inguérissables héritiers des bâtisseurs de Babel. Ceux-là refusent toujours de comprendre que la multiplicité et l’ambiguité des langues relèvent de l’ordre naturel des choses et non d’un châtiment divin, et qu’à s’en écarter les langues, et donc la pensée, sont en danger de mort. On leur conseille vivement la lecture de François Ost, et on leur souhaite d’en venir aussi à la conclusion que leurs ontologies, qu’ils voudraient orthologies (description absolue et exacte de Ce Qui Est) ne sont finalement que des logologies (description d’une vue du monde émergeant d’un terreau linguistique et culturel donné). Ou encore, pour ajouter à la liste des savoureux néologismes de notre auteur, des hétérologies puisqu’elles traduisent, comme tout fait de langage, une essentielle altérité.
Infrastructures et logistique de la distribution sémantique
septembre 24, 2009J’aime bien Mike Bergman. Il est intelligent, pragmatique, c’est un bourreau de travail, il a du caractère et il appelle un chat un chat. Dans un billet d’humeur qui ne mâche pas ses mots, il fait le point sur l’état du mouvement Linked Data dont nous avons parlé dans ces pages à plusieurs reprises. Mike a été, et reste l’un des acteurs importants de ce mouvement, entre autres par son travail énorme de construction avec Frédérick Giasson de la boîte à outils sémantique UMBEL. Pour la petite histoire, Mike m’avait invité à participer au tout début de cette entreprise, et j’avais rapidement jeté l’éponge devant l’ampleur de la tâche, faute de disponibilité.
Je vous laisse savourer le billet original, en particulier la mise au point salutaire : il ne s’agit que de technologie, et pas de religion. On lit trop souvent le mantra suivant : le web sémantique c’est simple, mettez vos données en RDF, publiez-les en utilisant des URI déréférençables, établissez des relations avec d’autres données, et “laissez le Web faire le reste”, selon la formule chère à l’incontournable Kingsley Idehen, fournisseur de technologie et infatigable évangéliste des données liées, dont l’abattage et la verve n’ont rien à envier à celles du précédent.
Mike Bergman nous rappelle fort à propos qu’il est temps d’aller au-delà de cette approche un peu simpliste. Je traduis ici une partie de sa conclusion :
Au-delà des données liées nos avons besoin de contexte, nous devons enraciner et relier nos données à des ontologies interopérables, nous avons besoin d’améliorer les interfaces, l’accessibilité et la qualité de nos assertions et de nos usages. Ce sont des problèmes qui vont bien au-delà des données liées et constituent les prochains défis à relever pour gagner une plus large adoption du web et de l’entreprise sémantique.
Effectivement il ne faut pas perdre de vue l’objectif essentiel de nos technologies : distribuer à l’utilisateur final l’information dont il a besoin au moment où il en a besoin, dans le format le plus agréable et le plus simple possible. Les professionnels de la grande distribution (nous avons la chance d’en avoir un acteur majeur dans nos clients actuels, auprès duquel j’apprends beaucoup ces derniers temps) pensent leur métier en termes de chaîne d’approvisionnement, depuis les fournisseurs jusqu’aux rayons du magasin, en passant par les entrepôts. Nous faisons un métier de distribution, même si le produit que nous distribuons s’appelle information.
Pour assurer la qualité et la satisfaction du client – utilisateur final au moindre coût, tous les éléments de la chaîne logistique doivent être coordonnés et soumis aux mêmes contrôles de qualité et de performance. La technologie Linked Data nous fournit des entrepôts vastes avec des procédures de stockage, d’entrée et de sortie standardisés. Nous avons des outils de conditionnement sémantique qui permettent d’emballer et étiqueter les données de façon standard pour les ranger dans ces entrepôts. Bref la pile des technologies sémantiques fournit les infrastructures : les entrepôts, les racks, les chariots et les camions, les palettes et les codes-barres. Le mouvement Linked Data est en train de remplir les entrepôts. Il est temps maintenant de penser un peu mieux la logistique, réfléchir aux gammes de produits (quelle information intéresse vraiment l’utilisateur et doit être sur les rayons), à la qualité des produits au niveau des fournisseurs, à l’organisation rationnelle des entrepôts, à la maîtrise des flux.
Hier, Jean Delahousse me demandait pourquoi dans le nouveau navigateur à facettes développé par Neofonie pour DBpedia, Mondeca apparaissait dans les résultats de recherche pour “Sociétés du secteur Logiciel situées à Paris”, mais n’apparaissait plus quand on remplace “Paris” par “France”. Si on regarde attentivement les données, on s’aperçoit que l’entrepôt DBpedia relie Paris à la France de façon tellement tarabiscotée que la deuxième requête ne peut pas inclure par une inférence simple les résultats de la première. Et que donc le moteur d’indexation ne peut guère s’appuyer que sur une déclaration explicite de la situation en France dans les données originales – ce qui n’est pas le cas.
Cet exemple simple montre l’importance du travail de contrôle de qualité, et en particulier du genre d’inférence de base que l’utilisateur s’attend implicitement à trouver dans le système. Cela dit ne crachons pas dans la soupe : le navigateur de Neofonie apporte une valeur ajoutée très sympathique à DBpedia. Trouver en trois clics les articles de Wikipedia sur les philosophes allemands qui ont été influencés par Kant, ou sur tous les albums de jazz enregistrés chez Columbia entre 1960 et 1970, est quand même très sympathique. Mais n’oublions pas que ces résultats s’appuient au départ sur un travail patient et minutieux de collecte de l’information par des Wikipédiens passionnés (et bénévoles) sur ces sujets, suivi d’un travail non moins minutieux d’extraction et de filtrage des données structurées et d’explicitation de leur sémantique par l’équipe de DBpedia. Les infrastructures de collecte, de stockage et de distribution ne servent à rien si l’on ne s’assure pas de la qualité des produits tout au long de la chaîne d’approvisionnement.
A web of (public) data
juillet 4, 2009(quelques références supplémentaires après le précédent billet sur la question)
This, 2009, is the year for putting government data online.
C’est Tim-Berners Lee qui le dit dans un article tout récent : “Putting Government Data online“. Comme quoi, la problématique est dans l’air et va aller en s’amplifiant.
Information maintained by the Federal Government is a national asset… Executive departments and agencies should harness new technologies to put information about their operations and decisions online and readily available to the public.
C’est Barack Obama qui le dit dans un memo du 21 janvier 2009. Comme quoi, le gouvernement américain, au moins, prends la chose au sérieux. D’autant plus au sérieux quand on met en perspective la date de ce mémo : il date de la première semaine de prise de fonction d’Obama, et qu’il ait mis cette problématique en avant si tôt quand on sait les défis qui l’attendent est significatif.
Au Royaume-Uni, la problématique est également prise au sérieux par l’OPSI (Office of Public Sector Information), qui a publié un document de “best practices” à destination des services publics anglais sur la mise en oeuvre des projets de réutilisation de l’information publique. C’est très technique pour la problématique qui nous intéresse, mais la partie introductive donne des éléments intéressants :
The removal of barriers to re-use (public sector information) will act as a stimulus to the information and publishing industry in Europe so providing significant economic opportunities and enhance job creation across Europe. An additional benefit would be to improve the flow of information from the public sector to the citizen.
The public sector is by far the largest producer of information in Europe. The European Commission estimates that between 15% and 25% of total data used in e-commerce trading is based on public sector information.
(on retrouve encore le double argument du marché et du citoyen, l’un étant mis en avant par rapport à l’autre).
Voyons comment les choses vont évoluer dans le futur !
Sur l’alignement et la mise en correspondance de terminologies
juin 29, 2009Jean Delahousse
Introduction
Dans notre pratique quotidienne de mise en œuvre de solutions sémantiques, nous rencontrons de plus en plus régulièrement des besoins de mise en correspondances de référentiels. Cet article a pour objectif de dégager, à partir d’expériences concrètes une typologie des types d’alignement, des besoins métiers et des méthodes de mise en œuvre.
“Web of Data” : Et l’état dans tout ça ?
juin 27, 2009“Linked Data“, ce sont des données mises ensemble, mises en commun; alors quand on y pense, il est troublant de constater que les états, entités représentatives de communautés de personnes, garants d’un certain “vivre ensemble”, soient pour l’instant complètement absents de cette réflexion. Il s’agit non seulement de rendre publiques des données qui ne l’étaient pas, mais également de rendre publiques ces données dans des formats interopérables. Il s’agit d’ajouter des bulles de données publiques au “Linked Data Cloud“, car il me semble que les données de ce nuage viennent principalement :
- de la communauté scientifique (Uniprot etc.)
- de sites de réseaux sociaux (flickr ou autre myspace wrapper, et dbpedia rentrerait également dans cette catégorie)
- d’initiatives isolées (geonames ou lingvoj)
- d’acteurs privés (open calais ou virtuoso)
Les états disposent de beaucoup de données intéressantes qui ne peuvent que gagner à être publiées : transports, administrations, lois, recensement, élections, économie, télévisions et radios publiques, etc. (la crise actuelle, résultat entre autre d’un manque de transparence des marchés financiers, ne pourrait que bénéficier également d’une mise à disposition des informations sur les transactions financières, comme l’avait souligné Christian Fauré). Cela repose la question d’une politique publique volontaire en matière de nouvelles technologies.
Les lignes commencent cependant à bouger :
- L’administration Obama aux Etats-Unis a lancé data.gov, mise à disposition de données fédérales et d’outils permettant de les exploiter;
- Le gouvernement britannique avait lancé l’année dernière showusabetterway.com, un concours d’idées sur l’utilisation innovante des données publiques;
- Tim Berners Lee a récemment été approché par le même gouvernement britannique sur la question de la mise en ligne sur le web des données gouvernementales;
- L’Europe promeut la publication et réutilisation des données publiques (PSI : Public Sector Information) par ses états membres; (on notera d’un oeil plus ou moins amusé qu’elle le fait “for new services and products” et pas du tout “for european citizens” par exemple);
- Et en France ? une annonce au début du mois de juin par la maintenant-ex-secrétaire-d’état-à-l’économie-numérique Nathalie Kosciusko-Morizet d’une enveloppe de 20 millions d’euros consacrée “aux services mobiles et à l’accès aux données publiques”.
La mise à disposition de ces données pose bien sûr beaucoup de questions, de sécurité, d’infrastructure, d’interopérabilité, ou plus simplement de guerres de clocher entre services de l’état. Elle ne peut cependant que bénéficier à l’usager ou au citoyen – tout autant d’ailleurs qu’au secteur privé, quand on sait que le marché des données publiques européennes avait été estimé à 27 milliards d’euros par la commission. C’est pourquoi les usagers, citoyens et entreprises vont réclamer à l’état l’ouverture de ses données (“Raw Data Now”, comme le scande TBL dans son speech TED), tant cela semble une étape normale dans l’évolution du web.
Mondeca’s new corporate website
juin 25, 2009Mondeca has just released its new corporate website. check it out at www.mondeca.com ! you’ll find lots of information regarding Mondeca’s products, success stories and technologies.
Publié par hcherfi
Publié par bernard
Publié par bernard