Infrastructures et logistique de la distribution sémantique

J’aime bien Mike Bergman.  Il est intelligent, pragmatique, c’est un bourreau de travail, il a du caractère et il appelle un chat un chat. Dans un billet d’humeur qui ne mâche pas ses mots, il fait le point sur l’état du mouvement Linked Data dont nous avons parlé dans ces pages à plusieurs reprises. Mike a été, et reste l’un des acteurs importants de ce mouvement, entre autres par son travail énorme de construction avec Frédérick Giasson de la boîte à outils sémantique UMBEL. Pour la petite histoire, Mike m’avait invité à participer au tout début de cette entreprise, et j’avais rapidement jeté l’éponge devant l’ampleur de la tâche, faute de disponibilité.
Je vous laisse savourer le billet original, en particulier la mise au point salutaire : il ne s’agit que de technologie, et pas de religion. On lit trop souvent le mantra suivant : le web sémantique c’est simple, mettez vos données en RDF, publiez-les en utilisant des URI déréférençables, établissez des relations avec d’autres données, et « laissez le Web faire le reste », selon la formule chère à l’incontournable Kingsley Idehen, fournisseur de technologie et infatigable évangéliste des données liées, dont l’abattage et la verve n’ont rien à envier à celles du précédent.
Mike Bergman nous rappelle fort à propos qu’il est temps d’aller au-delà de cette approche un peu simpliste. Je traduis ici une partie de sa conclusion :

Au-delà des données liées nos avons besoin de contexte, nous devons enraciner et relier nos données à des ontologies interopérables, nous avons besoin d’améliorer les interfaces, l’accessibilité et la qualité de nos assertions et de nos usages. Ce sont des problèmes qui vont bien au-delà des données liées et constituent les prochains défis à relever pour gagner une plus large adoption du web et de l’entreprise sémantique.

Effectivement il ne faut pas perdre de vue  l’objectif essentiel de nos technologies : distribuer à l’utilisateur final l’information dont il a besoin au moment où il en a besoin, dans le format le plus agréable et le plus simple possible.  Les professionnels de la grande distribution (nous avons la chance d’en avoir un acteur majeur dans nos clients actuels, auprès duquel j’apprends beaucoup ces derniers temps) pensent leur métier en termes de chaîne d’approvisionnement, depuis les fournisseurs jusqu’aux rayons du magasin, en passant par les entrepôts. Nous faisons un métier de distribution, même si le produit que nous distribuons s’appelle information.

Pour assurer la qualité et la satisfaction du client – utilisateur final au moindre coût, tous les éléments de la chaîne logistique doivent être coordonnés et soumis aux mêmes contrôles de qualité et de performance. La technologie Linked Data nous fournit des entrepôts vastes avec des procédures de stockage, d’entrée et de sortie standardisés. Nous avons des outils de conditionnement sémantique qui permettent d’emballer et étiqueter les données de façon standard pour les ranger dans ces entrepôts. Bref la pile des technologies sémantiques fournit les infrastructures : les entrepôts, les racks, les chariots et les camions, les palettes et les codes-barres. Le mouvement Linked Data est en train de remplir  les entrepôts. Il est temps maintenant de penser un peu mieux la logistique, réfléchir aux gammes de produits (quelle information intéresse vraiment l’utilisateur et doit être sur les rayons), à la qualité des produits au niveau des fournisseurs, à l’organisation rationnelle des entrepôts, à la maîtrise des flux.

Hier, Jean Delahousse me demandait pourquoi dans le nouveau navigateur à facettes développé par Neofonie pour DBpedia, Mondeca apparaissait dans les résultats de recherche pour « Sociétés du secteur Logiciel situées à Paris », mais n’apparaissait plus quand on remplace « Paris » par « France ». Si on regarde attentivement les données, on s’aperçoit que l’entrepôt DBpedia relie Paris à la France de façon tellement tarabiscotée que la deuxième requête ne peut pas inclure par une inférence simple les résultats de la première. Et que donc le moteur d’indexation ne peut guère s’appuyer que sur une déclaration explicite de la situation en France dans les données originales – ce qui n’est pas le cas.
Cet exemple simple montre l’importance du travail de contrôle de qualité, et en particulier du genre d’inférence de base que l’utilisateur s’attend implicitement à trouver dans le système. Cela dit ne crachons pas dans la soupe : le navigateur de Neofonie apporte une valeur ajoutée très sympathique à DBpedia. Trouver en trois clics les articles de Wikipedia sur les philosophes allemands qui ont été influencés par Kant, ou sur tous les albums de jazz enregistrés chez Columbia entre 1960 et 1970, est quand même très sympathique. Mais n’oublions pas que ces résultats s’appuient au départ sur un travail patient et minutieux de collecte de l’information par des Wikipédiens passionnés (et bénévoles) sur ces sujets, suivi d’un travail non moins minutieux d’extraction et de filtrage des données structurées et d’explicitation de leur sémantique par l’équipe de DBpedia. Les infrastructures de collecte, de stockage et de distribution ne servent à rien si l’on ne s’assure pas de la qualité des produits tout au long de la chaîne d’approvisionnement.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :