Ceci n’est pas le Web sémantique

Le Google Knowledge Graph a fait du chemin depuis sa première annonce au printemps dernier. Beaucoup de choses ont été écrites sur la portée de l’événement, qui entérinerait l’adhésion officielle de Google aux principes de base du Web sémantique, résumés par la formule choc things, not strings. Avec des chiffres qui se veulent impressionnants : des centaines de millions de choses et des milliards de faits (propriétés des choses et relations entre elles).

Selon une déclaration de Larry Page le mois dernier, le Knowledge Graph n’est encore qu’à 1% de ses objectifs. Au passage le patron de Google souligne que la tâche est ardue, en particulier dans ses aspects multilingues. Effectivement si l’on en croit ces offres de recrutement de contributeurs multilingues on constate qu’en matière de construction de la connaissance et de consolidation des données Google lui-même doit admettre que la puissance de ses algorithmes ne fait pas tout, et qu’arrivé au niveau de détail où le diable se niche, Humans do it better, pour reprendre le slogan un peu désuet (aujourd’hui abandonné d’ailleurs) de l’Open Directory.

Nul ne peut nier que le Knowledge Graph ajoute une vraie valeur à la recherche, avec une expérience utilisateur agréable et fluide qui permet de rebondir par exemple d’un peintre à ses oeuvres, de celles-ci aux musées où elles sont exposées etc. On navigue ainsi dans ce qui ressemble bien à un graphe de connaissances, et on y apprend beaucoup de choses. Mais de là à dire que Google a adopté et mis en œuvre les principes du Web  sémantique, il y a un pas. Pour bien s’en rendre compte, comparons une description Knowledge Graph et une page de data.bnf.fr pour un tableau de Magritte, dont le sujet semble particulièrement adapté à notre propos.

La Trahison des images version Google Knowledge Graph

« La trahison des images » version Google Knowledge Graph

trahison-bnf

« La trahison des images » version data.bnf.fr

Du point de vue de l’expérience utilisateur, beaucoup de similarités.  Les informations de description ne sont certes pas tout à fait les mêmes, et Google gagne sans doute sur le plan de la navigation. On peut aller directement sur la page du peintre, ou rebondir sur d’autres œuvres du même. Dans la page de la BnF on peut naviguer vers la fiche du peintre, d’où on pourra repartir sur d’autres œuvres.

Mais ce sont là des différences de surface. La différence fondamentale est dans la sémantique formellement déclarée (ou pas) derrière ces pages. L’URI de la chose décrite par la fiche de la BnF est déclarée  explicitement dans le code RDF qui est accessible soit par le lien en bas de la page html, soit par négociation de contenu dans le protocole http. Les données de la BnF font d’ailleurs la distinction, qui aurait sans doute plu au peintre, entre le tableau lui-même en tant qu’objet du monde réel, sa représentation comme un concept (une autorité) dans le catalogue de la BnF, et les différents formats de ces descriptions. Tout cela de façon explicite, réutilisable, en s’appuyant sur des vocabulaires ouverts à sémantique partagée (SKOS, FRBR, Dublin Core, FOAF…). Ces URI explicites sont réutilisées dans la fiche correspondante de VIAF, où on pourra rebondir vers l’entrée équivalente dans le catalogue de la Bibliothèque Nationale d’Allemagne. VIAF est un impressionnant projet coordonnant les listes d’autorité (auteurs, titres, lieux …) des plus grandes bibliothèques du monde, et les rendant disponibles pour le Web des données.

Rien de tel derrière la page Google. Ouvrez  le code source de la page, et cherchez une URI qui identifie l’œuvre, ou son créateur, ou même un objet qui représente l’une ou l’autre, et réutilisable indépendamment du contexte de la requête. Rien de semblable … la navigation vers les autres « nœuds » du Knowledge Graph se fait en relançant une requête. Les identifiants des objets du Knowledge Graph, s’ils existent à n’en pas douter quelque part dans la base de données de Google, ne sont pas explicités, donc non adressables, et a fortiori non réutilisables ailleurs dans le Web de données. Au lancement du Knowledge Graph en mai dernier, Kingsley Idehen écrivait à ce sujet sur la liste Linked Open Data :

They have no option but provide an API. Anything less than that contradicts the entire endeavor.

Voir une analyse plus détaillée du même à la même époque sur Google+. Bientôt un an plus tard cette option minimale n’est toujours pas proposée par Google. Donc aujourd’hui si le Knowledge Graph a le goût et la couleur du Web sémantique,  il constitue toujours de fait un vaste silo de connaissances impossible à connecter au reste du Web des données, même s’il puise largement dans ce dernier. Par exemple Freebase est citée comme source des entités du Knowledge Graph. Les objets de Freebase ont des URI publiques intégrées dans le Web des données, mais on ne les retrouve pas dans les descriptions du Knowledge Graph.  Au passage remarquons que tous les types d’entités de Freebase ne sont pas traitées en Knowledge Graph, l’exemple le plus flagrant étant les entreprises, pour des raisons qu’on peut imaginer, mais c’est quand même curieux de trouver Bill Gates mais pas Microsoft, et même Larry Page mais pas Google! De même les médicaments sont absents, même sous leur forme la plus générique (aspirine, pénicilline). Même remarque pour les URI de DBpedia qui pourraient être explicitement utilisées, puisque le Knowledge Graph puise largement dans les descriptions structurées de Wikipedia.

Google aurait pourtant a priori plus à gagner qu’à perdre en interfaçant son Knowledge Graph avec le reste du Web des données, ne serait-ce que pour mettre sa pratique en cohérence avec son discours, et d’une certaine façon rendre au Web des données ce qu’il lui emprunte. Nul doute que Google dispose des moyens techniques et des ressources pour le faire, donc les raisons pour lesquelles il ne l’a pas (encore) fait restent obscures. Mais puisque 99% du travail reste à faire, espérons que cette ouverture en fasse partie, et qu’elle ne soit pas programmée dans le 1% final. Soyons patients…

9 réponses à Ceci n’est pas le Web sémantique

  1. bernard dit :

    Trouvé ce soir a posteriori un billet du mois dernier sur le même thème, avec une approche différente mais tout aussi intéressante. http://www.webcontentspinning.com/le-knowledge-graph-de-google-nest-pas-semantique-il-est-semantique/

  2. Julien Plu dit :

    Post intéressant, il y a eu un projet afin de fournir toutes les données du Knowledge Graph en RDF via un point d’accès SPARQL et une API (Open Knowledge Graph) mais il a malheureusement dû être fermé.

    La raison, une demande de la part de Google disant qu’ils n’ont pas l’autorisation de proposer au public l’utilisation d’une grande partie de ses données car ils n’ont pas le droit de les redistribuer et aussi pour d’autres raisons légales. Toutes les données publiques que Google à le droit de distribuer pour une réutilisation se trouve (et se trouvera) donc sur Freebase.

    Le gros du travail pour le côté Web sémantique n’est pas à faire du côté du knowledge graph car certainement qu’on aura jamais aucune chance de pouvoir l’interfacer avec quoi que ce soit mais plutôt du côté de Freebase.

    C.F : http://openknowledgegraph.org/sparql

  3. bernard dit :

    Merci Julien de rappeler ce projet auquel j’avais eu un certain plaisir à collaborer je dois avouer. Pas tout à fait d’accord avec ta fin pessimiste cependant. Rien n’empêche (techniquement ni légalement je pense) Google d’indiquer dans la description de ses « choses » les URI qui les identifient sur Freebase, DBpedia, VIAF etc. Il pourrait même faire son travail de moteur en classant ces URI comme il le fait pour d’autres ressources. Ce serait un petit pas pour Google, et un grand pas de plus pour la visibilité du Web sémantique.

    • Julien Plu dit :

      Exact, je suis toujours pessimiste pour ce qui concerne ce type de projets venant d’importantes compagnies comme Google (malgré que ce soit une société que j’aime beaucoup).

      Néanmoins, j’espère que Google fera un effort pour avoir un accès par au moins une API par exemple au knowledge graph et voir un étoffement de Freebase pour quelque chose d’un peut plus « connecter ».

      Personnellement j’aime beaucoup Freebase dans le sens ou les données sont propres et de confiances comparé à DBPedia et la page wikipédia est toujours données (je n’ai pas vu de cas ou ça ne l’était pas) et avec cette page avec une requête sur le SPARQL endpoint de DBPedia il est facile de voir si il y a un équivalent dessus. Mais j’avoue qu’une liste de liens directement su Freebase serait plus que préférable plutôt que d’utiliser cette astuce.

      Si Google à racheter Freebase ya quelques années à mon avis c’est pour en faire quelques chose de bien et de presque indispensable mais c’est juste une question de temps (espérons le…)

      • bernard dit :

        Freebase restera à mon avis un outil back-office pour Google, pas un élément central de l’écosystème du Web des données comme peut l’être DBpedia ou VIAF, ou même le catalogue de la BnF. La question centrale est la position de Google par rapport à l’indexation des « URI des choses ». Voir mon billet en anglais et la discussion sur Google+ ci-dessous.

  4. bernard dit :

    Suivi de ce billet sur the wheel and the hub

    http://blog.hubjects.com/2013/02/a-small-step-for-google.html

    et discussion sur Google+

  5. [...] the Lecons de Choses post, “Ceci N’est Pas Le Web Sémantique” into Google translate and it transformed into “This Is Not The Semantic Web,” an article that [...]

  6. [...] des slogans. Quant au « Google Knowledge Graph« , comme on le fait remarquer ici, il ignore de façon spectaculaire les entreprises : quelques données sur Carlos Goshn, mais rien [...]

  7. […] le Knowledge Graph dans le précédent billet, voici un autre aspect du Web sémantique à la mode Google et consors, mais dont les processus […]

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

Suivre

Recevez les nouvelles publications par mail.

%d blogueurs aiment cette page :