Knowledge is Music (et vice-versa) (6) – Corrections, améliorations, downloads

février 19, 2007

[le post précédent marquait la conclusion de la première étape de mon petit mashup musico-sémantico-graphique]

Corriger l’extraction linguistique

D’abord, maintenant que ma chaine Wikipedia -> Gate -> ITM -> Touchgraph fonctionne, il est temps de jeter un oeil à la qualité des résultats. Pour bien faire, j’aurais pu mesurer cette qualité en terme de silence (information non-extraite alors qu’elle aurait due l’être) et de bruit (information extraite alors qu’elle n’aurait pas due l’être); le temps me manque pour de telles mesures. Mais un simple parcours des résultats fait déjà resortir un problème : il semblerait par exemple que des groupes comme « Air » ou « Avril » soient liés à beaucoup d’autres artistes, certains n’ayant carrément rien à voir sur le plan musical…

Pas étonnant. Gate fait simplement de la reconnaissance d’entités, si bien qu’il voit l’entité « Air » partout où le mot « Air » est présent dans le texte. Je vous laisse imaginer les dégats. Un parcours de la liste d’entités de départ fait resortir celles qui pourraient être litigieuses : Air, Alambic, Alpes, Ange, Arsene, Avril, Bijou, Dogs, Eiffel, Java, Zoo dans les noms de groupes de musique, et Anaïs, Anis, Barbara, Bruno, Camille, Camus, Carlos, Corneille, Dave, Elsa, Jordy, Juliette, Raphael, Régine, Renaud dans les noms de chanteurs. Pour le moment, une seule solution pour que ces entités ne nuisent pas à la qualité globale de l’extraction : les supprimer de la liste d’entités analysées (désolé pour les fans); C’est-à-dire qu’elles ne seront jamais extraites par Gate (mais leur page Wikipedia sera quand même analysée) (1).

D’autre part, il me semblait bien qu’aucune entité possédant un caractère accentué dans son nom n’était extraite… étonnant que l’on ne trouve pas Céline Dion dans les liens de Jean-Jacques Goldman par exemple. Bug d’encoding de caractère, plaie de l’informaticien mondialisé. C’est au niveau de Gate que ça se passe : celui-ci accepte un paramètre d’encoding, qu’il ne vaut mieux pas oublier sous peine de voir les résultats sérieusement faussés.

Aprés ces corrections, j’obtiens 2259 liens entre 721 entités (vs. 1882 liens avant les corrections).

Améliorer la visualisation

La visualisation avec Touchgraph était vraiment une solution de dernier recours. Je ne pourrai pas en tirer beaucoup plus que ce que j’ai déjà fait. Par contre, sur la suggestion de Chritophe Tricot, j’ai jeté un oeil à la bibliothèque prefuse. Assez impressionnant, plein de possibilités, open-source. Le premier résultat donne un espèce de gros pâté informe qui bouge dans tous les sens, mais c’est tout à fait le genre de bibliothèque adaptée (et adaptable) avec plus de temps. A suivre. Vous pourrez juger du résultat en téléchargeant l’applet (voir ci-dessous).

D’autre part, j’ai profité de l’intégration de prefuse pour utiliser les API de sesame, bibliothèque permettant de manipuler du RDF, en version 2.0 alpha. Très propre et facile à prendre en main, rien à voir avec Jena !

Rendre les résultats accessibles

Finalement, je me suis dit qu’il serait intéressant de rendre les résultats de l’expérience accessibles pour ceux que cela intéresserait. Vous pouvez donc trouver :


Next ?

A signaler : le lancement d’une vraie ontologie sur la musique. Rien à voir avec ma mini-modélisation, ce serait sans doute quelque chose à regarder de plus près…

——
(1) : la solution théorique plus pérenne consisterait à construire une grammaire dans Gate, lui indiquant d’extraire ces entités uniquement si elles sont repérées dans un contexte permettant de les désambigüiser.

———

2007-06-02 Edit

Depuis la migration du nouveau site web de mondeca, les précédents liens vers les fichiers n’étaient plus valides. Vous pouvez maintenant trouver :

  • La mini-ontologie en OWL ici
  • Le résultat correspondant en RDF ici
  • Les applications de visualisation ici
Publicités

Metadata never die

février 12, 2007

De temps en temps, je fais une recherche Google sur mon nom. J’ai la chance, ou la malchance, d’avoir une combinaison prénom + nom de famille assez rare, donc cette requête ramène peu de bruit. C’est toujours assez étrange de se regarder dans le miroir à géométrie variable du Web : papiers de conférences, forums publics, fragments de blogs … on y retrouve souvent des bribes oubliées depuis des années que les algorithmes mystérieux de Google font remonter en surface. C’est comme feuilleter un vieil album photos mal rangé …

L’autre jour j’ai eu la surprise de trouver dans la première page de cet « album » ce lien vers un fichier Powerpoint sous le titre Tutorial Content Structures Extreme 2002. Etonné que les slides d’un tutorial que j’ai effectivement donné à Montréal Extreme Markup en 2002 puissent être en ligne, j’ai donc cliqué sur le lien … et retrouvé des slides présentées par Jean Delahousse à l’Ecole d’Eté d’Informatique CEA EDF INRIA 2003 sous le titre « Rôle et mise en oeuvre des standards sémantiques dans un environnement distribué de partage des connaissances ». Le fichier téléchargé, un coup de bouton droit sur « Propriétés – Résumé » donne bien les métadonnées qui ont visiblement été utilisées par Google pour indexer ce document. « Titre : Tutorial Content Structures Extreme 2002 » – « Auteur : Bernard Vatant ».  Mais aussi « Date de création : 21/06/2001 », et « Numéro de révision : 965 ». Ces deux dernières informations sont sans doute celles qui laissent le plus songeur …

Plusieurs leçons à retenir.

  1. Les documents Office contiennent des métadonnées.
  2. Ces métadonnées survivent à tous les avatars du contenu sauf changement volontariste de l’éditeur du document.
  3. Google sait les trouver dans des documents en ligne, et il s’en sert, lui.
  4. Il est bien le seul … demandez autour de vous qui met à jour les métadonnées de ses documents Office avant de les diffuser, ou pire, de les publier sur le Web. Et même et surtout à ceux qui vous parlent savamment de l’importance des métadonnées.

Morale de cette morale. Les métadonnées ne peuvent être fiables que si elles sont synchronisées automatiquement, et mises en cohérence d’une façon ou d’une autre,  avec le contenu. Mais ne comptez pas sur les utilisateurs pour le faire spontanément …


TiddlyWiki, le logiciel dans le contenu

février 6, 2007

Découvert la technologie TiddlyWiki. J’ai d’emblée été séduit par le principe et la facilité d’utilisation, et commencé à la mettre en oeuvre pour réveiller ma vieille page univers immedia, en dormance depuis plusieurs années.

L’idée géniale de TiddlyWiki, c’est que le logiciel est dans le contenu HTML. Rien à installer, ni côté client, ni côté serveur. Il suffit d’enregistrer n’importe quelle page d’un TiddlyWiki, et tout est présent sous forme de Javascript. On peut enregistrer une page existante, ou partir du modèle vide. Ensuite, hors-ligne, on ouvre la page dans son navigateur, elle est dynamique et éditable avec des modalités de style Wiki. L’interface de navigation est l’interface d’édition. Quand on a fini d’éditer, on sauvegarde la page, et on la republie sur son serveur. C’est tout. Firefox recommandé pour l’édition, on ne peut pas sauvegarder sous IE7 par exemple.

L’utilisation est assez semblable à celle d’un blog avec beaucoup plus de flexibilité, on peut ouvrir et fermer les rubriques à volonté, paramétrer simplement les rubriques visibles à l’ouverture de la page, utiliser des liens internes comme dans un wiki.