Knowledge is Music (et vice-versa) (6) – Corrections, améliorations, downloads

[le post précédent marquait la conclusion de la première étape de mon petit mashup musico-sémantico-graphique]

Corriger l’extraction linguistique

D’abord, maintenant que ma chaine Wikipedia -> Gate -> ITM -> Touchgraph fonctionne, il est temps de jeter un oeil à la qualité des résultats. Pour bien faire, j’aurais pu mesurer cette qualité en terme de silence (information non-extraite alors qu’elle aurait due l’être) et de bruit (information extraite alors qu’elle n’aurait pas due l’être); le temps me manque pour de telles mesures. Mais un simple parcours des résultats fait déjà resortir un problème : il semblerait par exemple que des groupes comme « Air » ou « Avril » soient liés à beaucoup d’autres artistes, certains n’ayant carrément rien à voir sur le plan musical…

Pas étonnant. Gate fait simplement de la reconnaissance d’entités, si bien qu’il voit l’entité « Air » partout où le mot « Air » est présent dans le texte. Je vous laisse imaginer les dégats. Un parcours de la liste d’entités de départ fait resortir celles qui pourraient être litigieuses : Air, Alambic, Alpes, Ange, Arsene, Avril, Bijou, Dogs, Eiffel, Java, Zoo dans les noms de groupes de musique, et Anaïs, Anis, Barbara, Bruno, Camille, Camus, Carlos, Corneille, Dave, Elsa, Jordy, Juliette, Raphael, Régine, Renaud dans les noms de chanteurs. Pour le moment, une seule solution pour que ces entités ne nuisent pas à la qualité globale de l’extraction : les supprimer de la liste d’entités analysées (désolé pour les fans); C’est-à-dire qu’elles ne seront jamais extraites par Gate (mais leur page Wikipedia sera quand même analysée) (1).

D’autre part, il me semblait bien qu’aucune entité possédant un caractère accentué dans son nom n’était extraite… étonnant que l’on ne trouve pas Céline Dion dans les liens de Jean-Jacques Goldman par exemple. Bug d’encoding de caractère, plaie de l’informaticien mondialisé. C’est au niveau de Gate que ça se passe : celui-ci accepte un paramètre d’encoding, qu’il ne vaut mieux pas oublier sous peine de voir les résultats sérieusement faussés.

Aprés ces corrections, j’obtiens 2259 liens entre 721 entités (vs. 1882 liens avant les corrections).

Améliorer la visualisation

La visualisation avec Touchgraph était vraiment une solution de dernier recours. Je ne pourrai pas en tirer beaucoup plus que ce que j’ai déjà fait. Par contre, sur la suggestion de Chritophe Tricot, j’ai jeté un oeil à la bibliothèque prefuse. Assez impressionnant, plein de possibilités, open-source. Le premier résultat donne un espèce de gros pâté informe qui bouge dans tous les sens, mais c’est tout à fait le genre de bibliothèque adaptée (et adaptable) avec plus de temps. A suivre. Vous pourrez juger du résultat en téléchargeant l’applet (voir ci-dessous).

D’autre part, j’ai profité de l’intégration de prefuse pour utiliser les API de sesame, bibliothèque permettant de manipuler du RDF, en version 2.0 alpha. Très propre et facile à prendre en main, rien à voir avec Jena !

Rendre les résultats accessibles

Finalement, je me suis dit qu’il serait intéressant de rendre les résultats de l’expérience accessibles pour ceux que cela intéresserait. Vous pouvez donc trouver :


Next ?

A signaler : le lancement d’une vraie ontologie sur la musique. Rien à voir avec ma mini-modélisation, ce serait sans doute quelque chose à regarder de plus près…

——
(1) : la solution théorique plus pérenne consisterait à construire une grammaire dans Gate, lui indiquant d’extraire ces entités uniquement si elles sont repérées dans un contexte permettant de les désambigüiser.

———

2007-06-02 Edit

Depuis la migration du nouveau site web de mondeca, les précédents liens vers les fichiers n’étaient plus valides. Vous pouvez maintenant trouver :

  • La mini-ontologie en OWL ici
  • Le résultat correspondant en RDF ici
  • Les applications de visualisation ici

5 commentaires pour Knowledge is Music (et vice-versa) (6) – Corrections, améliorations, downloads

  1. inesc dit :

    Bonjour,

    Je suis tombée sur votre blog par hasard et j’ai découvert que vous avez suivi à peu près le même parcours que moi en ce qui concerne la visualisation (JGraph, TG..). Je travaille sur un domaine très différent du votre, mais les problématiques sont à peu près identiques. Pour l’instant, mon ontologie est accessible via internet. Mon application tout comme la vôtre, a une architecture avec des clients lourds(tout le traitement se fait coté client).
    Ce que j’aimerais savoir, c’est s’il existe des applications Web sémantiques client/serveur legers. Si oui, pourriez-vous m’envoyer des liens? Avant de me lancer, j’aimerais bien savoir ce qu’il en est.
    Je pourrais vous donner un peu plus de détails su mon appli au besoin.

    cordialement

    Inès C

  2. Bonjour Inès

    Merci pour votre commentaire. La réponse dépend beaucoup de ce que vous mettez derrière « application » et derrière « client/serveur léger »; et aussi si vous rangez dans « Web sémantique » tout ce qui se fait en ce moment autour du « Web 2.0 ». On parle beaucoup de Yahoo Pipes en ce moment, voilà une sorte d' »application », qui manipule des flux RSS (donc du RDF), et qui tourne dans un navigateur – donc en client léger. Attention, je ne dis pas que Yahoo Pipes est du web sémantique (ça n’en est pas), et nous avons eu à peu près la même réaction avec Bernard Vatant en le voyant, du genre « mouaaiiss… et à quoi ça sert ? ».

    Maintenant, l’objectif du web sémantique étant que les informations (la connaissance ?) soient interprétables et échangeables par les machines, cela implique forcément des sortes de traitements/aggrégations/comparaisons/traductions, etc. Donc si vous voulez des pages html simples pour l’utilisateur au final, cela veut dire que tous les traitements sont faits côté serveur (dans un serveur d’application typiquement). L’application ITM développée chez Mondeca propose par exemple des interfaces web permettant de naviguer et d’interroger un réseau sémantique.

    Je serais effectivement curieux d’avoir des détails sur votre application (peut-être en « off » par mail) pour pouvoir vous donner une réponse plus précise.

  3. yooufi dit :

    Salut Thomas

    je travaille sur un projet similaire je veux representer des fichiers FOAF (rdf) en utilisant TouchGraph je voulais jeter un coup d’oeuil sur votre code de music-graph pour m’en inspirer mais le lien ne fonctionne pas. pourriez vous m’envoyer un autre lien ou me l’envoyer par mail s’il vous plait sur mon adresse

    yooufi@gmail.com

    Mercii

  4. Les liens n’étaient plus valides suite à la migration du nouveau site web de mondeca. Je les ai mis à jour.

    Thomas

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :