Knowledge is Music (et vice-versa) (6) - Corrections, améliorations, downloads
février 19, 2007[le post précédent marquait la conclusion de la première étape de mon petit mashup musico-sémantico-graphique]
Corriger l’extraction linguistique
D’abord, maintenant que ma chaine Wikipedia -> Gate -> ITM -> Touchgraph fonctionne, il est temps de jeter un oeil à la qualité des résultats. Pour bien faire, j’aurais pu mesurer cette qualité en terme de silence (information non-extraite alors qu’elle aurait due l’être) et de bruit (information extraite alors qu’elle n’aurait pas due l’être); le temps me manque pour de telles mesures. Mais un simple parcours des résultats fait déjà resortir un problème : il semblerait par exemple que des groupes comme “Air” ou “Avril” soient liés à beaucoup d’autres artistes, certains n’ayant carrément rien à voir sur le plan musical…
Pas étonnant. Gate fait simplement de la reconnaissance d’entités, si bien qu’il voit l’entité “Air” partout où le mot “Air” est présent dans le texte. Je vous laisse imaginer les dégats. Un parcours de la liste d’entités de départ fait resortir celles qui pourraient être litigieuses : Air, Alambic, Alpes, Ange, Arsene, Avril, Bijou, Dogs, Eiffel, Java, Zoo dans les noms de groupes de musique, et Anaïs, Anis, Barbara, Bruno, Camille, Camus, Carlos, Corneille, Dave, Elsa, Jordy, Juliette, Raphael, Régine, Renaud dans les noms de chanteurs. Pour le moment, une seule solution pour que ces entités ne nuisent pas à la qualité globale de l’extraction : les supprimer de la liste d’entités analysées (désolé pour les fans); C’est-à-dire qu’elles ne seront jamais extraites par Gate (mais leur page Wikipedia sera quand même analysée) (1).
D’autre part, il me semblait bien qu’aucune entité possédant un caractère accentué dans son nom n’était extraite… étonnant que l’on ne trouve pas Céline Dion dans les liens de Jean-Jacques Goldman par exemple. Bug d’encoding de caractère, plaie de l’informaticien mondialisé. C’est au niveau de Gate que ça se passe : celui-ci accepte un paramètre d’encoding, qu’il ne vaut mieux pas oublier sous peine de voir les résultats sérieusement faussés.
Aprés ces corrections, j’obtiens 2259 liens entre 721 entités (vs. 1882 liens avant les corrections).
Améliorer la visualisation
La visualisation avec Touchgraph était vraiment une solution de dernier recours. Je ne pourrai pas en tirer beaucoup plus que ce que j’ai déjà fait. Par contre, sur la suggestion de Chritophe Tricot, j’ai jeté un oeil à la bibliothèque prefuse. Assez impressionnant, plein de possibilités, open-source. Le premier résultat donne un espèce de gros pâté informe qui bouge dans tous les sens, mais c’est tout à fait le genre de bibliothèque adaptée (et adaptable) avec plus de temps. A suivre. Vous pourrez juger du résultat en téléchargeant l’applet (voir ci-dessous).
D’autre part, j’ai profité de l’intégration de prefuse pour utiliser les API de sesame, bibliothèque permettant de manipuler du RDF, en version 2.0 alpha. Très propre et facile à prendre en main, rien à voir avec Jena !
Rendre les résultats accessibles
Finalement, je me suis dit qu’il serait intéressant de rendre les résultats de l’expérience accessibles pour ceux que cela intéresserait. Vous pouvez donc trouver :
- La mini-ontologie en OWL à http://www.unabstract.net/lecondechoses/onto
- Le résultat correspondant en RDF à http://www.unabstract.net/lecondechoses/knowledge_is_music_instances_1_1.rdf
- Les applications de visualisation à http://www.unabstract.net/lecondechoses/music-graph.zip avec touchgraph et prefuse (nécessite java 5). Les sources sont incluses. (note : ces applets lisent directement le RDF en ligne à l’adresse ci-dessus, une connexion Internet est donc nécessaire pour les faire fonctionner).
Next ?
A signaler : le lancement d’une vraie ontologie sur la musique. Rien à voir avec ma mini-modélisation, ce serait sans doute quelque chose à regarder de plus près…
——
(1) : la solution théorique plus pérenne consisterait à construire une grammaire dans Gate, lui indiquant d’extraire ces entités uniquement si elles sont repérées dans un contexte permettant de les désambigüiser.
———
2007-06-02 Edit
Depuis la migration du nouveau site web de mondeca, les précédents liens vers les fichiers n’étaient plus valides. Vous pouvez maintenant trouver :
Publié par Thomas Francart








