Knowledge is Music (et vice-versa) (2) – un mashup musico-sémantique

[le post précédent explique d’où vient l’idée originale de cette expérience.]

Mon objectif : créer de façon automatisée, à partir de textes non-structurés, une base de connaissances sur les chanteurs et les groupes de musique français. La base de connaissances se restreindra à des relations simples entre chanteurs et/ou groupes de musique. Puis montrer comment cette base peut être exploitée et peut évoluer dans le temps.

Mes outils : si l’article de hackdiary cité dans le précédent post utilisait les webservices Yahoo, et de simples fichiers texte pour structurer ses données, je me propose de réaliser l’expérience avec des outils plus scalables et sur lesquels je peux avoir entièrement la main (impossible de modifier le comportement d’un webservice externe) :

  • Gate analyser le contenu des pages (Gate est une plateforme de développement d’applications de traitement automatique du langage développée par l’Université de Stanford)
  • ITM, la solution de Mondeca, pour la modélisation de l’ontologie, le stockage de la connaissance, et son exploitation.
  • JGraph pour la représentation graphique
  • Un soupçon de XSLT
  • Une pincée de Java

Ma source de connaissances : j’ai l’impression que « In Wikipedia We Trust » pourrait devenir la devise de beaucoup de gens ces temps-ci. Hé bien je vais moi-aussi supposer que Wikipedia est une source sûre, et en extraire la connaissance qui va alimenter mon petit prototype. (note : une autre bonne source aurait pu être le wiki de last.fm, mais je ne crois pas qu’il soit très fourni en artistes français)

Mon mot d’ordre : « keep it simple » ! compte-tenu de la complexité de la chaîne à mettre en place, je fais d’abord simple, voire très simple, et ensuite, si le temps le permet, j’augmenterai la complexité.

Les 4 étapes de base pour aller au bout de mon petit prototype sont :

  1. Modéliser une ontologie
  2. Constituer une liste d’entités (ici des noms de chanteurs et de groupes de musique), et importer cette liste dans la base de connaissances.
  3. L’étape clé : à l’aide de Gate et du module d’indexation d’ITM, analyser les pages de Wikipedia, pour en extraire des relations entre chanteurs et/ou groupes, et rajouter ces relations dans la base de connaissance.
  4. Utiliser la base de connaissances : la requêter et la visualiser avec JGraph.

D’autres étapes pourront venir se rajouter si l’expérience avec les 4 premières est concluante; comme par exemple la mise à jour périodique de la base de connaissance pour rendre compte des évolutions des pages Wikipedia, ou encore un export de la base en RDF.

2 commentaires pour Knowledge is Music (et vice-versa) (2) – un mashup musico-sémantique

  1. bernard dit :

    La démarche de Thomas est bien dans l’air du temps. Pour se rendre compte de l’ampleur du phénomène mashup, voir http://www.programmableweb.com/. Le titre à lui seul est … tout un programme..

  2. […] [le post précédent décrit les objectifs et les étapes de ma petite expérience.] […]

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :