La forme d’un nuage de concepts

Dans le cadre du projet européen TAO dont Mondeca est partenaire, j’ai travaillé ces jours-ci avec un outil d’extraction de concepts (en anglais ontology learning). Parmi les objectifs de ce travail, il y a l’évaluation de la pertinence du format RDF SKOS à la sortie de ce genre d’outils. En effet, ces outils ont comme objectif d’aider à la construction d’ontologies en « découvrant » les concepts implicites utilisés dans un corpus documentaire, et leur organisation hiérarchique, par des techniques de fouille et de rapprochement de termes. Une interface d’édition permet de corriger et d’éditer les résultats bruts de l’outil. Pour faire la jointure avec les langages du Web sémantique, ces outils exportent la structure finale en RDFS ou OWL, ou dans des formats RDF utilisant des classes ad hoc.

Le point de vue que je fais avancer dans le cadre de TAO est que le format SKOS serait beaucoup plus adapté à la sortie de tels outils. Un « arbre de concepts » est en effet une structure à sémantique légère, dans le sens où les hiérarchies « découvertes » peuvent être de toutes sortes de types, et pas a priori et seulement des relations de classe à sous-classe. Il s’agit plutôt de « taxonomies » au sens lâche du terme, c’est-à-dire de schémas de classification, pour lesquels SKOS est optimisé.

J’ai donc joué un peu avec OntoGen, développé par l’un des partenaires du projet, l’Institut Jožef Stefan à Ljubljana (Slovénie). Pour me faire la main sur l’outil, je lui ai livré en pâture le contenu de mon blog (en anglais) univers immedia, soit environ 130 messages publiés depuis août 2004. Un des premiers résultats de OntoGen est la projection en deux dimensions du nuage de concepts extraits (qui est défini en fait formellement dans un espace à n dimensions)

nuage de concepts

A ma grande surprise, j’ai découvert une forme de nuage tout à fait conforme à l’esprit et à la lettre du blog, les concepts et les documents formant une couronne autour d’un vide central. La Roue et le Vide serait donc bien la forme du nuage de concepts dans lequel navigue univers immedia! Au-delà de la satisfaction graphique, il y a peut-être une raison profonde, statistique, à une telle répartition, que je serai bien curieux de connaître.

Il semble, renseignement pris auprès des développeurs de OntoGen, qu’une telle répartition soit de fait un phénomène général, observé dans une variété de corpus documentaires. La conjecture qui vient alors à l’esprit est qu’il y aurait là-dessous un phénomène analogue à celui qui engendre en mécanique les surfaces minimales comme les bulles de savon.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :