Contenu et métadonnées : le texte n’est pas mort

Les aspects multimédia tiennent ces temps-ci le devant de la scène des nouvelles technologies du Web (2.0, ou plus si affinités). Les images de Flickr, les vidéos de YouTube, les cartes de Google Maps, les liens de del.icio.us … seraient les prototypes des contenus du Web du futur. Le texte s’y réduirait comme peau de chagrin jusqu’à son minimum incompressible, le « tag », stade ultime d’épuration, ou degré zéro du texte – selon les points de vue. La sémantique riche et subtile du texte construit, implicite et lisible seulement des humains, se réfugierait alors dans les métadonnées, sous une forme explicite pour l’usage des seules machines.

C’est aller bien vite en besogne, et oublier que l’essentiel du contenu publié sur le Web et utilisé par les internautes est encore aujourd’hui du texte. Et oublier aussi que les formats de données qui nous sont chers, de HTML à XML, sont des formats texte, de même que les zillions de lignes de codes écrites pour créer nos sites dynamiques, feuilles de style, applets, javascript …

Donc le texte n’est pas mort, loin de là. A lire ce livre blanc publié par la société dixxit, intitulé sobrement « Référencement : la revanche du contenu », la qualité éditoriale est plus que jamais à l’ordre du jour. C’est-à-dire qu’un contenu texte bien construit, structuré en paragraphes concis, utilisant un vocabulaire métier à la fois précis et riche, est selon la formule consacrée bon pour l’internaute, bon pour le moteur. On a envie d’ajouter : bon pour le Web sémantique. Notre expérience avec les outils de traitement automatique du langage naturel interfacés avec Mondeca ITM pour la génération automatique de méta-données aboutit aux mêmes conclusions, assez évidentes. Ces outils fonctionnent d’autant mieux que le contenu texte est bien structuré, et utilise un vocabulaire contrôlé. Les textes juridiques ou techniques sont traités avec beaucoup plus de succès que les textes littéraires ou la langue de bois journalistique.

Donc, la réponse à « Que faire pour que mes pages participent au Web sémantique? » n’est sans doute pas « Mettez des métadonnées RDF partout ». Pas plus que la réponse à « Que faire pour que mon site soit bien référencé? » n’est désormais « Utilisez les bons mots-clés dans les tags meta et dans les liens ».  A terme, la réponse aux deux questions sera sans doute la même : « Créez du contenu clair, intelligent, sobre, bien structuré, explicite, en utilisant un vocabulaire riche et précis, et en respectant des règles simples de présentation » … et le reste vous sera donné par surcroit. Certes les moteurs d’extraction sémantique sont pour l’instant moins évolués que les moteurs classiques, mais leur évolution en cours, couplée avec la prise de conscience actuelle de l’importance de la qualité du contenu, va clairement dans ce sens. Le texte, et le savoir-faire lié à sa composition et à son traitement, a donc encore de beaux jours devant lui, et on ne peut que s’en réjouir.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :