Open Calais : du text-mining en mode SaaS

Open Calais, ça aurait pu être le titre de la suite de « Bienvenue chez les ch’tis ». Non, en fait Open Calais c’est un nouvel outil de text-mining en mode SaaS (lancé au début 2008 environ ? je n’ai pas la date exacte). C’est gratuit, y compris pour les applications commerciales, en tout cas pour l’instant.

Là où ça devient intéressant, c’est que tout cela « cause RDF » :

  • Toutes les entités extraites ont une URI « open calais »
  • Les résultats d’extraction sont en RDF (ce qui est discutable en soi, mais bon)
  • Ils envisagent prochainement de lier (comment ?) leurs entités à toutes ces données RDF présentes sur le web, dbpedia, geonames et consors.

Au niveau de la qualité des résultats, pour l’avoir testé sur quelques textes (les sources Java pour appeler le service Calais sont disponibles sur demande), c’est du vrai NLP, donc ça ne ramène pas n’importe quoi comme d’autres outils d' »auto-tagging » (sur lesquels je pourrai peut-être faire une review… plus tard); maintenant, c’est loin d’être parfait, et il faudrait faire un test plus poussé, en particulier sur l’extraction de relations. Les entités et relations extraites sont décrites ici. Bon tout cela ne marche évidemment que sur de l’anglais pour l’instant…

Voici ce que ça m’a extrait sur la page d’accueil de Mondeca :

Relations: <rien>
IndustryTerm: ontologies technologies, Power vertical search portals,
departmental development agency, semantic technology, semantic web
Country: France
Technology: ontologies technologies, XML

Hé oui, Mondeca n’est pas trouvé, même si le nom est mentionné 15 fois, et aucune relation n’est ramené, alors qu’il y aurait matière… snif. Le reste des entités trouvées est par contre assez propre. Bref on ne va pas s’étendre ici sur la qualité des outils de text-mining… ils ne peuvent que s’améliorer… l’avantage c’est que Calais est en mode SaaS, donc ils peuvent facilement faire évoluer leur service, rajouter des types d’entité et améliorer leurs algos au fil du temps.

Au-dessus du web-service, ils commencent à avoir un éventail d’outils pour le commun des internautes, et c’est la valse des plugins, plugin wordpress, plugin drupal, plugin firefox, plugin Yahoo SearchMonkey, etc.

D’un point de vue marketing, nul doute qu’ils cherchent à s’imposer comme l’acteur gagnant de ce type de technologie NLP en mode SaaS :

  • Une belle vidéo marketing
  • Un réseau de développeurs qui se monte
  • Un service gratuit (jusqu’à quand ?)
  • Des liens avec les technos et les données du web sémantique

La roadmap est intéressante en tous cas… (et on m’avait parlé de la possibilité de soumettre des metadata au système, de façon à ce qu’il améliore ses extractions au fil du temps. Même si la possibilité existe bien dans le service, il me semble que ça ne fait rien d’autre que retourner les metadata qu’on soumet, et rien d’autre. En tous cas ils ne communiquent pas du tout sur cette fonctionnalité).

A surveiller donc, en se rappelant qu’un tel outil ne vaut rien sans outil de gestion du référentiel devant pour alimenter ses dictionnaires, ni sans base de stockage sémantique derrière pour exploiter ses résultats…

Un commentaire pour Open Calais : du text-mining en mode SaaS

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :