Comment installer OWLIM dans Sesame – et jouer avec

octobre 29, 2008

Une des choses frustrante quand vous travaillez dans les technologies du web sémantique c’est que leur intérêt n’est pas facile à expliquer à des techniciens qui ont l’habitude de travailler sur des applications fermées, des bases de données, et du XML; exemple :

« RDF ? hé bien tu vois, c’est un peu comme du XML mais en mieux… »

« OWL ? hé bien tu vois, c’est un peu comme un schéma de base de données mais en mieux… »

« Les données ouvertes ? hé bien tu vois, tu peux partager tes données sur le web et les lier aux autres données existantes pour… comment ça tu t’en fiche ? »

Bref. Lire la suite »


pourquoi les thésaurus et taxonomies évoluent ? et comment ?

septembre 29, 2008

Il y a quelque jour un journaliste me posait des questions sur les thésaurus, j’ai essayé de lui expliquer au mieux les évolutions en cours, je pense que c’était un peu confus. Un court essai pour essayer de mieux comprendre comment et pourquoi les thésaurus et systèmes de classification évoluent rapidement et quels sont les besoins très pragmatiques qui les font évoluer.

Nous avons besoin d’un outil de recherche plein texte plus efficace et précis 

L’entreprise dispose de terminologies permettant de décrire son domaine et d’indexer des documents, il s’agit d’un vocabulaire métier assez pointu et fermé (juridique, médical, scientifique, gestion des retraites…) mais ou chaque concept peut, selon le public, être exprimé avec des termes un peu différents. L’idée est d’enrichir le vocabulaire métier avec toutes les expressions répertoriées pour désigner les concepts métiers. Le thésaurus existant est enrichi de ces termes et l’on suit avec attention les statistiques de recherche sur le moteur pour capturer les expressions utilisées lors des recherches et continuer d’enrichir la terminologie associée aux thésaurus / référentiels.

Nous implémentons un outil de text mining pour automatiser (assister) le processus d’indexation des contenus

L’entreprise veut automatiser l’indexation des documents. Les outils de text mining sont d’autant plus efficaces qu’ils connaissent les termes et expressions à chercher dans les documents. Les termes extraits seront rapprochés automatiquement du thésaurus pour déterminer le concept à utiliser. Il s’agit ici aussi d’enrichir les termes et expressions utilisées pour désigner un concept,  une entreprise, un produit, un lieu, une personne…

L’entreprise peut procéder en compilant des ressources internes existantes, ou en faisant une analyse systématique d’un corpus de documents représentatifs de l’activité afin d’en extraire le vocabulaire métier. Ces terminologies métier seront rapprochés de thésaurus existants ou à construire.

Nous devons assister les utilisateurs de notre portail dans sa navigation 

Nous devons suggérer des produits et contenus en fonction des recherches de l’utilisateur

Dans les deux cas l’utilisateur ne peut connaître la richesse des contenus du portail (documents, produits, réglementations, maladies…), il est utile de pouvoir lui proposer des liens le guidant de sujets en sujets, de lui proposer des informations complémentaires, ou de lui suggérer une réponse à sa recherche à partir d’un raisonnement sur sa demande.

Pour répondre à ces besoins, il est nécessaire d’établir des relations fines entre les sujets métiers décrits dans le thésaurus et les listes d’autorité. On établira une relation entre « sport nautique » et « gites ruraux » ayant le label « pêche », une relation entre une partie du corps et des infections, entre des infections et des molécules, entre une décision de justice et une réglementation, entre un produit et une thématique…

L’ensemble de ces relations (relations sémantiques car il est nécessaire de décrire finement les relations si l’on ne veut pas confondre « produits recommandés » avec « contre indication ») viendront progressivement enrichir le référentiel d’origine pour construire une réelle description de connaissances sur le domaine d’activité.

Ces liens pourront être utilisés dans le portail comme

– de simples suggestions de navigation,  

– pour pousser automatiquement des contenus dans la page,  

– pour proposer un ensemble de contenus intelligemment choisi en fonction de quelques informations données par l’utilisateur (proposer automatiquement un package « week end dans la Nièvre » pour quelqu’un qui veut se détendre, pas trop loin de Paris et avec un budget raisonnable).

Nous devons avoir une indexation très riche des contenus à partir de très peu d’information de base

Nous indexons des images de sport, de télé, d’imagerie médicale…, il est hors de question que quelqu’un remplisse toutes ces données d’indexation dont nous avons pourtant absolument besoin pour la recherche et le filtrage dans le portail, comment enrichir automatiquement à partir d’une saisie minimale ?

Le système de text mining extrait peu d’information, principalement des noms de personnne, de sociétés et de produits, ca ne suffit pas du tout pour notre indexation qui est beaucoup plus riche.

L’idée est ici de confier au référentiel le soin de déduire du peu d’information fournie toutes les autres données d’indexation. En donnant le nom de l’émission de télé et la date, le système devra déduire le producteur, la chaîne de télévision, le présentateur, les droits de rediffusion par pays, la thématique de l’émission.

On enrichira ici le référentiel pour le transformer en une véritable base de connaissance du domaine, avec l’ensemble des liens entre les sujets (telle émission est produite par TF1, animée par Ruquiet, traite des sujets de sociétés et spectacle…), et avec les capacités d’inférer toutes les métadonnées à partir d’une simple information de départ comme le nom de l’émission.

Conclusion

On remarque deux types d’évolution et d’enrichissement des thésaurus :

– un enrichissement de la terminologie métier autour des concepts utilisés pour décrire le domaine,

– un enrichissement des relations entre les concepts du domaine pour former une véritable représentation des connaissances

On remarque aussi le transfert progressif de services habituellement rendus par un humain vers les machines. 

  • La documentaliste ou l’expert métier sont capables à partir d’une information partielle de réaliser une indexation complète du contenu sur un système de classement complexe et formel, ils sont aussi capables de rapprocher automatiquement les expressions utilisées dans un document aux concepts utilisés dans l’entreprise pour la classification.
  • Le vendeur, la documentaliste, l’expert sont capables de comprendre une question d’un utilisateur, de la transcrire dans la représentation utilisée pour la classification des contenus, d’effectuer la recherche, mais aussi de suggérer à l’utilisateur des thèmes de recherche connexes, d’autres produits utiles, des contre indications, des suggestions de voyage…

Ce sont ces services que l’on transfère progressivement aux machines, en leur fournissant des terminologies et des représentations riches, détaillées et formelles de l’univers métier.


Open Calais : du text-mining en mode SaaS

juin 7, 2008

Open Calais, ça aurait pu être le titre de la suite de « Bienvenue chez les ch’tis ». Non, en fait Open Calais c’est un nouvel outil de text-mining en mode SaaS (lancé au début 2008 environ ? je n’ai pas la date exacte). C’est gratuit, y compris pour les applications commerciales, en tout cas pour l’instant.

Là où ça devient intéressant, c’est que tout cela « cause RDF » :

Lire la suite »


L’absence de preuves n’est pas la preuve de l’absence

mai 24, 2008

Qu’on en commun la recherche de la vie extra-terrestre et la recherche des armes de destruction massive en Irak ?

Elles supposent toutes les deux que le monde est ouvert, et que ce n’est pas parce qu’on n’a rien trouvé qu’il n’y a rien; dans l’un et l’autre cas, l’absence de preuve n’est pas la preuve de l’absence(*).

Dans le monde ouvert des recherches sur le « web of data », hé bien c’est pareil.

Lire la suite »


Carto 2.0 : Mondeca sera présent !

mars 21, 2008

“Où en êtes-vous de la mise en scène de vos informations ?”

Face à la quantité d’information sans cesse croissante que les organisations sont contraintes de gérer, leur mise en scène au travers de représentations graphiques permet de mieux les appréhender et les valoriser. Intelligence économique, gestion des connaissances, apprentissage, réseaux sociaux, aide à la décision sont autant de domaines où la cartographie de l’information est de plus en plus populaire car elle permet en amont d’organiser et d’appréhender des données, puis en aval d’évaluer et de communiquer les résultats obtenus. Cette journée sera donc l’occasion de mettre en valeur le rôle majeur que peux jouer la cartographie dans nos sociétés dîtes de l’information.


Jean Delahousse, fondateur de la société Mondeca, interviendra sur le thème : « Cartographie et Ontologie : Généricité, réutilisabilité et spécificité »

Il présentera comment il est possible dans le contexte des technologies du Web Sémantique et des ontologies, de disposer de composants de représentation cartographique des connaissances réutilisables dans des contextes métiers très diverses. Lire la suite »


Requêter le contenu de Wikipedia avec SPARQL

décembre 6, 2007

Pour prolonger le débat récent entre Thomas et Bruno sur RDF et XML, un petit exemple illustrant le fait que SPARQL permet de requêter un graphe RDF, même très grand, sans connaître a priori ni sa structure, ni l’ontologie sous-jacente.

DBpedia, dont je vous ai déjà parlé, définit une URI à partir de chaque article du Wikipedia anglais, cette URI identifiant le sujet de l’article, la chose dont il parle. En fait l’article parle en général de beaucoup de choses, mais il a un sujet principal, par principe même de l’encyclopédie : « un article, une chose décrite ». Lire la suite »


De la bibliothéque aux taxonomies, de la conversation au Web 2.0, de la critique littéraire aux Listmania, de l’expert aux bases de connaissances, des concordances bibliques aux index plein texte: Continuité et révolution dans l’accès aux contenus

novembre 11, 2007

 

Offrir un accès efficace à des tablettes, rouleaux, documents, livres, chapitres, paragraphes, versets a préoccupé les hommes depuis la création de l’écrit (en tout cas une petite partie d’entre eux) dans un esprit de service aux lecteurs. Aujourd’hui nous avons la même préoccupation dans un univers de contenus numériques et de réseaux internet.La mise à disposition des contenus ou de leurs références via l’internet entraine mécaniquement un besoin de transposition des méthodes d’accès aux contenus dans un environnement numérique. Cette migration dans un environnement numérisé qui dispose de capacités de traitement occasionne une évolution de ces outils et méthodes, l’apparition de nouvelles techniques de médiation mais aussi l’émergence de nouvelles pratiques dans leur utilisation et leur couplage.

Lire la suite »