L’extension des capacités des moteurs de recherche par l’utilisation de terminologies métier ou comment rendre les moteurs de recherche plus efficaces ?

Les moteurs de recherche comme outils d’accès à l’information dans les intranets et portails web des entreprises et administrations sont tout à la fois un sujet d’émerveillement et de frustration. Contrairement aux moteurs de recherche généralistes du web, où l’on accepte d’assez bon coeur que face au miracle de disposer en ligne d’autant d’information, un travail d’exploration et de tri soit nécessaire, l’attitude face au moteur de recherche du Ministère des Finances, de la base d’assistance de Microsoft, de SFR, d’Orange ou du moteur de recherche d’un spécialiste du bricolage est tout autre. Le domaine de recherche est fermé, l’information est limitée et nous nous attendons à un service de qualité de la part d’un fournisseur, d’un commerçant ou d’une administration. Bref nous ressortons en général frustré, incapable d’être certain d’avoir localisé toute l’information utile et en général déçu par le peu de soin apporté par l’éditeur à nous apporter une aide au delà d’avoir installé un moteur de recherche sur son site.

Les raisons de notre frustration peuvent avoir deux origines cumulatives :

  • L’information que nous cherchons n’est pas en ligne et nous n’avons donc aucune chance de la trouver mais également aucune chance d’être certain qu’elle n’est pas en ligne
  • Nous ne savons pas comment décrire notre problèmatique pour avoir une chance de trouver le document utile , lui même rédigé avec le vocabulaire métier/jargon de l’entreprise ou de l’administration

Nota bene à l’intention des commerciaux des moteurs de recherche : mon problème n’a jamais été de différencier un avocat (profession) d’un avocat (fruit) mais de trouver comment Sony décrit « Une anomalie de synchronisation entre mon ordinateur sous Vista et mon téléphone dont je n’arrive pas à trouver la référence », comment le Ministère des Finances nomme « Les évolutions fiscales pour les PME innovantes dans les textes réglementaires » ou comment e-bay décrit les « nains de jardin » sur son site polonais (et oui…).

Incapable de disposer d’un inventaire complet des contenus disponibles (voir un prochain article traitant des index dans les sites web), nous nous torturons pour effectuer 100 fois la même recherche en imaginant toutes les façons possibles qu’a pu avoir l’entreprise pour en parler (expérience particulièrement frustrante quand on recherche une solution à un problème technique dans une base d’assistance : comment décrire l’anomalie, faut il utiliser le code erreur, le nom du matériel, s’exprimer en anglais, en français ?…).

Le moteur n’est en général pas en cause, il a correctement répertorié tous les mots utilisés, il les a indexé et nous donne en un temps record une longue série de documents. C’est bien l’entreprise qui est en cause pour ne pas avoir donné au moteur de recherche les outils permettant de faire la correspondance entre son jargon / vocabulaire métier et les mots qu’utilisent ses clients ou administrés.

A l’époque ou nous pouvions disposer de l’aide d’un de nos congénères au téléphone ou dans un magasin, et sauf quelques rares cas ou nous avions affaire à des personnages mal intentionnés, nous disposions d’un interlocuteur capable d’interpréter notre question, exprimée avec nos mots, pour la transcrire dans son vocabulaire métier et rechercher alors l’information dont nous avions besoin.

Si les entreprises prennent le soin de former leurs employés au vocabulaire métier et au dialogue avec les clients, elles négligent en général de faire le même travail auprès des moteurs de recherche en leur fournissant leur vocabulaire métier et les correspondances avec les mots que nous avons pour exprimer nos recherches.

Pour les encourager à le faire nous montrerons dans cet article l’apport des terminologies métier à l’efficacité des moteurs de recherche.

Extension sémantique

Les moteurs de recherche disposent tous de fonctionnalités plus ou moins avancées « d’extension sémantique » aussi appelées dans le vocabulaire de la gestion documentaire « autopostage » – sous ces termes techniques se cache la capacité des moteurs :

  • de réaliser automatiquement une correspondance entre une expression donnée par l’utilisateur et un ensemble d’expressions équivalentes ou connexes qui ont pu être utilisées dans le document,
  • de réaliser la recherche en utilisant cette liste étendue d’expressions.

Extension sur les synonymes, acronymes, codes, références

L’extension sémantique de base est un enrichissement de notre requête en utilisant toutes les expressions équivalentes qu’utilise l’entreprise :

  • Synonymes
  • Acronymes
  • Codes (par exemple pour les codes anomalies variés que nous donnent toutes nos machines)
  • Référence de l’objet, du produit, du service
  • Nom commercial du produit
  • Nom technique utilisé dans les documentations internes
  • Identifiant du règlement ou texte de loi traitant du sujet (voir les sites de l’administration)

Ce type d’extension répond à une très grande partie du besoin car il permet au moteur de retrouver l’ensemble des documents parlant du sujet décrit par l’utilisateur. Elle permet également à l’utilisateur, sous réserve que le site signale qu’il a effectué la recherche en utilisant une série d’expressions équivalentes, de savoir qu’il dispose de l’ensemble des documents disponibles sur le sujet.

Au final l’utilisateur a plusieurs motifs de satisfaction :

  • avec un peu de chance, il a identifé le document recherché,
  • il a disposé en 1 seconde de tous les documents possibles et donc évité de perdre 10mn à tenter différentes recherches,
  • il a appris du vocabulaire métier,
  • il a vu que l’entreprise avait fait un réel effort pour l’assister.

Recherche sur des concepts ou sujets plus précis

Un second type d’extension sémantique permet d’étendre la recherche à des sujets plus précis que celui décrit par l’utilisateur. Par exemple l’utilisateur cherche tout ce qui est dit sur la réglementation des activités nautiques, il est possible que les réglementations ne traitent pas directement des activités nautiques mais de certaines activités spécifiques comme le canoë, le kayak, l’aviron, la péniche de plaisance, le canyoning… L’extension automatique de la recherche par le moteur permettra à partir de l’expression « activités nautiques » d’étendre la recherche à canoë, kayak, aviron, péniche de plaisance, canyoning… évitant ainsi à l’utilisateur d’imaginer par lui-même la liste complète des activités nautiques telle que la conçoit l’administration (ou le magasin de sport).
Comme pour l’extension sémantique par des termes équivalents il peut être utile de présenter à l’utilisateur la liste des termes plus précis proposés par l’entreprise. Cela permet de valoriser le service rendu mais aussi de donner à l’utilisateur l’explication du résultat de la recherche à partir de son expression d’origine.

Cross lingue

Les entreprises mettent parfois à disposition des contenus multilingues, tout particulièrement en ce qui concerne la documentation technique, la réglementation internationale, l’administration européenne ou les bases d’assistance technique. La recherche cross lingue permet, si l’entreprise ou l’administration ont fournis des traductions de leur terminologie, de traduire l’expression de l’utilisateur dans les différentes langues et d’effectuer la recherche à partir de l’expression dans les différentes langues.
En fonction du contexte, cette fonction peut être automatique ou débrayable par l’utilisateur. Encore une fois cette fonction est un véritable service rendu à l’utilisateur pour lui permettre de disposer en 1 seconde de toute l’information disponible au lieu de tenter des recherches dans chacune des langues dans l’hypothèse ou il saurait quelle expression employer. Par exemple je ne connais pas l’équivalent de « gite rural » en italien, je serais heureux que le site de la région de Toscane me permette de chercher en tapant « Gite Rural » – bien sur je ne pourrai peut être pas comprendre la fiche décrivant le gîte rural mais j’aurai sa photo, son adresse, un e-mail et le prix de la nuit ce qui est un bon début.

Extension sur des concepts reliés – suggestions de recherche

Les sujets traités par une entreprise ou administration sont complexes, nombreux et interconnectés. L’utilisateur, le client, le citoyen n’ont pas une connaissance innée des découpages, segmentations, relations faites entre les sujets. C’est un service aux utilisateurs de leur indiquer les sujets connexes au sujet tel qu’ils l’ont exprimé.

Le malade est content de savoir que tel médicament est basée sur telle molécule, est utilisé pour telles maladies et interagit avec tel autre médicament; toutes ces informations lui permettront de continuer d’avancer dans ses recherches et de vérifier qu’il n’y a pas de contre indications dans les médicaments qu’il prend. Ces extensions sémantiques, suggestions, liens de connaissance permettent à l’utilisateur de comprendre l’organisation des sujets traités, des contenus et de guider sa recherche. Dans les sites e-commerce elles permettent aussi de proposer et valoriser d’autres produits et donc de multiplier les ventes (voir Amazon).

Des extensions sémantiques cachées ou apparentes, automatiques ou à la demande ?

Le choix de montrer ou de ne pas montrer aux utilisateurs le processus d’extension des recherches dépend beaucoup du type de public (experts, employés, clients et administrés…), du type de service rendu et de la nature des extensions réalisées par le moteur de recherche.

Les extensions sémantiques sur les synonymes, acronymes, références… peuvent souvent être faites systématiquement car elles ne changent pas le sens de la requête de l’utilisateur. Il semble plutôt positif de pouvoir indiquer à l’utilisateur le détail de l’extension réalisée en listant les expressions complémentaires ajoutées à sa recherche, cela valorise le service et permet à l’utilisateur de comprendre le résultat obtenu.

Les extensions sémantiques sur des termes plus précis doivent être signalées aux utilisateurs et pouvoir être débrayées car elles modifient le sens de la requête initiale. Elles peuvent être extrêmement utiles mais aussi augmenter considérablement le volume de résultats contre la volonté de l’utilisateur. L’utilisateur doit pouvoir limiter l’extension de la recherche à certains termes uniquement.

Les extensions sur des sujets reliés ou connexes ne devraient pas être traitées directement par le moteur mais être montrées à l’utilisateur qui gardera le choix de demander une recherche sur ces suggestions.

Que faut-il fournir aux moteurs de recherche pour disposer de ces services ?

Les services d’extensions sémantiques des moteurs de recherche dépendent de la richesse des ressources terminologiques qui leur sont fournies et de leur capacité à les utiliser.

Vocabulaire issus de la terminologie

Le premier niveau de ressources terminologiques pouvant être fournis au moteur de recherche est un dictionnaire comprenant les mots ou expressions et leurs équivalences (synonymes, acronymes, codes, références…) dans une ou plusieurs langues. Ce type de ressources permettra les extensions sur les expressions équivalentes et la recherche cross lingue.

Organisation hiérarchique des termes

Les relations hiérarchiques entre les termes constituent un second niveau de ressources terminologiques. Sur cette base le moteur pourra mettre en œuvre l’extension des recherches vers des concepts plus précis ou suggérer à l’utilisateur des termes pour préciser sa recherche.

Liens de connaissances, relations sémantiques

Le troisième niveau de ressources terminologiques (issues d’une base de connaissance ou d’une ontologie) est constitué des liens sémantiques entre des termes (travaille avec… est relié à… est un composant de… est un partenaire… interagit avec… modifie tel réglementation… peut être la cause du problème… ). Ce type de ressources peut être utilisé pour suggérer des recherches complémentaires à l’utilisateur ou pour réaliser une extension automatique des recherches en utilisant de manière pertinente les liens sémantiques. Les fonctions du moteur relévent alors du domaine du raisonnement automatique et de l’inférence et plus que du moteur de recherche basé sur l’indexation du texte.

Comment alimenter les moteurs de recherche ?

Chaque moteur de recherche dispose aujourd’hui de ses propres formats d’alimentation de ses ressources terminologiques (ou dictionnaires) : fichiers ascii, fichiers xml, fichiers rdf…

Deux types d’évolutions seraient souhaitables de la part des moteurs de recherche et des logiciels de gestion de terminologies :

  • la capacité de synchroniser automatiquement les ressources terminologiques avec le dictionnaire des moteurs de recherche en utilisant les API et ou des web services
  • la possibilité d’utiliser des formats standards d’échange de fichiers basés sur RDF (SKOS, OWL..) qui permet la description des ressources terminologiques et des différents types de relations entre les termes et les sujets métier.

Quels moteurs de recherche pour disposer de ces services ?

Les moteurs de recherche n’ont pas tous les mêmes capacités d’exploitation des ressources terminologiques. Les fonctionnalités disponibles doivent être examinées pour chaque moteur : capacité d’utiliser un vocabulaire, une organisation hiérarchique de termes, des liens sémantiques. Certains moteurs disposent en propre de ressources terminologiques généralistes, il faut dans ce cas comprendre comment les ressources terminologiques métier de l’entreprise vont être utilisées (en remplacement, en complément des dictionnaires déjà fournis ?).

Il est également important de détailler les moyens d’import et de mise à jour des ressources linguistiques du moteur : format de fichier utilisé, API, capacité de mises à jour incrémentales ou nécessité de charger toutes les ressources à chaque mise à jour, impact d’une modification des ressources terminologiques sur l’exploitation du moteur de recherche (prise en compte immédiate, besoin de réindexer tous les contenus …).

L’exploitation des liens sémantiques pour apporter des services avancés d’aide à la recherche sont le propre des moteurs basés sur les technologies du web sémantique (RDF, OWL) comme par exemple les logiciels Ontobroker, Sesame, Oracle RDF… Ces logiciels agissent en général en complément d’un moteur basé sur l’indexation texte.

Quels outils de gestion de terminologies utiliser ?

Les logiciels de gestion de terminologies multilingues capables de gérer différentes organisations de la terminologie métier (dictionnaires, thésaurus, taxonomies, listes d’autorités…) et conçus pour une alimentation automatisée de systèmes externes ne sont pas nombreux sur le marché. ITM de Mondeca est bien sur une des solutions adaptées à ce besoin. L’application ITM est représentative d’une nouvelle génération d’outils de gestion de terminologies, thésaurus, taxonomies conçue comme des serveurs de terminologies au service de l’ensemble des applications de l’entreprise : moteur de recherche mais aussi text mining, traduction automatisée, classification et annotation des contenus…

Enrichir et faire évoluer la terminologie entreprise

L’utilisation de ressources terminologiques pour améliorer les capacités des moteurs de recherche amène deux questions: comment constituer et faire évoluer les ressources terminologiques ? comment les gérer techniquement ?

Constitution et évolution des ressources terminologiques

Récupérer des ressources terminologiques métier existantes

Il existe toujours dans l’entreprise ou dans son environnement des ressources permettant de démarrer une gestion de terminologie métier. Ce peut être :

  • Un glossaire, thésaurus mise en place par les services de documentation
  • Un glossaire ou thésaurus mis en place au sein d’instances professionnelles ou dans le cadre de projets de dématérialisation des échanges au sein d’une profession
  • Les index des documentations techniques papier qui listent les sujets traités
  • Les tables de références utilisées dans les applications de gestion
  • Les plans de classement et taxonomies mis en œuvre dans une gestion documentaire ou des intranets
  • Le contenu des bases de données contenant la description des services, produits, projets, personnes, partenaires, fournisseurs
  • L’organigramme de la société avec sa liste de filiales, départements, services
  • Les dictionnaires des traducteurs

L’ensemble de ces ressources constitue des éléments de base pour démarrer un projet de gestion d’une terminologie dans l’entreprise. Un travail de réingénierie des ressources exisantes est souvent nécessaire et peut impliquer un expert interne ou externe de la gestion de terminologies et thésaurus.

Cette première phase de travail peut être complétée par un travail d’analyse de documents représentatifs (documentation produits, réglementations, contrats, document projet…) pour en extraire le vocabulaire métier et enrichir la terminologie des termes fréquemment utilisés. Des outils spécialisés existent pour assister l’expert dans ce travail.

Mise à jour automatique ou assistée de la terminologie métier

La terminologie métier peut être mise à jour automatiquement pour certains types d’information gérée dans des applications : par exemple les noms et références des produits peuvent être mis à jour depuis une application de gestion de catalogue.

Mise à jour et enrichissement de la terminologie métier de manière collaborative

La terminologie de l’entreprise est composée de plusieurs sous ensembles dont les procédures de mise à jour peuvent être différenciées.

  • Les termes décrivant le vocabulaire général d’un métier peuvent être enrichis, mis à jour, traduits dans le cadre d’un travail collaboratif impliquant des correspondants dans l’entreprise et ses filiales : rédacteur techniques, documentalistes, responsables communication, éditeurs de sites intranet et web…
  • La mise à jour du vocabulaire désignant des projets, produits, partenaires, personnes, entreprises… soit la partie de la terminologie évoluant de manière continue, peut être déléguée à tous les utilisateurs directement impliqués :
      • Proposition d’ajouts de termes ou synonymes dans le cadre d’un travail d’indexation
      • Proposition d’ajouts dans le cadre d’une recherche où l’utilisateur constate l’absence d’un synonyme ou acronyme dans le dictionnaire du moteur de recherche

En fonction du type d’organisation, du type de contenu, du type d’utilisation des référentiels, les mises à jour peuvent être prises en compte directement dans la terminologie métier ou après un processus de validation.

Examen régulier et attentif des expressions utilisées pour la recherche

Les expressions choisies par les utilisateurs dans le cadre des recherches sont une source de première main pour guider l’enrichissement de la terminologie métier. Les moteurs de recherche disposent en général d’un historique et de statistiques sur les expressions utilisées pour les recherches. L’entreprise doit veiller à enrichir sa terminologie en ajoutant progressivement ces expressions comme synonymes de termes métier. Ce faisant elle constituera rapidement une terminologie adaptée à ses utilisateurs pour leur plus grande satisfaction (à titre d’exemple, les services des impôts américains ont étudié le vocabulaire utilisé par les administrés pour décrire leurs demandes dans les courriers et lors des échanges avec les centres d’appel. C’est sur la base de ce travail ils ont constitué une terminologie spécifique qui a été mise en relation avec le vocabulaire très technique de l’administration fiscale).

Conclusion

Les moteurs de recherche utilisés par les entreprises et administrations pour permettre à leurs employés, clients, administrés, partenaires… d’accéder aux ressources mises en ligne doivent faire un travail de médiation entre le vocabulaire des utilisateurs et le vocabulaire métier de l’entreprise. Pour cela les moteurs doivent constamment être enrichis des vocabulaires spécialisés de l’entreprise, des vocabulaires des utilisateurs et des correspondances entre ces vocabulaires.

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :