Smarter content

décembre 10, 2010

What is « Smart Content »?

Smart Content, also referred to as Intelligent Content, has been a growing trend in the content-rich industries. The fact that many prominent publishers, including such market leaders as Elsevier, are making smart content the cornerstone of their business strategy shows that smart content is here to stay. As a  CEO of a prominent publishing house eloquently put, « there will be companies that get smart content, and the others will die ».

The term « smart content » is a marketing concept, which comes after the products behind it have been successfully adopted by the market, although there still remains much work to be done. Its purpose is to embody the technological evolution that has been taking place. However, like other successful but vague marketing concepts (e.g., Web 2.0), it makes intuitive sense but needs further clarification. The cornerstone of the smart content phenomenon seems to be a greater degree of structure, formalism, and optimization infused into the various processes of the content lifecycle. However, it would be an insult to the content to imply that it is not already intelligent to some degree. Thus, a more accurate term for the ongoing progress would be Smarter Content. Lire le reste de cette entrée »

Publicités

Web et Philosophie : colloque samedi 16 octobre

octobre 13, 2010

Amis du web (sémantique) et de la philosophie, ce samedi aura lieu PhiloWeb 2010, le « premier symposium international du web et de la philosophie », à Paris; derrière ce titre un tantinet pompeux se cache un univers de réflexion extrêmement intéressant, qui explore l’articulation entre ces deux univers que l’on jugerait trop facilement disjoints; comment la philosophie peut-elle éduquer notre regard sur le web ? comment le web modifie-t-il les pratiques philosophiques ? Si vous aimez comme moi nourrir une activité technique, d’ingénierie, avec des réflexions de fond, ou appuyer une réflexion de fond sur l’actualité de la technique, ce colloque est fait pour vous. Lire le reste de cette entrée »


Société de l’information : entre génie individuel et intelligence collective

juin 9, 2010

Voici quelques notes prises lors de la conférence plénière qui s’est tenue le 9 juin 2010 sur le salon iExpo / KMforum, sur le thème « Quelle société de l’information ? entre génie individuel et intelligence collective ».

Disclaimer : ce sont des notes à peine mises en forme, donc TRES parcellaires, et beaucoup de l’articulation des discours y est perdue. J’espère cependant qu’elles peuvent donner la teneur des exposés, et donner des pointeurs vers les idées de chacun des intervenants pour approfondir leurs points de vue.

Les 4 intervenants dans leur ordre de passage étaient :

Et voici leurs réflexions autour de cette question de l’articulation entre l’individuel et le collectif :

Lire le reste de cette entrée »


La modélisation, un art?

avril 27, 2010

Comme le constatait déjà Paul Valéry, le fonctionnement de la pensée humaine s’appuie largement sur des modélisations du monde qui nous entoure : « Nous ne raisonnons que sur des modèles ». En informatique et plus spécifiquement en ingénierie de la connaissance, nous parlons souvent de modélisation comme la base de la construction d’un système d’information. Derrière cette notion de modèle, on pense souvent à un dessin d’un schéma assez simple sur une feuille de papier qui explique un fonctionnement de la réalité. On trouve dans cette description hâtive les caractéristiques d’abstraction et de simplification inhérentes à un modèle, mais elles ne sont pas suffisantes pour définir la modélisation.

La modélisation permet de représenter un phénomène complexe qu’il n’est pas possible d’observer directement. L’OMG donne la définition suivante : “A model represents some concrete or abstract thing of interest, with a specific purpose in mind.”. Cette définition met en avant la notion capitale d’intention d’une modélisation. Une modélisation est toujours faite avec un objectif précis (s’il n’est pas clairement défini, le modèle sera mal utilisé) qui va guider certains choix quant au modèle produit (granularité de la représentation, langage de description choisi, etc.). Ces choix auront un impact sur le périmètre de validité du modèle. Par exemple, si nous représentons l’eau comme un liquide, alors notre modèle n’aura de validité que dans les conditions de pression et de température où l’eau est en phase liquide. Le choix d’un langage de description va être contraint par les objectifs du modèle : est-ce un modèle destiné à la communication, au traitement informatique ?

Rothenberg insiste dans sa definition sur l’efficacité et la simplification d’un modèle vis-à-vis de la réalité qu’il se propose de représenter: “Modeling, in the broadest sense, is the cost-effective use of something in place of  something else  for some cognitive purpose.  It allows us to use something that is simpler, safer or cheaper than reality instead of reality for some purpose. A model represents reality for the given purpose; the model is an abstraction of reality in the sense that it cannot represent all aspects of reality. This allows us to deal with the world in a simplified manner, avoiding the complexity, danger and irreversibility of reality.”. Le degré de simplification choisi va directement impacter la granularité du modèle produit. La difficulté est de simplifier au maximum la représentation d’une partie du réel pour faciliter sa compréhension et son utilisation tout en gardant un niveau de détail suffisant afin d’être efficace pour l’objectif qu’il lui est donné. Ce même travail de simplification est illustré dans les 11 états de la lithographie « Le Taureau » par Pablo Picasso dans lesquels il cherche le juste niveau de simplification correspondant à sa vision.

Pablo Picasso, Les 11 états successifs de la lithographie Le Taureau , 1945.

La modélisation, comme toutes les activités humaines, est fondée sur des choix. Malgré la volonté d’objectivité, un modèle reste néanmoins subjectif. Il est important de veiller à son aspect consensuel dans la communauté de pratiques partageant les mêmes intentions comme nous le fait comprendre la parabole des aveugles et de l’éléphant. Ceci peut être atteint en impliquant un groupe d’experts représentatif de cette communauté. Cette subjectivité est un des écueils majeurs pour de futures utilisations ou réutilisations. Un objet du monde réel peut être modélisé au travers d’une infinité de points de vues comme le montre l’illustration de Grady Booch.

Illustration de Grady Booch, 2000

Pour réussir une bonne modélisation, il faut veiller à définir clairement :

  • le phénomène représenté ;
  • l’intention du modèle;
  • le périmètre de validité ;
  • le niveau de simplification et de granularité adéquats;
  • le langage de description ;
  • les choix pris au cours de la modélisation.

Nous insisterons dans ce paragraphe sur le danger que représente la réutilisation de modèles. En effet, il est très séduisant de réutiliser un modèle existant pour économiser du temps et pour s’appuyer sur une modélisation qui a déjà été éprouvée. Mais avant de réutiliser un modèle existant il faut se poser les questions suivantes : est-ce le même phénomène que je veux représenter ? Ai-je les mêmes intentions ? Est-ce que j’adhère aux principes adoptés lors de la modélisation ?  Il existe des représentations consensuelles qui sont reconnues comme efficaces dans  un but donné. C’est ce que l’on appelle les patrons de modélisation « design pattern ».

Comme nous venons de le voir, il est  imprudent de penser qu’à un phénomène réel corresponde une unique représentation. Un modèle (à la manière d’une œuvre d’art) ne décrira jamais de manière complète l’objet étudié, dès lors, c’est par la multiplicité des représentations (diversité des œuvres et des sensibilités des artistes) pour des intentions différentes qu’un objet sera le mieux décrit. Chaque modèle présente de manière différente, parfois conciliable et complémentaire, un fait réel. C’est le sens même d’une re-présentation.


« Web of Data » : Et l’état dans tout ça ?

juin 27, 2009

« Linked Data« , ce sont des données mises ensemble, mises en commun; alors quand on y pense, il est troublant de constater que les états, entités représentatives de communautés de personnes, garants d’un certain « vivre ensemble », soient pour l’instant complètement absents de cette réflexion. Il s’agit non seulement de rendre publiques des données qui ne l’étaient pas, mais également de rendre publiques ces données dans des formats interopérables. Il s’agit d’ajouter des bulles de données publiques au « Linked Data Cloud« , car il me semble que les données de ce nuage viennent principalement :

  • de la communauté scientifique (Uniprot etc.)
  • de sites de réseaux sociaux (flickr ou autre myspace wrapper, et dbpedia rentrerait également dans cette catégorie)
  • d’initiatives isolées (geonames ou lingvoj)
  • d’acteurs privés (open calais ou virtuoso)

Les états disposent de beaucoup de données intéressantes qui ne peuvent que gagner à être publiées : transports, administrations, lois, recensement, élections, économie, télévisions et radios publiques, etc. (la crise actuelle, résultat entre autre d’un manque de transparence des marchés financiers, ne pourrait que bénéficier également d’une mise à disposition des informations sur les transactions financières, comme l’avait souligné Christian Fauré). Cela repose la question d’une politique publique volontaire en matière de nouvelles technologies.

Les lignes commencent cependant à bouger :

La mise à disposition de ces données pose bien sûr beaucoup de questions, de sécurité, d’infrastructure, d’interopérabilité, ou plus simplement de guerres de clocher entre services de l’état. Elle ne peut cependant que bénéficier à l’usager ou au citoyen – tout autant d’ailleurs qu’au secteur privé, quand on sait que le marché des données publiques européennes avait été estimé à 27 milliards d’euros par la commission. C’est pourquoi les usagers, citoyens et entreprises vont réclamer à l’état l’ouverture de ses données (« Raw Data Now », comme le scande TBL dans son speech TED), tant cela semble une étape normale dans l’évolution du web.


pourquoi les thésaurus et taxonomies évoluent ? et comment ?

septembre 29, 2008

Il y a quelque jour un journaliste me posait des questions sur les thésaurus, j’ai essayé de lui expliquer au mieux les évolutions en cours, je pense que c’était un peu confus. Un court essai pour essayer de mieux comprendre comment et pourquoi les thésaurus et systèmes de classification évoluent rapidement et quels sont les besoins très pragmatiques qui les font évoluer.

Nous avons besoin d’un outil de recherche plein texte plus efficace et précis 

L’entreprise dispose de terminologies permettant de décrire son domaine et d’indexer des documents, il s’agit d’un vocabulaire métier assez pointu et fermé (juridique, médical, scientifique, gestion des retraites…) mais ou chaque concept peut, selon le public, être exprimé avec des termes un peu différents. L’idée est d’enrichir le vocabulaire métier avec toutes les expressions répertoriées pour désigner les concepts métiers. Le thésaurus existant est enrichi de ces termes et l’on suit avec attention les statistiques de recherche sur le moteur pour capturer les expressions utilisées lors des recherches et continuer d’enrichir la terminologie associée aux thésaurus / référentiels.

Nous implémentons un outil de text mining pour automatiser (assister) le processus d’indexation des contenus

L’entreprise veut automatiser l’indexation des documents. Les outils de text mining sont d’autant plus efficaces qu’ils connaissent les termes et expressions à chercher dans les documents. Les termes extraits seront rapprochés automatiquement du thésaurus pour déterminer le concept à utiliser. Il s’agit ici aussi d’enrichir les termes et expressions utilisées pour désigner un concept,  une entreprise, un produit, un lieu, une personne…

L’entreprise peut procéder en compilant des ressources internes existantes, ou en faisant une analyse systématique d’un corpus de documents représentatifs de l’activité afin d’en extraire le vocabulaire métier. Ces terminologies métier seront rapprochés de thésaurus existants ou à construire.

Nous devons assister les utilisateurs de notre portail dans sa navigation 

Nous devons suggérer des produits et contenus en fonction des recherches de l’utilisateur

Dans les deux cas l’utilisateur ne peut connaître la richesse des contenus du portail (documents, produits, réglementations, maladies…), il est utile de pouvoir lui proposer des liens le guidant de sujets en sujets, de lui proposer des informations complémentaires, ou de lui suggérer une réponse à sa recherche à partir d’un raisonnement sur sa demande.

Pour répondre à ces besoins, il est nécessaire d’établir des relations fines entre les sujets métiers décrits dans le thésaurus et les listes d’autorité. On établira une relation entre « sport nautique » et « gites ruraux » ayant le label « pêche », une relation entre une partie du corps et des infections, entre des infections et des molécules, entre une décision de justice et une réglementation, entre un produit et une thématique…

L’ensemble de ces relations (relations sémantiques car il est nécessaire de décrire finement les relations si l’on ne veut pas confondre « produits recommandés » avec « contre indication ») viendront progressivement enrichir le référentiel d’origine pour construire une réelle description de connaissances sur le domaine d’activité.

Ces liens pourront être utilisés dans le portail comme

– de simples suggestions de navigation,  

– pour pousser automatiquement des contenus dans la page,  

– pour proposer un ensemble de contenus intelligemment choisi en fonction de quelques informations données par l’utilisateur (proposer automatiquement un package « week end dans la Nièvre » pour quelqu’un qui veut se détendre, pas trop loin de Paris et avec un budget raisonnable).

Nous devons avoir une indexation très riche des contenus à partir de très peu d’information de base

Nous indexons des images de sport, de télé, d’imagerie médicale…, il est hors de question que quelqu’un remplisse toutes ces données d’indexation dont nous avons pourtant absolument besoin pour la recherche et le filtrage dans le portail, comment enrichir automatiquement à partir d’une saisie minimale ?

Le système de text mining extrait peu d’information, principalement des noms de personnne, de sociétés et de produits, ca ne suffit pas du tout pour notre indexation qui est beaucoup plus riche.

L’idée est ici de confier au référentiel le soin de déduire du peu d’information fournie toutes les autres données d’indexation. En donnant le nom de l’émission de télé et la date, le système devra déduire le producteur, la chaîne de télévision, le présentateur, les droits de rediffusion par pays, la thématique de l’émission.

On enrichira ici le référentiel pour le transformer en une véritable base de connaissance du domaine, avec l’ensemble des liens entre les sujets (telle émission est produite par TF1, animée par Ruquiet, traite des sujets de sociétés et spectacle…), et avec les capacités d’inférer toutes les métadonnées à partir d’une simple information de départ comme le nom de l’émission.

Conclusion

On remarque deux types d’évolution et d’enrichissement des thésaurus :

– un enrichissement de la terminologie métier autour des concepts utilisés pour décrire le domaine,

– un enrichissement des relations entre les concepts du domaine pour former une véritable représentation des connaissances

On remarque aussi le transfert progressif de services habituellement rendus par un humain vers les machines. 

  • La documentaliste ou l’expert métier sont capables à partir d’une information partielle de réaliser une indexation complète du contenu sur un système de classement complexe et formel, ils sont aussi capables de rapprocher automatiquement les expressions utilisées dans un document aux concepts utilisés dans l’entreprise pour la classification.
  • Le vendeur, la documentaliste, l’expert sont capables de comprendre une question d’un utilisateur, de la transcrire dans la représentation utilisée pour la classification des contenus, d’effectuer la recherche, mais aussi de suggérer à l’utilisateur des thèmes de recherche connexes, d’autres produits utiles, des contre indications, des suggestions de voyage…

Ce sont ces services que l’on transfère progressivement aux machines, en leur fournissant des terminologies et des représentations riches, détaillées et formelles de l’univers métier.


L’absence de preuves n’est pas la preuve de l’absence

mai 24, 2008

Qu’on en commun la recherche de la vie extra-terrestre et la recherche des armes de destruction massive en Irak ?

Elles supposent toutes les deux que le monde est ouvert, et que ce n’est pas parce qu’on n’a rien trouvé qu’il n’y a rien; dans l’un et l’autre cas, l’absence de preuve n’est pas la preuve de l’absence(*).

Dans le monde ouvert des recherches sur le « web of data », hé bien c’est pareil.

Lire le reste de cette entrée »