Xerox invente un logiciel qui indexe, categorise et achemine automatiquement les documents electroniques

Des scientifiques du Centre de Recherche Europeen de Xerox viennent d'inventer un logiciel suffisamment puissant pour " lire " un document électronique, le classer par sujet, et l'envoyer ensuite à l'adresse electronique ou vers le systeme de gestion documentaire du bon destinataire ­ et ce de façon entierement automatique.

Le logiciel, un outil de categorisation conçu pour aider les entreprises a organiser leurs documents et a y acceder en toute simplicite, peut etre acquis sous forme de licences aupres de Xerox. " Un livre range sur le mauvais rayon d une bibliotheque peu aisement se perdre. Il en est de meme des documents mal categorises qu il faut parfois meme recreer ", explique Eric Gaussier, chercheur scientifique au XRCE. " Notre nouveau logiciel permet de realiser des economies en termes de temps et de couts et d ameliorer la productivite. Il garantira que les documents sont categorises convenablement pour les futures restitutions et que la bonne information parvient au bon destinataire, et ce aussi rapidement que possible. " Les outils de categorisation actuellement disponibles sur le marche traitent chaque categorie de sujet independamment les unes des autres et sont considerees comme " plats ". Par exemple, bien qu il semble evident aux humains que biochimie et biophysique sont des categories d informations liees, un systeme de classification " plat " ne pourrait faire la connexion. Le systeme Xerox, base sur des technologies brevetees, utilise quant a lui un modele hierarchique capable de comprendre les dependances entre ces deux categories et de prendre ainsi une decision mieux informee lorsqu il categorise le document. Selon les donnees recueillies lors d un test pilote du logiciel, les utilisateurs trouvent plus souvent et plus rapidement les bons documents grace a la capacite de comprehension des relations entre documents et categories du logiciel. Anne-Lise Veuthey, chercheuse a l Institut Suisse de Bioinformatique ­ une fondation academique a but non lucratif realisant des recherches et developpant des technologies utilisees en biologie ­ a participe au programme pilote. " Nous avons trouve le logiciel extremement precis dans l identification de documents contenant l information specifique dont nous avons besoin pour conduire nos recherches sur les genes humains ", temoigne Anne-Lise Veuthey. Points Forts Techniques Trois fonctions integrees rendent la technologie de categorisation de Xerox unique : … Le systeme peut commencer a travailler immediatement. Utilisant des techniques d apprentissage avancees, il apprend rapidement de lui-meme, a partir de quelques exemples, comment classifier hierarchiquement les documents dans les categories existantes. … La technologie est facile a utiliser et aide les utilisateurs a creer une methode complete pour transformer les dossiers electroniques desorganises, en collections de documents bien etiquetes. … Le systeme peut apprendre seul des categories entierement nouvelles. La technologie de categorisation detecte des sujets nouveaux ou emergents et suggere dynamiquement de nouvelles categories aux utilisateurs du systeme. Le bon routage Le systeme de categorisation de Xerox peut prendre en charge des documents ecrits dans 20 langues et s adapter facilement aux besoins specifiques des clients. Le logiciel dirige intelligemment les documents vers la bonne personne selon un profil d utilisateur predefini. " Cette fonction peut etre utilisee, par exemple, pour acheminer le courrier entrant vers la personne responsable d un sujet donne et supprimer de votre boite de reception les mails qui ne vous interessent pas ", precise Eric Gaussier. " Imaginez que les lettres de reclamation des clients aillent directement vers la personne responsable et que votre boite de reception d e-mails ne contienne que ce qui vous interesse. " La technologie de categorisation a ete developpee par les chercheurs du XRCE sur la base de leur grande expertise de l analyse linguistique et des techniques d apprentissage par les machines. Le logiciel est ecrit en Java et peut etre deploye sur de multiples plates-formes parmi lesquelles UNIX, Linux et Windows. La societe prevoit de licencier la technologie aupres d editeurs de logiciels et d entreprises souhaitant l inclure dans leurs systemes documentaires focalises sur des domaines tels que la gestion de la relation clientele, la restitution des informations et la gestion des donnees.

Plus d'articles sur les chaînes :

Réagir à cet article :
Ajouter un commentaire...