Start Trial

13 October 2020

Combiner l’OCR à l’IA et à la RPA pour une analyse avancée des données

13 October 2020

Combiner l’OCR à l’IA et à la RPA pour une analyse avancée des données

Tony Tzeng est Directeur Produit Document Understanding chez UiPath.

Cosmin Nicolae est Responsable Produits chez UiPath.

 

Les données non structurées sont partout, dispersées dans une grande diversité de supports : documents, fichiers audio, vidéos, emails, images et fichiers log, et la liste est encore longue. De fait, elles pèsent aujourd’hui pour quelque 80 à 90 % de l’ensemble des données. Or, malgré leur abondance et leur valeur, elles demeurent l’une des ressources les plus recherchées par les entreprises, qui ne disposent pas des outils nécessaires pour les extraire et les analyser.

 

Les choses sont toutefois en train de changer, car la demande d’analytique big data et d’automatisation des flux de travail (qui nécessitent tous deux des données structurées) progresse. Un nombre croissant d’entreprises profite ainsi de la technologie appelée reconnaissance optique des caractères (OCR), qui donne la possibilité de convertir du texte imprimé ou manuscrit en texte codé par machine. Utilisée seule, l’OCR souffre de certaines limites (évoquées plus bas). En revanche, si elles sont dotées des trois technologies d’OCR, d’automatisation robotisée des processus (RPA) et d’intelligence artificielle (IA), les entreprises peuvent prétendre à un haut niveau de traitement et d’automatisation des données.

 

L’OCR constitue l’une des composantes clés de deux solutions UiPath :

  1. - UiPath Document Understanding, qui ouvre la voie au traitement automatisé d’un large éventail de documents ;
  2. - UiPath AI Computer Vision, qui permet aux développeurs de pratiquer des automatisations à partir de bureaux virtuels et dans des interfaces dynamiques.

Après avoir donné un aperçu de l’OCR, cet article s’intéresse à la manière dont UiPath emploie la technologie pour préparer le terrain au traitement et à l’analyse de données de prochaine génération.

 

Commençons par une brève présentation de l’OCR.

 

OCR : tour d’horizon

Pour parler simplement, l’OCR est un processus qui convertit du texte provenant d’images en documents éditables.

L’OCR a pour intérêt de réduire, voire d’éliminer le travail manuel associé à certaines tâches. Résultat, elle accélère les processus de second plan et permet aux collaborateurs de se consacrer à de plus grandes responsabilités.

Vous trouverez ci-dessous certaines applications les plus courantes de l’OCR en entreprise.

  1. 1. Automatisation de la saisie de données

L’entrée ou saisie manuelle de données demande du temps et est source d’erreur. En recourant à l’OCR, les entreprises peuvent numériser les documents en réduisant au maximum le besoin d’intervention humaine et en améliorant l’intégrité de leurs données.

  1. 2. Édition de documents (numérisés ou PDF)

Les employés reçoivent fréquemment des documents numérisés et des notifications par télécopie dont le format n’est pas éditable. C’est là une pratique habituelle dans les services des finances, des approvisionnements, des ressources humaines, des affaires juridiques et de la conformité. Or les scanneurs traditionnels se contentent d’exporter les documents sous forme d’images ou de PDF. À titre d’exemple, on ne peut pas numériser un contrat ou un bon de commande, puis l’éditer dans Microsoft Word ou Google Docs. Au contraire, en utilisant un moteur OCR, il est possible de reconnaître le texte et de l’exporter dans un format lisible par une machine en vue de l’éditer et de le traiter ultérieurement.

  1. 3. Assistance aux employés souffrant d’une déficience visuelle

Les employés souffrant d’un handicap visuel ont souvent besoin de convertir les documents papier au format numérique. L’OCR s’avère alors utile en convertissant du texte écrit en synthèse vocale, ce qui rationalise le processus.

  1. 4. Organisation de documents

L’OCR est en mesure de trier automatiquement des piles de documents variés et de les classer en fonction de règles spécifiques. Entre autres exemples classiques, figure le classement de factures par catégorie ou par fournisseur. Mais l’on peut aussi évoquer des processus critiques, comme le recours à l’OCR multiligne (MLOCR) dans une machine de tri de courrier, qui numérise les adresses et détermine les modalités d’acheminement du courrier dans le système postal.

  1. 5. Compréhension de texte via différentes interfaces

L’OCR rend possible le traitement de données sur interface déportée, et ce faisant, accélère et facilite la collaboration d’équipes distantes.

 

Les limites de l’OCR

 

L’OCR a beau être très puissante, elle n’en présente pas moins plusieurs limites lorsqu’elle est employée seule.

En voici un échantillon des principales.

 

  1. 1. L’OCR ne comprend pas elle-même les données

En premier lieu, l’OCR sert seulement à numériser du texte de documents et à le rendre lisible par une machine. Elle ne comprend et n’interprète aucune donnée sans mécanisme complémentaire. C’est pourquoi l’OCR ne constitue souvent qu’une composante dans le cadre d’une solution plus large et donc plus intelligente. Pour arriver à une véritable mise à l’échelle de l’automatisation d’un processus, l’OCR et la RPA sont combinées à l’IA.

  1. 2. L’OCR fonctionne sans contexte

Les systèmes OCR font abstraction de tout contexte. Ils peuvent donc très bien transcrire le mot « sauvez » en « savez », et vice versa. Un moteur OCR n’a pas par lui-même la capacité cognitive requise pour numériser le reste de la phrase et savoir ainsi lequel des deux mots sélectionner.

Utilisée isolément, la technologie OCR est donc fortement sujette à erreur. Elle exige qu’un humain intervienne dans la boucle pour vérifier l’exactitude des entrées. Conséquence : l’OCR n’est pas totalement autonome en tant qu’outil d’automatisation.

  1. 3. L’OCR ne prend pas en charge la variabilité

À cela, il faut ajouter que l’OCR ne tient pas compte de la variabilité du texte ou de la mise en page d’un document, ce qui représente un problème majeur lors du traitement de documents dont la structure peut varier.

  1. 4. L’OCR ne sait pas diviser les documents

D’autres problèmes peuvent encore surgir si les fichiers doivent être divisés en documents avant d’être soumis à un processus d’automatisation ou si les champs d’index ou les valeurs clés d’un flux de travail se répètent.

  1. 5. L’OCR n’est ni fiable, ni évolutive

En fin de compte, l’OCR pure n’est pas suffisamment fiable et évolutive pour les processus complexes et cognitifs. Ce dont les entreprises ont besoin, c’est de solutions matures et flexibles, et non de composantes limitées et sujettes à erreur.

Comme vous le voyez, la technologie OCR, appliquée de manière autonome, n’est pas suffisamment sophistiquée pour traiter les processus d’entreprise perfectionnés que nous connaissons aujourd’hui. En revanche, combinée à un logiciel RPA et à l’IA, elle peut être un outil extrêmement utile. La partie suivante s’intéresse à la manière dont UiPath se sert de l’OCR pour parvenir à une automatisation de haute précision.

 

Cas d’usage : l’OCR dans UiPath Document Understanding

UiPath Document Understanding recourt à la RPA et à l’IA pour numériser les données de documents et en permettre ainsi le traitement et l’analyse. Capable de prendre en charge tant les données structurées que non structurées, cette fonctionnalité manipule une grande variété d’objets : caractères manuscrits, tableaux, cases à cocher et signatures.

 

Les avantages de Document Understanding sont multiples : précision et souplesse du traitement des documents, gain d’efficacité opérationnelle, risque réduit d’erreur humaine, sans parler de l’automatisation de bout en bout des processus complexes.

 

Il est à noter que la technologie de compréhension des documents est différente de l’OCR. Le fait que les deux forment une seule et même fonctionnalité est une idée reçue courante. En fait, la compréhension de documents est une technologie avancée qui fait appel à l’OCR pour numériser du texte dans des documents non numériques.

 

Ce sur quoi il convient d’insister, c’est que UiPath dissocie l’OCR de l’extraction de données, là où de nombreuses entreprises du secteur englobent l’OCR dans l’extraction. En séparant les deux, UiPath apporte davantage de choix, de souplesse et de précision, puisqu’il devient envisageable de sélectionner au besoin un autre moteur OCR sans perturber le processus d’extraction en cours de déroulement. Il est également possible de se servir de contrats OCR UiPath publics pour déployer votre propre moteur d’OCR si vous le souhaitez.

 

Comment Document Understanding utilise l’OCR

L’OCR entre rapidement en jeu dans le processus Document Understanding, dès que la taxonomie est chargée dans le flux de travail et que l’ensemble des fichiers et des données sont définis pour l’extraction.

 

Document Understanding se sert de moteurs OCR pour détecter et numériser du texte, qu’il rend alors lisible par un robot. À ce stade, les documents issus des listes concernées sont classés, les données extraites et, si nécessaire, un humain vient confirmer les données extraites avant qu’elles ne soient exportées dans le répertoire voulu.

 

UiPath Document Understanding peut exploiter l’outil d’OCR propriétaire UiPath Document, ainsi que des moteurs OCR tiers pour numériser du texte. Les clients ont toute latitude pour choisir le moteur fonctionnant avec la plus grande précision dans un cas d’usage précis.

UiPath Document Understanding and OCR(2)

 

Comme le démontre cette illustration, l’OCR fait partie du cadre défini pour UiPath Document Understanding. Sa seule finalité est de faire en sorte que le texte soit lisible par une machine.

 

Cas d’usage : l’OCR dans UiPath AI Computer Vision

 

UiPath AI Computer Vision résout l’un des plus grands défis de la RPA, à savoir l’automatisation des infrastructures de bureau virtuel (VDI), comme Citrix, VMware et Microsoft Windows Remote Desktop.

 

Cette fonctionnalité permet en effet aux robots logiciels de voir et de comprendre l’ensemble des éléments d’un écran d’ordinateur, au lieu de faire appel à des propriétés cachées pour prendre des décisions. Avec AI Computer Vision, les entreprises et les développeurs RPA peuvent automatiser les VDI, et ce, quel que soit le cadre ou le système d’exploitation.

 

L’automatisation par AI Computer Vision, qui met en jeu des éléments dynamiques d’interface utilisateur (IU), tels que les menus déroulants et les cases à cocher, est compatible avec un large éventail d’interfaces. Cette solution réduit le temps de mise en œuvre lors de l’automatisation de machines virtuelles, tout en accroissant la résilience et la fiabilité des automatisations.

 

Même si AI Computer Vision recourt à l’OCR, celle-ci n’intervient pas dans la numérisation des documents. C’est là une différence subtile qui est rarement comprise.

 

Comment UiPath AI Computer Vision utilise l’OCR

Il est impossible d’automatiser dans un environnement virtuel au moyen d’une OCR standard et de la RPA, et pour cause : un bureau distant n’est en réalité rien d’autre qu’un flux vidéo. Des solutions perfectionnées s’imposent donc pour interpréter le texte, et surtout, en comprendre la nature et la finalité dans une interface.

 

AI Computer Vision recourt plus précisément à un réseau neuronal avancé conjugué à une OCR d’écran développée sur mesure ces dernières années chez UiPath pour analyser une Interface Utilisateur sur un flux de bureau virtuel et la comprendre à la manière d’un humain. Cette solution navigue aisément dans n’importe quelle interface, non seulement en cliquant sur des boutons, mais aussi en effectuant des actions complexes comme l’extraction de tableaux entiers et l’interaction avec des menus déroulants.

 

Pour l’identification des éléments, AI Computer Vision se fonde sur une technique d’interprétation textuelle connue sous le nom de « correspondance floue ». Cette technique, qui permet aux robots UiPath d’identifier à chaque fois le bon élément même en cas d’incohérence des résultats de l’OCR, améliore la fiabilité des automatisations en aval tout en en réduisant la durée de développement.

 

UiPath AI Computer Vision and OCR(2)

 

UiPath, ou comment faire passer l’OCR au niveau supérieur

 

On le voit, la valeur apportée par l’utilisation d’une solution IA intégrant l’OCR est énorme. UiPath Document Understanding et UiPath Computer Vision vont au-delà d’une simple OCR : capables d’une automatisation rapide et fiable prenant aussi en compte l’évolutivité de l’entreprise, ces deux outils permettent de tirer toute la valeur de vos données, notamment de celles qui sont non structurées ou cachées derrière une VDI.

Le graphique suivant vous aide à déterminer laquelle des solutions Document Understanding ou Computer Vision convient le mieux à vos besoins.

 

Prêt à mettre au travail vos données documentaires et vos systèmes VDI ?

Pour commencer, rendez-vous sur UiPath Automation Cloud, où vous pourrez faire vos premiers pas avec UiPath Document Understanding et UiPath AI Computer Vision dès aujourd’hui.

Débutez votre essai gratuit de UiPath Automation Cloud pour découvrir combien il est facile d’exploiter vos données non structurées pour renforcer la structure et l’efficacité de vos processus métiers.

 

Rédigé par Tony Tzeng

 


by Tony Tzeng

TOPICS: OCR, AI-OCR, RPA + AI

Show sidebar