S’agit-il de ROC ?

/ by
Reading Time: 5 minutes
Lorsqu’on examine les solutions de saisie de données, le terme ROC apparaît souvent. Cette technologie, qui existe depuis des années, est souvent la solution idéale pour les entreprises qui cherchent à automatiser leur saisie de données. Dans ce billet, Richard Develyn, directeur technique de CloudTrade, explique comment le système ROC, bien qu’il puisse capturer certaines des données nécessaires, ne peut pas fournir la compréhension nécessaire pour savoir quoi faire avec ces données ou ce qu’elles signifient. En ce qui concerne l’avenir de la saisie de données et de l’automatisation, nous devons nous pencher sur la perception et la compréhension des données…

On me demande souvent d’expliquer la différence entre le service que nous fournissons ici à CloudTrade et les services qui sont vendus sous la bannière de la « reconnaissance optique de caractères » (ROC).

Il existe « presque » une réponse directe à cette question, à savoir que le système ROC traite de ce que nous pourrions appeler la « perception humaine » alors que le CloudTrade s’adresse plutôt à la « compréhension humaine ».

Je dis « presque » parce que les pistes sont brouillées à deux égards. J’y reviendrai plus tard ; mais permettez-moi tout d’abord de définir exactement ce que j’entends par « perception » et « compréhension ».

Qu’entendons-nous par la perception et la compréhension des données ?

La perception est une question de reconnaissance sous sa forme la plus élémentaire. C’est la partie de notre cerveau qui traduit les lignes, points et cercles tourbillonnants en lettres significatives dans la langue française. C’est aussi la partie qui doit se battre pour différencier les « i » des « j » ou les « b » des « h » afin de ne pas souhaiter aux gens de « ioyeux annjversajre » ou d’attraper un « crahe » avec un « bameçon en forme de crocbet ».

La compréhension, cependant, est une question de sens. C’est la partie qui intervient après que la perception a fait son travail (en supposant qu’elle soit correcte !) et qui découvre, disons, que le verbe « hameçonner » dans « pirates tentent d’hameçonner les internautes naïfs » n’a rien à voir avec le mot « hameçonner » quand le pêcheur « hameçonne un poisson ».

Là où la différence de perception et de compréhension commence à se brouiller, c’est que tant les fournisseurs de solutions basées sur le système ROC que le CloudTrade, offrent des services qui reposent sur une combinaison de ces deux technologies.

On ne peut pas avoir l’un sans l’autre

Après tout, vous ne pouvez pas avoir de compréhension sans perception (sauf si vous êtes une sorte de yogi flottant sur un tapis dans l’Himalaya), ou de perception sans compréhension (imaginez que vous essayez de trouver votre chemin dans le métro de Tokyo quand vous ne parlez pas le japonais). Les solutions de CloudTrade et de ROC doivent utiliser ces deux éléments car fournir ce service signifie non seulement extraire les bons chiffres et lettres des documents qui nous sont envoyés mais aussi les comprendre suffisamment bien pour expliquer que, par exemple, « quantité 1 » dans une ligne de commande à côté de « tapis de voiture » fait probablement référence à un paquet de 4 alors que la même phrase à côté de « Lamborghini Veneno Roadster » ne fait probablement pas du tout référence à un paquet de 4.

Traditionnellement, les solutions basées sur la ROC se sont concentrées sur le côté perception du problème car c’est là qu’elles ont investi la plus grande partie de leur R&D, laissant la partie compréhension à fournir principalement par les êtres humains.

La valeur réside dans la compréhension

CloudTrade, en revanche, a investi tous ses efforts de R&D dans la compréhension, parvenant à contourner complètement la partie perception en se concentrant sur les documents de « données » tels que les PDF de « données » (où, par exemple, la lettre « s » est stockée sans ambiguïté comme la lettre « s » plutôt que comme un ensemble d’instructions de dessin résultant en quelque chose qui pourrait ressembler à la lettre « s » pour l’œil humain).

Les PDF de données n’ont pas besoin de la ROC et peuvent donc être considérés comme produisant un résultat de « perception » qui est précis de 100%. La perception de 100% est le facteur clé du processus de compréhension, car elle permet une analyse du langage naturel avec un haut niveau de sophistication, car il n’y a pas de crainte que toutes les étapes logiques qui s’y déroulent soient brisées par du sable dans les rouages qui change le mot « haleine » en « baleine » ou qui omet un point décimal très important dans la phrase « ne pas dépasser la dose recommandée de 1,234 ml toutes les 24 heures ».

Alimenter l’automatisation

Des systèmes sophistiqués de compréhension suppriment la nécessité d’opérateurs humains et permettent aux services de fonctionner de manière entièrement automatisée. Au moment de la rédaction du présent rapport, CloudTrade traite ainsi dix millions de documents par an. Dès que des erreurs de perception sont introduites, comme par exemple en utilisant le système ROC, des défaillances commencent à se produire dans les règles grammaticales qui soutiennent le processus de compréhension, et une intervention humaine de plus en plus importante est nécessaire, ce qui entraîne de moins en moins d’automatisation.

Les solutions ROC fonctionnent également dans ce domaine parce qu’elles intègrent l’élément humain du traitement des documents. L’avantage est qu’elles ne se limitent pas au seul traitement des données PDF. Leur inconvénient est qu’elles ne peuvent pas être entièrement automatisées.

Le mystère de la pensée

La deuxième façon dont la différence entre la perception et la compréhension a été brouillée est la technologie ROC, qui a maintenant fait des incursions dans le monde de la compréhension. Pour citer Douglas Hofstadter, dans son document de référence sur la ROC et l’IA : « On seeing A’s and seeing As » :

« Une hypothèse tacite est donc que les composants des phrases – les mots individuels ou les concepts sous-jacents – ne sont pas des aspects profondément problématiques de l’intelligence, mais plutôt que le mystère de la pensée est de savoir comment ces petits éléments ‘triviaux’ fonctionnent ensemble dans de grandes structures complexes (et forcément non triviales). »

Douglas Hofstadter

Une technologie de l’avenir ou du passé ?

Bien que, comme je l’ai dit précédemment, le système ROC commette des erreurs telles que la lecture de « crabe » pour « crahe », il identifie en fait des listes de variations plutôt que des réponses définitives et rapides et présente ensuite ces variations avec leurs valeurs de certitude individuelles à un utilisateur pour arbitrage (c’est-à-dire qu’il pourrait s’agir de « crahe » (60%) ou peut-être c’est « crabe » (50%)). Les vendeurs du système ROC peuvent alors utiliser des dictionnaires pour éliminer automatiquement des mots absurdes comme « crahe » et peut-être réduire les possibilités d’arriver à la bonne réponse. Cependant, cela ne fonctionne pas lorsque les erreurs de ROC entraînent toujours des mots présents dans le dictionnaire, ou lorsqu’un mot considéré n’est pas nécessairement un mot français du tout (comme un numéro de pièce dans un catalogue).

Une solution beaucoup plus sophistiquée consisterait à introduire toutes ces variations de perception directement dans le moteur de « compréhension », puis à permettre à ce dernier de calculer toutes les options grammaticales.

Ce dernier est une chose avec laquelle nous avons expérimenté chez CloudTrade, puisqu’il nous est possible de connecter à un système ROC en tant que partie « perception » de notre solution. Et, en cette manière nous avons en effet constaté qu’avec un peu de patience et d’adaptation, nous pouvons fournir un service basé sur la ROC qui est à peu près acceptable et automatique pour la capture au niveau de l’en-tête, mais qui est trop pénible et trop lent pour être réalisable sur des images scannées complexes ou non « quasi parfaites ».

La consultation de dictionnaires est une fonction standard des fournisseurs de ROC depuis un certain temps. Les progrès de l’apprentissage automatique pourraient bien améliorer encore les choses à l’avenir. Je doute fort qu’il y ait des améliorations dans des domaines comme les factures et les bons de commande, où beaucoup d’informations clés n’ont pas de contexte dans lequel elles peuvent être utilisées pour permettre des corrections automatiques importantes, mais il pourrait y avoir des avantages à utiliser cette technologie avec des documents historiques écrits dans une prose fluide.

Le système ROC pourrait bien avoir un avenir intéressant lorsqu’il s’agit de scanner des documents qui ont été écrits dans le passé, mais c’est plus que probablement une technologie du passé lorsqu’il s’agit de documents qui doivent être écrits dans l’avenir.