CloudTrade podcast - Épisode III - Pourquoi la capture des données est-elle un problème logique ?

/ by
Reading Time: 6 minutes
Dans leur troisième podcast, Rose Massie, Directrice de Marketing en France chez CloudTrade, et Kenza Jamal, journaliste informatique, expliquent pourquoi il est important de comprendre la signification des données capturées afin de permettre l'automatisation du traitement en aval. Rose explique ensuite comment CloudTrade intègre l'écriture de règles logiques dans sa solution de capture et comment l'entreprise prévoit de développer davantage le concept d'écriture de règles. Regardez le podcast ici. si vous préférez lire ce qui a été discuté, poursuivez votre lecture.Kenza : Bonjour, Rose.

Rose : Bonjour Kenza

Kenza : Bienvenue à notre troisième podcast CloudTrade. J'ai choisi une question dont nous allons discuter aujourd'hui : "Pourquoi la capture de données est-elle un problème logique ?"

Peut-être pourriez-vous nous faire part de l'approche adoptée par CloudTrade pour relever le défi de la capture d'informations à partir de documents lisibles par un être humain ?

Rose : Je pense donc qu'il faut faire la différence entre la capture de données non identifiées et la capture de données identifiées. Malheureusement, on a tendance à les appeler toutes les deux capture de données, ce qui crée un peu de confusion, mais ce sont des bêtes bien différentes et elles nécessitent une technologie bien différente.

Kenza : Expliquez nous Rose…

Rose : La capture de données non identifiées est donc, à la base, quelque chose que fait le système ROC. Elle va dans une image et extrait les données brutes, les mots et les chiffres de cette image, et les place dans un autre fichier. Vous faites la même chose avec l'extraction de données PDF.

Les données non identifiées n'ont pas vraiment d'utilité directe. Si vous avez le numéro 12345 quelque part et que vous ne savez pas ce qu'est ce 12345, il ne vous est d'aucune utilité.

La partie vraiment importante arrive ensuite, c'est-à-dire l'identification de ces données, et pour revenir à la question que vous avez posée à l'origine, « Est-ce un problème logique ? » La réponse est que c'est l'identification de ces données qui est un problème logique.

Traditionnellement, les gens utilisent le système ROC ou le système d'extraction de données PDF pour extraire ces données brutes, et comptent ensuite sur les humains pour les identifier ou les corriger.

CloudTrade se concentre sur le problème de l'identification. Notre système de règles permet aux rédacteurs de règles d'indiquer à notre moteur de règles la manière dont les données peuvent être identifiées. C'est notre principal facteur de différenciation.

Kenza : Comme vous le dites, Rose, le système ROC et la capture de données non identifiées existent depuis longtemps, et ces technologies se sont développées au fil des ans. Aujourd'hui, un certain niveau d'IA ou d'algorithmes a été intégré à ces technologies pour tenter d'en améliorer l'efficacité. Pourquoi CloudTrade n'a-t-il pas simplement pris l'un de ces moteurs plutôt que de développer sa propre technologie de capture, d'utiliser ce qui était en vente libre, et d'essayer d'ajouter quelque chose par-dessus ?

Rose : Il n'y avait pas d'utilitaire complet pour les données PDF. Le système ROC est une autre affaire. Nous utilisons des outils ROC tiers. Cependant, pour identifier les données avec précision au-delà des mécanismes les plus simples possibles, il faut beaucoup naviguer et identifier. Si vous utilisez le système ROC avec ses incertitudes de données très brutes, cette navigation commence à devenir très difficile.

Il y a trop de sources d'erreur et très vite, on échoue.

Avec notre système de règles, nous avons découvert que pour obtenir des résultats comparables, il était environ 20 fois plus difficile d'écrire des règles pour des documents présentant des incertitudes au niveau de la ROC que pour des documents n'en présentant pas.

C'est pourquoi, au départ, nous avons limité notre champ d'application aux documents de données PDF, afin de pouvoir garantir l'exactitude des données extraites.

Kenza : OK, merci pour la clarification. Vous avez donc la capacité unique d'extraire les couches techniques d'un document, plutôt que d'utiliser un système ROC. Votre solution offre une précision de 100% à partir des données extraites d'un document généré par une application.

Rose : Oui, c’est bien ça.

Kenza : Mais revenons au sujet des règles. Vous m'avez donné une analogie : vous et moi commençons une nouvelle tâche, nous avons des documents devant nous, et quelqu'un dit que vous devez extraire cette information qui se trouve ici en haut à droite, là en bas à gauche, et vous devez le faire en conjonction avec des informations externes.

Avec le temps, les gens vont devenir très familiers avec ces documents, et leur traitement deviendra donc semi-automatique. Cela prend toujours du temps, et la technologie peut le faire de manière plus précise et beaucoup plus rapide.

Mais en tant qu'êtres humains, ce que nous sommes, c'est le troisième mercredi du mois, et cela vient de ce fournisseur et donc, oh j'applique cette règle pour ce fournisseur, et, en fait, ce qu'ils voulaient mettre sur le document était ceci, juste parce que nous le savons.

Alors comment vos règles traitent-elles cet élément humain ? Ou est-ce que cela impose d'autres défis et problèmes en termes de processus en aval ?

Rose : Le système de règles est un système logique et la promesse de base que nous faisons à CloudTrade est que si vous pouvez articuler la règle, alors nous pouvons la mettre en œuvre. Il est construit sur un langage de programmation logique, Prolog.

La seule chose que nous ne pouvons pas faire est d'automatiser une instruction si vous ne pouvez pas l'articuler. Si la seule façon d'obtenir des informations est une sorte d'intuition artistique, alors nous ne pourrons pas le faire. Mais donnez-nous une règle et nous allons la mettre en œuvre et donc l'automatiser, et donc le faire à la vitesse de l'informatique.

Kenza : C'est vraiment intéressant, Rose.

Et pour revenir à ma question initiale concernant le défi que vous avez vu sur le marché. Vous avez dû regarder autour de vous et vous dire "Qui d'autre fait ça ?". Ou bien le processus de CloudTrade est-il vraiment unique sur le marché ?

Rose : Je pense qu'il a toujours été unique. Richard Develyn, le directeur technique de CloudTrade, a toujours été par nature un innovateur plutôt qu'un imitateur.

Le problème de l'identification des données était difficile. Il n'est pas facile à résoudre. Pour innover, il faut donc être dans une certaine position en tant qu'entreprise où l'on est libre d'innover. Il faut avoir cette liberté. Peut-être faut-il que l'entreprise soit petite. Pour être en mesure d'innover, il faut que vous n'ayez pas de gens qui vous respirent dans le cou et qui vous demandent de rendre des comptes à chaque seconde de la journée. Vous expérimentez. C'est donc vraiment ce qui nous a permis, à CloudTrade, de produire la bonne solution.

Kenza : Je vois.

Rose : Je ne pense pas vraiment qu'il y ait une autre solution à laquelle je puisse penser. Je sais que les gens essaient maintenant de contourner le concept de règles en introduisant des réseaux neuronaux et l'apprentissage automatique, et je ne crois pas que cela va réussir. Je pense que ce que nous avons produit est en fait ce que les premiers innovateurs auraient dû faire, mais je pense qu'ils ont vu qu'il s'agissait d'un problème difficile et qu'ils ont reculé, en disant, « Je sais ce que nous allons faire, nous allons juste faire un effort symbolique d'identification et passer la correction aux humains. Nous n'essaierons pas de résoudre le problème du traitement du langage naturel », qui est en fait ce qu'il faut faire pour l'identification des données.

Kenza : Bien. Excellent.

Donc je dois vous demander, Rose. Aucune entreprise ne peut rester immobile. Quel est votre plan pour l'avenir ?

Rose : Nous avons maintenant beaucoup d'expérience dans l'écriture de règles pour capturer des documents, en particulier dans le domaine dans lequel nous opérons principalement, c'est-à-dire les factures et les commandes. Et nous introduisons maintenant ce nouveau produit, qui est une évolution de ce que nous faisons, appelé Grandalf.

Le concept de Grandalf est le suivant : prenons cette expertise en matière de règles et voyons si nous pouvons en synthétiser un ensemble de règles, couplé à une analyse par apprentissage automatique des documents que nous avons déjà traités. Cela permettra d'aller au sens du document et de présenter une sorte d'interface de type assistant pour permettre l'écriture de règles déterministes sans passer par le processus d'écriture de règles.

Kenza : Je vois.

Rose : Ainsi, la personne qui utilise Grandalf soumet ce document, et s'il remplit certains critères, l'assistant Grandalf dit alors : « OK, j'ai identifié certaines choses sur ce document, ce qui signifie que je pense pouvoir écrire ces règles automatiquement avec votre aide. Pouvez-vous confirmer qu'il s'agit bien du numéro de facture ou du numéro de commande ? » et, une fois cela fait, il peut dire : « Pouvez-vous confirmer comment extraire cette information à l'avenir, car je pense qu'elle se trouve à droite de ce mot, ou en dessous de ce mot, ou quelque part par-là ? ». Et à mesure que l'expéditeur du document donne ses réponses, tout cela est stocké et devient un ensemble de règles, mais un ensemble de règles écrites par ce mécanisme assisté avec un utilisateur final plutôt que par notre rédacteur de règles. Ces règles sont ensuite automatiquement utilisées pour tous les documents ultérieurs du même type.

Les rédacteurs de règles sont toujours nécessaires, bien sûr, pour les documents qui ne sont pas si faciles à réaliser, où la logique n'est pas si facile à synthétiser. Mais nous pouvons développer cela.

Kenza : Donc, vous voyez ça comme une écriture de règles en libre-service ?

Rose : Oui. Nous devons étudier exactement comment nous allons le positionner sur le marché et décider qui va s'occuper de l'interface utilisateur Grandalf.

Kenza : Bien. Vraiment passionnant, Rose. Merci beaucoup pour cela. J'entends souvent vos clients heureux dire que ce que vous faites est vraiment magique, et vous venez de répondre qu'avec l'arrivée de Grandalf, vous êtes passés au niveau supérieur.

Rose : Je n'aime pas utiliser le mot magie parce que je veux dire aux gens que c'est parfaitement explicable et nous allons jusqu'au bout dans notre page questions et réponses sur le site web pour nous assurer que les gens peuvent voir exactement ce que nous faisons. Il n'y a rien dans nos manches, mais oui, je comprends ton point de vue.

Kenza : Absolument. Merveilleux. Merci encore et j'attends avec impatience le prochain podcast.

Regardez le dernier épisode du podcast dans son intégralité ci-dessous :