Mesurer la précision des solutions de capture de données

/ by
Reading Time: 3 minutes

Dans ce blog, le PDG de CloudTrade, David Cocks, se penche sur le concept de mesure des résultats. Notre large participation à l'analyse de la méthodologie de test de Covid par le gouvernement et les médias l'a incité à examiner les similitudes entre l'évaluation de la précision des tests médicaux et la mesure de la précision des solutions de capture des données.

Au cours de la pandémie de l'année dernière, nous avons tous pu constater l'utilité des tests. Cependant, il est important de comprendre comment on mesure l'efficacité des tests et de tout autre type de processus similaire.

Il existe de nettes analogies entre la façon dont nous mesurons la précision des tests Covid, ou de tout autre test médical, et la façon dont nous mesurons l'efficacité d'une solution de capture de données.

Je voudrais examiner ici comment nous mesurons la précision des solutions de capture de données.

Les termes de l'essai

Les annonces télévisées diffusées en soirée par le gouvernement britannique et ses assistants médicaux au cours de l'année écoulée nous ont familiarisés avec les termes « sensibilité » et  « spécificité » appliqués aux tests médicaux. Cela a été particulièrement le cas avec le test Covid, où :

- la sensibilité est une mesure d'un vrai résultat positif (c'est-à-dire l'efficacité du test à détecter un résultat positif),

- la spécificité est une mesure de l'efficacité du test à détecter un vrai résultat négatif.

La sensibilité et la spécificité sont des mesures d’un vrai positif et d’un vrai négatif.

En matière de capture de données, nous inversons un peu la logique et nous parlons de faux positifs et de faux négatifs. Ceux-ci peuvent être définis comme suit :

- un faux positif est le terme utilisé lorsque vous capturez un champ de manière incorrecte,

- un faux négatif est le terme utilisé lorsque vous ne parvenez pas à capturer quelque chose qui est réellement présent.

Il s'agit de concevoir une solution de capture de données qui présente un nombre minimal de faux positifs et de faux négatifs afin de garantir la précision et l'efficacité de l'automatisation des documents. Mais, comme pour la sensibilité et la spécificité, il faut très souvent faire un compromis entre l'amélioration de l'efficacité d'une mesure et la réduction de l'efficacité de l'autre.

Trouver un équilibre

Lorsqu'il s'agit de tests médicaux, vous devez trouver les bons tests avec un bon équilibre entre la sensibilité et la spécificité, en fonction des probabilités et des conséquences de la communication de résultats incorrects. Il en va de même pour la capture de données. En examinant le compromis entre faux positifs et faux négatifs, vous devez prendre en compte les probabilités et les conséquences.

Les faux positifs sont bien pires que les faux négatifs

Si vous envisagez la question en termes de capture de données, en particulier si vous pensez à des documents financiers, les faux positifs sont un résultat bien pire pour vous que les faux négatifs. Un faux positif signifie que vous avez capturé une information erronée et l'avez fait passer pour autre chose, alors qu'un faux négatif signifie que vous n'avez pas réussi à capturer quelque chose. Ces données manquantes peuvent généralement être détectées par un opérateur humain si vous remarquez qu'elles sont manquantes. Il vaut donc mieux avoir une donnée manquante que de trouver la mauvaise donnée.

Il est peu probable que la prudence permette d'obtenir une précision de 100 %

La façon dont la plupart des solutions de capture de données traitent ce problème consiste à privilégier les faux négatifs. Vous constaterez souvent que les gens disent que leurs systèmes sont précis à 80-90 %, ce qui signifie généralement qu'ils capturent 80-90 % des données du document et qu'ils ne commettent probablement que très rarement une erreur réelle : ne capturons pas du tout plutôt que de capturer les mauvaises informations.

Comment le nouveau produit CIRA de CloudTrade offre la solution optimale de capture de données

Chez CloudTrade, nous avons essayé de résoudre ces objectifs contradictoires de capture et de prudence en utilisant notre nouveau produit le CloudTrade Intelligent Rules Assistant (CIRA).

Avec CIRA, nous utilisons les connaissances empiriques que nous avons accumulées pendant 10 ans, ainsi que les capacités d'apprentissage automatique, pour faire ce qui suit :

  • trouver l'ensemble le plus large possible de valeurs pour un champ particulier, ainsi que leur méthode de capture,
  • permettre à l'utilisateur de choisir laquelle de ces valeurs est effectivement correcte,
  • conserver la méthode de capture de la valeur choisie comme solution pour les documents futurs.

De cette façon, CIRA fournit un système qui minimise le nombre de faux négatifs en identifiant l'ensemble le plus large possible de résultats, et élimine les faux positifs en permettant à l'utilisateur de choisir parmi les réponses possibles celle qui est réellement correcte.

Grâce à l'utilisation de l'intelligence intégrée et d'un réseau neuronal convolutif formé à partir d'un vaste référentiel de documents précédemment traités, et en les combinant à une simple sélection de l'utilisateur, CloudTrade a créé la solution optimale pour capturer les données.

Les tests Covid sont conçus en tenant compte des limites de sensibilité et de spécificité, afin qu'un résultat incorrect puisse être résolu par une action médicale supplémentaire. Les tests PCR rapides sont suivis, le cas échéant, du test de flux latéral, plus long. Pour la capture de données, il existe vraiment une solution qui fournit le bon résultat du premier coup. Pour voir comment nous éliminons les faux résultats, regardez une courte démonstration de CIRA (anciennement connu sous le nom de Grandalf) ici.