Gabarits élastiques

/ by
Reading Time: 3 minutes

Qu’est-ce qu’un gabarit dans le monde de la saisie automatisée des données CloudTrade ? Dans ce blog, Richard Develyn, directeur technique de CloudTrade, explique qu’il s’agit de quelque chose de beaucoup plus flexible que ce que vous pouvez imaginer. Ensuite, il décrit comment cette adaptabilité est le point fort de la solution CloudTrade.

Si vous consultez la définition du mot « gabarit » dans un dictionnaire, en ligne ou autre, la première réponse que vous rencontrerez sera probablement la suivante :

« Une pièce préréglée et façonnée de matériau rigide utilisée comme modèle pour des processus tels que la découpe, le façonnage ou le perçage. »

Si quelqu’un vous parle ensuite d’une entreprise qui utilise des gabarits pour lire les informations d’un document, vous imaginerez probablement que, d’une manière équivalente à l’informatique, ils recouvrent un document d’un morceau de métal qui (a) est percé de trous carrés pour permettre d' »extraire » des parties du document par le bas et (b) comporte des mots gravés qui doivent s’aligner exactement avec les mots écrits en dessous.

Le problème avec ces images mentales est qu’elles sont (a) faciles à imaginer, (b) faciles à comprendre, (c) faciles à retenir et (d), dans la majorité des cas, tout à fait fausses. Allez au-delà de la première définition du dictionnaire pour « gabarit » et vous découvrirez que dans le domaine du calcul, un gabarit signifie généralement :

« Un format prédéfini pour un document ou un fichier ».

En étudiant le mot « format » de plus près, vous trouverez des termes comme « arrangements » et « motifs » qui suggèrent une interprétation beaucoup plus fluide que l’image d’un morceau de métal troué ne le suggère.

Est-il nécessaire d’avoir un ensemble de règles rigide ?

En fin de compte, un gabarit n’est qu’un ensemble de règles. L’exemple du « métal troué » n’est qu’un exemple très spécifique et rigide de ce que pourraient être ces règles – par exemple « ce texte doit figurer ici sur la page » ou « cette information que nous devons extraire doit figurer là sur la page ».

Un ensemble de règles et un gabarit sont en fait la même chose, mais malheureusement, il est beaucoup trop facile de penser « rigide » quand on lit « gabarit » et de sauter à la conclusion erronée qu’un système qui fonctionne en utilisant un ensemble de règles doit fonctionner de manière très rigide.

Ce genre de confusion sémantique est une nuisance, en particulier pour nous. Elle nous a amenés à ne plus utiliser le mot « gabarit » pour expliquer le fonctionnement de CloudTrade. Notre solution d’extraction de données est en effet basée sur l’écriture de règles de style en langage naturel. Oui, on pourrait appeler cela un gabarit. Non, cela n’équivaut pas à utiliser un morceau de métal rectangulaire percé de trous et collé sur un morceau de papier !

Cependant, si nous devons nous contenter de cette image mentale (les images mentales comme celle-ci étant si difficiles à modifier), nous devons imaginer que nos gabarits ne sont pas faits d’un matériau rigide comme le métal, mais sont plutôt créés à partir d’une sorte de substance élastique et flexible qui s’aligne automatiquement sur le document que nous essayons d’examiner – un peu comme du caoutchouc intelligent. Nos gabarits-élastiques peuvent bien avoir des trous qui nous permettent de lire les données que nous recherchons, mais ces trous peuvent se développer, se rétrécir et se déplacer. Nos gabarits-élastiques peuvent contenir des données qui doivent être présentes dans le document « en dessous », mais ces données peuvent avoir des valeurs et des emplacements différents en fonction de ce que le document contient d’autre.

La flexibilité est la clé de la solution CloudTrade

C’est ce qui donne à notre système sa puissance. Nous programmons nos gabarits-élastiques pour qu’ils se déforment de la manière nécessaire et particulière qui correspond aux variations du document que nous essayons d’examiner. Peu importe la façon dont les informations d’un document se déplacent, nous pouvons configurer nos gabarits-élastiques pour qu’ils s’y adaptent et qu’ils recueillent toujours les bonnes données, où qu’elles se trouvent.

Bien que nous le souhaitions, il est difficile d’éviter d’utiliser le mot « gabarit » lorsque nous décrivons ce que nous faisons. De nombreuses personnes dans notre secteur l’utilisent. Malheureusement, la tentation est de penser que « système de règles » équivaut à « gabarit » et que « gabarit » équivaut à « pièce de métal rigide avec une série de trous découpés dedans ». Si vous vous trouvez à penser plutôt dans ce sens, alors essayez au moins d’imaginer que nos gabarits sont caoutchouteux et élastiques plutôt que rigides et métalliques. C’est peut-être une drôle d’image mentale à avoir en tête, mais au moins elle est beaucoup plus proche de la vérité que de l’alternative.