Solution basée sur l'OCR pour récupérer les données des reçus

Solution basée sur l'OCR pour récupérer les données des reçus

Détails clés

Amélioration de l'efficacité des flux de travail d'arrière-guichet de 42%.

  • Défi
    Extraction d'informations à partir de reçus à l'aide de l'apprentissage automatique
  • Solution
    Solution basée sur l'OCR pour le traitement de données semi-structurées à partir de reçus
  • Technologies et outils
    OpenCV, Python, C++, ABBYY Cloud OCR SDK

Client

Le client est un fournisseur de solutions personnalisées dans le domaine de la banque et de la finance. Le client recherchait services d'extraction de données afin d'améliorer les applications pour les entreprises grâce à l'apprentissage automatique.

Défi : extraction d'informations à partir de reçus à l'aide de l'apprentissage automatique

Le client a fourni à l'équipe d'ESSID Solutions une application mobile conçue pour stocker des reçus numériques. Le défi était d'amplifier cette application en l'application de l'apprentissage automatique.

Nos data scientists ont décidé d'utiliser la technologie de reconnaissance optique de caractères (OCR) pour entraîner un algorithme à extraire des données clés à partir d'images brutes. Ils ont également utilisé des méthodes classiques de vision par ordinateur pour améliorer la qualité d'une image reconnue avant d'appliquer la reconnaissance optique de caractères aux reçus.

Solution : Solution basée sur l'OCR pour le traitement de données semi-structurées à partir de reçus

La première étape a consisté à prétraiter les images numériques pour extraction de données. Notre équipe a utilisé la vision artificielle pour lire les reçus.

Le texte semi-structuré des reçus peut contenir non seulement du texte brut, mais aussi des figures, des titres, des tableaux ou des éléments non textuels. En outre, les textes des reçus ont des attributs tels que des polices, des symboles, des colonnes, etc. différents. Ces particularités contribuent à une mauvaise reconnaissance des caractères. La solution consistait à se concentrer sur une sélection minutieuse des domaines, sur l'extraction précise des données de chaque domaine et sur la synthèse des résultats.
Notre équipe a développé une solution permettant de diviser un reçu en plusieurs zones ou cases afin d'en extraire les données, colonne par colonne, de les traiter et de les transférer automatiquement vers les formulaires requis ou le CRM du client.

Un autre défi consistait à extraire les chiffres du numéro de compte et le numéro d'acheminement. Les banques utilisent souvent des polices de caractères spécialisées, ce qui fait qu'un symbole se compose de plusieurs parties. En outre, les textes figurant sur les chèques peuvent être effacés ou s'estomper, ce qui peut poser des problèmes de reconnaissance dans certains cas.

Notre équipe a mis au point une méthode permettant de calculer automatiquement une boîte englobante pour chaque symbole. Cette approche a permis de traiter chaque symbole comme une image afin d'extraire le nombre entier avec un pourcentage élevé de précision.

Résultat : automatisation des tâches routinières et amélioration des performances globales.

L'équipe d'ESSID Solutions a aidé le client à automatiser ses processus dans le domaine de l'extraction de données. Le client a reçu une solution, basée sur la reconnaissance optique de caractères, capable d'éliminer le travail fastidieux et source d'erreurs. Il s'agissait notamment de traiter les données relatives aux transactions financières à partir des reçus.

Cette solution personnalisée peut être utilisée pour améliorer l'efficacité des flux de travail du back-office. En remplaçant les employés engagés dans des tâches routinières, le client réaffecte plus de talents à la résolution de problèmes critiques nécessitant une supervision humaine.

Optimisez vos processus d'affaires avec notre Services d'extraction de données