Solución basada en OCR para recuperar datos de recibos

Solución basada en OCR para recuperar datos de recibos

Detalles clave

Mejora de la eficacia de los flujos de trabajo de back-office en 42%.

  • Desafío
    Extracción de información de recibos mediante aprendizaje automático
  • Solución
    Solución basada en OCR para procesar datos semiestructurados de recibos
  • Tecnologías y herramientas
    OpenCV, Python, C++, SDK ABBYY Cloud OCR

Cliente

El Cliente es un proveedor de soluciones personalizadas en el ámbito de la banca y las finanzas. El cliente buscaba servicios de extracción de datos para mejorar las aplicaciones para empresas con el uso del aprendizaje automático.

Reto: extracción de información de recibos mediante aprendizaje automático

El cliente proporcionó al equipo de ESSID Solutions una aplicación móvil diseñada para almacenar recibos digitales. El reto consistía en ampliar esta aplicación mediante aplicación del aprendizaje automático.

Nuestros científicos de datos decidieron emplear la tecnología de reconocimiento óptico de caracteres (OCR) para entrenar un algoritmo que extrajera datos clave de imágenes sin procesar. También utilizaron métodos clásicos de visión por ordenador para mejorar la calidad de una imagen reconocida antes de aplicar el reconocimiento óptico de caracteres a los recibos.

Solución: Solución basada en OCR para el tratamiento de datos semiestructurados procedentes de recibos

El primer paso consistió en preprocesar las imágenes digitales para extracción de datos. Nuestro equipo utilizó visión por ordenador para leer recibos.

El texto semiestructurado de los recibos puede contener no sólo texto sin formato, sino también figuras, títulos, tablas o elementos no textuales. Además, los textos de los recibos tienen atributos tales como distintos tipos de letra, símbolos, columnas, etc. Estas peculiaridades contribuyen a un mal reconocimiento de caracteres. La solución consistió en centrarse en una cuidadosa selección de áreas, extraer con precisión los datos de cada una de ellas y sintetizar los resultados.
Nuestro equipo desarrolló una solución que permitía dividir un recibo en varias áreas o casillas para poder extraer los datos, columna a columna, procesarlos y trasladarlos a los formularios requeridos o al CRM del cliente de forma automática.

Otro reto era extraer los dígitos del número de cuenta y el número de ruta. Los bancos suelen utilizar fuentes especializadas, por lo que un símbolo consta de varias partes. Además, los textos de los cheques pueden borrarse o desvanecerse, lo que puede dificultar el reconocimiento en algunos casos.

Nuestro equipo ideó un método que permitía calcular automáticamente un cuadro delimitador para cada símbolo. Este enfoque permitió tratar cada símbolo como una imagen para extraer el número entero con un alto porcentaje de precisión.

Resultado: automatización de tareas rutinarias y mejora del rendimiento global.

El equipo de ESSID Solutions ayudó al Cliente con la automatización de procesos en el ámbito de la extracción de datos. El Cliente recibió una solución, basada en el reconocimiento óptico de caracteres, capaz de eliminar el trabajo que consume tiempo y es propenso a errores. Esto incluía el procesamiento de datos sobre transacciones financieras a partir de recibos.

Esta solución personalizada puede utilizarse para mejorar la eficiencia de los flujos de trabajo de back-office. Al sustituir a los empleados dedicados a tareas rutinarias, el cliente reasigna más talentos a la resolución de problemas críticos para la empresa que requieren supervisión humana.

Optimice sus procesos empresariales con nuestra Servicios de extracción de datos