Solução baseada em OCR para recuperar dados de recibos

Solução baseada em OCR para recuperar dados de recibos

Principais pormenores

Melhoria da eficiência dos fluxos de trabalho de back-office em 42%.

  • Desafio
    Extração de informações de recibos utilizando a aprendizagem automática
  • Solução
    Solução baseada em OCR para processar dados semi-estruturados de recibos
  • Tecnologias e ferramentas
    OpenCV, Python, C++, ABBYY Cloud OCR SDK

Cliente

O Cliente é um fornecedor de soluções personalizadas no domínio bancário e financeiro. O Cliente estava à procura de serviços de extração de dados para melhorar as aplicações para empresas com a utilização da aprendizagem automática.

Desafio: extração de informações de recibos utilizando a aprendizagem automática

O Cliente forneceu à equipa da ESSID Solutions uma aplicação móvel concebida para armazenar recibos digitais. O desafio consistia em ampliar esta aplicação através de aplicação da aprendizagem automática.

Os nossos cientistas de dados decidiram utilizar a tecnologia de reconhecimento ótico de caracteres (OCR) para treinar um algoritmo para extrair dados-chave de imagens em bruto. Também utilizaram métodos clássicos de visão por computador para melhorar a qualidade de uma imagem reconhecida antes de aplicar o reconhecimento ótico de caracteres aos recibos.

Solução: Solução baseada em OCR para processar dados semi-estruturados de recibos

O primeiro passo foi o pré-processamento de imagens digitais para extração de dados. A nossa equipa utilizou a visão por computador para ler os recibos.

O texto semi-estruturado dos recibos pode conter não só texto simples, mas também figuras, títulos, quadros ou elementos não textuais. Além disso, os textos dos recibos têm atributos como diferentes tipos de letra, símbolos, colunas, etc. Estas particularidades contribuem para um mau reconhecimento dos caracteres. A saída foi concentrar-se numa seleção cuidadosa das áreas, na extração precisa dos dados de cada área e na síntese dos resultados.
A nossa equipa desenvolveu uma solução que permitia dividir um recibo em várias áreas ou caixas, de modo a extrair dados, coluna a coluna, processá-los e movê-los automaticamente para os formulários necessários ou para o CRM do Cliente.

Outro desafio foi extrair os dígitos do número da conta e um número de encaminhamento. Os bancos utilizam frequentemente tipos de letra especializados, pelo que um símbolo é composto por várias partes. Além disso, os textos nos cheques podem ser apagados ou desvanecer-se, o que pode dificultar o reconhecimento em alguns casos.

A nossa equipa desenvolveu um método que permitia calcular automaticamente uma caixa delimitadora para cada símbolo. Esta abordagem permitiu tratar cada símbolo como uma imagem para extrair o número inteiro com uma elevada percentagem de precisão.

Resultado: automatização de tarefas de rotina e melhoria do desempenho global

A equipa da ESSID Solutions apoiou o Cliente na automatização de processos na área da extração de dados. O Cliente recebeu uma solução, baseada no reconhecimento ótico de caracteres, capaz de eliminar o trabalho moroso e propenso a erros. Isto incluiu o processamento de dados sobre transacções financeiras a partir de recibos.

Esta solução personalizada pode ser utilizada para melhorar a eficiência dos fluxos de trabalho de back-office. Ao substituir os funcionários humanos envolvidos em tarefas de rotina, o Cliente reatribui mais talentos à resolução de problemas críticos para o negócio que necessitam de supervisão humana.

Optimize os seus processos empresariais com o nosso Serviços de extração de dados