Gestão e automatização na confecção de documentos digitais
item.page.type
TCC
Date
2024-06-10
item.page.ispartof
item.page.citationsscopus
Authors
Zorn, Erick Nogueira
Andriollo, Julio Duvique
Andriollo, Julio Duvique
publication.page.advisor
Borba, Anderson Adaime de
Journal Title
Journal ISSN
Volume Title
publication.page.board
publication.page.program
Abstract
Este artigo expõe a aplicação de uma tecnologia de Reconhecimento Óptico de Caracteres
(OCR) em imagens que contenham texto, abordando o início do desenvolvimento
de um sistema de Gerenciamento Eletrônico de Documentos (GED), em vista da
necessidade da gestão de documentos em diversos processos de negócio, presente no
dia a dia de qualquer organização. O objetivo é explorar os benefícios da extração de
textos de imagens digitalizadas que contenham texto, utilizando um processo de visão
computacional por meio da ferramenta Tesseract OCR e iniciar o desenvolvimento
de um sistema que facilita a gestão de documentos novos e já existentes através de
funcionalidades como importação, classificação, busca e personalização. Uma análise
foi conduzida em 5 diferentes casos de teste, utilizando a métrica de acurácia para
avaliar a eficácia da ferramenta OCR, a qual demonstrou ser eficiente, apresentando
uma acurácia média de 93,6%.
This article exposes the application of Optical Character Recognition (OCR) technology to images that contain text, addressing the beginning of the development of an Electronic Document Management (EDM) system, in view of the need for document management in various business processes, which is a frequent necessity in any organization’s daily operations. The objective is to explore the advantages of extracting texts from digital images through a computer vision process using the Tesseract OCR tool and to initiate the development of a system that simplifies the management of new and existing documents by offering features like importing, categorizing, searching and customization. An analysis was conducted on 5 different test cases, using the accuracy metric to evaluate the effectiveness of the OCR tool, which proved to be efficient, presenting an average accuracy of 93.6%.
This article exposes the application of Optical Character Recognition (OCR) technology to images that contain text, addressing the beginning of the development of an Electronic Document Management (EDM) system, in view of the need for document management in various business processes, which is a frequent necessity in any organization’s daily operations. The objective is to explore the advantages of extracting texts from digital images through a computer vision process using the Tesseract OCR tool and to initiate the development of a system that simplifies the management of new and existing documents by offering features like importing, categorizing, searching and customization. An analysis was conducted on 5 different test cases, using the accuracy metric to evaluate the effectiveness of the OCR tool, which proved to be efficient, presenting an average accuracy of 93.6%.
Description
Indicado para publicação.
Keywords
sistema de gerenciamento eletrônico de documentos , sistema GED , OCR , inteligência artificial , tesseract OCR , visão computacional.