Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/443
Filtros morfológicos adaptativos para el reconocimiento de caracteres en imágenes degradadas de documentos
Adaptive morphological ?ltering for degraded image document character recognition
Julia Díaz Escobar
Vitaly Kober
Acceso Abierto
Atribución
Filtros morfológicos
El Reconocimiento Óptico de Caracteres (OCR) en imágenes de documentos impresos digitalizados por medio de escáner es un tema muy estudiado, en donde las condiciones de captura tales como: la posición de la hoja, la iluminación, el contraste, la resolución, etc., suelen ser controladas y por lo tanto óptimas. En la actualidad se han propuesto diversos algoritmos para el reconocimiento de caracteres y existen diferentes sistemas OCR comerciales o de código libre (ABBYY, Tesseract, etc.), que tienen un buen desempeño. Sin embargo, hoy en día es más práctico utilizar un dispositivo móvil para la digitalización de un documento que el uso de un escáner; como consecuencia, la calidad de la imagen del documento se ve afectada, presentando distintas distorsiones geométricas, iluminación no homogénea, baja resolución, etc., y por lo tanto disminuyendo el desempeño de los sistemas OCR. Así que, para solucionar estos problemas, este trabajo propone el uso de varios ?ltros compuestos adaptativos basado en dos enfoques. El primer enfoque utilizado se basa en la descomposición por umbral y una correlación morfológica invariante a iluminación. Los ?ltros compuestos se basan en ?ltros de funciones discriminantes sintéticas no lineales diseñados mediante la incorporación de información de un conjunto de imágenes de entrenamiento y un valor dado de capacidad discriminación deseado. Para aquellos caracteres similares usamos un enfoque diferente basado en el bloqueo de los componentes espectrales de un ?ltro de sólo fase. Finalmente, los resultados obtenidos de las simulaciones realizadas con el sistema OCR propuesto se presentan y se comparan con el software comercial ABBYY, la comparación se hace midiendo los errores de clasi?cación
Optical Character Recognition (OCR) in scanned printed documents is a well-studied task, where the captured conditions like sheet position, illumination, contrast, resolution, etc., are controlled. Many algorithms have been proposed and there are di?erent systems, ABBYY for example, which have good performance. However, nowadays it is more practical to use a mobile device for document capture than using a scanner, as a consequence, the quality of the document images is often a?ected by geometric distortions, non-homogeneous illumination, low resolution, etc., and hence decreasing the performance of OCR engines. So, to better deal with these problems, this work propose to use multiple adaptive composite ?lters based on two di?erent approaches for improvement of the detection and recognition performance. The ?rst approach is based on threshold decomposition and an illumination- invariant morphological correlation. The composite ?lters are based on nonlinear and designed by incorporating information from a set of training images and a given value of discrimination capability. And, for those similar characters we use a di?erent approach based on zero-masking of spectral components of a phase-only ?lter. Finally computed simulation results obtained with the proposed OCR system are presented and compared with those of the commercial software ABBYY, the comparison is made by counting the clasi?cation errors
CICESE
2014
Tesis de maestría
Español
Díaz Escobar,J.2014.Filtros morfológicos adaptativos para el reconocimiento de caracteres en imágenes degradadas de documentos.Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California.xv, 96 pp.
CIENCIA DE LOS ORDENADORES
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
236751.pdfVersión completa de la tesis4.93 MBAdobe PDFVisualizar/Abrir