Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/3639
Recuperación de información utilizando códigos de Hadamard y el grafo de semi-espacios proximales
Information retieval using Hadamard codes and the half-space proximal graph
Bryan Rodrigo Quiroz Palominos
Edgar Leonel Chávez González
Acceso Abierto
Atribución
sistemas de recuperación de imágenes, encaje de imágenes, códigos de Hadamard, grafo de semi-planos proximales
image retrieval systems, image embedding, Hadamard codes, halfspace proximal graph
Las redes neuronales convolucionales (CNN, del inglés Convolutional Neural Networks) han obtenido buenos resultados en tareas de clasificación de imágenes. Las últimas capas de los modelos de CNN permiten responder y crear sus propios filtros con patrones más complejos en la entrada, como texturas, formas o variaciones de características procesadas en capas anteriores. Los sistemas de recuperación de imágenes tienen como objetivo navegar en colecciones mediante consultas. Debido a la cantidad de atributos y elementos que componen una imagen, es complicado extraer características de la imagen de forma manual. Estos sistemas extraen de modelos de CNN preentrenados un vector representativo de cada imagen de la colección. Este vector, por lo general, es extraído de la penúltima capa y se le conoce como las características profundas (del inglés Deep features). Los vectores con características profundas tienen una alta dimensión, por ejemplo, el vector de características profundas extraído de un modelo ResNet tiene 2,048 dimensiones. Además, los valores del vector son números reales. Esto provoca que los sistemas consuman más memoria principal (RAM), ya que los datos se indexan en índices que funcionan en memoria principal. También requieren más ciclos de cómputo para realizar cálculos. En este trabajo de tesis, se propone la construcción de un encaje binario que permite mejorar la representación de imágenes con características profundas. Se integraron los códigos de Hadamard en la arquitectura de ResNet para obtener un vector binario en codificación de Hadamard. Su eficacia se compara con la representación con características profundas mediante experimentos en tareas de recuperación utilizando los conjuntos de Places365 e ImageNet. Además, se propone el grafo de semi-espacios proximales (HSP, del inglés Half Space Proximal) para recuperar imágenes, el cual se compara con el algoritmo de k vecinos más cercanos mediante el cálculo de la pureza. Los resultados obtenidos muestran que la representación de Hadamard es en promedio mejor que la representación con características profundas en tareas de recuperación utilizando el grafo HSP. También, se muestra que, para calcular la distancia entre vectores, se reduce la huella de memoria y se necesitan menos ciclos de cómputo. Por último, se realizó una implementación de un prototipo de un sistema de recuperación de imágenes, en donde se incluyeron distintas herramientas para realizar consultas.
Convolutional Neural Networks (CNNs) have shown good performance on image classification. The last layers of the architecture of the CNN models allow them to create their filters with more complex patterns in the input, such as textures, shapes, or variations of features processed in previous layers. Image retrieval systems aim to navigate collections with queries. Due to the number of attributes and objects that make up an image, it is challenging to extract image features manually. These systems extract from pre-trained CNN models a representative vector of each image in the collection. This vector is usually extracted from the penultimate layer and is known as the deep features. Deep features vectors have a high dimension. In ResNet, the Deep features vector extracted has 2,048 dimensions. In addition, the values of the vector are real numbers. This causes systems to consume more main memory, since data is usually indexed in indexes that run in the main memory. Also, more computation cycles are required to perform calculations. In this thesis work, we propose the development of an image binary embedding that improves the deep features image representation. Hadamard codes were integrated into the ResNet architecture to obtain a binary vector in Hadamard encoding. Its efficiency is compared with the Deep features representation with experiments in retrieval tasks using Places365 and ImageNet datasets. In addition, the Half Space Proximal graph is proposed to retrieve images, which is compared with the k nearest neighbor algorithm by calculating the purity. The results obtained show that the Hadamard representation is, on average, better than the deep features representation in retrieval tasks using the HSP graph. Also, it shows that the memory footprint is reduced for computing the distance between vectors, and fewer computation cycles are needed. Finally, a prototype of an image retrieval was implemented, including different tools to make queries.
CICESE
2021
Tesis de maestría
Español
Quiroz Palominos, B.R. 2021. Recuperación de información utilizando códigos de Hadamard y el grafo de semi-espacios proximales. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 101 pp.
OTRAS
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Bryan Rodrigo Quiroz Palominos_22 nov 2021.pdfVersión completa de la tesis17.62 MBAdobe PDFVisualizar/Abrir