Por favor, use este identificador para citar o enlazar este ítem:
http://cicese.repositorioinstitucional.mx/jspui/handle/1007/4344
OrthoQuant: Compresión de vectores y matrices mediante una rotación ortonormal, un método universal e independiente de los datos OrthoQuant: Vector and matrix compression via orthonormal rotation, a universal and data-independent method | |
Scarlett Magdaleno Gatica | |
Edgar Leonel Chávez González | |
Acceso Abierto | |
Atribución | |
compresión de vectores, compresión de matrices, rotación ortonormal aleatoria, OrthoQuant, modelos de lenguaje grandes (LLMs), búsqueda por similitud, almacenamiento eficiente vector compression, matrix compression, random orthonormal rotation, OrthoQuant, large language models (LLMs), similarity search, efficient storage | |
La creciente escala de los modelos de inteligencia artificial y las bases de datos vectoriales ha generado una crisis de eficiencia computacional y de almacenamiento. Los métodos de compresión actuales a menudo fracasan frente a datos de alta dimensionalidad con distribuciones arbitrarias o matrices de rango completo, y frecuentemente dependen de costosos procesos de reentrenamiento o calibración con datos externos. Para abordar este problema, en este trabajo se propone OrthoQuant, un método de compresión universal e independiente de los datos para vectores y matrices. El método resuelve estas limitaciones mediante la proyección de los datos sobre una matriz de rotación ortonormal aleatoria, sin requerir reentrenamiento ni ajuste fino. Esta transformación, fundamentada en los principios de las representaciones de Kashin, estabiliza la distribución interna de los datos, lo que permite una cuantización robusta y eficiente. La evaluación del método revela una alta fidelidad funcional. En bases de datos vectoriales, se obtuvo una compresión de hasta el 96 % manteniendo un recall elevado en la búsqueda del primer vecino más cercano, recuperando 1024 vecinos aproximados y aplicando re-ranking. En compresiones menores, es posible reducir la cantidad de vectores recuperados para alcanzar el mismo recall, aunque con el correspondiente compromiso en el uso de memoria. Aplicado a Modelos Grandes de Lenguaje (LLMs), los pesos del modelo LLaMA 3.2 3B fueron comprimidos hasta en un 72.35 %, manteniendo un rendimiento cercano al original y alcanzando una perplejidad de 7.85 en WikiText-2 con 4 bits por elemento, cifra que se compara favorablemente con la perplejidad de 6.94 del modelo base. Adicionalmente, la variante para vectores puede operar en modo streaming, lo que permite su integración en las capas de atención de LLMs y modelos generativos para procesar contextos más largos y acelerar la búsqueda de similitud. El método OrthoQuant constituye una contribución al estado del arte por su naturaleza general, robusta y libre de datos. Su capacidad para operar sin datos de calibración ni reentrenamiento, junto con su potencial para optimizar mecanismos de atención, lo validan como una herramienta para la democratización y eficiencia de la inteligencia artificial a gran escala. The growing scale of artificial intelligence models and vector databases has led to a crisis in computational and storage efficiency. Current compression methods often fail when dealing with high-dimensional data with arbitrary distributions or full-rank matrices, and frequently depend on costly retraining or calibration processes with external data. To address this problem, in this work we propose OrthoQuant, a universal, data-independent compression method for vectors and matrices. The method overcomes these limitations by projecting the data onto a random orthonormal rotation matrix, without requiring retraining or fine-tuning. This transformation, grounded in the principles of Kashin’s representations, stabilizes the internal distribution of the data, enabling robust and efficient quantization. Evaluation results reveal high functional fidelity. In vector databases, compression of up to 96% was achieved while maintaining a high recall in the search for the true nearest neighbor, retrieving 1024 approximate neighbors and applying re-ranking. For lower compression ratios, the number of retrieved vectors can be reduced to achieve the same recall, albeit with the corresponding trade-off in memory usage. Applied to Large Language Models (LLMs), the weights of the LLaMA 3.2 3B model were compressed by up to 72.35 %, maintaining performance close to the original and achieving a perplexity of 7.85 on WikiText-2 with 4 bits per element, a figure that compares favorably to the 6.94 perplexity of the base model. Additionally, the vector variant can operate in streaming mode, enabling integration into the attention layers of LLMs and generative models to process longer contexts and accelerate similarity search. OrthoQuant represents a contribution to the state of the art due to its general, robust, and data-free nature. Its ability to operate without calibration data or retraining, along with its potential to optimize attention mechanisms, validates it as a tool for the democratization and efficiency of large-scale artificial intelligence. | |
CICESE | |
2025 | |
Tesis de maestría | |
Español | |
Magdaleno Gatica, S. 2025. OrthoQuant: Compresión de vectores y matrices mediante una rotación ortonormal, un método universal e independiente de los datos. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 90 pp. | |
MATRICES, PLANTILLAS Y CALIBRES | |
Aparece en las colecciones: | Tesis - Ciencias de la Computación |
Cargar archivos:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
tesis_Scarlett Magdaleno Gatica_2025.pdf | Descripción completa de la tesis | 5.23 MB | Adobe PDF | Visualizar/Abrir |