Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/4321
Reconocimiento automático de señas dinámicas de la Lengua de Señas Mexicana
Automatic recognition of dynamic signs of Mexican Sign Language
Jesús Antonio Navarrete López
Irvin Hussein Lopez-Nava
Acceso Abierto
Atribución
Lengua de Señas Mexicana (LSM), aprendizaje profundo, mediapipe, openpo se, visión por computadora, señas dinámicas, reconocimiento automático de señas dinámicas, reconocimiento continuo de señas, generación de frases
Mexican Sign Language (LSM), deep learning, mediapipe, openpose, computer vi sion, dynamic signs, automatic recognition of dynamic signs, continuous sign recognition, sen tence generation, large language models
En México, se estima que 4.2 millones de personas tienen discapacidad auditiva, y cerca del 14% presenta pérdida total de la audición. Una parte utiliza la Lengua de Señas Mexicana (LSM) como principal medio de comunicación. No obstante, el bajo interés general por aprender esta lengua se refleja en la existencia de apenas 40 intérpretes certificados a nivel nacional. Ante este panorama, las herramientas tecnológicas emergen como un recurso valioso para fortalecer la accesibilidad y ampliar las oportunidades de inclusión. El objetivo de este trabajo fue implementar y evaluar un sistema de traducción automática de la LSM al español, basado en visión por computadora, aprendizaje de máquina y modelos grandes de lenguaje (LLMs). Se emplearon dos conjuntos de datos en video: uno compuesto por señas dinámicas aisladas (glosas) y otro por frases con entre una y cinco glosas. A partir de estos videos se extrajeron puntos clave del cuerpo, manos y rostro mediante técnicas de captura de movimiento. La metodología incluyó dos enfoques: reconocimiento en modalidad aislada y modalidad continua. En la modalidad aislada se evaluaron diversas arquitecturas de aprendizaje profundo, destacando la red ResNet, que alcanzó un F1-score del 92%. En la modalidad continua se utilizó una estrategia basada en ventanas deslizantes de 32 fotogramas con un traslape del 50%, cuyas salidas fueron postprocesadas mediante el promediado de inferencias repetidas. Para evaluar el rendimiento se propuso la métrica Presence and Order Penalty Error (POPE), que penaliza errores tanto en la presencia como en el orden de las glosas predichas, obteniendo un error promedio del 37%. Finalmente, las secuencias de glosas reconocidas en modalidad continua fueron traducidas al español mediante un LLM, analizando casos de éxito y fallo en la fidelidad semántica de las traducciones. El sistema logró realizar traducciones funcionales de LSM al español. Persisten áreas de mejora, como la ampliación del corpus utilizado y el perfeccionamiento de las técnicas de segmentación en la modalidad continua. A pesar de estas limitaciones, los resultados obtenidos constituyen un avance significativo hacia el desarrollo de aplicaciones en tiempo real que fomenten la inclusión social de la comunidad Sorda.
In Mexico, it is estimated that 4.2 million people have some form of hearing impairment, with approximately 14% experiencing total hearing loss. A portion of this population uses Mexican Sign Language (LSM) as their primary means of communication. However, the general lack of interest in learning this language is reflected in the fact that there are only around 40 certified interpreters nationwide. In this context, technological tools emerge as a valuable resource to strengthen accessibility and expand opportunities for inclusion. The objective of this work was to implement and evaluate an automatic translation system from LSM to Spanish, based on computer vision, machine learning, and large language models (LLMs). Two video datasets were used: one consisting of isolated dynamic signs (glosses) and another composed of phrases containing between one and five glosses. Keypoints from the body, hands, and face were extracted from these videos using motion capture techniques. The methodology comprised two approaches: recognition in isolated and continuous modalities. In the isolated modality, several deep learning architectures were evaluated, with the ResNet model standing out by achieving an F1-score of 92%. For the continuous modality, a sliding window strategy was implemented using 32-frame windows with a 50% overlap, and the outputs were post-processed by averaging repeated inferences. To evaluate performance, the Presence and Order Penalty Error (POPE) metric was proposed, penalizing errors in both the presence and sequence of predicted glosses, yielding an average error of 37%. Finally, the recognized gloss sequences in the continuous modality were translated into Spanish using an LLM, analyzing both successful and failed cases in terms of semantic fidelity. The system successfully performed functional translations from LSM to Spanish. There are still areas for improvement, such as expanding the dataset and refining segmentation techniques in the continuous modality. Despite these limitations, the results represent a significant step toward the development of real-time applications that promote the social inclusion of the Deaf community.
CICESE
2025
Tesis de maestría
Español
Navarrete López, J.A. 2025. Reconocimiento automático de señas dinámicas de la Lengua de Señas Mexicana. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 117 pp.
ENSEÑANZA CON AYUDA DE ORDENADOR
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Jesús Antonio Navarrete López_2025.pdfDescripción completa de la tesis11.59 MBAdobe PDFVisualizar/Abrir