Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/3780
Traducción de Lenguaje de Señas Mexicano a texto mediante aprendizaje profundo
Mexican Sign Language translation to text using deep learning
Michelle Sainos Vizuett
Irvin Hussen López Nava
Acceso Abierto
Atribución
Lengua de Señas Mexicana, Aprendizaje Profundo, articulaciones, OpenPose
Mexican Sign Language, Deep Learning, OpenPose
En México existen 4.2 millones de personas con discapacidad auditiva. Las personas con sordera severa o profunda son incapaces de escuchar a otros, por lo que sufren problemas de comunicación. Las Lenguas de Señas son usadas por las comunidades sordas del mundo para comunicarse entre sí. Este problema de comunicación es bidireccional, y pueden seguir dos direcciones: traducción de Lengua de Señas al lenguaje hablado o viceversa. El reconocimiento o clasificación de las señas es parte fundamental en la traducción. En el presente trabajo se busca desarrollar una herramienta capaz de clasificar señas dinámicas de la Lengua de Señas Mexicana (LSM) al español. Para lograrlo, se diseñó un diccionario de 100 señas que forman parte de la LSM con apoyo de expertos. Después, se diseñó un protocolo para la captura de los videos de las señas con 10 participantes no expertos, y 2 señistas expertos. Posteriormente, en una fase de procesamiento se transformaron y adecuaron los datos en tres pasos: (i) la obtención de las articulaciones del esqueleto humano mediante OpenPose y su selección por relevancia, (ii) la creación de 2 conjuntos de datos usando dos distintos esquemas de aumento de datos, y (iii) la normalización de estos conjuntos de datos. El aumento de datos se realizó usando un esquema de re-muestreo y un esquema basado en las modificaciones de las posiciones de las articulaciones. La última fase consistió en el entrenamiento y la evaluación de los modelos de aprendizaje de máquina usando los dos conjuntos de datos. Se propusieron 3 arquitecturas de aprendizaje profundo (LSTM, CNN-LSTM y ResNet) y un modelo de aprendizaje de máquina tradicional (KNN-DTW) que se tomó como modelo base. El modelo que con mejores resultados fue el modelo ResNet, con una exactitud de 0.81 sobre el conjunto de datos de prueba. A pesar de que el modelo con menor costo computacional fue el modelo de LSTM, el modelo ResNet tiene resultados comparables en tiempo de entrenamiento y tiempo de prueba lo que lo hace adecuado para ser mejorado en el futuro. El presente estudio no solo permitió la traducción de una Lengua de Señas al español en el contexto abordado, también dejó las bases para nuevos estudios en el área.
In Mexico, there are 4.2 million people with hearing disabilities. Many people with hearing loss experience some issues because of their impaired ability to communicate with other people. Sign Languages are used by deaf communities around the world to communicate with each other effectively. This communication problem is bidirectional and follows two directions: translation from Sign Language to spoken language or vice versa. The recognition or classification of signs is a fundamental part of translation. The present work aims to develop a tool capable of classifying dynamic signs from the Mexican Sign Language (LSM) into Spanish. For this purpose, a corpus of 100 signs that are part of the LSM was defined with the support of experts. Afterward, a protocol to capture videos of the signs with 10 non-expert participants and 2 experts, was designed. Subsequently, in a processing phase, the data were transformed and adapted in three steps: (i) obtaining the joints of the human skeleton through OpenPose tool and their selection by relevance, (ii) the creation of 2 datasets using two different schemes of data augmentation, and (iii) the normalization of these datasets. Data augmentation was performed using a resampling scheme, and a scheme based on changes in joint positions. The last phase consisted of the training and evaluation of the machine learning models using the two datasets. Three deep learning architectures (LSTM, CNNLSTM, and ResNet) were implemented. In addition, a traditional machine learning model (KNN-DTW) was used as the base model. The model with the best results was the ResNet, with an accuracy of 0.81 on the test dataset. Although the model with the lowest computational cost was the LSTM, the ResNet model has similar results in training- and testing time, which makes it a more suitable candidate for improvement in the future. The present study not only allowed the translation of a Sign Language into Spanish but also opened the foundations for new studies in the area.
CICESE
2022
Tesis de maestría
Español
Sainos Vizuett, S. 2022. Traducción de Lenguaje de Señas Mexicano a texto mediante aprendizaje profundo. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 95 pp.
ENSEÑANZA CON AYUDA DE ORDENADOR
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Michelle Sainos Vizuett_15 Sep 2022.pdfVersión completa de la tesis11.66 MBAdobe PDFVisualizar/Abrir