Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/3516
Reconocimiento automático de locutor y la realización de un sistema experimental
Automatic speaker recognition and the implementation of an experimental system
Hernando Silva Varela
Ciro Andrés Martínez García Moreno
Acceso Abierto
Atribución
Reconocimiento automático de locutor (RAL)
Se describe el problema de reconocimiento automática de locutor (RAL) y las modalidades que éste presenta. Se analizó el mecanismo de generación de la señal de voz, su modelado, y los parámetros de ésta que han sido aplicados en RAL. Fueron consideradas, para su estudio, tres técnicas que han sido planteadas en la literatura para la solución del problema y que han producido resultados relativamente buenos, éstas son: alineamiento dinámico en el tiempo (ADT), cuantificación vectorial (CV) y modelos ocultos de Markov (MOM). Se describe también el diseño y la realización del sistema experimental de reconocimiento automático de locutor (SERAL), el cual es dependiente del vocabulario y está basado en una técnica de alineamiento dinámico en el tiempo (ADT). SERAL está constituido por equipo electrónico y programas, el núcleo del equipo electrónico lo forman una computadora personal compatible con los modelos de IBM y la tarjeta de adquisición, procesamiento y síntesis de señales (TAPS), la cual fue diseñada exprofeso utilizando el procesador digital de señales DSP32 y el circuito de interfaz analógica TLC32044. Fue desarrollado un programa en lenguaje de alto nivel "C", encargado de administrar al sistema y de servir como interfaz entre el usuario y el mismo. También se desarrollaron programas en lenguaje de bajo nivel (ensamblador DSP32) para las tareas de adquisición y reproducción de señales de voz, detección de inicio-fin de palabras aisladas, parametrización de los segmentos de voz detectados, y alineamiento y comparación de patrones de locutor. La modularidad del sistema permite que cualquiera de los tres algoritmos anteriores pueda ser modificado y/o utilizado de manera independiente en futuras realizaciones de sistemas similares. SERAL puede trabajar en los modos de identificación y verificación automática de locutor (IAL y VAL). El sistema fue utilizado en experimentos con 10 locutores que lo entrenaron y probaron usando primero la palabra "HOLA" y después la palabra "NUMERO", los resultados mostraron una tasa de equierror (TEE) de 3.01% y 2.57% para la primera palabra y 3.59% Y 1.51% para la segunda, para umbral general e individual respectivamente.
The automatic speaker recognition (ASR) problem and its modalities are described. The speech production mechanism, its modeling, and the speech parameters that have been applied in ASR were analyzed. Three techniques described in the literature were considered for study; these techniques have shown relatively good results and are known as: dynamic time warping (DTW), vector quantization (VQ) and hidden Markov modeling (HMM). The design and the implementation of the experimental system for automatic speaker recognition (SERAL), which is vocabulary dependent, and is based in a dynamic time warping (DTW) approach, is also described. SERAL is composed by hardware and software; hardware is based on an JBM compatible personal computer, and an acquisition, processing and signal synthesis (TAPS) card, which was designed exprofeso by using the digital signal processor DSP32 and the analog interface circuit TLC32044. System managing and user interface were developed in a high level language (C) program. Low level language programs (DSP32 assembler) for the acquisition and replay of speech, isolated word boundaries detection, parametrization of the detected speech segments, and alignment and comparison of speaker templates were also developed. The system modularity allows the independent modification and/or utilization of the three algorithms mentioned above in the future implementations of similar ASR systems. SERAL can work in automatic speaker identification and verification modes (ASI and ASV respectively). Several experiments were carried out with 10 speakers who trained and tested the system by using the Spanish words "HOLA" (Hello) and "NUMERO"(number). The results have shown a 3.01% and 2.57% equal error rates (EER)for the first word, and 3.59% and 1.51% for the second one, by using general and individual threshold respectively.
CICESE
1994
Tesis de maestría
Español
Silva Varela, H. 1994.Reconocimiento automático de locutor y la realización de un sistema experimental. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 151 pp.
ELECTRÓNICA
Aparece en las colecciones: Tesis - Electrónica y Telecomunicaciones

Cargar archivos:


Fichero Tamaño Formato  
103191.pdf21.28 MBAdobe PDFVisualizar/Abrir