Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/1550
Modelo de visualización de documentos en bases de datos con alta dimensionalidad para identificación de conglomerados y valores atípicos (VA)
Document visualization model in data base with high dimension to identify clusters and outliers
DORA ALICIA ALVAREZ MEDINA
HUGO HOMERO HIDALGO SILVA
Acceso Abierto
Atribución
Valores atípicos
En este trabajo se propone un modelo de visualización de documentos por clases (tópicos) e identi?cación de estructuras: conglomerados, sub-conglomerados y valores atípicos (VA). Para la identi?cación de los VA se de?nen los conceptos de ruido y VA en documentos, se propone una clasi?cación de VA basada en el tipo de palabras utilizadas (de propósito particular, general o compartidas). De los diferentes algoritmos de proyección de datos el de generación de mapas topográ?cos (GTM) ha tomado gran importancia en el marco probabilístico. Para ser utilizado con documentos se requieren ciertos cambios; algunas modi?caciones propuestas consideran variables binarias y multinomiales, con resultados no satisfactorios. Dos algoritmos son propuestos: proyección y visualización de documentos (VL-ZIP) y separación de clases. El algoritmo VL-ZIP considera aplicar la función de distribución in?ación de ceros con Poisson (ZIP) y un nuevo espacio latente. La e?ciencia del algoritmo se evalúa con dos índices, uno basado en el clasi?cador de Fisher que mide la dispersión entre los datos y el error de Sammon, que mide la preservación de la topología. Dicha evaluación compara los resultados obtenidos con el modelo GTM para las distribuciones Gaussiana, Multinomial, Poisson y con el modelo de asignación Latente de Dirichlet; observando mejor desempeño con el algoritmo VL-ZIP. La segunda parte del modelo propuesto es la separación de las estructuras en los datos proyectados (conglomerados y VA). La evaluación del clasi?cador se realiza con las proyecciones de VL-ZIP y GTM con la función de distribución multinomial; en ambas se observa grá?camente la separación de los conglomerados. También se presenta un análisis detallado de algunos documentos proyectados fuera de su clase, identi?cándolos como VA’s.
A document visualization and classi?cation methodology is proposed. The document visualization is based on a generative probabilistic model consisting of a mixture of Zeroin?ated Poisson distributions. The performance of the method is evaluated in terms of cluster forming for the latent projections with an index based on Fisher’s classi?er, and the topology preservation capability is measured with the Sammon’s stress error. A comparison with an implementation of the Generative Topographic Mapping (GTM) algorithm with Gaussian, multinomial and Poisson distributions and with a Latent Dirichletmodel is presented, observing a greater performance for the proposed method. A graphic presentation of the projections is also provided, allowing to observe the advantage of the developed method in terms of visualization and class separation. A detailed analysis of some documents projected on the latent representation is presented. The class-separation algorithm is developed to further analyze the cluster structures on the latent space. The classi?er is applied to the latent proposed model and to the multinomial implementation of GTM.
CICESE
2008
Tesis de doctorado
Español
Alvarez Medina, D.A.2008.Modelo de visualización de documentos en bases de datos con alta dimensionalidad para identificación de conglomerados y valores atípicos (VA).Tesis de Doctorado en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California.xi, 106 pp.
CIENCIA DE LOS ORDENADORES
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
178881.pdfVersión completa de la tesis3.2 MBAdobe PDFVisualizar/Abrir