Please use this identifier to cite or link to this item: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/452
Diseño de algoritmos bioinspirados para la selección de características en el análisis de sentimientos de documentos en español
Design of Bio-inspired Algorithms for Feature Selection on Sentiment Analysis of Documents in Spanish
Rosa Alejandra Ortega del Castillo
CARLOS ALBERTO BRIZUELA RODRIGUEZ
HUGO HOMERO HIDALGO SILVA
Acceso Abierto
Atribución
Ciencias computacionales
El análisis de sentimientos o minería de opiniones consiste en la clasi?cación de documentos que expresan una opinión, separándolos según el sentimiento que expresan. Para realizar esta clasi?cación, bajo un enfoque de aprendizaje de máquina, es necesario de?nir un conjunto de características que se usarán para representar a cada documento. En general, el número de características que se puede extraer de los documentos es elevado y manejarlas para la tarea de clasi?cación se vuelve un problema computacionalmente costoso. Aunado a esto, usar todas las  características posibles no necesariamente garantizará una máxima precisión en la clasi?cación ya que varias  características podrían no estar relacionadas con la clase que se supone debe de?nir.En este trabajo se propone un enfoque bioinspirado para la selección de  características con la ?nalidad de encontrar el subconjunto óptimo del conjunto total de características que dé la mejor precisión de clasi?cación. Para esto se utiliza un algoritmo genético (AG) para la generación y búsqueda de los posibles subconjuntos de  características aunado a una máquina de soporte vectorial (SVM) para evaluar la calidad del subconjunto seleccionado. El algoritmo recibe como entrada las características presentes en un conjunto de documentos seleccionado y el número de generaciones que se desea que itere el algoritmo. La salida del algoritmo es el mejor subconjunto de características encontrado que brinda la mejor precisión de clasi?cación. Se ha diseñado la representación características de los individuos y los operadores genéticos que resuelven este problema en particular.Para la realización de los distintos experimentos se ha utilizado un corpus en idioma español de críticas de cine recogidas de la web muchocine. Este cuenta con un conjunto de 2624 documentos, 1274 con una opinión positiva y 1350 con opinión negativa.Bajo este enfoque se ha logrado obtener un subconjunto de características que da una precisión de 91.5% con los documentos de prueba en español. Sin embargo, con documentos nuevos esta precisión baja a 77%. Aprovechando 11 modelos diferentes que genera el algoritmo genético en diferentes corridas se construyó un meta clasi?cador por consenso con el cual se logró mejorar la precisión de cada modelo por separado.
Sentiment analysis or opinion mining involves the classi?cation of documents expressing an opinion, separating them according to the sentiment expressed. To perform this classi?cation, with a focus on machine learning, it is necessary to de?ne a set of features that will be used to represent each document. Overall, the number of features that can be extracted from the documents is high and to manage them for the classi?cation task becomes a computationally expensive problem. Added to this, using all possible features not necessarily guarantee a high classi?cation accuracy as several features may not be related to the class that is supposed to de?ne.This paper presents a bio-inspired approach to feature selection in order to ?nd the optimal subset of the total set of features that give the best classi?cation accuracy. For this a genetic algorithm (GA) for generating and searching for possible subsets of features coupled with a support vector machine (SVM) to evaluate the quality of the selected subset is used. The algorithm receives as input the features present in a set of selected documents and the number of generations you want to iterate the algorithm. The output of the algorithm is the best subset of features found which gives the best classi?cation accuracy. We have designed the representation of individuals and genetic operators that solve this particular problem.To carry out the various experiments we used a corpus in Spanish movie reviews collected from the web muchocine. This has a set of 2624 documents, 1274 with a positive review and 1350 with negative opinion.Under this approach it has managed to obtain a subset of features that gives an accuracy of 91.5% with the test documents in Spanish. However, with new documents this precision decreases down to 77%. Taking advantage of 11 di?erent models generated by the genetic algorithm in di?erent runs a meta classi?er by consensus was constructed with which was possible to improve the accuracy of each model separately.
CICESE
2015
Tesis de maestría
Español
Ortega del Castillo,R.A.2015.Diseño de algoritmos bioinspirados para la selección de características en el análisis de sentimientos de documentos en español.Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California.xi, 72 pp.
CIENCIA DE LOS ORDENADORES
Appears in Collections:Tesis - Ciencias de la Computación

Upload archives


File Description SizeFormat 
240541.pdfVersión completa de la tesis992.51 kBAdobe PDFView/Open