Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/409
Minería de datos como soporte en el diagnóstico y tratamiento del cáncer de mama
Data mining as an aid in breast cancer detection and treatment
César Carlo López Portillo
Ana Isabel Martinez Garcia
HUGO HOMERO HIDALGO SILVA
Acceso Abierto
Atribución
Cáncer de mama,Predicción de datos,Recurrencia,Minería de datos
El cáncer de mama es el cáncer de la mujer más común en el mundo, y suincidencia aumenta en los países en vías de desarrollo. El caso de México no es laexcepción, donde además es el cáncer con tasa de mortalidad más alta. En estetrabajo se presentan resultados de estudios realizados a datos recopilados de lasáreas de Radiología y Oncología de una clínica hospital de salud pública en laciudad de Ensenada, México. Los datos se procesaron y analizaron usandoalgoritmos de Minería de Datos. De los reportes de Radiología fue posibleclasificar las observaciones de tumores en benignos y malignos con una exactitudde 96% a 98% y producto sensibilidad-especificidad de 0.65 a 0.91. Los mejoresresultados se obtuvieron con los métodos Bayesianos y el algoritmo re regresiónElastic Net. Los datos referentes a la descripción morfológica de lasobservaciones fueron los más relevantes para la clasificación, de acuerdo alanálisis de reducción de dimensionalidad y a los nodos resultantes en los árbolesde decisión inducidos. El cuadrante de la mama y la lateralidad resultaronirrelevantes para los modelos. De los reportes de Oncología se realizó un análisisde predicción de recurrencia de la enfermedad, obteniendo los mejores resultadospor métodos de imputación Bayesiana y predicción por regresión logística, conexactitud de 72% a 95% y producto sensibilidad-especificidad de 0.5 a 0.94. Enestos datos, cuando existe sobreexpresión del gen Her2/Neu el peso de lapersona resulta como atributo relevante. Para los datos denominados LUMINAL, elatributo correspondiente a la aplicación de hormonoterapia aparece comorelevante para prevenir la recurrencia. El análisis del conjunto denominado TripleNegativo tuvo los más pobres resultados, sin embargo es posible apreciar que laadministración de capecitabina aparece como atributo relevante para prevenirrecurrencia.
Breast cancer is the most extended type of cancer in the world among women, withan increasing incidence on Mexico, where it has attained the largest mortality ratesfor cancer. Several data mining studies were conducted with results of Radiologyand Oncology reports gathered from a public hospital in Ensenada, México. Frommammogram screening reports of Radiology, several classifiers were built andtested, with the goal to predict malignity from mammogram results. Regularizedregression data imputation was applied to some missing data about tumor size.Then, a cluster analysis applied to completed data revealed some of the datacategorization by BIRADS. Also Histo-pathological diagnostic was revealed on theclusters observed on the first principal components. The completed data wereapplied to a dimensionality reduction algorithm and then classifiers were built,considering algorithms SVM, Bayesian networks, naïve Bayes, logistic, multilayerperceptron, nearest neighbors, decision trees (C4.5, random trees and CART) andregularized regression. Best classifiers were obtained with Bayesian methods andregularized regression with Elastic Net algorithm, attaining an accuracy of 96% to98% and sensitivity-specificity product of 0.65-0.91. Morphological description datawere the most relevant for classification, according to a dimensionality reductionstudy and of the developed nodes in the decision trees.In the second part, data mining was applied to data of cancer diagnosed patients,in an effort to predict disease recurrence. The prediction study was realized on theOncology reports data. The best results were attained by applying Bayesianimputation methods for some missing data retrieval and then logistic regressionapplied to the completed data. An accuracy of 72% to 95% was achieved, withsensitivity-specificity products of 0.5-0.94. When an overexpression of the geneHer2/Neu exists, the weight of the person appears as a relevant attribute. For thesubset named LUMINAL, the attribute hormone-therapy appears as a relevantattribute for preventing recurrence. The analysis for the subset called TripleNegative had the worst results, but is possible to foresee that the administration ofcapecitabine appears as a relevant attribute for preventing recurrence.
CICESE
2013
Tesis de maestría
Español
López Portillo,C.C.2013.Minería de datos como soporte en el diagnóstico y tratamiento del cáncer de mama.Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California.xi, 119 pp.
CIENCIA DE LOS ORDENADORES
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
191051.pdfVersión completa de la tesis10.5 MBAdobe PDFVisualizar/Abrir