Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/343
Estudio del núcleo p-spectrum en máquinas de vectores de soporte aplicada a la predicción de interacción proteína-proteína
Study of the p-spectrum kernel in support vector machines applied to the prediction of protein-protein interactions
Nubia Martínez Navarro
HUGO HOMERO HIDALGO SILVA
Acceso Abierto
Atribución
Proteína,Métodos núcleo,Vectores de soporte,p-spectrum
Las proteínas son macromoléculas que llevan a cabo la mayor parte de lasfunciones de la célula. El poder determinar si un par de proteínas puedeninteractuar, es decir, relacionarse para llevar a cabo alguna función, es uno de losproblemas más importantes en el estudio de las proteínas. El problema es atacadodesde el punto de vista biológico experimental y computacional. Dentro de esteúltimo enfoque existen varias propuestas que difieren en función del modelo usadopara representar el problema. Un modelo ampliamente adoptado es considerar alproblema como uno de aprendizaje de máquina. Bajo este modelo se utiliza lainformación acerca de interacciones conocidas para enseñar a una máquina deaprendizaje y, basado en ella, se predice la interacción o no para una pareja deproteínas cuya interacción es desconocida. Uno de los métodos de aprendizaje demáquina más exitosos son los denominados de núcleo o kernel, que representanuna colección de datos complejos usando una función núcleo que define lasimilitud entre cualquier par de datos u objetos dados. La máquina de vectores desoporte (SVM), que es un algoritmo de clasificación supervisado, es el métodonúcleo más popular.Un enfoque empleado para abordar el problema de clasificación basado enSVM es el núcleo de cadenas conocido como p-spectrum. Sin embargo, en laliteratura no queda claro cuál es el valor apropiado de p cuando se trabaja coneste núcleo bajo el esquema de núcleos de pares. El problema que abordamosconsiste en determinar experimentalmente el efecto que tiene el valor de p sobrela exactitud para predecir la interacción entre un par de proteínas usandosolamente la estructura primaria de las mismas.Para nuestro conjunto de datos fueron seleccionadas 400 proteínas: 100pares con interacción conocida y 100 pares sin interacción conocida, los que seutilizaron como ejemplos positivos y negativos, respectivamente, para fines deentrenamiento y prueba. Se calcularon las matrices para el núcleo de cadena pspectrumcon distintos valores de p. Posteriormente, se realizó la fase de iientrenamiento y prueba. Se realizaron tres experimentos con diferentesproporciones para los datos de entrenamiento y prueba: 50-50, 30-70 y 70-30,respectivamente. Los resultados indican que con valores de p = 4, 5, 6, 7 y 8, nose provee suficiente información a la SVM para realizar la predicciónadecuadamente. Mientras que p = 2 no está proporcionando información relevantepara realizar una correcta discriminación. En términos generales, podríamos decirque p = 3 aporta los resultados más confiables, aunque no satisfactorios (56.67%para la proporción 50-50, 54% para 30-70 y 61% para 70-30). El que la exactitudde los resultados no sea alta puede deberse a factores como: i) que el núcleo pspectrumconsidera secciones contiguas para las comparaciones y ii) que altrabajar sólo con secuencias de aminoácidos no es suficiente para captar laesencia de las interacciones. En este trabajo se sugieren algunos procedimientosque ayudarían a elevar la exactitud de los resultados.
Proteins are macromolecules that carry out most of the functions in the cell.Determining whether a pair of proteins can interact, i.e., relate to each other toperform any function, is one of the most important problems in the study ofproteins. The problem is approached from an experimental-biological as well ascomputational points of view. Under the latter approach, there are severalproposals that differ depending on the model used to represent the problem. Oneof them consider the problem in the machine learning perspective. Under thismodel, information about known interactions is used to teach the machine, andbased on it, the interaction for a new couple of proteins is predicted. Among themost successful machine learning methods are the ones known as kernelmethods, which represent a collection of complex data using a kernel function thatdefines the similarity between any given pair of data or objects. The support vectormachine (SVM) is the most popular kernel method, it is a supervised classificationalgorithm.One approach to address the classification problem based on SVM is thestring kernel known as p-spectrum. However, it is not clear in the literature theappropriate value of p when working with this kernel, under the kernel of pairsscheme. The problem we face is to experimentally determine the impact of p in theaccuracy at predicting interaction between a pair of proteins using only informationabout their primary structure.Our data set consists of 400 proteins: 100 pairs of known interactions and100 pairs with no interactions, which were used as positive and negative examples,respectively, for training and testing purposes. The arrays to the p-spectrum stringkernel with p = 2, 3, 4, 5, 6, 7 and 8 were calculated. Subsequently, the trainingand testing phase were conducted in LibSVM 2.86. Three experiments wereperformed primarily with different proportions of the positive and negative samplesfor training and testing: 50-50, 30-70 and 70-30. The results indicate that p valuesof 4, 5, 6, 7 and 8 are not suitable for SVM to make the prediction properly. P = 2 isnot providing relevant information to make a correct discrimination. Generallyspeaking, we could say that p = 3 provides the most reliable results, although notsatisfactory (56.67% for the 50-50 ratio, 54% for 30-70 and 61% for 70-30). Thefact that the accuracy of the results is low may be due to factors including: theimportance the p-spectrum kernel gives to contiguous sections in the amino acidsequence. These results, however, allow us to suggest some ideas that would helpimprove the classification accuracy.Keywords: protein-protein interaction, kernel methods, support vector machines(SVM), p-spectrum string kernel.
CICESE
2009
Tesis de maestría
Español
Martínez Navarro,N.2009.Estudio del núcleo p-spectrum en máquinas de vectores de soporte aplicada a la predicción de interacción proteína-proteína.Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California.x, 106 pp.
CIENCIA DE LOS ORDENADORES
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
179051.pdfVersión completa de la tesis5.16 MBAdobe PDFVisualizar/Abrir