Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/2244
Empacamiento de la cadena lateral de proteínas: algoritmos, límites del desempeño y funciones de calificación
Evaluation and analysis of scoring functions for the protein side-chain packing problem
JOSÉ DOMINGO COLBES SANABRIA
CARLOS ALBERTO BRIZUELA RODRIGUEZ
Acceso Abierto
Atribución
estructura de proteína, empacamiento de la cadena lateral, función de score, búsqueda local, dinámica molecular, biblioteca de rotámeros
protein structure, side-chain packing, scoring function, local search, molecular dynamics, rotamer library
Uno de los problemas abiertos más importantes en biología computacional consiste en predecir la estructura de una proteína a partir de su secuencia de aminoácidos. Tanto en este problema como en el inverso, el diseño de proteínas, el problema del empacamiento de la cadena lateral de proteínas (PSCPP por sus siglas en inglés) es de gran importancia. El PSCPP se modela generalmente como un problema de optimización combinatoria, donde la cadena lateral de cada residuo tiene un conjunto finito de conformaciones posibles (denominados rotámeros) obtenidos de una biblioteca. El problema consiste en seleccionar una conformación para cada residuo para minimizar una función de score dada, la cual considera las interacciones en el sistema conformado por la proteína y su entorno. Se han propuesto un gran número de métodos en las últimas dos décadas para resolver este problema NP-difícil, pero las precisiones que alcanzan se han estancado en valores considerablemente alejados de los ideales. Para determinar si pueden obtenerse mejoras, se calculó la máxima precisión alcanzable mediante una biblioteca de rotámeros simple, comparándola con las obtenidas por cinco métodos del estado del arte. Los resultados muestran una brecha significativa de mejora posible, por lo que el siguiente paso consistió en identificar las limitaciones de los métodos actuales. Trabajos previos en la predicción de estructura de proteínas y el diseño de proteínas indican que las imprecisiones de las funciones de score actuales podrían representar el principal obstáculo para alcanzar mejores resultados en estos problemas. Para demostrar que lo mismo se cumple para el PSCPP, se propuso un método de evaluación de funciones de score basado en la búsqueda local, empleándolo para evaluar el desempeño de las funciones de score de dos métodos del estado del arte. Los resultados señalan que ninguna de las dos funciones puede guiar correctamente a los algoritmos de búsqueda. Se exploró dos posibilidades para explicar este resultado negativo: (i) una incorrecta asignación de pesos a los términos de la función de score, y (ii) la influencia de la conformación restringida resultante del proceso de cristalización en las estructuras de referencia. Para analizar estas interrogantes: (i) se modeló el PSCPP como un problema de optimización biobjetivo, considerando los dos términos más importantes de las funciones de score seleccionadas; y (ii) se realizó un preprocesamiento de relajación de la estructura cristalográfica
One of the most challenging problems in computational biology involves predicting the structure of a protein given its amino acid sequence. The protein side-chain packing problem (PSCPP) is an important subproblem of this problem and its inverse, the protein design. The PSCPP is usually modeled as a combinatorial optimization problem, where each residue has a finite set of possible conformation s (called rotamers) obtained from a rotamer library; and the problem consists of selecting a set of rotamers (one for each residue) in order to minimize a given scoring function, which considers the interactions within the system composed by the protein and its environment. During the past two decades, a large number of methods have been proposed to tackle this NP-hard problem, but their accuracies are stagnant in values considerably distant from the ideal ones. To determine if improvements could be obtained, the máximum accuracy achievable by a simple rotamer library was calculated, comparing it with those obtained by five state-of-the-art methods. The results show a significant gap for improvement, so the next step was to identify the limitations of current methods. Previous works on protein structure prediction and protein design have shown that scoring function inaccuracies may represent the main obstacle to achieving better results for these problems. To show that the same is true for the PSCPP, the quality of two scoring functions used by some state-of-the-art algorithms was evaluated. The results indicate that neither of these two scoring functions can guide the search method correctly. Two possibilities were explored to explain this negative result: (i) an incorrect weighting of the scoring functions terms, and (ii) the constrained conformation resulting from the protein crystallization process in reference structures. To analyze these questions: (i) the PSCPP was modeled as a bi-objective combinatorial optimization problem, considering the two most important terms of the selected scoring functions; and (ii) a pre-processing relaxation of the crystal structure was performed through molecular dynamics to simulate the protein in the solvent, in order to evaluate the performance of the same two scoring functions under this new environment. The results indicate that: (i) no matter what combination of weight factors are used, the current scoring functions will not lead to better performances, and (ii) they will not be able to improve performance on relaxed structur
CICESE
2018
Tesis de doctorado
Español
Colbes Sanabria, J.D. 2018. Empacamiento de la cadena lateral de proteínas: algoritmos, límites del desempeño y funciones de calificación. Tesis de Doctorado en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 157 pp.
SIMULACIÓN
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Colbes_ Sanabria_Jose_Domingo_07_junio_2018.pdfVersión completa de la tesis13.98 MBAdobe PDFVisualizar/Abrir