Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/4170
Algoritmos para el diseño computacional de péptidos estructurados
Algorithms for the computational design of structured peptides
Yan Carlos Leyva Labrador
Carlos Alberto Brizuela Rodríguez
Acceso Abierto
Atribución
Diseño computacional de proteínas, péptidos estructurados, algoritmo evolutivo EDA, ESMFold, AlphaFold
Computational protein design, structured peptides, Estimation of Distribution Algorithm, ESMFold, AlphaFold
Diseñar proteínas con propiedades y funciones específicas impacta en campos como la bioingeniería, la biotecnología y la biomedicina. Los avances en computación de alto rendimiento y en algoritmos de aprendizaje de máquina han revolucionado el diseño de proteínas. En particular, el desarrollo de modelos de aprendizaje profundo para la predicción de estructuras tridimensionales de proteínas ha permitido un enfoque más preciso y personalizado en el diseño de proteínas. Uno de los enfoques más trabajados en el diseño de proteínas es el conocido como ”diseño computacional de proteínas”, el cual se basa en encontrar una secuencia de aminoácidos que adopte una estructura tridimensional deseada. Varios métodos para resolver este problema NP-difícil se han propuesto, pero llevar estos diseños a proteínas útiles aún requiere una significativa intervención del expertos. Suponiendo que existe un conjunto de secuencias de péptidos estructurados cuyo plegamiento en su estructura de baja energía coincide con un esqueleto de referencia, se desarrolló un algoritmo evolutivo del tipo estimación de distribución. El algoritmo aprende la distribución de estas secuencias en el espacio de soluciones factibles al generar secuencias y determinar sus estructuras tridimensionales mediante un predictor. Luego, selecciona las más adecuadas para aprender de ellas y generar nuevas secuencias en iteraciones posteriores. La selección de las secuencias más adecuadas se lleva a cabo mediante una función de similitud que captura semejanzas geométricas, en cuanto a descriptores asociados a las secuencias y toma en cuenta la energía de la estructura predicha. Los resultados muestran que la metodología permite diseñar péptidos con alta similitud geométrica y baja energía. Los criterios de similitud seleccionados resultaron útiles para el algoritmo al estar poco correlacionados, sugiriendo la viabilidad de un enfoque multiobjetivo. Además, se comprobó que el algoritmo puede diseñar secuencias que se encuentran fuera del espacio de proteínas conocidas. La comparación con otros algoritmos de diseño de proteínas, prueba que nuestra metodología arroja resultados competitivos en términos de calidad. Por ultimo, se demostró que el uso de predictores como ESMFold o AlphaFold es independiente de la metodología empleada, lo que resalta la flexibilidad y adaptabilidad de nuestro enfoque en el diseño de proteínas.
Designing proteins with specific properties and functions impacts bioengineering, biotechnology, and bio-medicine. Advances in high-performance computing and machine learning algorithms have revolutionizedprotein design. Particularly, deep learning models for predicting three-dimensional protein structures have enabled a more precise and personalized approach. One of the most studied approaches is c ̧omputational protein design,”which aims to find an amino acid sequence that folds into a desired three-dimensional structure. Various methods have been proposed to solve this NP-hard problem; however, translating these designs into useful proteins still requires significant expert intervention. Assuming there exists a set of structured peptide sequences whose low-energy folding matches a reference backbone, an estimation of distribution evolutionary algorithm based on distribution estimation was developed. This algorithm learns the distribution of these sequences in the feasible solution space by generating sequences and determining their three-dimensional structures using a predictor. It then selects the most suitable ones to learn from and generate new sequences in subsequent iterations. The selection process uses a similarity function that captures geometric similarities, considers descriptors associated with the sequences, and accounts for the predicted structure’s energy. Results show that the methodology can design peptides with high geometric similarity and low energy. The selected similarity criteria proved useful for the algorithm, as indicated by their low correlation, suggesting the viability of a multi-objective approach. Additionally, the algorithm demonstrated the ability to design sequences outside the known protein space. Comparisons with other protein design algorithms proved that our methodology yields competitive results in terms of quality. Lastly, the use of predictors like ESMFold or AlphaFold was shown to be independent of the methodology, highlighting the flexibility and adaptability of our approach in protein design.
CICESE
2024
Tesis de maestría
Español
Leyva Labrador, Y.C. 2024. Algoritmos para el diseño computacional de péptidos estructurados. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 152 pp.
DISEÑO CON AYUDA DE ORDENADOR
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Yan Carlos Leyva Labrador_04 sep 2024.pdfDescripción completa de la tesis.18.69 MBAdobe PDFVisualizar/Abrir