Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/4160
Algoritmos basados en descriptores a nivel de aminoácidos y estructuras terciarias predichas para predecir péptidos antimicrobianos mediante aprendizaje de grafos
Algorithms based on amino acid-level descriptors and predicted tertiary structures to predict antimicrobial peptides through deep graph learning
Greneter Cordoves Delgado
CESAR RAUL GARCIA JACAS
Acceso Abierto
Atribución
Evolutionary Scale Modeling, ESM-2, QSAR, péptidos antimicrobianos, aprendizaje profundo geométrico, aprendizaje profundo de grafos, red de atención de grafos, ESMFold
Evolutionary Scale Modeling, ESM-2, QSAR, antimicrobial peptides, geometric deep learning, graph deep learning, graph attention network, ESMFold.
La resistencia a los antimicrobianos constituye una grave amenaza para la salud humana. El descubrimiento de fármacos basados en péptidos antimicrobianos (AMP) es uno de los enfoques estudiados para abordarla. Los modelos basados en aprendizaje superficial y profundo (DL) se han construido principalmente a partir de secuencias de aminoácidos para predecir AMPs. Los avances recientes en la predicción de estructuras terciarias (3D) han abierto nuevas oportunidades en este campo. En este sentido, se han propuesto recientemente modelos basados en grafos derivados de estructuras de péptidos predichas. Sin embargo, estos modelos no se corresponden con los enfoques más avanzados para codificar información evolutiva y son costosos en términos de memoria y tiempo debido a su dependencia de alineamientos múltiples de secuencias (MSA). En este trabajo, se presentó el framework esm-AxP-GDL para crear modelos independientes de MSA basados en grafos generados a partir de estructuras de péptidos predichas por ESMFold, cuyos nodos se caracterizan con información evolutiva a nivel de aminoácidos derivada de los modelos Evolutionary Scale Modeling (ESM-2). Se implementó una red de atención de grafos (GAT) para evaluar la utilidad del framework en la clasificación de AMPs. Para ello, se utilizó un conjunto compuesto por 67,058 péptidos. Se demostró que la metodología propuesta permitió construir modelos GAT con capacidades de generalización consistentemente superiores a 20 modelos de vanguardia basados en DL y no basados en DL. Los mejores modelos GAT se desarrollaron utilizando información evolutiva derivada de los modelos ESM-2 de 36 y 33 capas. Estudios de similitud mostraron que los mejores modelos GAT construidos codificaban espacios químicos diferentes, por lo que se fusionaron para mejorar significativamente la clasificación. Además, se demostró que los modelos son altamente dependientes de las estructuras predichas por ESMFold y de la información evolutiva derivada de los modelos ESM2. En general, los resultados sugieren que esm-AxP-GDL es una herramienta prometedora para desarrollar modelos efectivos, dependientes de la estructura y libres de MSA, que pueden aplicarse con éxito en el cribado de grandes conjuntos de datos. Este framework debería ser útil no solo para clasificar AMPs, sino también para modelar otras actividades de péptidos y proteínas.
Antimicrobial resistance constitutes a grave threat for human health. Antimicrobial peptide (AMP)- based drug discovery is one of the currently studied approaches to address it. Traditional learning- and deep learning (DL)-based models have been mainly developed from amino acid sequences to predict AMPs. Recent developments in tertiary structure prediction have opened new avenues in this field. So, models based on graphs derived from predicted peptide structures have been recently created. But they are not in accordance with the state-of-the-art (SOTA) methods to codify evolutionary information and, in addition, they are memory- and time-consuming because rely on multiple sequence alignment. Herein, it is presented a framework (termed esm-AxP-GDL) to build alignmentindependent models based on graphs created from ESMFold-predicted structures and whose nodes are characterized with evolutionary information derived from the ESM-2 models. For each predicted structure, the geometrical distance between the α carbon atoms of every pair of amino acids is calculated using the Euclidean metric. If that distance is less than or equal to a given threshold, then an edge is established between those amino acids. Thereby, a graph representation per predicted structure is created, where the nodes represent the amino acids, and the edges represent the structural information. A graph attention network (GAT) was implemented in the framework. To assess this framework, several computational studies to classify AMPs were run on a dataset comprised of 67,058 peptides (22,461 AMPs, 44,597 non-AMPs). The implemented methodology allowed to develop models with generalization abilities consistently better than 20 SOTA non-DL based and DL based models. The best models were built using evolutionary information derived from the ESM-2_t36 and ESM-2_t33 models. Moreover, similarity studies showed that the built models codify different chemical spaces, and thus they can be combined to significantly improve the classification. Additionally, the use of distance functions was implemented to build the graph edges. So, it can be studied if topologically different graphs could be created by using distances other than the Euclidean. This framework should be modified for modeling protein activities.
CICESE
2024
Tesis de maestría
Español
Cordoves Delgado, G. 2024. Algoritmos basados en descriptores a nivel de aminoácidos y estructuras terciarias predichas para predecir péptidos antimicrobianos mediante aprendizaje de grafos. Tesis de Maestría en Ciencias de la Computación. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 97 pp.
OTRAS
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Greneter Cordoves Delgado_04 sep 2024.pdfDescripción completa de la tesis3.4 MBAdobe PDFVisualizar/Abrir