Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/3661
Implementación de algoritmos de clasificación de una sola clase para la clasificación de péptidos antimicrobianos
Implementation of one-class classification algorithms for antimicrobial peptide classification
Isaac Pedro Tapia Contreras
CESAR RAUL GARCIA JACAS
Carlos Alberto Brizuela Rodríguez
Acceso Abierto
Atribución
péptidos antimicrobianos, aprendizaje máquina, clasificación de una clase, péptidos Gram negativos, péptidos Gram positivos
antimicrobial peptides, machine learning, one-class classification, Gram-negative peptides, Gram-positive peptides, Gram-positive peptides
Desde el descubrimiento de péptidos con propiedades antimicrobianas, se ha generado un interés por encontrar nuevas secuencias que posean potencial terapéutico en la inhibición de agentes patógenos como: bacterias, hongos, virus, parásitos, entre otros. Para el descubrimiento de nuevas secuencias, se han utilizado de manera exitosa, una variedad de modelos de aprendizaje máquina basados en algoritmos de clasificación binaria y clasificación multiclase, como pueden ser: la máquina de soporte vectorial, bosque aleatorio, K-vecinos más cercanos, redes neuronales, entre otros. Una característica importante de estos algoritmos de clasificación, es que dependen de ejemplos tanto de la clase positiva (AMP), como de la negativa (No-AMP), para poder realizar su proceso de entrenamiento. El problema encontrado con esta metodología, es que actualmente, no se dispone de un conjunto de péptidos validados experimentalmente como no-antimicrobianos. Los conjuntos utilizados en la literatura, se obtienen recuperando secuencias que pertenezcan a organelos celulares (mitocondria, retículo endoplasmático, aparato de Golgi, etc.), lo cual no garantiza la obtención de péptidos no antimicrobianos. Por lo tanto, todos los modelos encontrados en la literatura que utilizan esta metodología, están entrenados utilizando un conjunto de entrenamiento negativo sesgado, que bien podría contener péptidos antimicrobianos desconocidos. Para atacar este problema, se propone utilizar una metodología de clasificación de una sola clase; esto debido a que los algoritmos de una clase, requieren únicamente de la clase positiva para realizar su entrenamiento, que en este caso, es la única que contiene ejemplos validados experimentalmente. En el presente trabajo, se propone un esquema de clasificación jerárquica de una clase, para discriminar “in silico”, secuencias de péptidos antibacteriales del tipo anti Gram positivo y anti Gram negativo. Se compara además el desempeño del esquema propuesto con uno tradicional. Resultados de los experimentos computacionales muestran que: i) los modelos jerárquicos presentan valores superiores de especificidad y los no jerárquicos de sensibilidad, ii) los mejores descriptores para esta tarea de discriminar anti Gram positivo de anti Gram negativo son los del tipo físico-químicos calculados por el software ProtDcal, superando incluso a los generados por la red neuronal profunda, BERT ESM.
Since the discovery of peptides with antimicrobial properties, finding new sequences with therapeutic potential in the inhibition of pathogens such as bacteria, fungi, viruses, parasites, among others has received increased interest. To discover new sequences, a variety of machine learning models based on binary classification and multiclass classification algorithms have been successfully used, some examples are: support vector machine, random forest, K-nearest neighbors, and neural networks. An important characteristic of these classification algorithms is that they depend on examples of both, the positive class (AMP) and the negative class (No-AMP) in order to perform their training process. The problem encountered with this methodology is that there is not a set of experimentally validated non-antimicrobial peptides available. The sets used in the literature are obtained by recovering sequences found in cellular organelles (mitochondria, endoplasmic reticulum, Golgi apparatus, etc.), which does not guarantee the absence of antimicrobial activities. Therefore, all models found in the literature based on this methodology are trained by using a biased negative training set, which may well contain unknown antimicrobial peptides. To address this problem, we propose to use a one-class classification methodology; this is because one-class algorithms require only the positive class to perform their training, which in this case, is the only one that contains experimentally validated examples. In the present work, a one-class hierarchical classification scheme is proposed to distinguish “in silico”, antibacterial peptides sequences of the anti Gram-positive and anti Gram-negative types. Additionally, the performance of the proposed scheme is compared with a traditional one-class approach. Results from the computational experiments show that: i) the hierarchical models present superior values of specificity and the non-hierarchical ones of sensitivity, ii) the best descriptors for this task of discriminating anti Gram positive from anti Gram negative sequences are those of the physico-chemical type calculated by the ProtDcal software, surpassing even those generated by the deep neural network, BERT ESM.
CICESE
2022
Tesis de maestría
Español
Tapia Contreras, I.P. 2022. Implementación de algoritmos de clasificación de una sola clase para la clasificación de péptidos antimicrobianos. Tesis de Maestría en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 108 pp.
ENSEÑANZA CON AYUDA DE ORDENADOR
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Isaac Pedro Tapia Contreras_11 ene 2022.pdfVersión completa de la tesis1.95 MBAdobe PDFVisualizar/Abrir