Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/3310
Modelo descriptivo basado en redes de similitud molecular para el análisis visual de un espacio químico-biológico de péptidos bioactivos
A descriptive model based on similarity networks for supporting visual analysis in a chemical-biology space of bioactive peptides
LONGENDRI AGUILERA MENDOZA
Carlos Alberto Brizuela Rodríguez
Yovani Marrero Ponce
Acceso Abierto
Atribución
péptidos bioactivos, descriptores moleculares, aprendizaje no supervisado, selección de rasgos, entropía de Shannon, información mutua, redes de similitud, análisis visual, detección de comunidades, análisis de centralidad
bioactive peptides, molecular descriptors, unsupervised learning, feature selection, Shannon entropy, mutual information, similarity networks, visual analysis, community detection, centrality analysis
En la última década, el creciente interés por los péptidos bioactivos con potencial terapéutico se ha reflejado en una gran variedad de repositorios biológicos. Por tal motivo, resulta de provecho científico obtener nuevos conocimientos mediante el análisis de la información que actualmente se encuentra dispersa en fuentes heterogéneas de datos. Sin embargo, el proceso de extracción de conocimiento en bases de datos no es una tarea trivial, por lo que se convierte en la esencia de nuestro esfuerzo de investigación. Para afrontar esta problemática, desarrollamos un flujo de trabajo que emplea el aprendizaje no supervisado para obtener un modelo basado en redes de similitud de péptidos bioactivos. En la primera fase, se realiza una integración de datos basada en grafos para lograr una vista unificada de 40 bases de datos biológicas existentes. Esta colección integrada de 45120 péptidos bioactivos es una de las fuentes de datosmás completas y diversas en su campo, hoy en día, con un conocimiento implícito que debe ser descubierto. Es por ello que se calculan descriptores moleculares a partir de los péptidos en estudio, aplicando distintos operadores de agregación a vectores de propiedades de aminoácidos. Luego, se selecciona un subconjunto optimizado de descriptores utilizando los conceptos de entropía de Shannon e información mutua, con el fin de retener los rasgos de alta relevancia y baja redundancia. En esta estrategia de selección de rasgos, se diseñó una función objetivo que constituye uno de nuestros principales aportes para guiar la búsqueda bajo el enfoque no supervisado. Su importancia se debe a que los descriptores optimizados definen un espacio métrico del cual se derivan las redes de similitud molecular, donde los nodos representan péptidos bioactivos, y las aristas denotan sus relaciones de distancia/similitud en el espacio métrico definido. A efectos prácticos, la generación automática de estas redes de similitud se ha implementado en una herramienta informática de análisis visual denominada “starPep toolbox”, permitiendo a los investigadores extraer información útil de la colección integrada de péptidos bioactivos. De esta manera, es posible una representación gráfica y analítica de un espacio químico-biológico ocupado por péptidos bioactivos conocidos hasta la fecha. Además, al combinar técnicas de agrupamiento y análisis de redes con la percepción visual, se aprovechan las habilidades cognitivas del investigador y el poder computacional actual...
In the last decade, the growing interest in bioactive peptides with therapeutic potential has been reflected in a wide variety of biological repositories. Consequently, there is a scientific benefit in analyzing the currently dispersed information in heterogeneous data sources. However, the process of knowledge discovery in databases is a nontrivial task, so it becomes the essence of our research endeavor. To face these issues, we developed a workflow that uses unsupervised learning to obtain a model based on similarity networks of bioactive peptides. A graph-based data integration was performed in the first stage to achieve a unified view of 40 existing biological databases. This integrated collection of 45120 bioactive peptides is one of the most comprehensive and diverse data sources in its field nowadays, with an implicit knowledge that must be discovered. That is why molecular descriptors are calculated from the peptides understudy, applying different aggregation operators to vectors of amino acid properties. An optimized subset of descriptors is then selected using the concepts of Shannon entropy and mutual information, in order to retain descriptors having high relevance and low redundancy between them. In this feature selection strategy, an objective function was devised that constitutes one of our main contributions under the unsupervised approach. Its importance is due to the fact that the optimized descriptors define a metric space from which the molecular similarity networks are derived. In these networks, nodes represent bioactive peptides, and the edges denote their distance/similarity relationships in the defined metric space. For practical purposes, the automatic generation of these similarity networks has been implemented in a visual analytics software tool called “starPep toolbox”, enabling researchers to extract useful information from the integrated collection of bioactive peptides. In this way, a graphical and analytical representation of a chemical-biological space occupied by bioactive peptides known to date is possible. Furthermore, by combining clustering and network analysis techniques with visual perception, the researcher’s cognitive skills and current computational power are harnessed to uncover hidden patterns. Finally, as a case study, we illustrate the applicability of the unsupervised data mining proposal to detect communities and identify central nodes in similarity networks of anticancer peptides.
CICESE
2020
Tesis de doctorado
Español
Aguilera Mendoza, L. 2020. Modelo descriptivo basado en redes de similitud molecular para el análisis visual de un espacio químico-biológico de péptidos bioactivos. Tesis de Doctorado en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 107 pp.
POLIPÉPTIDOS Y PROTEÍNAS
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Longendri Aguilera Mendoza_07 oct 20.pdfVersión completa de la tesis6.4 MBAdobe PDFVisualizar/Abrir