Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/2596
Métodos para la predicción de genes de ARNnc
Methods for non-coding RNA genes prediction
HUGO ARMANDO GUILLEN RAMIREZ
Israel Marck Martínez Pérez
Acceso Abierto
Atribución
ARN no codificante, aprendizaje máquina, riboswitch, estruc- tura secundaria del ARN
machine learning, riboswitch, RNA secondary structure
Durante la década pasada, la investigación del ARN no codificante (ncRNA por sus siglas en inglés) ha crecido dramáticamente debido a su intervención en procesos celulares y aplicaciones terapéuticas. Estas moléculas provienen en su mayoría de regiones del genoma que se creían “basura”, las cuales ahora son denominadas genes de ARN. Comparando con los métodos computacionales para detectar y predecir genes codificantes de proteínas, todavía existe una gran brecha en los niveles de precisión alcanzados. Sin embargo, muchas de las limitantes provienen de las características inherentes del ncRNA tales como la existencia de conservación en el nivel estructural secundario pero no así en el primario de las secuencias. El proceso de anotación, es decir, identificar la posición en el genoma o la función de estas moléculas, es un proceso complejo que se puede dividir en varias etapas. Una de ellas consiste en la discriminación inter-clase de secuencias putativas. En este trabajo se aborda la solución de esta tarea mediante metodologías basadas en aprendizaje máquina. Primero, a nivel de aplicación, se discriminó entre secuencias de riboswitches. Los riboswitches son ncRNAs que regulan la expresión génica alterando la conformación estructural de transcritos de ARN mensajero. No obstante la importancia de la estructura en la función de estas moléculas, en este trabajo se muestra que es posible discriminar de manera precisa entre 16 familias de riboswitches utilizando aprendizaje supervisado y un conjunto de características propuesto derivado de la secuencia, logrando superar resultados del estado del arte. Posteriormente, aplicando características basadas en secuencia, se discriminó entre ARN de interferencia capaz de producir un efecto inmunomodulador deseado o no. Como resultado, se mejoró la eficiencia en términos de precisión, especificidad y coeficiente de correlación de Matthews respecto a lo reportado por métodos del estado del arte. Más adelante, se estudian las propiedades de ciertas características basadas en secuencia. Se muestra que estas características son redundantes, por lo que se propone un esquema de selección basado en grafos que se apoya en dos funciones: la frecuencia k-mérica intra-clase y una medida de calidad inter-clase. Finalmente, se estudian y desarrollan abstracciones de la estructura secundaria del ARN, con las cuales fue posible calcular la redundancia intra-clase y la similitud inter-clase entre distintas familias de ARN sin...
Interest in non-coding RNAs (ncRNAs) over the last decade has grown due to their discovered roles in many essential cellular processes and potential therapeutic applications. These molecules, which are now called RNA genes are located in regions of the genome formerly denoted as “junk DNA”. While interest in these ncRNAs is great, the accuracy and speed of the computational methods for identifying, detecting, or predicting RNA genes are still far behind their protein-coding gene counterparts. Some of the challenges reside in intrinsic characteristics of ncRNAs, e.g., conservation of the secondary structure, but not the primary sequence. The annotation process attempts to identify the location or function of the genes in a given genome. This endeavor as a whole is complex, but it could be divided hierarchically into substages like the inter-discrimination of putative sequences. This thesis approaches such a classification task with supervised learning and feature engineering. First, we show a newly developed methodology for classifying riboswitch sequences. Riboswitches are ncRNA segments of messenger RNAs that regulate gene expression by adopting different structural conformations. Even though the structure is an essential feature of this kind of molecule, we outperformed the state-of-the-art classification performance of 16 riboswitch families using a set of sequence-based features. Next, we approach the problem of determining whether an interfering RNA is capable of generating a controlled immunomodulatory response or not. This work shows improvement in the classification performance over the latest methodology used to predict immune response induced by interfering RNAs in terms of precision, specificity, and Mathews correlation coefficient. Later, we study the engineering of features based on primary-sequence structure, specifically, k-mer frequencies. We find that such features are inherently redundant, so we propose a graph-based selection strategy built over two functions: intra-class k-mer coverage and an inter-class quality value. Additionally, we develop alternative representations for the secondary structure, and as a proof of concept, we show an alignment-free method that estimates intra-class redundancy and inter-class similarity. This thesis could serve as a foundation for developing comprehensive approaches capable of identifying RNA genes de novo in whole genomes.
CICESE
2018
Tesis de doctorado
Español
Guillén Ramírez, H.A. 2018. Métodos para la predicción de genes de ARNnc. Tesis de Doctorado en Ciencias. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 167 pp.
INTELIGENCIA ARTIFICIAL
Aparece en las colecciones: Tesis - Ciencias de la Computación

Cargar archivos:


Fichero Descripción Tamaño Formato  
TesisHugoGuillenRamirez_21nov2018.pdfVersión completa de la tesis33.12 MBAdobe PDFVisualizar/Abrir