Por favor, use este identificador para citar o enlazar este ítem: http://cicese.repositorioinstitucional.mx/jspui/handle/1007/3900
Virtual screening using machine learning techniques and ensemble docking-based molecular descriptors
Cribado virtual utilizando técnicas de aprendizaje de máquina y descriptores moleculares basados en acoplamiento molecular en conglomerado
Joel Ricci López
SERGIO ANDRES AGUILA PUENTES
Carlos Alberto Brizuela Rodríguez
Acceso Abierto
Atribución
Structure-based virtual screening, molecular docking, machine learning, molecular descriptors, molecular dynamics, drug discovery
Cribado virtual basado en estructura, docking molecular, aprendizaje de máquina, descriptores moleculares, dinámica molecular, descubrimiento de fármacos
Structure-based virtual screening (SBVS) is a key component of early-stage drug discovery and development. As a computational technique, SBVS allows the evaluation of a vast number of molecules (ligands) by simulating their binding interactions with a protein target (receptor). However, traditional SBVS methods do not account for the flexibility of the receptor, negatively affecting SBVS performance. To address this limitation, ensemble docking (ED) is often used to incorporate protein flexibility into SBVS campaigns. ED involves running molecular docking simulations on multiple conformations of the same receptor. Although ED has been successfully applied in previous studies, there are still challenges in determining the best strategies for aggregating ED results and identifying the receptor conformations with the greatest virtual screening utility. In the present study, we proposed using machine learning (ML) as an alternative to traditional consensus strategies to aggregate the ensemble docking results of four proteins: CDK2, EGFR, FXa, and HSP90. Specifically, ensemble docking scores were used as molecular descriptors derived from the predicted receptor-ligand binding. Subsequently, these molecular descriptors were used to develop ML classifiers trained to identify true-binder molecules. Results showed that ML classifiers achieved statistically higher SBVS performances than traditional strategies. Additionally, we investigated whether the composition of the protein conformational ensemble affects the ensemble docking performance to gain insights into how to select the best set of protein conformations before the docking phase. In this regard, we compared the performance of traditional strategies (single-conformation docking and consensus strategies) against the ML approach using both crystallographic and molecular dynamics-derived (MD-derived) conformations. We conducted this analysis using the CDK2 protein as a case study. Our results suggest that, contrary to traditional strategies, the performance of the ML classifiers benefits from larger and structurally diverse conformational ensembles. Ultimately, the leading motivation of this work was to assess the importance of incorporating the receptor’s flexibility into the development of new SBVS pipelines to improve the identification of more promising drug candidates.
El cribado virtual basado en estructura (SBVS por sus siglas en inglés) es un componente clave en la etapa temprana del descubrimiento y desarrollo de fármacos. Como técnica computacional, el SBVS permite la evaluación de un gran número de moléculas (ligandos) al simular su interacción con una proteína diana (receptor). Sin embargo, los métodos tradicionales de SBVS no tienen en cuenta la flexibilidad del receptor, mermando el rendimiento del SBVS. Para abordar esta limitación, a menudo se utiliza el acoplamiento molecular en conglomerado (ED por sus siglas en inglés) para incorporar la flexibilidad de la proteína en las campañas de SBVS. Por lo tanto, el ED implica la ejecución de simulaciones de acoplamiento molecular usando múltiples conformaciones del mismo receptor. Aunque el ED se ha aplicado con éxito en estudios previos, todavía no está claro cuáles son las mejores estrategias de agregación de resultados, ni cómo identificar las conformaciones del receptor con la mayor utilidad para el cribado virtual. En el presente estudio, se propuso el uso del aprendizaje automático (ML, por sus siglas en inglés) como alternativa a las estrategias tradicionales de consenso para agregar los resultados del ED evaluando cuatro proteínas: CDK2, EGFR, FXa y HSP90. Específicamente, se utilizaron las puntuaciones de acoplamiento del ED como descriptores moleculares derivados del modo de unión receptor-ligando. Posteriormente, estos descriptores moleculares se utilizaron para desarrollar clasificadores de ML entrenados para identificar moléculas verdaderas ligantes. Los resultados mostraron que los clasificadores de ML lograron un rendimiento de SBVS estadísticamente superior a las estrategias tradicionales. Además, se evaluó si la composición del conjunto conformacional de proteínas afecta el rendimiento del ED para determinar cómo seleccionar el mejor conjunto de conformaciones del receptor antes de la fase de acoplamiento. En este sentido, se comparó el rendimiento de las estrategias tradicionales (acoplamiento con una sola conformación y estrategias de consenso) con el enfoque de ML utilizando conformaciones cristalográficas y derivadas de dinámica molecular. Este análisis se realizó utilizando la proteína CDK2 como caso de estudio. Nuestros resultados sugieren que, a diferencia de las estrategias tradicionales, el rendimiento de los clasificadores de ML se beneficia de conjuntos conformacionales más grandes y estructuralmente diversos. En última instancia, la ...
CICESE
2023
Tesis de doctorado
Inglés
Ricci López, J. 2023. Virtual screening using machine learning techniques and ensemble docking-based molecular descriptors. PhD Thesis in Sciences. Centro de Investigación Científica y de Educación Superior de Ensenada, Baja California. 179 pp.
PROPIEDADES DE LOS MATERIALES
Aparece en las colecciones: Tesis - Nanociencias

Cargar archivos:


Fichero Descripción Tamaño Formato  
tesis_Joel Ricc Lopez_02 julio2023.pdfVersión completa de la tesis22.09 MBAdobe PDFVisualizar/Abrir