📉7.3 Estudios cuantitativos de relación estructura-actividad (QSAR)
Last updated
Last updated
La similitud química es uno de los conceptos más importantes en quimioinformática. Su objetivo es encontrar y clasificar compuestos químicos en función de su similitud estructural. Se utiliza ampliamente en la investigación de fármacos y en la quimioinformática para el diseño de fármacos y la selección de compuestos candidatos para el cribado biológico.
Una de las primeras técnicas computacionales que se emplearon en el diseño de fármacos son los estudios QSAR (por sus siglas en inglés, quantitative structure-activity relationships). Está metodología establece relaciones empiricas, lineales y no lineales entre valores de descriptores químicos calculados de estructuras moleculares y propiedades (o bioactividades) que son medidas experimentalmente, seguido de la aplicación de estos modelos para la predicción o el diseño de nuevas entidades químicas con propiedades deseadas (Muratov et al. 2020).
Históricamente los modelos QSAR han sido ampliamente aplicados al descubrimiento de fármacos asistidos por computadora. Muchas publicaciones han avanzado en las áreas tradicionales del QSAR, tales como la predicción de actividades biológicas y propiedades ADME/Tox, basándose en el uso exitoso de modelos QSAR en química, agroquímica, farmacéutica y en la industria cosmética (Muratov et al. 2020).
Los datos de bioactividad química empleados en el desarrollo de estos modelos generalmente derivan de investigaciones en series de análogos de química farmacéutica. Este conjunto de compuestos usualmente comparten un núcleo estructural común o scaffold y llevan diferentes sustituyentes (grupos R) en uno o más sitios. La tarea fundamental del QSAR clásico consiste en el empleo de modelos de regresiones lineales basadas en descriptores que predicen la potencia de análogos recientemente diseñados para extender la serie. Este esquema de predicción proporciona una guía útil para el diseño de compuestos y síntesis, lo que convierte al QSAR en uno de los enfoques predictivos más populares en química farmacéutica.
La creación de un modelo QSAR inicia con el cálculo de una gran cantidad de descriptores químicos; después se aplica un método que reduce la cantidad de descriptores, y finalmente se adopta una técnica computacional para construir el modelo. Como todos los modelos tienen algún error, detectar si una predicción es aceptable o errónea para un blanco molecular dado es realizado a posterior, comprobando si se han usado moléculas lo suficientemente similares a la molécula de ensayo para entrenar el modelo.
Los métodos QSAR que emplean descriptores moleculares aparecieron a mediados del último siglo. Esos modelos eran inicialmente regresiones simples, empleando muy pocos, y posiblemente simples, descriptores químicos. Actualmente los descriptores de 1D (como fingerprints) y 2D (cómo los fingerprints topológicos) se prefieren a comparación de los descriptores 3D calculados sobre la forma molecular optimizada.
Recientemente, algoritmos de aprendizaje de máquina ( ML por sus siglas en inglés, machine learning) están siendo adoptados para reemplazar los métodos de estadística simple. Los modelos QSAR que trabajan con un gran espacio químico usan métodos no lineales como redes neuronales (NNs, por sus siglás en inglés, Neural Networks) que, por construcción, hacen que la hipótesis de similitud sea menos crucial.
En la década pasada NNs muy grandes, llamadas redes neuronales profundas (DNN, por sus siglás en inglés, Deep Neural Networks) ganaron atención ya que algunas, las NNs convolucionales (CNNs, por sus siglás en inglés), superaron a los humanos en tareas cognitivas tales como el reconocimiento de imágenes. Las DNNs son grandes tanto en profundidad como en ancho, aprenden de los datos ajustando una gran cantidad de parámetros y permiten explotar las propiedades de los datos. Las CNNs contienen unidades de procesamiento no lineales, donde cada una transforma la representación de un nivel a una representación de nivel superior. En los modelos QSAR clásicos la similitud molecular es reducida a lasimilitud de descriptores quimicos, mientras que en DNNs se considera la estructura completa (ver Figura 1) (Muratov et al. 2020).
A continuación se ejemplifican de forma sencilla la creación de un modelo QSAR con python.
Con propósitos didácticos, hemos utilizado dos bases de datos que ya han sido abordadas en entregas anteriores de este repositorio, con el fin de desarrollar un modelo QSAR. La primera incluye una serie de compuestos reportados en ChEMBL contra G9a (base de datos que llamaremos "G9a"), mientras que la segunda consiste en un conjunto de moléculas de prueba utilizado en la sección previa sobre "Representación Molecular" (base de datos que llamaremos "Predicción"). Como se explicó en la sección anterior sobre la "Función de Similitud", G9a es una lisina-metiltransferasa de histonas que ha sido identificada como un blanco epigenético de gran importancia. Su sobreexpresión se ha asociado con diversas enfermedades de relevancia a nivel mundial (Cedillo-González and Medina-Franco, 2023).
Ambas bases de datos han sido meticulosamente curadas y contienen información relevante, incluyendo un identificador único, la representación SMILES y, en el caso de G9a, los valores de actividad expresados como pIC50.
En una fase inicial, después de cargar las bibliotecas, librerías y archivos cruciales (ver Figura 2), se procedió a calcular las representaciones moleculares para G9a, fingerprints en este caso (ver Figura 3).
Luego, se llevó a cabo la selección del conjunto de entrenamiento y prueba. Posteriormente, se eligió el modelo de machine learning para la construcción y entrenamiento del modelo QSAR. Una vez realizados estos pasos, se generaron dos gráficos. El primero permite visualizar el empeño o la predicción de errores del modelo (ver Figura 4), o en otras palabras, nos permite visualizar si el modelo logra explicar que porcentaje de la variabilidad en la variable objetivo en el conjunto de prueba. El segundo gráfico aborda los residuales (ver Figura 5), los cuales nos proporcionan una medida de cuánto se desvían las predicciones del modelo de los valores reales.
Después de completar la fase de entrenamiento del algoritmo, se avanza a la etapa de predicción. En esta fase, el modelo se aplica a un conjunto de datos de interés, proporcionando así los valores estimados de actividad correspondientes (ver Figura 6).
Lo descrito anteriormente está ejemplificado y desarrollado en Python en el repositorio disponible en la sección Recursos y ejercicios.
Cedillo-González R, Medina-Franco JL (2023) Diversity and Chemical Space Characterization of Inhibitors of the Epigenetic Target G9a: A Chemoinformatics Approach. ACS Omega 8 (33): 30694–704.
Muratov EN, Bajorath J, Sheridan RP, Tetko IV, Filimonov D, Poroikov V, Oprea TI, et al. (2020) QSAR without Borders. Chem. Soc. Rev. 49 (11): 3525–64.