6. Análisis y visualización de información química
Last updated
Last updated
Introducir a la visualización y al análisis de datos químicos.
Utilizar métodos visuales para analizar propiedades fisicoquímicas de importancia farmacéutica y descriptores asociados con complejidad molecular.
Identificar posibles correlaciones entre variables.
Utilizar métodos de visualización del espacio químico para obtener perfiles de bases de datos químicas.
En Quimioinformática, se trabaja frecuentemente con grandes conjuntos de datos químicos y se utilizan descriptores moleculares para caracterizar las moléculas. Los descriptores moleculares son valores numéricos que representan las propiedades físicas y químicas de una molécula. En este capítulo, se explorará cómo podemos utilizar las herramientas de análisis y visualización de datos para obtener información a partir de datos y descriptores moleculares. Se utilizarán principalmente las librerías de Pandas
, Matplotlib
y Seaborn
para acceder a los datos químicos. Estos datos suelen almacenarse y compartirse en tablas, con varios números de filas y columnas, en donde cada columna suele contener una característica o propiedad de cada uno de los compuestos en las filas.
Cuando nos enfrentamos a una nueva base de datos, es importante realizar un análisis exploratorio de datos, también conocido como EDA por sus siglas del inglés Exploratory Data Analysis. Esto es para entender mejor los datos antes de utilizarlos para cálculos o modelos posteriores. Esto nos ayuda a investigar conjuntos de datos y resumir sus características principales, empleando métodos gráficos que permiten tener una una mejor comprensión de los mismos y que además nos auxilia en la toma de decisiones.
El análisis exploratorio de datos permite descubrir patrones o tendencias, valores atípicos o anomalías y verificar suposiciones. En quimioinformática aplicada al diseño de fármacos, el análisis de datos es fundamental para analizar la información presente en patentes y bases de datos con información química y biológica. Asimismo, la visualización de datos permite analizar y comparar en términos de diversidad y/o complejidad diferentes bases de datos químicas (por ejemplo, bibliotecas de fármacos aprobados, bibliotecas hechas bajo demanda, bases de productos naturales, compuestos de origen alimenticio, etc.).
La selección del o los gráficos a emplear en el análisis de datos siempre debe tener en cuenta el tipo y el propósito de los datos. Cierta información se adapta mejor a un tipo de gráfico que a otro. Actualmente, con la mayoría de las herramientas diseñadas hasta la fecha, el usuario tiene una amplia variedad de opciones para visualizar datos, desde representaciones comunes como gráficos de líneas y gráficos de barras hasta líneas de tiempo, mapas, diagramas, histogramas y diseños personalizados.
En el siguiente video puede ver una plática del Dr. Rajarshi Guja sobre EDA en diseño de fármacos. Esta conferencia formó parte de la primera escuela de Quimioinformática en América Latina, en 2022. Para ver el resto de las pláticas puede consultar el siguiente enlace: https://www.youtube.com/@SchoolChemInfLA
El concepto de espacio químico, como veremos más adelante, nos ayuda a representar información química en un espacio bi y tridimensional (2D y 3D), donde las coordenadas representan propiedades químicas específicas. Para tener una idea, se ha estimado que el espacio químico tiene 10^60 moléculas pequeñas y entre 10^20 y 10^24 moléculas con más de 30 átomos que cumplen con la regla de los cinco de Lipinski (Reymound 2015).
El espacio químico ha mostrado diversas aplicaciones en el diseño de fármacos, entre ellas se encuentran: el análisis de diversidad, el análisis de relaciones estructura actividad (en inglés, Structure Activity Relationships, SAR) y relaciones estructura propiedad (en inglés, Structure Property Relationshis, SPR), además del diseño de bibliotecas moleculares (Saldívar-González y Medina-Franco, 2022).
Existen varias opciones para calcular descriptores moleculares y visualización de espacio químico utilizando servidores y programas de acceso libre. Tres ejemplos son PUMA, KNIME y DataWarrior.
PUMA es un servidor en línea para visualizar el espacio químico y calcular la diversidad molecular de bases de datos de compuestos químicos (González-Medina y Medina-Franco, 2017). Sólo necesita un archivo delimitado por comas (,) con los SMILES de todos sus compuestos, el nombre de sus conjuntos de datos y un identificador (ID) para cada compuesto. La Figura 2 muestra un ejemplo de como organizar las columnas de una base de datos de compuestos químicos.
Las Figuras 3, 4 y 5 muestran el procedimiento para la visualización de espacio químico utilizando el servidor PUMA. La Figura 3 muestra el enlace de acceso al servidor y a la sección de (1) generación de espacio químico utilizando el algoritmo PCA (ver sección PCA). La Figura 4 muestra las secciones para (2) cargar la base de datos y (3) el tipo de visualización, y la Figura 5 como descargar la gráfica y los valores calculados.
La base de datos y los archivos generados se encuentran disponibles en el siguiente enlace.
KNIME (Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual (KNIME, 2023). Con KNIME es posible crear flujos de trabajo para cálculos quimioinformáticos diversos, es posible buscar en el KNIME Community Hub como punto de partida. La Figura 6 ilustra un flujo de trabajo que permite realizar visualizaciones de espacio químico basado en propiedades fisicoquímicas. El flujo de trabajo se implementó en KNIME Analytics Platform versión 4.7.8. Los nodos principales son File Reader para leer la base de datos en formato .csv; MolConverter para transformar los SMILES a moléculas; RDKit descriptors que permite calcular varios descriptores moleculares; PCA y t-SNE (ver sección PCA y t-SNE), los algoritmos utilizados para reducir el número de dimensiones descritas por el espacio químico original, y Scatter plot para visualizar los gráficos en 2 y 3 dimensiones.
DataWarrior es un programa de acceso libre para el cálculo de descriptores moleculares, visualización y análisis de datos químicos (Sander et al., 2015, López-López et al. 2019). Las Figuras 7, 8, 9, 10 y 11 muestran el procedimiento para generar una visualización del espacio químico utilizando el algoritmo PCA y DataWarrior versión 5.5.0. La Figura 7 explica como abrir un archivo delimitado por comas (.csv).
Las Figuras 8 y 9 muestran los pasos a seguir para calcular seis descriptores moleculares asociados a propiedades de interés farmacéutico como: peso molecular, coeficiente de partición octanol-agua, área de superficie polar topológica, número de enlaces rotables, número de átomos aceptores de puente de hidrógeno y número de átomos donadores de puente de hidrógeno.
Las Figuras 10 y 11 describen el procedimiento para generar una visualización de espacio químico utilizando el algoritmo PCA (ver sección PCA). La Figura 10, también, muestra el porcentaje de varianza explicada para los primeros seis componentes principales calculados.
El archivo en DataWarrior (.dwar) se guarda desde el menú File>Save as, y la figura generada se guarda desde el menú +>Copy view Image >Save image as PNG-file>Ok mostrado en la Figura 12.
Download KNIME Analytics Platform. https://www.knime.com/downloads. Fecha de acceso: Diciembre de 2023.
González-Medina M, Medina-Franco JL (2017) Platform for Unified Molecular Analysis: PUMA. J. Chem. Inf. Model. 57:1735-1740.
González-Ponce K, Horta Andrade C, Hunter F, et al. (2023) School of cheminformatics in Latin America. J. Cheminform. 15:82.
KNIME https://www.knime.com/knime-analytics-platform. Fecha de acceso: Diciembre de 2023.
López-López E, Naveja JJ, Medina-Franco JL (2019) DataWarrior: an evaluation of the open-source drug discovery tool. Expert Opin. Drug Discov. 14:335-341.
Maggiora GM (2014) Applications of Chemical Information to Food Chemistry. In: Martinez-Mayorga K and Medina-Franco JL (eds). Springer International Publishing, Cham, pp 1–81.
Reymond JL. (2015) The chemical space project. Acc. Chem. Res. 48:722-730.
Saldívar-González FI and Medina-Franco JL (2022) Approaches for Enhancing the Analysis of Chemical Space for Drug Discovery. Expert Opin. Drug Discov. 17:789–798.
Saldívar-González FI, Chávez-Ponce de León DE, López-López E, Hernández-Luis F, Lira-Rocha A, Medina-Franco JL (2018). Manual de Quimioinformática. Segunda Edición. Facultad de Química, Universidad Nacional Autónoma de México.
Sander T, Freyss J, von Korff M, Rufener C (2015) DataWarrior: an open-source program for chemistry aware data visualization and analysis. J. Chem. Inf. Model. 55:460-473.
Schneider G, Clément-Chomienne O, Hilfiger L, Schneider P, Kirsch S, Böhm HJ, Neidhart W (2000) Virtual screening for bioactive molecules by evolutionary de novo design. Angew. Chem. 39:4130–4133.
Virshup AM, Contreras-García J, Wipf P, Yang W, Beratan DN (2013) Stochastic Voyages into Uncharted Chemical Space Produce a Representative Library of All Possible Drug-Like Compounds. J. Am. Chem. Soc. 135:7296–7303