💻
Quimioinformática
GitHub
  • 📖Quimioinformática aplicada al diseño de fármacos
  • 🔎1. Búsqueda de información química
    • 📑1.1 SciFinder-n
    • 📑1.2 Web of Science
    • 📑1.3 Scopus
    • 📑1.4 CAS Source Index (CASSI)
    • 📑1.5 Herramientas de visualización bibliométrica
  • 🐍2. Introducción a Python, Google Colab y Linux
    • 💻2.1 Fundamentos de programación
    • 🧹2.2 Manejo y limpieza de datos
    • 🐧2.3 Linux
      • 🪟2.3.1 Subsistema de Windows para Linux (WSL)
        • 👩‍💻2.3.1.1 Creación de usuarios
        • 🧑‍💻2.3.1.2 Selección de usuario de inicio por defecto
        • 🐍2.3.1.3 Instalación de Python, pip3 y VSCode desde WSL
        • 🔰2.3.1.4 Instalación de Anaconda desde WSL
        • ⚗️2.3.1.5 RDKit e instalación de ambientes
      • 👩‍✈️2.3.2 Comandos Linux
        • 📂2.3.2.1 Comandos de navegación
        • 💽2.3.2.2 Exploración y manipulación de archivos
    • 📚Recursos y ejercicios
  • 🧑‍🔬3. Representación molecular
    • 💻3.1 SMILES
    • 💻3.2 SMARTS
    • 💻3.3 InChI Keys
    • 📚Recursos y ejercicios
  • 🔎4. Bases de datos moleculares
    • 💊4.1 PubChem
      • 4.1.1 API
    • 💊4.2 ChEMBL
      • 4.2.1 API
    • 💊4.3 DrugBank
    • 💊4.4 ZINC
    • 💊4.5 ChemSpider
    • 📚Recursos y ejercicios
  • 🗃️5. Construcción y curado de bases de datos moleculares
    • 🧱5.1 Construcción de bases de datos
    • 🧹5.2 Curado de bases de datos
    • 📚Recursos y ejercicios
  • 📊6. Análisis y visualización de información química
    • ✍️6.1 Descriptores moleculares
      • 📈6.1.2 Principios para el Análisis de Bases de Datos Moleculares
      • 🔎6.1.3 Caso de estudio
    • ⚛️6.2 Espacio químico
      • 🎨6.2.1 Multiverso químico y "Chemical art gallery"
    • 📊Recursos y ejercicios
  • 🪞7. Similitud química
    • 🔢7.1 Representación molecular
    • 💱7.2 Función de similitud
    • 📉7.3 Estudios cuantitativos de relación estructura-actividad (QSAR)
    • 🏞️7.4 Panorama y acantilados de actividad
    • 📚Recursos y ejercicios
  • ⚗️8. Enumeración de bibliotecas químicas
    • 👩‍🔬8.1 Reacciones químicas
    • 👨‍🔬8.2 Reglas de transformación
    • 📚Recursos y ejercicios
  • 🔐9. Acoplamiento molecular
    • 9.1 LeDock
    • 9.2 AutoDock Vina
      • 📖9.2.1 Tutorial de acoplamiento
Powered by GitBook
On this page
  • Objetivos
  • Introducción
  • Análisis exploratorio de datos
  • Espacio químico
  • Servidores y programas de acceso libre
  • Para saber más:

6. Análisis y visualización de información química

PreviousRecursos y ejerciciosNext6.1 Descriptores moleculares

Last updated 28 days ago

Objetivos

  • Introducir a la visualización y al análisis de datos químicos.

  • Utilizar métodos visuales para analizar propiedades fisicoquímicas de importancia farmacéutica y descriptores asociados con complejidad molecular.

  • Identificar posibles correlaciones entre variables.

  • Utilizar métodos de visualización del espacio químico para obtener perfiles de bases de datos químicas.

Introducción

En Quimioinformática, se trabaja frecuentemente con grandes conjuntos de datos químicos y se utilizan descriptores moleculares para caracterizar las moléculas. Los descriptores moleculares son valores numéricos que representan las propiedades físicas y químicas de una molécula. En este capítulo, se explorará cómo podemos utilizar las herramientas de análisis y visualización de datos para obtener información a partir de datos y descriptores moleculares. Se utilizarán principalmente las librerías de Pandas, Matplotlib y Seaborn para acceder a los datos químicos. Estos datos suelen almacenarse y compartirse en tablas, con varios números de filas y columnas, en donde cada columna suele contener una característica o propiedad de cada uno de los compuestos en las filas.

Análisis exploratorio de datos

Cuando nos enfrentamos a una nueva base de datos, es importante realizar un análisis exploratorio de datos, también conocido como EDA por sus siglas del inglés Exploratory Data Analysis. Esto es para entender mejor los datos antes de utilizarlos para cálculos o modelos posteriores. Esto nos ayuda a investigar conjuntos de datos y resumir sus características principales, empleando métodos gráficos que permiten tener una una mejor comprensión de los mismos y que además nos auxilia en la toma de decisiones.

El análisis exploratorio de datos permite descubrir patrones o tendencias, valores atípicos o anomalías y verificar suposiciones. En quimioinformática aplicada al diseño de fármacos, el análisis de datos es fundamental para analizar la información presente en patentes y bases de datos con información química y biológica. Asimismo, la visualización de datos permite analizar y comparar en términos de diversidad y/o complejidad diferentes bases de datos químicas (por ejemplo, bibliotecas de fármacos aprobados, bibliotecas hechas bajo demanda, bases de productos naturales, compuestos de origen alimenticio, etc.).

La selección del o los gráficos a emplear en el análisis de datos siempre debe tener en cuenta el tipo y el propósito de los datos. Cierta información se adapta mejor a un tipo de gráfico que a otro. Actualmente, con la mayoría de las herramientas diseñadas hasta la fecha, el usuario tiene una amplia variedad de opciones para visualizar datos, desde representaciones comunes como gráficos de líneas y gráficos de barras hasta líneas de tiempo, mapas, diagramas, histogramas y diseños personalizados.

En el siguiente video puede ver una plática del Dr. Rajarshi Guja sobre EDA en diseño de fármacos. Esta conferencia formó parte de la primera escuela de Quimioinformática en América Latina, en 2022. Para ver el resto de las pláticas puede consultar el siguiente enlace:

Espacio químico

Servidores y programas de acceso libre

Las Figuras 8 y 9 muestran los pasos a seguir para calcular seis descriptores moleculares asociados a propiedades de interés farmacéutico como: peso molecular, coeficiente de partición octanol-agua, área de superficie polar topológica, número de enlaces rotables, número de átomos aceptores de puente de hidrógeno y número de átomos donadores de puente de hidrógeno.

El archivo en DataWarrior (.dwar) se guarda desde el menú File>Save as, y la figura generada se guarda desde el menú +>Copy view Image >Save image as PNG-file>Ok mostrado en la Figura 12.

Para saber más:

El concepto de espacio químico, como veremos más adelante, nos ayuda a representar información química en un espacio bi y tridimensional (2D y 3D), donde las coordenadas representan propiedades químicas específicas. Para tener una idea, se ha estimado que el espacio químico tiene 10^60 moléculas pequeñas y entre 10^20 y 10^24 moléculas con más de 30 átomos que cumplen con la regla de los cinco de Lipinski ().

El espacio químico ha mostrado diversas aplicaciones en el diseño de fármacos, entre ellas se encuentran: el análisis de diversidad, el análisis de relaciones estructura actividad (en inglés, Structure Activity Relationships, SAR) y relaciones estructura propiedad (en inglés, Structure Property Relationships, SPR), además del diseño de bibliotecas moleculares ().

Existen varias opciones para calcular descriptores moleculares y visualización de espacio químico utilizando servidores y programas de acceso libre. Tres ejemplos son , y .

PUMA es un servidor en línea para visualizar el espacio químico y calcular la diversidad molecular de bases de datos de compuestos químicos (). Sólo necesita un archivo delimitado por comas (,) con los de todos sus compuestos, el nombre de sus conjuntos de datos y un identificador (ID) para cada compuesto. La Figura 2 muestra un ejemplo de como organizar las columnas de una base de datos de compuestos químicos.

El acceso al servidor PUMA es a través de la siguiente URL: . Se recomienda utilizar el navegador web Firefox.

Las Figuras 3, 4 y 5 muestran el procedimiento para la visualización de espacio químico utilizando el servidor PUMA. La Figura 3 muestra el enlace de acceso al servidor y a la sección de (1) generación de espacio químico utilizando el algoritmo PCA (ver sección ). La Figura 4 muestra las secciones para (2) cargar la base de datos y (3) el tipo de visualización, y la Figura 5 como descargar la gráfica y los valores calculados.

La base de datos y los archivos generados se encuentran disponibles en el siguiente .

KNIME (Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual (). Con KNIME es posible crear flujos de trabajo para cálculos quimioinformáticos diversos, es posible buscar en el como punto de partida. La Figura 6 ilustra un flujo de trabajo que permite realizar visualizaciones de espacio químico basado en propiedades fisicoquímicas. El flujo de trabajo se implementó en KNIME Analytics Platform versión 4.7.8. Los nodos principales son File Reader para leer la base de datos en formato .csv; MolConverter para transformar los SMILES a moléculas; RDKit descriptors que permite calcular varios descriptores moleculares; PCA y t-SNE (ver sección y ), los algoritmos utilizados para reducir el número de dimensiones descritas por el espacio químico original, y Scatter plot para visualizar los gráficos en 2 y 3 dimensiones.

KNIME Analytics Platform se puede descargar en el siguiente enlace: así como el y la en sus respectivos enlaces.

DataWarrior es un programa de acceso libre para el cálculo de descriptores moleculares, visualización y análisis de datos químicos (, ). Las Figuras 7, 8, 9, 10 y 11 muestran el procedimiento para generar una visualización del espacio químico utilizando el algoritmo PCA y DataWarrior versión 5.5.0. La Figura 7 explica como abrir un archivo delimitado por comas (.csv).

La versión más reciente de DataWarrior se puede descargar en el siguiente enlace: . La base de datos y los archivos generados se encuentran disponibles en el siguiente .

Las Figuras 10 y 11 describen el procedimiento para generar una visualización de espacio químico utilizando el algoritmo PCA (ver sección ). La Figura 10, también, muestra el porcentaje de varianza explicada para los primeros seis componentes principales calculados.

Download KNIME Analytics Platform. . Fecha de acceso: Diciembre de 2023.

González-Medina M, Medina-Franco JL (2017) . J. Chem. Inf. Model. 57:1735-1740.

González-Ponce K, Horta Andrade C, Hunter F, et al. (2023) . J. Cheminform. 15:82.

KNIME . Fecha de acceso: Diciembre de 2023.

López-López E, Naveja JJ, Medina-Franco JL (2019) . Expert Opin. Drug Discov. 14:335-341.

Maggiora GM (2014) . In: Martinez-Mayorga K and Medina-Franco JL (eds). Springer International Publishing, Cham, pp 1–81.

Reymond JL. (2015) . Acc. Chem. Res. 48:722-730.

Saldívar-González FI and Medina-Franco JL (2022) . Expert Opin. Drug Discov. 17:789–798.

Saldívar-González FI, Chávez-Ponce de León DE, López-López E, Hernández-Luis F, Lira-Rocha A, Medina-Franco JL (2018). . Facultad de Química, Universidad Nacional Autónoma de México.

Sander T, Freyss J, von Korff M, Rufener C (2015) . J. Chem. Inf. Model. 55:460-473.

Schneider G, Clément-Chomienne O, Hilfiger L, Schneider P, Kirsch S, Böhm HJ, Neidhart W (2000) . Angew. Chem. 39:4130–4133.

Virshup AM, Contreras-García J, Wipf P, Yang W, Beratan DN (2013) . J. Am. Chem. Soc. 135:7296–7303

📊
Reymound 2015
Saldívar-González y Medina-Franco, 2022
PUMA
KNIME
DataWarrior
González-Medina y Medina-Franco, 2017
SMILES
http://132.248.103.152:3838/PUMA/
enlace
https://www.knime.com/downloads
flujo de trabajo
base de datos
Sander et al., 2015
López-López et al. 2019
https://openmolecules.org/datawarrior/download.html
enlace
https://www.knime.com/downloads
Platform for Unified Molecular Analysis: PUMA
School of cheminformatics in Latin America
https://www.knime.com/knime-analytics-platform
DataWarrior: an evaluation of the open-source drug discovery tool
Applications of Chemical Information to Food Chemistry
The chemical space project
Approaches for Enhancing the Analysis of Chemical Space for Drug Discovery
Manual de Quimioinformática. Segunda Edición
DataWarrior: an open-source program for chemistry aware data visualization and analysis
Virtual screening for bioactive molecules by evolutionary de novo design
Stochastic Voyages into Uncharted Chemical Space Produce a Representative Library of All Possible Drug-Like Compounds
https://www.youtube.com/@SchoolChemInfLA
KNIME, 2023
KNIME Community Hub
Figura 1. Integration the interrogation: Exploratory data analysis on a deadline. Rajarshi Guha. 2022.
https://www.youtube.com/watch?v=XPpGA81ASuo
Figura 2. Ejemplo del orden de las columnas de una base de datos utilizada como archivo de entrada en el servidor PUMA.
Figura 4. Procedimiento para la visualización de espacio químico utilizando PCA y el servido PUMA. El punto 2 y 3 muestran los enlaces para cargar la base de datos y selección de visualización 2D.
Figura 5. Visualización de espacio químico utilizando el algoritmo PCA y el servidor PUMA. El punto 4 y 5 muestran los enlaces para descargar la gráfica y los valores calculados.
Figura 6. Flujo de trabajo de KNIME para la visualización del espacio químico utilizando los algoritmos PCA y t-SNE.
Figura 7. Abrir una base de datos en DataWarrior.
Figura 8. Cálculo de descriptores moleculares en DataWarrior.
Figura 9. Selección de descriptores moleculares en Datawarrior.
Figura 10. Procedimiento para generar una visualización de espacio químico utilizando el algoritmo PCA y DataWarrior.
Figura 11. Visualización de espacio químico utilizando el algoritmo PCA y DataWarrior.
Figura 12. Guardar la visualización de espacio químico generada en DataWarrior.
Figura 3. Página de inicio del servidor .
PUMA
PCA
PCA
t-SNE
PCA