💻
Quimioinformática
GitHub
  • 📖Quimioinformática aplicada al diseño de fármacos
  • 🔎1. Búsqueda de información química
    • 📑1.1 SciFinder-n
    • 📑1.2 Web of Science
    • 📑1.3 Scopus
    • 📑1.4 CAS Source Index (CASSI)
    • 📑1.5 Herramientas de visualización bibliométrica
  • 🐍2. Introducción a Python, Google Colab y Linux
    • 💻2.1 Fundamentos de programación
    • 🧹2.2 Manejo y limpieza de datos
    • 🐧2.3 Linux
      • 🪟2.3.1 Subsistema de Windows para Linux (WSL)
        • 👩‍💻2.3.1.1 Creación de usuarios
        • 🧑‍💻2.3.1.2 Selección de usuario de inicio por defecto
        • 🐍2.3.1.3 Instalación de Python, pip3 y VSCode desde WSL
        • 🔰2.3.1.4 Instalación de Anaconda desde WSL
        • ⚗️2.3.1.5 RDKit e instalación de ambientes
      • 👩‍✈️2.3.2 Comandos Linux
        • 📂2.3.2.1 Comandos de navegación
        • 💽2.3.2.2 Exploración y manipulación de archivos
    • 📚Recursos y ejercicios
  • 🧑‍🔬3. Representación molecular
    • 💻3.1 SMILES
    • 💻3.2 SMARTS
    • 💻3.3 InChI Keys
    • 📚Recursos y ejercicios
  • 🔎4. Bases de datos moleculares
    • 💊4.1 PubChem
      • 4.1.1 API
    • 💊4.2 ChEMBL
      • 4.2.1 API
    • 💊4.3 DrugBank
    • 💊4.4 ZINC
    • 💊4.5 ChemSpider
    • 📚Recursos y ejercicios
  • 🗃️5. Construcción y curado de bases de datos moleculares
    • 🧱5.1 Construcción de bases de datos
    • 🧹5.2 Curado de bases de datos
    • 📚Recursos y ejercicios
  • 📊6. Análisis y visualización de información química
    • ✍️6.1 Descriptores moleculares
      • 📈6.1.2 Principios para el Análisis de Bases de Datos Moleculares
      • 🔎6.1.3 Caso de estudio
    • ⚛️6.2 Espacio químico
      • 🎨6.2.1 Multiverso químico y "Chemical art gallery"
    • 📊Recursos y ejercicios
  • 🪞7. Similitud química
    • 🔢7.1 Representación molecular
    • 💱7.2 Función de similitud
    • 📉7.3 Estudios cuantitativos de relación estructura-actividad (QSAR)
    • 🏞️7.4 Panorama y acantilados de actividad
    • 📚Recursos y ejercicios
  • ⚗️8. Enumeración de bibliotecas químicas
    • 👩‍🔬8.1 Reacciones químicas
    • 👨‍🔬8.2 Reglas de transformación
    • 📚Recursos y ejercicios
  • 🔐9. Acoplamiento molecular
    • 9.1 LeDock
    • 9.2 AutoDock Vina
      • 📖9.2.1 Tutorial de acoplamiento
Powered by GitBook
On this page
  • Objetivos
  • Introducción
  • Para saber más:

5. Construcción y curado de bases de datos moleculares

PreviousRecursos y ejerciciosNext5.1 Construcción de bases de datos

Last updated 28 days ago

Objetivos

  • Construir bases de datos de compuestos con importancia biológica.

  • Conocer las características adecuadas que deben presentar las moléculas para subsiguientes estudios in silico.

  • Identificar las moléculas que pueden interferir en los cálculos computacionales.

  • Llevar a cabo el curado de bases de datos utilizando módulos y funciones de RDKit y Molvs.

Introducción

En química, como en muchas otras áreas, la cantidad de datos ha aumentado significativamente en los últimos años. Esto representa un reto para el manejo eficiente de los datos, obtención de información y generación de conocimiento ( and ). Los modelos predictivos como Relaciones Cuantitativas Estructura-Actividad (en inglés, Quantitative Structure Relationships, QSAR) dependen principalmente de los descriptores moleculares calculados ( y ), y a su vez los descriptores moleculares dependen de la representación molecular correcta (). Ante esta necesidad, la construcción de bases de datos confiable, robusta y escalable puede ser una forma práctica de ordenar la información de acuerdo con los datos disponibles y los objetivos específicos de estudio.

La Figura 1 muestra una clasificación de la bases de datos de compuestos químicos de acuerdo a y como son: (1) bajo demanda cuyos protocolos de síntesis química están bien establecidos, lo cual facilita su adquisición; (2) compuestos con actividad biológica; (3) compuestos disponibles comercialmente; (4) bases de datos de productos naturales, (5) compuestos de referencia (en inglés benchmark), y (6) compuestos señuelo (en inglés decoy) y compuestos inactivos. Las bases de datos de tipo bechmark son compuestos químicos que tienen protocolos de curado de bases de datos bien establecidos, y por ende se usan de referencia para construir modelo predictivos. Los compuestos tipo decoy son inactivos contra una diana biológica, pero tienen propiedades fisicoquímicas muy similares a los compuestos de referencia.

Otras bases de datos son los compuestos tipo herramientas o sondas, que son muy importantes en el diseño de fármacos, pero no tienen aplicación terapéutica directa.

Para saber más:

Como se revisó en la sección de , DrugBank, ChEMBL y ZINC permiten descargar sus propias bases de datos con información sobre fármacos aprobados, fármacos en fase experimental, dianas moleculares, etc. Sin embargo, dichas bases no siempre están actualizadas, por lo que pueden ir enriqueciéndose con la nueva información publicada en libros o en artículos científicos. Un ejemplo de lo mencionado suele realizarse a principios de año, donde se hace una revisión de los fármacos aprobados para uso clínico en el año anterior. La información de nuevos fármacos puede encontrarse en revistas como y . Una vez que se tiene esta información, las bases de datos públicas se actualizan para que, posteriormente, sean analizadas.

De igual forma, los grupos de investigación pueden llevar a cabo la construcción de bases de datos in house. Algunos ejemplos de bases de datos de productos naturales in house son (India), (África), y (Brasil), (Panama), (Perú), y (México).

Chávez-Hernández AL, López-López E and Medina-Franco JL (2023) . Front. Drug Discov. 3:1222655.

Fourches D, Muratov E, Tropsha A (2010) . J Chem Inf Model. 50:1189-204.

Fourches D, Muratov E, Tropsha A (2016) . J Chem Inf Model. 56:1243-52.

López-López E, Bajorath J, Medina-Franco JL (2021) . J Chem Inf Model. 61:26-35.

Tetko IV, Sushko I, Pandey,AK, Zhu H, Tropsha A, Papa E, Oberg T, Todeschini R, Fourches D, Varnek A (2008) . J. Chem. Inf. Model. 48:1733– 1746.

Yang J, Wang D, Jia C, Wang M, Hao G and Yang G (2019) . Curr. Med. Chem. 26, 7581–7597.

Zhu H, Tropsha A, Fourches D, Varnek A, Papa E, Gramatica P, Oberg T, Dao P, Cherkasov A, Tetko IV (2008) . J. Chem. Inf. Model. 48:766–784.

🗃️
Bases de datos moleculares
Nature Reviews Drug Discovery
Chemical and Engeneering News
IMPPAT
AfroDB
NuBBE
SistematX
CIFPMA
PeruNPDB
BIOFACQUIM
UNIIQUIM
Yin-yang in drug discovery: rethinking de novo design and development of predictive models
Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research
Trust, but verify II: A practical guide to chemogenomics data curation
Informatics for Chemistry, Biology, and Biomedical Sciences
Critical Assessment of QSAR Models of Environmental Toxicity against Tetrahymena pyriformis: Focusing on Applicability Domain and Overfitting by Variable Selection
Freely accessible chemical database resources of compounds for in silico drug discovery
Combinatorial QSAR Modeling of Chemical Toxicants Tested against Tetrahymena pyriformis
Fourches D et al., 2010
López-López E et al., 2021
Tetko IV et al., 2008
Zhu H et al., 2008
Fourches D et al., 2010
Chávez-Hernández et al. 2023
Yang et al. 2019
Figura 1: Clasificación de bases de datos de compuestos químicos. Adaptado de Chávez-Hernández AL et al. (2023) Front. Drug Discov. 3:1222655.