# 4. Bases de datos moleculares

## <mark style="color:orange;">Objetivos</mark>

* Familiarizarse con el uso de bases de datos relacionadas con la investigación de fármacos como: ChEMBL, PubChem, Drugbank y ZINC.
* Identificar el tipo de información disponible en cada uno de estos recursos, de tal manera que la búsqueda de información se realice en forma sencilla y eficiente.
* Familiarizarse con el uso de APIs para acceder a información disponible en bases de datos públicas mediante programación.

## <mark style="color:orange;">Introducción</mark>

Una base de datos moleculares es una estructura organizada de almacenamiento de información relacionada con sustancias químicas y sus propiedades.  Estas bases almacenan datos sobre compuestos químicos, como su estructura molecular, propiedades físicas y químicas, actividades biológicas, entre otros detalles relevantes y pueden ser utilizadas en diversos campos de la química. En la investigación en fármacos, las bases de datos usadas con frecuencia son PubChem, ChEMBL, ZINC, ChemSpider y DrugBank ([Bender 2010](https://www.nature.com/articles/nchembio.354), [Nicola et al. 2012](https://pubs.acs.org/doi/10.1021/jm300501t)). La <mark style="color:blue;">Tabla 1</mark> resume diferentes bases de datos químicos y el tipo de información disponible en cada una de ellas.&#x20;

Acceder a estas bases de datos moleculares  permite comprender el contenido de un repositorio de datos e identificar relaciones numéricas, patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto ([Engel 2003](https://onlinelibrary.wiley.com/doi/abs/10.1002/3527601643.ch5)).

&#x20;**Tabla 1.** Páginas disponibles en línea para búsqueda y recuperación de información química.

<table><thead><tr><th width="157" align="center">Base de datos</th><th width="589" align="center">Tipo de información</th></tr></thead><tbody><tr><td align="center"></td><td align="center"><strong>Estructuras químicas y propiedades fisicoquímicas</strong></td></tr><tr><td align="center"><a href="https://www.cas.org/support/documentation/chemical-substances/faqs"><em>CAS Registry</em> </a></td><td align="center"><em>CAS Registry</em> contiene más de 167 millones de sustancias químicas orgánicas e inorgánicas únicas, como aleaciones, compuestos de coordinación, minerales, mezclas, polímeros y sales, y más de 68 millones de biosecuencias.</td></tr><tr><td align="center"><a href="http://www.chemspider.com/">ChemSpider</a></td><td align="center">Estructuras químicas de compuestos de interés y la predicción de muchos parámetros fisicoquímicos.</td></tr><tr><td align="center"></td><td align="center"><strong>Disponibilidad en el mercado</strong></td></tr><tr><td align="center"><a href="https://zinc15.docking.org/">ZINC</a></td><td align="center">Compuestos químicos disponibles en el mercado.</td></tr><tr><td align="center"><a href="https://www.emolecules.com/">eMolecules</a></td><td align="center">Contiene más de 6 millones de moléculas de proveedores comerciales, como Acros, Asinex, ChemBridge, ChemDiv, ComGenex, Enamine, Fluka, Key Organics, Maybridge, Otava, Sigma-Aldrich, y muchos más.</td></tr><tr><td align="center"></td><td align="center"><strong>Patentes</strong></td></tr><tr><td align="center"><a href="https://www.surechembl.org">SureChEMBL</a></td><td align="center">Productos químicos de patentes de texto completo.</td></tr><tr><td align="center"></td><td align="center"><strong>Diseño de fármacos/Información Biológica</strong></td></tr><tr><td align="center"><a href="https://pubchem.ncbi.nlm.nih.gov/">PubChem</a></td><td align="center">Sustancias, estructuras y datos de bioactividad.</td></tr><tr><td align="center"><a href="https://www.ebi.ac.uk/chembl/">ChEMBL</a></td><td align="center">Dianas moleculares, moléculas bioactivas con propiedades farmacéuticas.</td></tr><tr><td align="center"><a href="https://go.drugbank.com/">DRUGBANK</a></td><td align="center">Fármacos aprobados por la FDA* (moléculas pequeñas y biotecnológicos), nutracéuticos y fármacos en fase experimental con datos farmacológicos, ADME-Tox.**</td></tr><tr><td align="center"></td><td align="center"><strong>Otras</strong></td></tr><tr><td align="center"><a href="https://www.ebi.ac.uk/chebi/">ChEBI</a></td><td align="center">Base de datos y ontología de entidades químicas de interés biológico.</td></tr><tr><td align="center"><a href="https://www.rcsb.org/">Protein Data Bank (PDB)</a></td><td align="center">Datos sobre estructuras macromoleculares biológicas.</td></tr></tbody></table>

En las bases de datos químicas, existen varios tipos de búsquedas que permiten a los usuarios recuperar información específica. La <mark style="color:blue;">Figura 1</mark> muestra los tipos de búsquedas más frecuentes en bases de datos moleculares que son:&#x20;

* Búsqueda por nombre químico o formula molecular.
* Búsqueda por estructura (aquí pueden emplearse  las representaciones moleculares vistas en la [sección 3](https://difacquim.gitbook.io/quimioinformatica/3.-representacion-molecular)).
* Búsqueda por propiedades físicas o químicas.
* Búsqueda por similitud (p. ej. similitud estructural por huellas moleculares, o bien, por similitud de propiedades moleculares).
* Búsqueda por subestructura y/o superestructura.
* Búsqueda farmacofórica.
* Búsqueda por proveedor o por fuente.
* Búsqueda por actividad biológica, útil en el ámbito de la química farmacéutica para buscar compuestos en función de su actividad biológica, por ejemplo, compuestos con actividad antibacteriana o anticancerígena. &#x20;

La combinación de diferentes tipos de búsquedas puede ser útil para obtener resultados más precisos y relevantes. En las siguientes secciones se detalla el procedimiento para realizar búsquedas en las bases de datos más comúnmente utilizadas en la investigación para diseño de fármacos.

<figure><img src="https://4235622825-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FyzFDWCsANohM6QBx4kmk%2Fuploads%2FkVc0AwwBWR34RvMUUea4%2F2023-02-15%2011_30_33-Window.png?alt=media&#x26;token=1939e403-de2c-4815-92fe-0d9dcd1315bc" alt=""><figcaption><p><strong>Figura 1.</strong> Tipos de búsquedas de información química. </p></figcaption></figure>

En el campo de la quimioinformática, el acceso a bases de datos a través de servidores web se ha vuelto esencial para la investigación y el desarrollo de nuevos fármacos. Las API (Interfaces de Programación de Aplicaciones, por sus siglas en inglés) juegan un papel crucial en este proceso al permitir la comunicación entre diferentes sistemas informáticos y facilitar la extracción de datos con una serie de códigos de programación.

### <mark style="color:green;">**API**</mark>

Las API en quimioinformática proporcionan una interfaz estructurada y estandarizada que permite a los investigadores acceder a una variedad de bases de datos biomoleculares y químicas de manera eficiente. Estas API suelen ofrecer funciones para realizar consultas específicas, recuperar información detallada sobre compuestos químicos, proteínas, actividades biológicas, y más. Además, suelen estar respaldadas por documentación detallada que describe cómo utilizarlas y qué tipos de consultas se pueden realizar.

Una API es un conjunto de reglas y protocolos que permite que dos aplicaciones se comuniquen entre sí. En términos simples, una API define cómo los componentes de software deben interactuar.&#x20;

Su uso facilita la integración y la interoperabilidad entre sistemas diferentes. Además, proporcionan una capa de abstracción, lo que significa que un desarrollador puede interactuar con la funcionalidad de un sistema sin necesidad de conocer los detalles internos de su implementación. Para ejemplificar lo anterior, puede pensar en una API como un mesero en un restaurante, quien le atiende y toma su orden, esta última se la hace llegar al chef del restaurante con la solicitud, quien  prepara y entrega lo solicitado al mesero. Este lleva la comida ordenada y directamente a su mesa (ver <mark style="color:blue;">Figura 1</mark>).

<figure><img src="https://4235622825-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FyzFDWCsANohM6QBx4kmk%2Fuploads%2FMB7xX9dK8bYmzuMkaCyP%2FFiguras_gitbook%20(2).svg?alt=media&#x26;token=844fc7e9-890d-4b99-ab79-b9949594d5f6" alt=""><figcaption><p><em><strong>Figura 1.</strong> Analogía de una API con el proceso de solicitud de comida en un restaurante.</em> </p></figcaption></figure>

## <mark style="color:orange;">Para saber más:</mark>

* Bender A (2010) [Compound bioactivities go public](https://www.nature.com/articles/nchembio.354). *Nat Chem Bio*l. 6:309. doi: 10.1038/nchembio.354 &#x20;
* Engel T (2003) [Databases and data sources in Chemistry. In: Gasteiger J, Engel T (eds) Chemoinformatics](https://onlinelibrary.wiley.com/doi/abs/10.1002/3527601643.ch5), 1st edn. Wiley-VCH, Weinheim.
* Miller MA (2002) [Chemical database techniques in drug discovery](https://www.nature.com/articles/nrd745). *Nat Rev Drug Discov*. 1:220–227. doi: 10.1038/nrd745
* Nicola G, Liu T, Gilson MK (2012) [Public domain databases for Medicinal Chemistry](https://pubs.acs.org/doi/10.1021/jm300501t). *J. Med. Chem*. 55:6987-7002. doi: 10.1021/jm300501t
* Public Chemical Databases. <https://chem.libretexts.org/Courses/Intercollegiate_Courses/Cheminformatics/03%3A_Database_Resources_in_Cheminformatics/3.03%3A_Public_Chemical_Databases> Fecha de acceso: Diciembre de 2023.
