# 5. Construcción y curado de bases de datos moleculares

## <mark style="color:orange;">Objetivos</mark>

* Construir bases de datos de compuestos con importancia biológica.
* Conocer las características adecuadas que deben presentar las moléculas para subsiguientes estudios *in silico.*
* Identificar las moléculas que pueden interferir en los cálculos computacionales.&#x20;
* Llevar a cabo el curado de bases de datos utilizando módulos y funciones de `RDKit` y `Molvs.`

## <mark style="color:orange;">Introducción</mark>

En química, como en muchas otras áreas, la cantidad de datos ha aumentado significativamente en los últimos años. Esto representa un reto para el manejo eficiente de los datos, obtención de información y  generación de conocimiento ([Fourches D et al., 2010](https://pubs.acs.org/doi/10.1021/ci100176x) and [López-López E et al., 2021](https://pubs.acs.org/doi/abs/10.1021/acs.jcim.0c01301)). Los modelos predictivos como Relaciones Cuantitativas Estructura-Actividad (en inglés, *Quantitative Structure Relationships*, QSAR) dependen principalmente de los descriptores moleculares calculados ([Tetko IV et al., 2008](https://pubs.acs.org/doi/10.1021/ci800151m) y [Zhu H et al., 2008](https://pubs.acs.org/doi/10.1021/ci700443v)), y a su vez los descriptores moleculares dependen de la representación molecular correcta ([Fourches D et al., 2010](https://pubs.acs.org/doi/10.1021/ci100176x)). Ante esta necesidad, la construcción de bases de datos confiable, robusta y escalable puede ser una forma práctica de ordenar la información de acuerdo con los datos disponibles y los objetivos específicos de estudio.&#x20;

La <mark style="color:blue;">**Figura 1**</mark> muestra una clasificación de la bases de datos de compuestos químicos de acuerdo a  [Chávez-Hernández et al. 2023](https://www.frontiersin.org/articles/10.3389/fddsv.2023.1222655/full) y [Yang et al. 2019](https://www.eurekaselect.com/article/90251) como son:  (1) bajo demanda cuyos protocolos de síntesis química están bien establecidos, lo cual facilita su adquisición; (2) compuestos con actividad biológica; (3) compuestos disponibles comercialmente; (4) bases de datos de productos naturales, (5) compuestos de referencia (en inglés *benchmark*), y (6) compuestos señuelo (en inglés *decoy)* y compuestos inactivos. Las bases de datos de tipo *bechmark* son compuestos químicos que tienen protocolos de curado de bases de datos bien establecidos, y por ende se usan de referencia para construir modelo predictivos. Los compuestos tipo *decoy* son inactivos contra una diana biológica, pero tienen propiedades fisicoquímicas muy similares a los compuestos de referencia.

<figure><img src="https://4235622825-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FyzFDWCsANohM6QBx4kmk%2Fuploads%2Fox8GnufPX2pdimxLJ9SM%2FFiguras_gitbook.svg?alt=media&#x26;token=491cada8-fbdc-4424-a044-47d8048c7fdd" alt=""><figcaption><p>Figura 1: Clasificación de bases de datos de compuestos químicos. Adaptado de Chávez-Hernández AL et al. (2023) Front. Drug Discov. 3:1222655.</p></figcaption></figure>

Como se revisó en la sección de [Bases de datos moleculares](https://difacquim.gitbook.io/quimioinformatica/4.-bases-de-datos-moleculares), DrugBank, ChEMBL y ZINC permiten descargar sus propias bases de datos con información sobre fármacos aprobados, fármacos en fase experimental, dianas moleculares, etc. Sin embargo, dichas bases no siempre están actualizadas, por lo que pueden ir enriqueciéndose con la nueva información publicada en libros o en artículos científicos. Un ejemplo de lo mencionado suele realizarse a principios de año, donde se hace una revisión de los fármacos aprobados para uso clínico en el año anterior. La información de nuevos fármacos puede encontrarse en revistas como [*Nature Reviews Drug Discovery*](https://www.nature.com/nrd/) y [*Chemical and Engeneering News*](https://cen.acs.org/index.html). Una vez que se tiene esta información, las bases de datos públicas se actualizan para que, posteriormente, sean analizadas.

De igual forma, los grupos de investigación pueden llevar a cabo la construcción de bases de datos *in house.* Algunos ejemplos de bases de datos de productos naturales *in house* son [IMPPAT](https://cb.imsc.res.in/imppat/help) (India), [AfroDB](https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0078085) (África), [NuBBE ](https://nubbe.iq.unesp.br/portal/nubbe-search.html)y [SistematX ](https://sistematx.ufpb.br)(Brasil), [CIFPMA](https://www.intechopen.com/chapters/68385) (Panama), [PeruNPDB ](https://perunpdb.com.pe/)(Perú), [BIOFACQUIM](https://f1000research.com/articles/8-2071/v2) y [UNIIQUIM](https://uniiquim.iquimica.unam.mx/) (México).

Otras bases de datos son los compuestos tipo herramientas o sondas, que son muy importantes en el diseño de fármacos, pero no tienen aplicación terapéutica directa.&#x20;

## <mark style="color:orange;">**Para saber más:**</mark>

* Chávez-Hernández AL, López-López E and Medina-Franco JL (2023) [Yin-yang in drug discovery: rethinking *de novo* design and development of predictive models](https://www.frontiersin.org/articles/10.3389/fddsv.2023.1222655/full). *Front. Drug Discov.* 3:1222655.
* Fourches D, Muratov E, Tropsha A (2010) [Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research](https://doi.org/10.1021/ci100176x). *J Chem Inf Model.* 50:1189-204.&#x20;
* Fourches D, Muratov E, Tropsha A (2016) [Trust, but verify II: A practical guide to chemogenomics data curation](https://doi.org/10.1021/acs.jcim.6b00129). *J Chem Inf Model.* 56:1243-52.&#x20;
* López-López E, Bajorath J, Medina-Franco JL (2021) [Informatics for Chemistry, Biology, and Biomedical Sciences](https://pubs.acs.org/doi/abs/10.1021/acs.jcim.0c01301). *J Chem Inf Model.* 61:26-35.&#x20;
* Tetko IV, Sushko I, Pandey,AK, Zhu H, Tropsha A, Papa E, Oberg T, Todeschini R, Fourches D, Varnek A (2008) [Critical Assessment of QSAR Models of Environmental Toxicity against Tetrahymena pyriformis: Focusing on Applicability Domain and Overfitting by Variable Selection](https://pubs.acs.org/doi/10.1021/ci800151m). *J. Chem. Inf. Model.* 48:1733– 1746.
* Yang J, Wang D, Jia C, Wang M, Hao G and Yang G (2019) [Freely accessible chemical database resources of compounds for *in silico* drug discovery](https://www.eurekaselect.com/article/90251). *Curr. Med. Chem.* 26, 7581–7597.&#x20;
* Zhu H, Tropsha A, Fourches D, Varnek A, Papa E, Gramatica P, Oberg T, Dao P, Cherkasov A, Tetko IV (2008) [Combinatorial QSAR Modeling of Chemical Toxicants Tested against Tetrahymena pyriformis](https://pubs.acs.org/doi/10.1021/ci700443v). *J. Chem. Inf. Model.* 48:766–784.