🗃️5. Construcción y curado de bases de datos moleculares
Last updated
Last updated
Construir bases de datos de compuestos con importancia biológica.
Conocer las características adecuadas que deben presentar las moléculas para subsiguientes estudios in silico.
Identificar las moléculas que pueden interferir en los cálculos computacionales.
Llevar a cabo el curado de bases de datos utilizando módulos y funciones de RDKit
y Molvs.
En química, como en muchas otras áreas, la cantidad de datos ha aumentado significativamente en los últimos años. Esto representa un reto para el manejo eficiente de los datos, obtención de información y generación de conocimiento (Fourches D et al., 2010 and López-López E et al., 2021). Los modelos predictivos como Relaciones Cuantitativas Estructura-Actividad (en inglés, Quantitative Structure Relationships, QSAR) dependen principalmente de los descriptores moleculares calculados (Tetko IV et al., 2008 y Zhu H et al., 2008), y a su vez los descriptores moleculares dependen de la representación molecular correcta (Fourches D et al., 2010). Ante esta necesidad, la construcción de bases de datos confiable, robusta y escalable puede ser una forma práctica de ordenar la información de acuerdo con los datos disponibles y los objetivos específicos de estudio.
La Figura 1 muestra una clasificación de la bases de datos de compuestos químicos de acuerdo a Chávez-Hernández et al. 2023 y Yang et al. 2019 como son: (1) bajo demanda cuyos protocolos de síntesis química están bien establecidos, lo cual facilita su adquisición; (2) compuestos con actividad biológica; (3) compuestos disponibles comercialmente; (4) bases de datos de productos naturales, (5) compuestos de referencia (en inglés benchmark), y (6) compuestos señuelo (en inglés decoy) y compuestos inactivos. Las bases de datos de tipo bechmark son compuestos químicos que tienen protocolos de curado de bases de datos bien establecidos, y por ende se usan de referencia para construir modelo predictivos. Los compuestos tipo decoy son inactivos contra una diana biológica, pero tienen propiedades fisicoquímicas muy similares a los compuestos de referencia.
Como se revisó en la sección de Bases de datos moleculares, DrugBank, ChEMBL y ZINC permiten descargar sus propias bases de datos con información sobre fármacos aprobados, fármacos en fase experimental, dianas moleculares, etc. Sin embargo, dichas bases no siempre están actualizadas, por lo que pueden ir enriqueciéndose con la nueva información publicada en libros o en artículos científicos. Un ejemplo de lo mencionado suele realizarse a principios de año, donde se hace una revisión de los fármacos aprobados para uso clínico en el año anterior. La información de nuevos fármacos puede encontrarse en revistas como Nature Reviews Drug Discovery y Chemical and Engeneering News. Una vez que se tiene esta información, las bases de datos públicas se actualizan para que, posteriormente, sean analizadas.
De igual forma, los grupos de investigación pueden llevar a cabo la construcción de bases de datos in house. Algunos ejemplos de bases de datos de productos naturales in house son IMPPAT (India), AfroDB (África), NuBBE y SistematX (Brazil), CIFPMA (Panama), PeruNPDB (Perú), BIOFACQUIM y UNIIQUIM (México).
Otras bases de datos son los compuestos tipo herramientas o sondas, que son muy importantes en el diseño de fármacos, pero no tienen aplicación terapéutica directa.
Chávez-Hernández AL, López-López E and Medina-Franco JL (2023) Yin-yang in drug discovery: rethinking de novo design and development of predictive models. Front. Drug Discov. 3:1222655.
Fourches D, Muratov E, Tropsha A (2010) Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research. J Chem Inf Model. 50:1189-204.
Fourches D, Muratov E, Tropsha A (2016) Trust, but verify II: A practical guide to chemogenomics data curation. J Chem Inf Model. 56:1243-52.
López-López E, Bajorath J, Medina-Franco JL (2021) Informatics for Chemistry, Biology, and Biomedical Sciences. J Chem Inf Model. 61:26-35.
Tetko IV, Sushko I, Pandey,AK, Zhu H, Tropsha A, Papa E, Oberg T, Todeschini R, Fourches D, Varnek A (2008) Critical Assessment of QSAR Models of Environmental Toxicity against Tetrahymena pyriformis: Focusing on Applicability Domain and Overfitting by Variable Selection. J. Chem. Inf. Model. 48:1733– 1746.
Yang J, Wang D, Jia C, Wang M, Hao G and Yang G (2019) Freely accessible chemical database resources of compounds for in silico drug discovery. Curr. Med. Chem. 26, 7581–7597.
Zhu H, Tropsha A, Fourches D, Varnek A, Papa E, Gramatica P, Oberg T, Dao P, Cherkasov A, Tetko IV (2008) Combinatorial QSAR Modeling of Chemical Toxicants Tested against Tetrahymena pyriformis. J. Chem. Inf. Model. 48:766–784.