🧱5.1 Construcción de bases de datos

El punto clave de la construcción de bases de datos es definir los objetivos y criterios para la información que va a ser recolectada. Es decir, el usuario debe identificar cuáles son las características principales que desea implementar en la base de datos.

Preguntas que deben ser respondidas antes de empezar la construcción de una base de datos son las siguientes:

¿Qué tipo de compuestos debe contener?
¿Qué tipo de parámetros serán analizados?
¿Se puede conseguir la información a partir de bases de datos públicas? De lo contrario, ¿debe construirse desde cero?

1. Caso de estudio

Por ejemplo, digamos que el usuario tiene el objetivo de comenzar a construir una base de datos relacionada a medicamentos que son usados en el ámbito de la salud mental. Existen diferentes formas de abordar esta tarea. A continuación, se revisarán una serie de recomendaciones generales.

1.1 Revisión de literatura

La primera recomendación es revisar la literatura científica sobre el tipo de compuestos esperamos encontrar o cuales se están usando actualmente. Puede consultar la sección de Búsqueda de información química para obtener mayor detalles.

Consultado referencias bibliográficas y literatura sobre el tema en este caso, medicinas usadas en el ámbito de la salud mental podemos adentrarnos al tema y responder preguntas básicas:

¿Qué medicamentos se usan actualmente?
¿Cuál es el mecanismo de estos medicamentos? Es decir, ¿sobre qué objetivos biológicos tienen su efecto terapéutico?

A partir de aquí, el usuario cuenta con un parámetro de selección que puede establecer para definir qué tipos de compuestos incluirá o no en la base de datos. Posteriormente, deberá elegir el método con el cual se agregarán esos compuestos. Es decir, ¿existe alguna base de datos pública que cumpla con el parámetro de elección? De no ser así, ¿el usuario puede construir la base de datos a partir de distintas fuentes?

1.2 Construcción desde cero

A continuación, se mostrará un ejemplo de cómo pueden obtenerse componentes de forma individual para construirla desde cero.

Siguiendo con la revisión de literatura referente al desarrollo de inhibidores de fosfodiesterasas, se encuentra el artículo New Selective Phosphodiesterase 4D Inhibitors Differently Acting on Long, Short, and Supershort Isoforms. En este artículo se reporta la síntesis de una serie de compuestos análogos al rolipram, compuesto con efectos antidepresivos (Figura 1).

El objetivo del usuario es crear una base de datos con estos compuestos. El tipo de información esencial para cualquier base de datos es el nombre o ID del compuesto y su representación en notación SMILES.

Esto puede hacerse de diferentes formas:

Construir las moléculas con un editor de estructuras químicas.
Buscar directamente el nombre y/o representación de las moléculas.
Utilizar un software para convertir compuestos de formato de imagen a una representación lineal, por ejemplo, SMILES.

En este caso en particular, no se cuenta con las representaciones y/o nombres en particular de cada compuesto así que usaremos un editor de estructuras químicas (Marvin Sketch); pero el usuario es libre de elegir otro software.

La base de los compuestos es la siguiente:

Comencemos con la recopilación de compuestos.

Primer compuesto.

Representación SMILES: [H]\C(=N/OCC(O)CNN1CCCC1)C1=CC(OC2CCCC2)=C(OC)C=C1.

Compuestos derivados

Se repite el proceso para los compuestos derivados.

Representación SMILES: [H]\C(=N/OCC(O)CNN1CCCCC1)C1=CC(OC2CCCC2)=C(OC)C=C1.

Con esta información, el usuario procede a almacenar la información en una hoja de cálculo.

Este ejemplo se realizó con solo cinco compuestos, pero el usuario define la cantidad de compuestos que estarán en la base de datos.

Una vez que el usuario terminó de recopilar la información en la hoja de cálculo, debemos guardar el archivo en formato csv (delimitado por comas) para su posterior manejo.

Si cargamos nuestro archivo en formato csv y lo guardamos en nuestra carpeta de trabajo, podemos visualizar la información que hemos recopilado.

import numpy as np
import pandas as pd

# For database in .csv
df = pd.read_csv("EjemploBasedeDatos.csv")
df

Es importante mencionar que el usuario puede elegir distintas formas de construir la base de datos. Es decir, el usuario con base en los criterios de selección previamente establecidos debe elegir entre distintas maneras de obtener compuestos. A continuación, se presentarán algunas alternativas que pueden ser útiles.

1.3 Uso de SciFinder para la recopilación de compuestos

En el buscador de SciFinder, ingresamos el nombre del artículo que elegimos en la Sección 1.2.

A continuación, seleccionamos el artículo e ingresamos a la sección de "Substances".

Para este artículo en específico, se encontraron 75 resultados de diferentes compuestos. Es importante mencionar que no todos los compuestos deben ser agregados a la base de datos. El usuario debe seleccionar con cuidado qué compuestos deben ser agregados o no.

Una facilidad que otorga SciFinder es que podemos acceder directamente a la representación de los compuestos que se encuentran dentro del artículo. Es decir, a diferencia del método utilizado en la seción 1.2 en donde el usuario dibujaba sus propias estructuras, con SciFinder podemos obtener directamente tanto el nombre como la representación en formato SMILES. Para obtener el nombre del compuesto así como su representación tipo SMILES, ingresar a la sección denominada 'Other Names and Identifiers'.

El usuario puede descargar todos los resultados en formato 'xlsx' (es decir, hoja de cálculo) y desde el archivo de excel modificar las entradas que desee para solo quedarse con los compuestos que cumpla con los criterios de selección.

1.4 Servidores para dibujar moléculas a partir de imágenes

DECIMER es una aplicación web para extraer estructuras químicas de archivos en pdf. Sólo tiene que cargar un documento pdf, una o varias imágenes que contengan representaciones de estructuras químicas. Si se carga un documento pdf, se utiliza DECIMER Segmentation para detectar y segmentar todas las representaciones de estructuras químicas. Las representaciones de estructuras químicas detectadas o cargadas se procesan utilizando el motor OCSR de DECIMER V2. Las representaciones de estructuras químicas y la correspondiente representación SMILES se presentan más arriba. Además, las estructuras químicas se pueden editar según sus necesidades del usuario utilizando el editor de estructuras químicas de Ketcher y, antes de descargar las imágenes segmentadas y los archivos mol correspondientes. Además, los nombres IUPAC de las estructuras químicas pueden resolverse utilizando STOUT V2.

Para saber más:

DECIMER. Recuperado el 16 de octubre de 2023 de https://decimer.ai/.
Rajan K, Brinkhaus HO, Agea MI, Zielesny A, Steinbeck C (2023) DECIMER.ai - An open platform for automated optical chemical structure identification, segmentation and recognition in scientific publications. ChemRxiv. doi: 10.26434/chemrxiv-2023-xhcx9.
Rajan K, Zielesny A and Steinbeck C (2021) STOUT: SMILES to IUPAC names using neural machine translation. J Cheminform 13:34.
Saldívar González FI, Chávez Ponce de León DE, López López E, Francisco Hernández L, Lira Rocha A, Medina Franco JL (2028) Manual de Quimioinformática. UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO pp 18-26.

Previous5. Construcción y curado de bases de datos moleculares Next5.2 Curado de bases de datos

Last updated 9 months ago

hashtag1. Caso de estudio

hashtag1.1 Revisión de literatura

hashtag1.2 Construcción desde cero

hashtag1.3 Uso de SciFinder para la recopilación de compuestos

hashtag1.4 Servidores para dibujar moléculas a partir de imágenes

hashtagPara saber más: