📚Recursos y ejercicios
Last updated
Last updated
En el siguiente cuaderno de código se ilustran diversos ejercicios para la obtención información química de la base de datos PubChem.
Identifique compuestos que contienen la palabra “benzylpiperidine” como parte de su nombre. Para realizar esta búsqueda se pueden establecer los siguientes criterios:
input = "compund/name/{name}"
operation = "cids"
output = "txt"
options= ?name_type=word
a) Indique la URL para realizar esta búsqueda:
b) Utilice la función len para saber cuántos compuestos se obtienen con esta búsqueda e indique el número obtenido:
c) Corrobore esta información entrando a Entrez (https://www.ncbi.nlm.nih.gov/pccompound/) en búsqueda avanzada y usando el índice [synonym]. Muestre una captura de pantalla de su búsqueda.
Obtenga un archivo csv con los SMILES canónicos de al menos 5 compuestos identificados en el punto anterior. Adicionalmente, puede agregar otras propiedades (revisar el siguiente link para seleccionar propiedades moleculares https://pubchem.ncbi.nlm.nih.gov/docs/pug-rest#section=Compound-Property-Tables)
a) Desglose su búsqueda e indique el input, operation y output:
b) Indique la URL para realizar esta búsqueda:
Busque compuestos con similitud mayor a 85% del siguiente SMILES: CC1CC2=C(C3(N1)C4=C(C=CC(=C4)Cl)NC3=O)NC5=CC(=C(C=C25)F)Cl
a) Desglose su búsqueda e indique el input, operation y output:
b) Indique la URL para realizar esta búsqueda.
Realice una búsqueda de compuestos que contengan como subestructura una de las estructuras privilegiadas definida en los ejercicios de representación molecular. En caso de filtrarse compuestos erróneos, corregir el SMARTS de consulta.
a) Desglose su búsqueda. Indique el input, operation y output.
b) Indique la URL para realizar esta búsqueda.
c) Muestre ejemplos de los compuestos identificados-
En el siguiente cuaderno de código se ilustran diversos ejercicios para la obtención información química de la base de datos ChEMBL.
Realiza las siguientes búsquedas, considerando que cada punto no es secuencial:
A partir del nombre “ibuprofeno”, obtén la información asociada al nombre preferido, el ID de ChEMBL, los sinónimos de la molécula, la fase clínica máxima, la clasificación ATC, la información asociada a la estructura molecular y la información asociada a las propiedades moleculares.
¿Cuántas moléculas en ChEMBL contienen la subestructura correspondiente a la quinazolina (SMILES: C1=CC=C2C(=C1)C=NC=N2)?
Identifica la cantidad de las moléculas que tienen más del 75% de similitud con el naproxeno, así cómo la/las moléculas con mayor similitud.
¿Cuántas moléculas se encuentran en fase clínica 3 considerando todo ChEMBL?
¿Cuántas moléculas están catalogadas como NO bioterapeuticas considerando todo ChEMBL?
Ejercicio global:
Selecciona un blanco molecular de tu interés, preferiblemente una proteína.
Obtén el ID de ese blanco a través de UniProt.
Obtén los blancos moleculares asociados a ese ID de Uniprot empleando la API.
Descarga los datos de actividad asociados a los target_chembl_id obtenidos en el paso anterior, considerando únicamente las siguientes columnas: "molecule_chembl_id", "canonical_smiles", "standard_value", "standard_units", "target_chembl_id" y "target_organism".
Utilizando los "molecule_chembl_id" obtenidos, recopila la información molecular de todas las entradas previamente obtenidas y genera un DataFrame.
Aplica los siguientes filtros al DataFrame resultante:
- Elimina los duplicados basados en los SMILES canónicos.
- Conserva las moléculas que no violen ninguna de las cinco reglas de Lipinski.