💻
Quimioinformática
GitHub
  • 📖Quimioinformática aplicada al diseño de fármacos
  • 🔎1. Búsqueda de información química
    • 📑1.1 SciFinder-n
    • 📑1.2 Web of Science
    • 📑1.3 Scopus
    • 📑1.4 CAS Source Index (CASSI)
    • 📑1.5 Herramientas de visualización bibliométrica
  • 🐍2. Introducción a Python, Google Colab y Linux
    • 💻2.1 Fundamentos de programación
    • 🧹2.2 Manejo y limpieza de datos
    • 🐧2.3 Linux
      • 🪟2.3.1 Subsistema de Windows para Linux (WSL)
        • 👩‍💻2.3.1.1 Creación de usuarios
        • 🧑‍💻2.3.1.2 Selección de usuario de inicio por defecto
        • 🐍2.3.1.3 Instalación de Python, pip3 y VSCode desde WSL
        • 🔰2.3.1.4 Instalación de Anaconda desde WSL
        • ⚗️2.3.1.5 RDKit e instalación de ambientes
      • 👩‍✈️2.3.2 Comandos Linux
        • 📂2.3.2.1 Comandos de navegación
        • 💽2.3.2.2 Exploración y manipulación de archivos
    • 📚Recursos y ejercicios
  • 🧑‍🔬3. Representación molecular
    • 💻3.1 SMILES
    • 💻3.2 SMARTS
    • 💻3.3 InChI Keys
    • 📚Recursos y ejercicios
  • 🔎4. Bases de datos moleculares
    • 💊4.1 PubChem
      • 4.1.1 API
    • 💊4.2 ChEMBL
      • 4.2.1 API
    • 💊4.3 DrugBank
    • 💊4.4 ZINC
    • 💊4.5 ChemSpider
    • 📚Recursos y ejercicios
  • 🗃️5. Construcción y curado de bases de datos moleculares
    • 🧱5.1 Construcción de bases de datos
    • 🧹5.2 Curado de bases de datos
    • 📚Recursos y ejercicios
  • 📊6. Análisis y visualización de información química
    • ✍️6.1 Descriptores moleculares
      • 📈6.1.2 Principios para el Análisis de Bases de Datos Moleculares
      • 🔎6.1.3 Caso de estudio
    • ⚛️6.2 Espacio químico
      • 🎨6.2.1 Multiverso químico y "Chemical art gallery"
    • 📊Recursos y ejercicios
  • 🪞7. Similitud química
    • 🔢7.1 Representación molecular
    • 💱7.2 Función de similitud
    • 📉7.3 Estudios cuantitativos de relación estructura-actividad (QSAR)
    • 🏞️7.4 Panorama y acantilados de actividad
    • 📚Recursos y ejercicios
  • ⚗️8. Enumeración de bibliotecas químicas
    • 👩‍🔬8.1 Reacciones químicas
    • 👨‍🔬8.2 Reglas de transformación
    • 📚Recursos y ejercicios
  • 🔐9. Acoplamiento molecular
    • 9.1 LeDock
    • 9.2 AutoDock Vina
      • 📖9.2.1 Tutorial de acoplamiento
Powered by GitBook
On this page
  • 1. Funciones de similitud comunes
  • 2. Ejercicio de cálculo de similitud molecular.
  • 3. Para saber más:
  1. 7. Similitud química

7.2 Función de similitud

Previous7.1 Representación molecularNext7.3 Estudios cuantitativos de relación estructura-actividad (QSAR)

Last updated 1 year ago

Como tercer componente básico para consturir una medida computacional adecuada de similitud tenemos la función de similitud. Recordemos que una función de similitud o de distancia (concepto opuesto a similitud) transforma (o mapea) la información de las estructuras en una escala de valores reales en el intervalo [0, 1] ().

Hay muchas funciones de similitud entre dos vectores, la más común en general es la distancia Euclidiana. En el caso de las huellas digitales moleculares, el estándar industrial es el coeficiente de Tanimoto (). La Tabla 1 resume las funciones de similitud más comunmente empleadas para cuantificar la similitud química.

Tabla 1. Ejemplos de funciones de similitud.

A y B corresponden a las representaciones de dos compuestos. M es igual a la cantidad total de bits presentados en la representación, a es la cantidad de bits establecidos en 1 de A, b es igual a la cantidad de bits establecidos en 1 de B y c es igual a la cantidad de bits establecidos en 1 de A y B. Recuperado de ().

1. Funciones de similitud comunes

1.1 Coeficiente de Tanimoto o de Jaccard

Si queremos comparar la similitud entre más de una estructura química, podemos almacenar los resultados de similitud en una matriz (Figura 2).

1.2 Distancia euclidiana

1.3 Distancia de Manhattan o de Hamming

1.4 Coeficiente de Dice

1.5 Similitud coseno

1.6 Coeficiente Russell-RAO

1.7 Coeficiente Forbes

1.8 Distancia Soergel

La Tabla 2 resume las funciones de similitud de forma extendida.

Tabla 2. Funciones de similitud con expresiones extendidas.

2. Ejercicio de cálculo de similitud molecular.

El primer paso es obtener la base de datos de interés y la representación molecular a emplear. En este ejemplo se emplearon SMILES canónicos (Figura 3).

Como segundo paso, se define la métrica a emplear y se desarrolla la matriz de similitud con el cálculo necesario. Con fines prácticos se empleó como métrica el Coeficiente de Tanimoto y se determinó por pares (Figura 4).

Como punto final, se emplean librerías gráficas para generar una representación visual de la matriz previamente establecida (Figura 5).

3. Para saber más:

En la secciones siguientes se describen las funciones de similitud más empleadas en quimioinformática ().

Se define como la suma de las características comunes presentes en ambas estructuras (c), sobre el total de características presentes únicamente en a y b, menos las características comunes (c) (Figura 1). La facilidad de implementación y la velocidad es la razón principal por la que un coeficiente de Tanimoto se convierte en la medida de similitud más popular en el contexto de la informática química y la química medicinal computacional (). El coeficiente de Tanimoto varía entre 0 (sin subestructuras comunes) y 1 (moléculas con la misma representación molecular).

Figura 1. Ejemplificación del cálculo del coeficiente de Tanimoto entre dos estructuras químicas.
Figura 2. Matriz de similitud entre cuatro estructuras químicas (matriz 4x4).

Esta función de similitud es un coeficiente de distancia que se ha empleado para cuantificar el grado de disimilitud entre dos moléculas. Calcula la distancia entre dos puntos en un espacio de alta dimensión que representa las huellas digitales moleculares de dos moléculas. Varía de 0 (puntos idénticos) a infinito (puntos completamente diferentes). Es efectiva en la identificación de ausencias comunes de características como evidencia de similitud. Es muy util para la medición de similitud entre datos densos tales como series de tiempo o puntos bidimensiones. Se ha reportado que está función sigue siendo la más común, ya sea para datos continuos o datos de conteo ().

Es una función de similitud igual de efectiva que la distancia eucidiana. Es equivalente a la raiz cuadrada de la distancia Euclidiana para datos binarios ().

Mide la similitud directamente como el coeficiente de Tanimoto, se calcula como el doble del número de subestructuras comunes entre dos moléculas dividido por la suma de subestructuras en ambas moléculas. También varía de 0 a 1 ().

Esta medida calcula el coseno del ángulo entre dos vectores que representan las huellas digitales moleculares de dos moléculas. Comparado con el coeficiente de Tanimoto y Dice, esta función de similitud es empleada comúnmente para medir la similitud entre datos escasos (como documentos o datos binarios). Adicionalmente, este coeficiente permite el cálculo de la similitud promedio entre todos los pares de compuestos en el conjunto de datos de forma rápida, lo cúal es imposible al usar el coeficiente de Tanimoto ().

Toma en consideración emparejamientos negativos. Este coeficiente es usado para variables dicotómicas (). Es complementaria al coeficiente Forbes ().

Esta métrica es opuesta y completamente complementaria al coeficiente de Russell-RAO. Adempas, está sesgado hacia estructuras pequeñas en una búsqueda de similitud ().

Este coeficiente es el complemento del coeficiente de Tanimoto. Es para variables dicotómicas ().

Revisaremos cómo determinar una matriz de similitud de una base de datos de compuestos reportados con actividad inhibitoria contra G9a, una lisín-metil transferasa de histonas que ha sido identificada como un blanco epigenetico de importancia. Cuya sobreexpresión se ha asociado a multiples enfermedades tales como cáncer, diabetes mellitus tipo 2, adicción a la cocaina, etc ().

Lo descrito anteriormente está ejemplificado y desarrollado en Python en el repositorio disponible en la sección

Bero SA, Muda AK, Choo YH, Muda NA, Pratama SF. 2017. . J. Phys.: Conf. Ser. 892:012015.

Cedillo-González R, Medina-Franco JL (2023) ACS Omega 8 (33): 30694–704.

Holliday JD, Salim N, Whittle M, Willett P (2003) . J. Chem. Inf. Model. 43:819–28.

Kok-Seng W, Myung HK (2013) . Computers & Mathematics with Applications 65:1280–90.

Maggiora G, Vogt M, Stumpfe D, Bajorath J (2014) . J Med Chem. 57: 3186–3204. doi: 10.1021/jm401411z.

Willett P, Barnard JM, Downs GM (1998) . J. Chem. Inf. Model. 38:983–96.

🪞
💱
Bero et al. 2017
Bero et al. 2017
Bero et al. 2017
Bero et al. 2017
Bero et al. 2017
Bero et al. 2017
Kok-Seng and Myung, 2013
Holliday et al, 2003
Holliday et al, 2003
Willett et al, 1998
Cedillo-González R, Medina-Franco JL, 2023
Recursos y ejercicios.
Similarity Measure for Molecular Structure: A Brief Review
Diversity and Chemical Space Characterization of Inhibitors of the Epigenetic Target G9a: A Chemoinformatics Approach.
Analysis and Display of the Size Dependence of Chemical Similarity Coefficients
Privacy-Preserving Similarity Coefficients for Binary Data
Molecular Similarity in Medicinal Chemistry
Chemical Similarity Searching
Maggiora et al., 2014
Cereto-Massagué et al, 2015
Cereto-Massagué et al, 2015
Figura 3. Marco de datos de compuestos asociados a G9a.
Figura 4. Matriz de similitud de 436x436 entradas.
Figura 5. Mapa de calor que representa la similitud entre los 436 compuestos de la base de datos preestablecida.