💱7.2 Función de similitud

Como tercer componente básico para consturir una medida computacional adecuada de similitud tenemos la función de similitud. Recordemos que una función de similitud o de distancia (concepto opuesto a similitud) transforma (o mapea) la información de las estructuras en una escala de valores reales en el intervalo [0, 1] (Maggiora et al., 2014).

Hay muchas funciones de similitud entre dos vectores, la más común en general es la distancia Euclidiana. En el caso de las huellas digitales moleculares, el estándar industrial es el coeficiente de Tanimoto (Cereto-Massagué et al, 2015). La Tabla 1 resume las funciones de similitud más comunmente empleadas para cuantificar la similitud química.

Tabla 1. Ejemplos de funciones de similitud.

En la secciones siguientes se describen las funciones de similitud más empleadas en quimioinformática (Bero et al. 2017).

1. Funciones de similitud comunes

1.1 Coeficiente de Tanimoto o de Jaccard

Se define como la suma de las características comunes presentes en ambas estructuras (c), sobre el total de características presentes únicamente en a y b, menos las características comunes (c) (Figura 1). La facilidad de implementación y la velocidad es la razón principal por la que un coeficiente de Tanimoto se convierte en la medida de similitud más popular en el contexto de la informática química y la química medicinal computacional (Bero et al. 2017). El coeficiente de Tanimoto varía entre 0 (sin subestructuras comunes) y 1 (moléculas con la misma representación molecular).

Si queremos comparar la similitud entre más de una estructura química, podemos almacenar los resultados de similitud en una matriz (Figura 2).

1.2 Distancia euclidiana

Esta función de similitud es un coeficiente de distancia que se ha empleado para cuantificar el grado de disimilitud entre dos moléculas. Calcula la distancia entre dos puntos en un espacio de alta dimensión que representa las huellas digitales moleculares de dos moléculas. Varía de 0 (puntos idénticos) a infinito (puntos completamente diferentes). Es efectiva en la identificación de ausencias comunes de características como evidencia de similitud. Es muy util para la medición de similitud entre datos densos tales como series de tiempo o puntos bidimensiones. Se ha reportado que está función sigue siendo la más común, ya sea para datos continuos o datos de conteo (Bero et al. 2017).

1.3 Distancia de Manhattan o de Hamming

Es una función de similitud igual de efectiva que la distancia eucidiana. Es equivalente a la raiz cuadrada de la distancia Euclidiana para datos binarios (Bero et al. 2017).

1.4 Coeficiente de Dice

Mide la similitud directamente como el coeficiente de Tanimoto, se calcula como el doble del número de subestructuras comunes entre dos moléculas dividido por la suma de subestructuras en ambas moléculas. También varía de 0 a 1 (Bero et al. 2017).

1.5 Similitud coseno

Esta medida calcula el coseno del ángulo entre dos vectores que representan las huellas digitales moleculares de dos moléculas. Comparado con el coeficiente de Tanimoto y Dice, esta función de similitud es empleada comúnmente para medir la similitud entre datos escasos (como documentos o datos binarios). Adicionalmente, este coeficiente permite el cálculo de la similitud promedio entre todos los pares de compuestos en el conjunto de datos de forma rápida, lo cúal es imposible al usar el coeficiente de Tanimoto (Bero et al. 2017).

1.6 Coeficiente Russell-RAO

Toma en consideración emparejamientos negativos. Este coeficiente es usado para variables dicotómicas (Kok-Seng and Myung, 2013). Es complementaria al coeficiente Forbes (Holliday et al, 2003).

1.7 Coeficiente Forbes

Esta métrica es opuesta y completamente complementaria al coeficiente de Russell-RAO. Adempas, está sesgado hacia estructuras pequeñas en una búsqueda de similitud (Holliday et al, 2003).

1.8 Distancia Soergel

Este coeficiente es el complemento del coeficiente de Tanimoto. Es para variables dicotómicas (Willett et al, 1998).

La Tabla 2 resume las funciones de similitud de forma extendida.

Tabla 2. Funciones de similitud con expresiones extendidas.

2. Ejercicio de cálculo de similitud molecular.

Revisaremos cómo determinar una matriz de similitud de una base de datos de compuestos reportados con actividad inhibitoria contra G9a, una lisín-metil transferasa de histonas que ha sido identificada como un blanco epigenetico de importancia. Cuya sobreexpresión se ha asociado a multiples enfermedades tales como cáncer, diabetes mellitus tipo 2, adicción a la cocaina, etc (Cedillo-González R, Medina-Franco JL, 2023).

El primer paso es obtener la base de datos de interés y la representación molecular a emplear. En este ejemplo se emplearon SMILES canónicos (Figura 3).

Como segundo paso, se define la métrica a emplear y se desarrolla la matriz de similitud con el cálculo necesario. Con fines prácticos se empleó como métrica el Coeficiente de Tanimoto y se determinó por pares (Figura 4).

Como punto final, se emplean librerías gráficas para generar una representación visual de la matriz previamente establecida (Figura 5).

Lo descrito anteriormente está ejemplificado y desarrollado en Python en el repositorio disponible en la sección Recursos y ejercicios.

3. Para saber más:

Bero SA, Muda AK, Choo YH, Muda NA, Pratama SF. 2017. Similarity Measure for Molecular Structure: A Brief Review. J. Phys.: Conf. Ser. 892:012015.
Cedillo-González R, Medina-Franco JL (2023) Diversity and Chemical Space Characterization of Inhibitors of the Epigenetic Target G9a: A Chemoinformatics Approach. ACS Omega 8 (33): 30694–704.
Holliday JD, Salim N, Whittle M, Willett P (2003) Analysis and Display of the Size Dependence of Chemical Similarity Coefficients. J. Chem. Inf. Model. 43:819–28.
Kok-Seng W, Myung HK (2013) Privacy-Preserving Similarity Coefficients for Binary Data. Computers & Mathematics with Applications 65:1280–90.
Maggiora G, Vogt M, Stumpfe D, Bajorath J (2014) Molecular Similarity in Medicinal Chemistry. J Med Chem. 57: 3186–3204. doi: 10.1021/jm401411z.
Willett P, Barnard JM, Downs GM (1998) Chemical Similarity Searching. J. Chem. Inf. Model. 38:983–96.

Previous7.1 Representación molecular Next7.3 Estudios cuantitativos de relación estructura-actividad (QSAR)

Last updated 1 year ago

hashtag1. Funciones de similitud comunes

hashtag1.1 Coeficiente de Tanimoto o de Jaccard

hashtag1.2 Distancia euclidiana

hashtag1.3 Distancia de Manhattan o de Hamming

hashtag1.4 Coeficiente de Dice

hashtag1.5 Similitud coseno

hashtag1.6 Coeficiente Russell-RAO

hashtag1.7 Coeficiente Forbes

hashtag1.8 Distancia Soergel

hashtag2. Ejercicio de cálculo de similitud molecular.

hashtag3. Para saber más: