💱7.2 Función de similitud

Como tercer componente básico para consturir una medida computacional adecuada de similitud tenemos la función de similitud. Recordemos que una función de similitud o de distancia (concepto opuesto a similitud) transforma (o mapea) la información de las estructuras en una escala de valores reales en el intervalo [0, 1] (Maggiora et al., 2014).

Hay muchas funciones de similitud entre dos vectores, la más común en general es la distancia Euclidiana. En el caso de las huellas digitales moleculares, el estándar industrial es el coeficiente de Tanimoto (Cereto-Massagué et al, 2015). La Tabla 1 resume las funciones de similitud más comunmente empleadas para cuantificar la similitud química.

Tabla 1. Ejemplos de funciones de similitud.

A y B corresponden a las representaciones de dos compuestos. M es igual a la cantidad total de bits presentados en la representación, a es la cantidad de bits establecidos en 1 de A, b es igual a la cantidad de bits establecidos en 1 de B y c es igual a la cantidad de bits establecidos en 1 de A y B. Recuperado de (Cereto-Massagué et al, 2015).

En la secciones siguientes se describen las funciones de similitud más empleadas en quimioinformática (Bero et al. 2017).

1. Funciones de similitud comunes

1.1 Coeficiente de Tanimoto o de Jaccard

Se define como la suma de las características comunes presentes en ambas estructuras (c), sobre el total de características presentes únicamente en a y b, menos las características comunes (c) (Figura 1). La facilidad de implementación y la velocidad es la razón principal por la que un coeficiente de Tanimoto se convierte en la medida de similitud más popular en el contexto de la informática química y la química medicinal computacional (Bero et al. 2017). El coeficiente de Tanimoto varía entre 0 (sin subestructuras comunes) y 1 (moléculas con la misma representación molecular).

Figura 1. Ejemplificación del cálculo del coeficiente de Tanimoto entre dos estructuras químicas.

Si queremos comparar la similitud entre más de una estructura química, podemos almacenar los resultados de similitud en una matriz (Figura 2).

Figura 2. Matriz de similitud entre cuatro estructuras químicas (matriz 4x4).

1.2 Distancia euclidiana

Esta función de similitud es un coeficiente de distancia que se ha empleado para cuantificar el grado de disimilitud entre dos moléculas. Calcula la distancia entre dos puntos en un espacio de alta dimensión que representa las huellas digitales moleculares de dos moléculas. Varía de 0 (puntos idénticos) a infinito (puntos completamente diferentes). Es efectiva en la identificación de ausencias comunes de características como evidencia de similitud. Es muy util para la medición de similitud entre datos densos tales como series de tiempo o puntos bidimensiones. Se ha reportado que está función sigue siendo la más común, ya sea para datos continuos o datos de conteo (Bero et al. 2017).

1.3 Distancia de Manhattan o de Hamming

Es una función de similitud igual de efectiva que la distancia eucidiana. Es equivalente a la raiz cuadrada de la distancia Euclidiana para datos binarios (Bero et al. 2017).

1.4 Coeficiente de Dice

Mide la similitud directamente como el coeficiente de Tanimoto, se calcula como el doble del número de subestructuras comunes entre dos moléculas dividido por la suma de subestructuras en ambas moléculas. También varía de 0 a 1 (Bero et al. 2017).

1.5 Similitud coseno

Esta medida calcula el coseno del ángulo entre dos vectores que representan las huellas digitales moleculares de dos moléculas. Comparado con el coeficiente de Tanimoto y Dice, esta función de similitud es empleada comúnmente para medir la similitud entre datos escasos (como documentos o datos binarios). Adicionalmente, este coeficiente permite el cálculo de la similitud promedio entre todos los pares de compuestos en el conjunto de datos de forma rápida, lo cúal es imposible al usar el coeficiente de Tanimoto (Bero et al. 2017).

1.6 Coeficiente Russell-RAO

Toma en consideración emparejamientos negativos. Este coeficiente es usado para variables dicotómicas (Kok-Seng and Myung, 2013). Es complementaria al coeficiente Forbes (Holliday et al, 2003).

1.7 Coeficiente Forbes

Esta métrica es opuesta y completamente complementaria al coeficiente de Russell-RAO. Adempas, está sesgado hacia estructuras pequeñas en una búsqueda de similitud (Holliday et al, 2003).

1.8 Distancia Soergel

Este coeficiente es el complemento del coeficiente de Tanimoto. Es para variables dicotómicas (Willett et al, 1998).

La Tabla 2 resume las funciones de similitud de forma extendida.

Tabla 2. Funciones de similitud con expresiones extendidas.

2. Ejercicio de cálculo de similitud molecular.

Revisaremos cómo determinar una matriz de similitud de una base de datos de compuestos reportados con actividad inhibitoria contra G9a, una lisín-metil transferasa de histonas que ha sido identificada como un blanco epigenetico de importancia. Cuya sobreexpresión se ha asociado a multiples enfermedades tales como cáncer, diabetes mellitus tipo 2, adicción a la cocaina, etc (Cedillo-González R, Medina-Franco JL, 2023).

El primer paso es obtener la base de datos de interés y la representación molecular a emplear. En este ejemplo se emplearon SMILES canónicos (Figura 3).

Figura 3. Marco de datos de compuestos asociados a G9a.

Como segundo paso, se define la métrica a emplear y se desarrolla la matriz de similitud con el cálculo necesario. Con fines prácticos se empleó como métrica el Coeficiente de Tanimoto y se determinó por pares (Figura 4).

Figura 4. Matriz de similitud de 436x436 entradas.

Como punto final, se emplean librerías gráficas para generar una representación visual de la matriz previamente establecida (Figura 5).

Figura 5. Mapa de calor que representa la similitud entre los 436 compuestos de la base de datos preestablecida.

Lo descrito anteriormente está ejemplificado y desarrollado en Python en el repositorio disponible en la sección Recursos y ejercicios.

3. Para saber más:

Last updated