7.2 Función de similitud
Last updated
Last updated
Como tercer componente básico para consturir una medida computacional adecuada de similitud tenemos la función de similitud. Recordemos que una función de similitud o de distancia (concepto opuesto a similitud) transforma (o mapea) la información de las estructuras en una escala de valores reales en el intervalo [0, 1] ().
Hay muchas funciones de similitud entre dos vectores, la más común en general es la distancia Euclidiana. En el caso de las huellas digitales moleculares, el estándar industrial es el coeficiente de Tanimoto (). La Tabla 1 resume las funciones de similitud más comunmente empleadas para cuantificar la similitud química.
Tabla 1. Ejemplos de funciones de similitud.
Si queremos comparar la similitud entre más de una estructura química, podemos almacenar los resultados de similitud en una matriz (Figura 2).
La Tabla 2 resume las funciones de similitud de forma extendida.
Tabla 2. Funciones de similitud con expresiones extendidas.
El primer paso es obtener la base de datos de interés y la representación molecular a emplear. En este ejemplo se emplearon SMILES canónicos (Figura 3).
Como segundo paso, se define la métrica a emplear y se desarrolla la matriz de similitud con el cálculo necesario. Con fines prácticos se empleó como métrica el Coeficiente de Tanimoto y se determinó por pares (Figura 4).
Como punto final, se emplean librerías gráficas para generar una representación visual de la matriz previamente establecida (Figura 5).
En la secciones siguientes se describen las funciones de similitud más empleadas en quimioinformática ().
Se define como la suma de las características comunes presentes en ambas estructuras (c), sobre el total de características presentes únicamente en a y b, menos las características comunes (c) (Figura 1). La facilidad de implementación y la velocidad es la razón principal por la que un coeficiente de Tanimoto se convierte en la medida de similitud más popular en el contexto de la informática química y la química medicinal computacional (). El coeficiente de Tanimoto varía entre 0 (sin subestructuras comunes) y 1 (moléculas con la misma representación molecular).
Esta función de similitud es un coeficiente de distancia que se ha empleado para cuantificar el grado de disimilitud entre dos moléculas. Calcula la distancia entre dos puntos en un espacio de alta dimensión que representa las huellas digitales moleculares de dos moléculas. Varía de 0 (puntos idénticos) a infinito (puntos completamente diferentes). Es efectiva en la identificación de ausencias comunes de características como evidencia de similitud. Es muy util para la medición de similitud entre datos densos tales como series de tiempo o puntos bidimensiones. Se ha reportado que está función sigue siendo la más común, ya sea para datos continuos o datos de conteo ().
Es una función de similitud igual de efectiva que la distancia eucidiana. Es equivalente a la raiz cuadrada de la distancia Euclidiana para datos binarios ().
Mide la similitud directamente como el coeficiente de Tanimoto, se calcula como el doble del número de subestructuras comunes entre dos moléculas dividido por la suma de subestructuras en ambas moléculas. También varía de 0 a 1 ().
Esta medida calcula el coseno del ángulo entre dos vectores que representan las huellas digitales moleculares de dos moléculas. Comparado con el coeficiente de Tanimoto y Dice, esta función de similitud es empleada comúnmente para medir la similitud entre datos escasos (como documentos o datos binarios). Adicionalmente, este coeficiente permite el cálculo de la similitud promedio entre todos los pares de compuestos en el conjunto de datos de forma rápida, lo cúal es imposible al usar el coeficiente de Tanimoto ().
Toma en consideración emparejamientos negativos. Este coeficiente es usado para variables dicotómicas (). Es complementaria al coeficiente Forbes ().
Esta métrica es opuesta y completamente complementaria al coeficiente de Russell-RAO. Adempas, está sesgado hacia estructuras pequeñas en una búsqueda de similitud ().
Este coeficiente es el complemento del coeficiente de Tanimoto. Es para variables dicotómicas ().
Revisaremos cómo determinar una matriz de similitud de una base de datos de compuestos reportados con actividad inhibitoria contra G9a, una lisín-metil transferasa de histonas que ha sido identificada como un blanco epigenetico de importancia. Cuya sobreexpresión se ha asociado a multiples enfermedades tales como cáncer, diabetes mellitus tipo 2, adicción a la cocaina, etc ().
Lo descrito anteriormente está ejemplificado y desarrollado en Python en el repositorio disponible en la sección
Bero SA, Muda AK, Choo YH, Muda NA, Pratama SF. 2017. . J. Phys.: Conf. Ser. 892:012015.
Cedillo-González R, Medina-Franco JL (2023) ACS Omega 8 (33): 30694–704.
Holliday JD, Salim N, Whittle M, Willett P (2003) . J. Chem. Inf. Model. 43:819–28.
Kok-Seng W, Myung HK (2013) . Computers & Mathematics with Applications 65:1280–90.
Maggiora G, Vogt M, Stumpfe D, Bajorath J (2014) . J Med Chem. 57: 3186–3204. doi: 10.1021/jm401411z.
Willett P, Barnard JM, Downs GM (1998) . J. Chem. Inf. Model. 38:983–96.