7.2 Función de similitud
Last updated
Last updated
Como tercer componente básico para consturir una medida computacional adecuada de similitud tenemos la función de similitud. Recordemos que una función de similitud o de distancia (concepto opuesto a similitud) transforma (o mapea) la información de las estructuras en una escala de valores reales en el intervalo [0, 1] (Maggiora et al., 2014).
Hay muchas funciones de similitud entre dos vectores, la más común en general es la distancia Euclidiana. En el caso de las huellas digitales moleculares, el estándar industrial es el coeficiente de Tanimoto (Cereto-Massagué et al, 2015). La Tabla 1 resume las funciones de similitud más comunmente empleadas para cuantificar la similitud química.
Tabla 1. Ejemplos de funciones de similitud.
En la secciones siguientes se describen las funciones de similitud más empleadas en quimioinformática (Bero et al. 2017).
Se define como la suma de las características comunes presentes en ambas estructuras (c), sobre el total de características presentes únicamente en a y b, menos las características comunes (c) (Figura 1). La facilidad de implementación y la velocidad es la razón principal por la que un coeficiente de Tanimoto se convierte en la medida de similitud más popular en el contexto de la informática química y la química medicinal computacional (Bero et al. 2017). El coeficiente de Tanimoto varía entre 0 (sin subestructuras comunes) y 1 (moléculas con la misma representación molecular).
Si queremos comparar la similitud entre más de una estructura química, podemos almacenar los resultados de similitud en una matriz (Figura 2).
Esta función de similitud es un coeficiente de distancia que se ha empleado para cuantificar el grado de disimilitud entre dos moléculas. Calcula la distancia entre dos puntos en un espacio de alta dimensión que representa las huellas digitales moleculares de dos moléculas. Varía de 0 (puntos idénticos) a infinito (puntos completamente diferentes). Es efectiva en la identificación de ausencias comunes de características como evidencia de similitud. Es muy util para la medición de similitud entre datos densos tales como series de tiempo o puntos bidimensiones. Se ha reportado que está función sigue siendo la más común, ya sea para datos continuos o datos de conteo (Bero et al. 2017).
Es una función de similitud igual de efectiva que la distancia eucidiana. Es equivalente a la raiz cuadrada de la distancia Euclidiana para datos binarios (Bero et al. 2017).
Mide la similitud directamente como el coeficiente de Tanimoto, se calcula como el doble del número de subestructuras comunes entre dos moléculas dividido por la suma de subestructuras en ambas moléculas. También varía de 0 a 1 (Bero et al. 2017).
Esta medida calcula el coseno del ángulo entre dos vectores que representan las huellas digitales moleculares de dos moléculas. Comparado con el coeficiente de Tanimoto y Dice, esta función de similitud es empleada comúnmente para medir la similitud entre datos escasos (como documentos o datos binarios). Adicionalmente, este coeficiente permite el cálculo de la similitud promedio entre todos los pares de compuestos en el conjunto de datos de forma rápida, lo cúal es imposible al usar el coeficiente de Tanimoto (Bero et al. 2017).
Toma en consideración emparejamientos negativos. Este coeficiente es usado para variables dicotómicas (Kok-Seng and Myung, 2013). Es complementaria al coeficiente Forbes (Holliday et al, 2003).
Esta métrica es opuesta y completamente complementaria al coeficiente de Russell-RAO. Adempas, está sesgado hacia estructuras pequeñas en una búsqueda de similitud (Holliday et al, 2003).
Este coeficiente es el complemento del coeficiente de Tanimoto. Es para variables dicotómicas (Willett et al, 1998).
La Tabla 2 resume las funciones de similitud de forma extendida.
Tabla 2. Funciones de similitud con expresiones extendidas.
Revisaremos cómo determinar una matriz de similitud de una base de datos de compuestos reportados con actividad inhibitoria contra G9a, una lisín-metil transferasa de histonas que ha sido identificada como un blanco epigenetico de importancia. Cuya sobreexpresión se ha asociado a multiples enfermedades tales como cáncer, diabetes mellitus tipo 2, adicción a la cocaina, etc (Cedillo-González R, Medina-Franco JL, 2023).
El primer paso es obtener la base de datos de interés y la representación molecular a emplear. En este ejemplo se emplearon SMILES canónicos (Figura 3).
Como segundo paso, se define la métrica a emplear y se desarrolla la matriz de similitud con el cálculo necesario. Con fines prácticos se empleó como métrica el Coeficiente de Tanimoto y se determinó por pares (Figura 4).
Como punto final, se emplean librerías gráficas para generar una representación visual de la matriz previamente establecida (Figura 5).
Lo descrito anteriormente está ejemplificado y desarrollado en Python en el repositorio disponible en la sección Recursos y ejercicios.
Bero SA, Muda AK, Choo YH, Muda NA, Pratama SF. 2017. Similarity Measure for Molecular Structure: A Brief Review. J. Phys.: Conf. Ser. 892:012015.
Cedillo-González R, Medina-Franco JL (2023) Diversity and Chemical Space Characterization of Inhibitors of the Epigenetic Target G9a: A Chemoinformatics Approach. ACS Omega 8 (33): 30694–704.
Holliday JD, Salim N, Whittle M, Willett P (2003) Analysis and Display of the Size Dependence of Chemical Similarity Coefficients. J. Chem. Inf. Model. 43:819–28.
Kok-Seng W, Myung HK (2013) Privacy-Preserving Similarity Coefficients for Binary Data. Computers & Mathematics with Applications 65:1280–90.
Maggiora G, Vogt M, Stumpfe D, Bajorath J (2014) Molecular Similarity in Medicinal Chemistry. J Med Chem. 57: 3186–3204. doi: 10.1021/jm401411z.
Willett P, Barnard JM, Downs GM (1998) Chemical Similarity Searching. J. Chem. Inf. Model. 38:983–96.