Predicción de promotores basada en imágenes: un método de predicción de promotores basado en patrones generados evolutivamente

Generación de «imágenes» mediante un enfoque evolutivo

La base de IBPP es generar una «imagen» a partir de secuencias de entrenamiento, que luego se utiliza para evaluar cualquier secuencia objetivo y evaluar su similitud con la «imagen». A partir de imágenes semilla aleatorias, las «imágenes» finales se obtuvieron utilizando un enfoque evolutivo. El método evolutivo tuvo un efecto de uniformización en las «imágenes», que fue la base de este proceso. Aunque las nuevas imágenes semilla se complementaron continuamente a lo largo del proceso de evolución, encontramos que la diversidad de las «imágenes» mostró una tendencia decreciente (Figs.2, S1). Hubo un aumento en la diversidad en las primeras cinco generaciones causado por el reemplazo de ‘ – ‘ por símbolos de nucleótidos. Sin embargo, después de la generación 60, la disminución de la diversidad se desaceleró (Fig. 2c). Aunque la diversidad parecía seguir disminuyendo en la generación 100 (Fig. 2c), detuvimos la evolución en este punto para probar la capacidad predictiva de las imágenes generadas.

Las secuencias promotoras y no promotoras en los conjuntos de prueba se puntuaron con la» imagen » generada en la generación 100. Como se muestra en la Tabla 1, la puntuación media de las secuencias promotoras fue mayor que la de las secuencias no promotoras (p < 0,001). Esto demostró que las «imágenes» tenían el potencial de distinguir a los promotores de los no promotores. Con un umbral apropiado, las secuencias con puntuaciones por encima del umbral se predijeron como promotores, mientras que las secuencias con puntuaciones por debajo del umbral se predijeron como no promotores. Sin embargo, todavía había cierta superposición entre las puntuaciones de las secuencias promotoras y no promotoras, lo que indica que el método no podía cumplir simultáneamente los requisitos de sensibilidad y especificidad.

Tabla 1 Comparación de puntuaciones de secuencias promotoras y no promotoras calculadas utilizando una «imagen» a.

de Hecho, la sensibilidad se correlacionó negativamente con el umbral (r = 0.999), mientras que la especificidad se correlacionó positivamente con el umbral (r = 0.999; Fig. 3a). Cuando el umbral estaba por debajo de 9, el IBPP adquirió una sensibilidad superior al 87%, pero la especificidad se redujo a menos del 70%. En nuestros experimentos, la puntuación más alta de F1 se obtuvo con un umbral de 9 (F1 = 77,9%). Sin embargo, en la práctica, una especificidad por debajo del 90% puede causar problemas considerables. Por lo tanto, se recomienda un umbral de 12, con una sensibilidad y especificidad de 58.2% ± 5,1% y 92,8% ± 1,6%, respectivamente. Para promotores de otras especies, el umbral óptimo puede diferir.

Figura 3
figura 3

Promotor de la capacidad de predicción de IBPP. El rendimiento del IBPP en los promotores de E. coli σ70 se vio afectado en gran medida por el umbral (a). La capacidad predictiva de la «imagen» aumentó junto con la evolución (b). Los resultados son de 55 repeticiones independientes. Sn, de la sensibilidad; Sp, especificidad; FP, tasa de falsos positivos; TP, verdadero-tasa positiva.

Las sensibilidades previstas de las «imágenes» aumentaron a lo largo de las generaciones, mostrando una fuerte correlación positiva en el modelo de regresión logarítmica ajustado (r = 0,99; Fig. 3b). En las primeras 40 generaciones, el TP promedio aumentó de 0% a 47%, y luego aumentó más gradualmente, alcanzando finalmente el 58% en la generación 90. En contraste, el promedio de PF no cambió sustancialmente con el tiempo, permaneciendo cerca del 5% para la mayoría de las generaciones. Teniendo en cuenta que el rendimiento predictivo de las imágenes mostró solo ligeras mejoras después de la generación 60 y casi ningún cambio después de la generación 90, 100 generaciones deberían ser suficientes para promotores con una longitud de 81 pb. En nuestros experimentos, la preparación de imágenes para secuencias más cortas requería menos generaciones.

Las características más conocidas de los promotores bacterianos son la región -10 (TATAAT) y la región -35 (TTGACA). Debido a que las «imágenes» fueron entrenadas por promotores de E. coli σ70, deberían contener algunas características similares al promotor de E. coli σ70. Aunque era fácil detectar la región -10 en todas las «imágenes», la región -35 siempre fue más difícil de encontrar. Además, la región de -10 siempre apareció antes que la región de -35. Asumimos que esta característica de apariencia anterior puede alterar la apariencia de otras características. Para evaluar la formación de diferentes características, el algoritmo se modificó ligeramente. Cuando una cadena de caracteres de nucleótidos continuos aparecía de forma estable, la región se fijaba y no se utilizaba en los procesos de generación de imágenes posteriores. Con este método, investigamos los efectos de la penalización por desajuste para la puntuación de imágenes en la formación de entidades. Los resultados (Tabla S1) mostraron que los puntajes de penalización más bajos (0,4) causaron la formación de NTs continuos más largos. A medida que aumentaba el puntaje de penalización, se reducía la longitud de la NTs continua. Las regiones -10 y -35 podrían reconocerse como» características » con diferentes longitudes. Aunque las» características «generadas con una puntuación de penalización más alta (0,75) parecían» limpias», las» imágenes » generadas con una puntuación de penalización más baja arrojaron mejores resultados para la predicción del promotor (no se muestran los datos).

Combinando el SVM y el algoritmo evolutivo

Las «imágenes» generadas en procesos evolutivos independientes mostraron cierta diversidad (datos no mostrados), lo que implica que diferentes «imágenes» pueden llevar información complementaria. Por lo tanto, aunque las «imágenes» individuales exhibieron una capacidad predictiva similar, la combinación de diferentes «imágenes» en un análisis puede mejorar el rendimiento predictivo. Para evaluar este efecto combinado, empleamos SVM para el análisis de promotores utilizando vectores consistentes en valores generados por diferentes imágenes.

La sensibilidad de IBPP-SVM para secuencias cortas se vio afectada en gran medida por la dimensión de los vectores (Fig. 4a). Cuando la longitud de los vectores estaba por debajo de 6, la sensibilidad de IBPP-SVM aumentó ligeramente con el aumento de las dimensiones del vector (por ejemplo, 64,5% ± 1,1% para un vector de 2 dimensiones y 68,7% ± 1,4% para un vector de 5 dimensiones). Sin embargo, la sensibilidad disminuyó con dimensiones más altas, cayendo a solo 31,1% ± 0,8% para el vector de 10 dimensiones. Por el contrario, la especificidad de la PPBI-MV para secuencias cortas no se vio afectada por la longitud del vector y se mantuvo en torno al 95% en todos los casos. La combinación de diferentes «imágenes» mediante la introducción de SVM mejoró el rendimiento para secuencias cortas en comparación con IBPP. En las mismas condiciones de prueba, los mejores resultados obtenidos con IBPP-SVM (sensibilidad = 68,7% ± 1,4%, especificidad = 94,3% ± 0,2%) fueron significativamente mayores que los de IBPP con un umbral de 12 (sensibilidad = 56,4% ± 4,9%, especificidad = 94,1% ± 1,2%; Fig. 4b).

Figura 4
figura 4

Promotor de la capacidad de predicción de IBPP-SVM. El rendimiento de IBPP-SVM se probó con vectores de diferentes dimensiones (a) y se comparó con IBPP (b). Ambos resultados fueron de tres repeticiones independientes. Sn, de la sensibilidad; Sp, especificidad; FP, tasa de falsos positivos; TP, verdadero-tasa positiva.

Cuando se fijó el número de secuencias promotoras en el conjunto de datos de entrenamiento, un mayor número de secuencias no promotoras resultó en una menor sensibilidad pero mayor especificidad (Fig. S2). La relación entre sensibilidad y especificidad se analizó utilizando un vector de 5 dimensiones, y los resultados demostraron que la sensibilidad disminuyó rápidamente cuando la especificidad estaba por encima del 85%. Considerando el desempeño global, el mejor desempeño de la PPBI-MV se obtuvo con una sensibilidad de 89,3% y una especificidad de 85,9%.

Para evaluar el desempeño de IBPP e IBPP-SVM, se utilizaron los conjuntos de pruebas utilizados para analizar el desempeño de NNPP2.211 y BPROM25 para promotores y no promotores. Usando estos mismos equipos de prueba, NNPP2.2 obtuvo una sensibilidad de 64.6% y especificidad de 90,3%, mientras que BPROM obtuvo una sensibilidad de 95,7% y especificidad de 98,9%. Las puntuaciones de F1 obtenidas por NNPP2. 2 y BPROM fueron de 74,1% y 97,3%, respectivamente. El IBPP-SVM mostró mayor sensibilidad y especificidad que el NNPP2. 2, pero el rendimiento fue aún incomparable al de BPROM. Este resultado mostró que IBPP-SVM podría lograr una eficiencia comparable o incluso superior a algunos algoritmos de aprendizaje automático; sin embargo, se requieren mejoras adicionales para lograr un rendimiento similar al de BPROM.

El algoritmo para IBPP no requiere el conocimiento de las características de los promotores, como la región -10 y la región -35 de los promotores de E. coli. A diferencia de los programas de aprendizaje automático, que se basan en datos estadísticos para la clasificación de promotores, la aplicación de una «imagen» en la predicción de promotores es similar a la del enfoque PWM. Una «imagen» se compone de cadenas de nucleótidos y espacios entre ellos; por lo tanto, los nucleótidos continuos en una «imagen» se asemejan a las características de las secuencias promotoras bacterianas, y los huecos se asemejan al espaciamiento entre las características, restringiendo las pseudofeaturas a ciertas posiciones. Debido a que tales» imágenes » no se pueden construir fácilmente con algoritmos de aprendizaje automático, como SVM y ANN, aplicamos un algoritmo evolutivo. Sin ninguna intervención manual, las «imágenes» se auto-mejorarían con la ayuda del proceso de evolución. Teóricamente, este sistema evolutivo podría aplicarse para dibujar información de otros tipos de secuencias, como sitios de unión a ribosomas y secuencias codificantes.

Rendimiento de secuencias largas

A continuación, probamos la capacidad de IBPP e IBPP-SVM para hacer frente a secuencias más largas de 2.000 nt. Para todos los métodos probados, hubo impactos en posiciones cercanas o alejadas de la TSSS simultáneamente; sin embargo, los impactos se concentraron más en el rango relativo a la TSSs (Figs.5, S3). Para secuencias largas, adoptamos nuevas definiciones de sensibilidad y especificidad para que las predicciones con más hits en el rango exhibieran una sensibilidad más alta, mientras que las predicciones con más hits fuera del rango exhibieran una especificidad más baja. Aunque el BPROM superó al IBPP-SVM para secuencias cortas, la capacidad predictiva del IBPP-SVM para secuencias largas fue comparable a la del BPROM (Tabla 2). El mejor resultado de IBPP-SVM se obtuvo con vectores de 10 dimensiones, que fue incluso mejor que el de BPROM considerando tanto la sensibilidad como la especificidad. Esto contrasta en gran medida con el análisis de secuencias cortas, en las que IBPP-SVM con vectores de 10 dimensiones mostró una sensibilidad muy baja (31,08% ± 0,8%, Fig. 4). Cuando la dimensión vectorial fue de 5, la PPBI-SVM mostró el mejor rendimiento para secuencias cortas, pero no mostró una buena especificidad para secuencias largas (Tabla 2). Esta comparación reveló que el IBPP-SVM podía lograr un rendimiento excelente con secuencias largas y que el rendimiento se veía afectado en gran medida por la dimensión vectorial.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

Luego probamos IBPP con umbrales de 12 y 13 en secuencias largas. En ambas condiciones, el IBPP mostró una sensibilidad y especificidad comparables a las del BPROM (Tabla 2). Aunque el IBPP con un umbral de 12 tuvo una sensibilidad ligeramente mayor, se alcanzó una especificidad mayor con un umbral de 13. Debido a que BPROM tuvo un rendimiento tan extraordinario para el análisis de secuencias cortas, el rendimiento de IBPP en el análisis de secuencias largas superó nuestras expectativas. Esto puede deberse a que BPROM fue diseñado para secuencias intergénicas mucho más cortas que 2 kb. Además, como solo ejecutamos BPROM con el conjunto predeterminado de parámetros en esta comparación, el rendimiento de BPROM en secuencias largas puede mejorar en la optimización de los parámetros. Debido a que los genes bacterianos suelen tener una longitud de ~l kb, puede haber más de un TSS en cada fragmento. Por lo tanto, algunos impactos fuera del rango pueden ser causados por otros promotores en los fragmentos.

Las secuencias alrededor de los promotores tienen el potencial de sesgar el algoritmo de predicción. En este estudio, no se detectó un sesgo obvio para la PPBI debido a las secuencias circundantes. Por ejemplo, cuando el umbral fue de 12, el IBPP obtuvo tasas de TP y FP de 56% y 5,88% para secuencias cortas, respectivamente, y una tasa de TP de 59% para secuencias largas. Por lo tanto, la longitud de secuencia extendida en sí misma puede no tener un impacto negativo en el rendimiento de IBPP. La razón de esta diferencia podría estar relacionada con el sistema de puntuación. Aunque la tasa de PF para secuencias cortas fue de 5,88%, los puntajes de estas secuencias de PF fueron inferiores a los de las secuencias de TP en general. Cuando se aplica a secuencias largas, en lugar de estar sesgadas por estos golpes de FP, tales golpes se dibujarían hacia los golpes de TP cercanos. Además, la combinación de IBPP y SVM mostró resultados interesantes; similar al rendimiento en secuencias cortas, el rendimiento de IBPP-SVM para el análisis de secuencias largas también superó al de IBPP. Los efectos de la dimensión vectorial en la PPBI-MV fueron muy diferentes entre los análisis de secuencias largas y cortas. Con una dimensión vectorial de 10, la tasa de TP cayó al 31% para secuencias cortas, acompañada de una tasa de FP de 2.3%, que fue mucho más bajo que el de una dimensión vectorial de 5. Sin embargo, en las mismas condiciones, IBPP-SVM con una longitud de vector de 10 mostró una tasa de TP de 65,6% para secuencias largas y una tasa de PF menor que la de una longitud de vector de 5. Aunque actualmente no podemos explicar este fenómeno, los resultados nos llevaron a encontrar una resolución para mejorar aún más este método de predicción en secuencias largas.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.