Prédiction de promoteur basée sur l’image: méthode de prédiction de promoteur basée sur des modèles générés de manière évolutive

Génération d' »images » par une approche évolutive

La base de l’IBPP est de générer une « image » à partir de séquences d’entraînement, qui est ensuite utilisée pour évaluer n’importe quelle séquence cible et évaluer sa similitude avec l' »image ». À partir d’images-graines aléatoires, les « images » finales ont été obtenues en utilisant une approche évolutive. La méthode évolutive a eu un effet d’uniformisation sur les « images », ce qui a été le fondement de ce processus. Bien que de nouvelles images-graines aient été continuellement complétées tout au long du processus d’évolution, nous avons constaté que la diversité des « images » montrait une tendance à la baisse (Figures 2, S1). Il y a eu une augmentation de la diversité au cours des cinq premières générations causée par le remplacement de « – » par des symboles nucléotidiques. Cependant, après la 60e génération, la diminution de la diversité a ralenti (Fig. 2c). Bien que la diversité semble continuer à diminuer à partir de la 100e génération (Fig. 2c), nous avons arrêté l’évolution à ce stade pour tester la capacité prédictive des images générées.

Les séquences promotrices et non promotrices des séries de tests ont été notées avec l' »image » générée à la 100e génération. Comme le montre le tableau 1, le score moyen des séquences promotrices était supérieur à celui des séquences non promotrices (p< 0,001). Cela a montré que les « images » avaient le potentiel de distinguer les promoteurs des non-promoteurs. Avec un seuil approprié, les séquences avec des scores supérieurs au seuil ont été prédites en tant que promoteurs, tandis que les séquences avec des scores inférieurs au seuil ont été prédites en tant que non-promoteurs. Cependant, il y avait encore un certain chevauchement entre les scores des séquences promotrices et non promotrices, ce qui indique que la méthode ne pouvait pas répondre simultanément aux exigences de sensibilité et de spécificité.

Tableau 1 Comparaison des scores de séquences promotrices et non promotrices calculés à l’aide d’une « image » a.

En effet, la sensibilité était corrélée négativement avec le seuil (r = 0,999), alors que la spécificité était corrélée positivement avec le seuil (r = 0,999; Fig. 3 bis). Lorsque le seuil était inférieur à 9, l’IBPP a acquis une sensibilité supérieure à 87%, mais la spécificité a été réduite à moins de 70%. Dans nos expériences, le score F1 le plus élevé a été obtenu avec un seuil de 9 (F1 = 77,9%). Cependant, dans la pratique, une spécificité inférieure à 90% peut poser des problèmes considérables. Par conséquent, un seuil de 12 est recommandé, avec une sensibilité et une spécificité de 58.2% ± 5,1% et 92,8% ± 1,6%, respectivement. Pour les promoteurs d’autres espèces, le seuil optimal peut différer.

Figure 3
figure3

Capacité de prédiction du promoteur de l’IBPP. La performance de l’IBPP sur les promoteurs d’E. coli σ70 a été largement affectée par le seuil (a). La capacité prédictive de l' »image » a augmenté avec l’évolution (b). Les résultats sont issus de 55 réplications indépendantes. Sn, sensibilité; Sp, spécificité; FP, taux de faux positifs; TP, taux de vrai positif.

Les sensibilités prédites des « images » ont augmenté au fil des générations, montrant une forte corrélation positive dans le modèle de régression logarithmique ajusté (r = 0,99; Fig. 3b). Au cours des 40 premières générations, la TP moyenne est passée de 0% à 47%, puis a augmenté plus progressivement pour atteindre finalement 58% à la 90e génération. En revanche, la PF moyenne n’a pas beaucoup changé au fil du temps, restant proche de 5 % pour la plupart des générations. Considérant que les performances prédictives des images ne présentaient que de légères améliorations après la 60e génération et presque aucun changement après la 90e génération, 100 générations devraient suffire pour des promoteurs d’une longueur de 81 pb. Dans nos expériences, la préparation d’images pour des séquences plus courtes nécessitait moins de générations.

Les caractéristiques les plus connues des promoteurs bactériens sont la région -10 (TATAAT) et la région -35 (TTGACA). Étant donné que les « images » ont été formées à partir de promoteurs d’E. coli σ70, elles devraient contenir certaines caractéristiques similaires au promoteur d’E. coli σ70. Bien qu’il soit facile de détecter la région -10 dans toutes les « images », la région -35 était toujours plus difficile à trouver. De plus, la région -10 est toujours apparue plus tôt que la région -35. Nous avons supposé que cette caractéristique d’apparence antérieure pouvait modifier l’apparence d’autres caractéristiques. Pour évaluer la formation de différentes caractéristiques, l’algorithme a été légèrement modifié. Lorsqu’une chaîne de caractères nucléotidiques continus est apparue de manière stable, la région a été fixée et n’a pas été utilisée dans les processus de génération d’images ultérieurs. En utilisant cette méthode, nous avons étudié les effets de la pénalité de non-concordance pour la notation d’image sur la formation des entités. Les résultats (tableau S1) ont montré que des scores de pénalité plus faibles (0,4) entraînaient la formation de NTS continus plus longs. À mesure que le score de pénalité augmentait, la longueur du NTS continu était réduite. Les régions -10 et -35 pourraient être reconnues comme des « caractéristiques » de longueurs différentes. Bien que les « caractéristiques » générées avec un score de pénalité plus élevé (0,75) semblaient « propres », les « images » générées avec un score de pénalité plus faible ont donné de meilleurs résultats pour la prédiction du promoteur (données non affichées).

La combinaison de la SVM et de l’algorithme évolutif

Les « images » générées dans des processus évolutifs indépendants ont montré une certaine diversité (données non représentées), ce qui implique que différentes « images » peuvent porter des informations complémentaires. Ainsi, bien que des « images » uniques présentent une capacité prédictive similaire, la combinaison de différentes « images » dans une même analyse peut améliorer les performances prédictives. Pour évaluer cet effet de combinaison, nous avons utilisé SVM pour l’analyse des promoteurs en utilisant des vecteurs constitués de valeurs générées par différentes images.

La sensibilité de l’IBPP-SVM pour les séquences courtes a été largement affectée par la dimension des vecteurs (Fig. 4 bis). Lorsque la longueur des vecteurs était inférieure à 6, la sensibilité de l’IBPP-SVM augmentait légèrement avec l’augmentation des dimensions des vecteurs (par exemple, 64,5% ± 1,1% pour un vecteur à 2 dimensions et 68,7% ± 1,4% pour un vecteur à 5 dimensions). Cependant, la sensibilité a diminué avec des dimensions plus élevées, tombant à seulement 31,1% ± 0,8% pour le vecteur à 10 dimensions. En revanche, la spécificité de l’IBPP-SVM pour les séquences courtes n’a pas été affectée par la longueur du vecteur et a été maintenue à environ 95% dans tous les cas. La combinaison de différentes « images » par l’introduction de SVM a amélioré les performances pour les séquences courtes par rapport à IBPP. Dans les mêmes conditions de test, les meilleurs résultats obtenus en utilisant IBPP-SVM (sensibilité = 68,7% ± 1,4%, spécificité = 94,3% ± 0,2%) étaient significativement plus élevés que ceux de l’IBPP avec un seuil de 12 (sensibilité = 56,4% ± 4,9%, spécificité = 94,1% ± 1,2%; Fig. 4b).

Figure 4
figure4

Capacité de prédiction du promoteur de l’IBPP-SVM. Les performances de l’IBPP-SVM ont été testées avec des vecteurs de différentes dimensions (a) et comparées à l’IBPP (b). Les deux résultats provenaient de trois réplications indépendantes. Sn, sensibilité; Sp, spécificité; FP, taux de faux positifs; TP, taux de vrai positif.

Lorsque le nombre de séquences promotrices dans l’ensemble de données d’entraînement a été fixé, un nombre plus élevé de séquences non promotrices a entraîné une sensibilité plus faible mais une spécificité plus élevée (Fig. S2). La relation entre sensibilité et spécificité a été analysée à l’aide d’un vecteur à 5 dimensions, et les résultats ont démontré que la sensibilité diminuait rapidement lorsque la spécificité était supérieure à 85%. Compte tenu de la performance globale, la meilleure performance de l’IBPP-SVM a été obtenue avec une sensibilité de 89,3% et une spécificité de 85,9%.

Pour évaluer les performances de l’IBPP et de l’IBPP-SVM, les ensembles de tests utilisés pour analyser les performances de NNPP2.211 et BPROM25 ont été utilisés pour les promoteurs et les non-promoteurs. En utilisant ces mêmes jeux de tests, NNPP2.2 a obtenu une sensibilité de 64.6% et une spécificité de 90,3%, alors que BPROM a obtenu une sensibilité de 95,7% et une spécificité de 98,9%. Les scores F1 obtenus par NNPP2.2 et BPROM étaient respectivement de 74,1 % et 97,3 %. IBPP-SVM a montré une sensibilité et une spécificité plus élevées que NNPP2.2, mais la performance était toujours incomparable à celle de BPROM. Ce résultat a montré que l’IBPP-SVM pouvait atteindre une efficacité comparable, voire supérieure, à certains algorithmes d’apprentissage automatique; cependant, d’autres améliorations sont nécessaires pour obtenir des performances similaires à celles de BPROM.

L’algorithme pour IBPP ne nécessite pas de connaissance des caractéristiques des promoteurs, telles que la région -10 et la région -35 des promoteurs d’E. coli. Contrairement aux programmes d’apprentissage automatique, qui s’appuient sur des données statistiques pour la classification des promoteurs, l’application d’une « image » dans la prédiction des promoteurs est similaire à celle de l’approche PWM. Une « image » est composée de chaînes de nucléotides et d’espaces entre elles; ainsi, les nucléotides continus dans une « image » ressemblent aux caractéristiques des séquences promotrices bactériennes, et les espaces ressemblent à l’espacement entre les caractéristiques, limitant les pseudoféatures à certaines positions. Parce que de telles « images » ne peuvent pas être facilement construites par des algorithmes d’apprentissage automatique, tels que SVM et ANN, nous avons appliqué un algorithme évolutif. Sans aucune intervention manuelle, les « images » s’amélioreraient à l’aide du processus d’évolution. Théoriquement, ce système évolutif pourrait être appliqué pour tirer des informations d’autres types de séquences, telles que les sites de liaison aux ribosomes et les séquences codantes.

Performance des séquences longues

Ensuite, nous avons testé la capacité de l’IBPP et de l’IBPP-SVM à traiter des séquences plus longues de 2 000 nt. Pour toutes les méthodes testées, il y a eu des coups à des positions proches ou éloignées du TSSs simultanément; cependant, les coups étaient plus concentrés dans la plage de par rapport au TSSs (Figures 5, S3). Pour les séquences longues, nous avons adopté de nouvelles définitions de la sensibilité et de la spécificité, de sorte que les prédictions avec plus de succès dans la plage présentaient une sensibilité plus élevée, tandis que les prédictions avec plus de succès en dehors de la plage présentaient une spécificité plus faible. Bien que BPROM ait surpassé l’IBPP-SVM pour les séquences courtes, la capacité prédictive de l’IBPP-SVM pour les séquences longues était comparable à celle de BPROM (tableau 2). Le meilleur résultat d’IBPP-SVM a été obtenu avec des vecteurs à 10 dimensions, ce qui était encore meilleur que celui de BPROM compte tenu à la fois de la sensibilité et de la spécificité. Ceci contraste fortement avec l’analyse de séquences courtes, dans lesquelles l’IBPP-SVM avec des vecteurs à 10 dimensions a montré une sensibilité très faible (31,08% ± 0,8%, Fig. 4). Lorsque la dimension vectorielle était de 5, IBPP-SVM présentait les meilleures performances pour les séquences courtes mais ne présentait pas une bonne spécificité pour les séquences longues (tableau 2). Cette comparaison a révélé que l’IBPP-SVM pouvait obtenir d’excellentes performances avec de longues séquences et que les performances étaient largement affectées par la dimension vectorielle.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

Nous avons ensuite testé IBPP avec des seuils de 12 et 13 sur de longues séquences. Dans les deux conditions, l’IBPP a montré une sensibilité et une spécificité comparables à celles du BPROM (tableau 2). Bien que l’IBPP avec un seuil de 12 ait une sensibilité légèrement plus élevée, une spécificité plus élevée a été atteinte avec un seuil de 13. Parce que BPROM avait des performances extraordinaires pour l’analyse de séquences courtes, les performances de l’IBPP dans l’analyse de séquences longues ont dépassé nos attentes. Cela peut être dû au fait que BPROM a été conçu pour des séquences intergéniques beaucoup plus courtes que 2 kb. De plus, comme nous n’avons exécuté BPROM qu’avec l’ensemble de paramètres par défaut dans cette comparaison, les performances de BPROM sur de longues séquences peuvent s’améliorer lors de l’optimisation des paramètres. Étant donné que les gènes bactériens ont généralement une longueur de ~ l kb, il peut y avoir plus d’un TSS dans chaque fragment. Ainsi, certains coups en dehors de la plage peuvent être causés par d’autres promoteurs dans les fragments.

Les séquences autour des promoteurs ont le potentiel de biaiser l’algorithme de prédiction. Dans cette étude, aucun biais évident n’a été détecté pour l’IBPP en raison des séquences environnantes. Par exemple, lorsque le seuil était de 12, IBPP a obtenu des taux de TP et de FP de 56% et 5,88% pour les séquences courtes, respectivement, et un taux de TP de 59% pour les séquences longues. Par conséquent, la longueur de séquence étendue elle-même peut ne pas avoir d’impact négatif sur les performances de l’IBPP. La raison de cette différence pourrait être liée au système de notation. Bien que le taux de PF pour les séquences courtes soit de 5,88%, les scores de ces séquences de PF étaient inférieurs à ceux de l’ensemble des séquences de TP. Lorsqu’ils sont appliqués à de longues séquences, au lieu d’être biaisés par ces hits FP, ces hits seraient tirés vers les hits TP proches. De plus, la combinaison de l’IBPP et de la SVM a montré des résultats intéressants; similaire à la performance sur des séquences courtes, la performance de l’IBPP-SVM pour l’analyse de séquences longues a également dépassé celle de l’IBPP. Les effets de la dimension vectorielle sur l’IBPP-SVM étaient largement différents entre les analyses de séquences longues et de séquences courtes. Avec une dimension vectorielle de 10, le taux de TP est tombé à 31% pour les séquences courtes, accompagné d’un taux de FP de 2.3%, ce qui était beaucoup plus faible que celui avec une dimension vectorielle de 5. Cependant, dans les mêmes conditions, IBPP-SVM avec une longueur de vecteur de 10 a montré un taux de TP de 65,6% pour les séquences longues et un taux de FP inférieur à celui avec une longueur de vecteur de 5. Bien que nous ne puissions actuellement pas expliquer ce phénomène, les résultats nous ont avancés vers la recherche d’une résolution pour améliorer encore cette méthode de prédiction sur de longues séquences.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.