Image-based promoter prediction: a promoter prediction method based on evolutionarily generated patterns

Generierung von „Bildern“ durch einen evolutionären Ansatz

Die Grundlage von IBPP ist die Erzeugung eines „Bildes“ aus Trainingssequenzen, mit dem dann jede Zielsequenz bewertet und ihre Ähnlichkeit mit dem „Bild“ bewertet wird. Ausgehend von zufälligen Seed-Bildern wurden die endgültigen „Bilder“ unter Verwendung eines evolutionären Ansatzes erhalten. Die evolutionäre Methode hatte einen Uniformisierungseffekt auf die „Bilder“, der die Grundlage dieses Prozesses bildete. Obwohl während des gesamten Evolutionsprozesses ständig neue Samenbilder ergänzt wurden, stellten wir fest, dass die Vielfalt der „Bilder“ einen abnehmenden Trend aufwies (Abb. 2, S1). In den ersten fünf Generationen gab es eine Zunahme der Diversität, die durch den Ersatz von ‚–‘ durch Nukleotidsymbole verursacht wurde. Nach der 60. Generation verlangsamte sich der Rückgang der Vielfalt jedoch (Abb. 2c). Obwohl die Diversität bis zur 100. 2c) haben wir die Evolution an dieser Stelle gestoppt, um die Vorhersagefähigkeit der erzeugten Bilder zu testen.

Promotor- und Nicht-Promotor-Sequenzen in den Testsätzen wurden mit dem bei der 100. Wie in Tabelle 1 gezeigt, war die durchschnittliche Punktzahl der Promotorsequenzen höher als die der Nicht-Promotorsequenzen (p < 0,001). Dies zeigte, dass die „Bilder“ das Potenzial hatten, Promotoren von Nicht-Promotoren zu unterscheiden. Mit einem geeigneten Schwellenwert wurden Sequenzen mit Werten über dem Schwellenwert als Promotoren vorhergesagt, während Sequenzen mit Werten unter dem Schwellenwert als Nichtpromotoren vorhergesagt wurden. Es gab jedoch immer noch einige Überschneidungen zwischen den Scores von Promotor- und Nicht-Promotor-Sequenzen, was darauf hindeutet, dass die Methode die Anforderungen an Sensitivität und Spezifität nicht gleichzeitig erfüllen konnte.

Tabelle 1 Vergleich der Scores von Promotor- und Nicht-Promotor-Sequenzen, berechnet unter Verwendung eines „image“a.

Tatsächlich korrelierte die Sensitivität negativ mit dem Schwellenwert (r = 0,999), während die Spezifität positiv mit dem Schwellenwert korrelierte (r = 0,999; Abb. 3a). Wenn der Schwellenwert unter 9 lag, erhielt IBPP eine Sensitivität von mehr als 87%, aber die Spezifität wurde auf unter 70% reduziert. In unseren Experimenten wurde der höchste F1-Score mit einem Schwellenwert von 9 (F1 = 77,9%) erhalten. In der Praxis kann eine Spezifität unter 90% jedoch erhebliche Probleme verursachen. Daher wird ein Schwellenwert von 12 mit einer Sensitivität und Spezifität von 58 empfohlen.2% ± 5,1% bzw. 92,8% ± 1,6%. Für Promotoren anderer Spezies kann der optimale Schwellenwert abweichen.

Abbildung 3
figure3

Die Vorhersagefähigkeit von IBPP. Die Leistung von IBPP an E. coli σ70-Promotoren wurde weitgehend durch den Schwellenwert (a) beeinflusst. Die Vorhersagefähigkeit des „Bildes“ nahm mit der Evolution zu (b). Die Ergebnisse stammen aus 55 unabhängigen Replikationen. Sn, Empfindlichkeit; Sp, spezifität; FP, falsch-positive Rate; TP, wahr-positive Rate.

Die vorhergesagten Empfindlichkeiten der „Bilder“ nahmen über die Generationen zu und zeigten eine starke positive Korrelation im angepassten logarithmischen Regressionsmodell (r = 0,99; Abb. 3b). In den ersten 40 Generationen stieg die durchschnittliche TP von 0% auf 47% und stieg dann allmählich an und erreichte schließlich in der 90. Im Gegensatz dazu änderte sich der durchschnittliche FP im Laufe der Zeit nicht wesentlich und blieb für die meisten Generationen in der Nähe von 5%. In Anbetracht der Tatsache, dass die Vorhersageperformance der Bilder nach der 60. Generation nur geringe Verbesserungen und nach der 90. Generation fast keine Veränderung zeigte, sollten 100 Generationen für Promotoren mit einer Länge von 81 bp ausreichen. In unseren Experimenten erforderte die Vorbereitung von Bildern für kürzere Sequenzen weniger Generationen.Die bekanntesten Merkmale bakterieller Promotoren sind die -10-Region (TATAAT) und die -35-Region (TTGACA). Da die „Bilder“ von E. coli σ70-Promotoren trainiert wurden, sollten sie einige Merkmale enthalten, die dem E. coli σ70-Promotor ähnlich sind. Obwohl es leicht war, die Region -10 in allen „Bildern“ zu erkennen, war die Region -35 immer schwieriger zu finden. Darüber hinaus erschien die Region -10 immer früher als die Region -35. Wir gingen davon aus, dass dieses Merkmal des früheren Aussehens das Erscheinungsbild anderer Merkmale verändern kann. Um die Bildung verschiedener Merkmale zu bewerten, wurde der Algorithmus leicht modifiziert. Wenn eine Reihe kontinuierlicher Nukleotidzeichen stabil auftrat, war die Region fixiert und wurde in den nachfolgenden Bilderzeugungsprozessen nicht verwendet. Mit dieser Methode untersuchten wir die Auswirkungen der Mismatch-Strafe für die Bildbewertung auf die Bildung von Merkmalen. Die Ergebnisse (Tabelle S1) zeigten, dass niedrigere Strafwerte (0,4) die Bildung längerer kontinuierlicher NTs verursachten. Mit zunehmender Strafpunktzahl wurde die Länge des kontinuierlichen NTs verringert. Die Regionen -10 und -35 konnten als „Merkmale“ mit unterschiedlichen Längen erkannt werden. Obwohl „Features“, die mit einem höheren Penalty-Score (0,75) generiert wurden, „sauber“ zu sein schienen, lieferten die „Bilder“, die mit einem niedrigeren Penalty-Score generiert wurden, bessere Ergebnisse für die Promoter-Vorhersage (Daten nicht gezeigt).

Kombination von SVM und evolutionärem Algorithmus

„Bilder“, die in unabhängigen Evolutionsprozessen erzeugt wurden, zeigten eine gewisse Vielfalt (Daten nicht gezeigt), was bedeutet, dass verschiedene „Bilder“ komplementäre Informationen enthalten können. Obwohl einzelne „Bilder“ eine ähnliche Vorhersagefähigkeit aufwiesen, kann die Kombination verschiedener „Bilder“ in einer Analyse die Vorhersageleistung verbessern. Um diesen Kombinationseffekt zu bewerten, verwendeten wir SVM für die Promotoranalyse unter Verwendung von Vektoren, die aus Werten bestehen, die durch verschiedene Bilder erzeugt wurden.

Die Sensitivität von IBPP-SVM für kurze Sequenzen wurde maßgeblich durch die Dimension der Vektoren beeinflusst (Abb. 4a). Wenn die Länge der Vektoren unter 6 lag, nahm die Empfindlichkeit von IBPP-SVM mit zunehmender Vektordimension leicht zu (z. B. 64,5% ± 1,1% für einen 2-dimensionalen Vektor und 68,7% ± 1,4% für einen 5-dimensionalen Vektor). Die Empfindlichkeit nahm jedoch mit höheren Dimensionen ab und fiel für den 10-dimensionalen Vektor nur auf 31,1% ± 0,8%. Im Gegensatz dazu wurde die Spezifität von IBPP-SVM für kurze Sequenzen nicht durch die Vektorlänge beeinflusst und in allen Fällen bei etwa 95% gehalten. Die Kombination verschiedener „Bilder“ durch die Einführung von SVM verbesserte die Leistung für kurze Sequenzen im Vergleich zu IBPP. Unter den gleichen Testbedingungen waren die besten Ergebnisse mit IBPP-SVM (Sensitivität = 68,7% ± 1,4%, Spezifität = 94,3% ± 0,2%) signifikant höher als mit IBPP mit einem Schwellenwert von 12 (Sensitivität = 56,4% ± 4,9%, Spezifität = 94,1% ± 1,2%; Abb. 4b).

Abbildung 4
figure4

Die Vorhersagefähigkeit von IBPP-SVM. Die Leistung von IBPP-SVM wurde mit Vektoren verschiedener Dimensionen (a) getestet und mit IBPP (b) verglichen. Beide Ergebnisse stammten aus drei unabhängigen Replikationen. Sn, Empfindlichkeit; Sp, spezifität; FP, falsch-positive Rate; TP, wahr-positive Rate.

Wenn die Anzahl der Promotorsequenzen im Trainingsdatensatz festgelegt wurde, führte eine höhere Anzahl von Nicht-Promotorsequenzen zu einer geringeren Sensitivität, aber einer höheren Spezifität (Abb. S2). Die Beziehung zwischen Sensitivität und Spezifität wurde unter Verwendung eines 5-dimensionalen Vektors analysiert, und die Ergebnisse zeigten, dass die Sensitivität schnell abnahm, wenn die Spezifität über 85% lag. In Anbetracht der Gesamtleistung wurde die beste Leistung von IBPP-SVM mit einer Sensitivität von 89,3% und einer Spezifität von 85,9% erzielt.

Um die Leistung von IBPP und IBPP-SVM zu bewerten, wurden die Testsätze zur Analyse der Leistung von NNPP2.211 und BPROM25 für Promotoren und Nicht-Promotoren verwendet. Unter Verwendung derselben Testsätze erhielt NNPP2.2 eine Empfindlichkeit von 64.6% und Spezifität von 90,3%, während BPROM eine Sensitivität von 95,7% und Spezifität von 98,9% erhielt. Die von NNPP2.2 und BPROM erzielten F1-Werte betrugen 74,1% bzw. 97,3%. IBPP-SVM zeigte eine höhere Sensitivität und Spezifität als NNPP2.2, aber die Leistung war immer noch nicht mit der von BPROM vergleichbar. Dieses Ergebnis zeigte, dass IBPP-SVM eine Effizienz erreichen könnte, die mit einigen Algorithmen für maschinelles Lernen vergleichbar oder sogar höher ist; Es sind jedoch weitere Verbesserungen erforderlich, um eine ähnliche Leistung wie BPROM zu erzielen.

Der Algorithmus für IBPP erfordert keine Kenntnis von Merkmalen von Promotoren, wie der -10-Region und der -35-Region von E. coli-Promotoren. Im Gegensatz zu Machine-Learning-Programmen, die für die Klassifizierung von Promotoren auf statistische Daten angewiesen sind, ähnelt die Anwendung eines „Bildes“ bei der Promotorvorhersage der beim PWM-Ansatz. Ein „Bild“ besteht aus Nukleotidketten und Lücken zwischen ihnen; somit ähneln die kontinuierlichen Nukleotide in einem „Bild“ den Merkmalen bakterieller Promotorsequenzen, und die Lücken ähneln dem Abstand zwischen Merkmalen, wodurch Pseudomerkmale auf bestimmte Positionen beschränkt werden. Da solche „Bilder“ nicht ohne weiteres durch maschinelle Lernalgorithmen wie SVM und ANN konstruiert werden können, haben wir einen evolutionären Algorithmus angewendet. Ohne manuelle Eingriffe würden sich die „Bilder“ mit Hilfe des Evolutionsprozesses selbst verbessern. Theoretisch könnte dieses evolutionäre System angewendet werden, um Informationen aus anderen Arten von Sequenzen wie Ribosomenbindungsstellen und kodierenden Sequenzen zu ziehen.

Leistung langer Sequenzen

Als nächstes testeten wir die Fähigkeit von IBPP und IBPP-SVM, mit längeren Sequenzen von 2.000 nt umzugehen. Bei allen getesteten Methoden gab es gleichzeitig Treffer an Positionen nahe oder fern vom TSSs; Die Treffer waren jedoch konzentrierter im Bereich relativ zum TSSs (Figuren 5, S3). Für lange Sequenzen haben wir neue Definitionen für Sensitivität und Spezifität übernommen, so dass Vorhersagen mit mehr Treffern im Bereich eine höhere Sensitivität aufwiesen, während Vorhersagen mit mehr Treffern außerhalb des Bereichs eine geringere Spezifität aufwiesen. Obwohl BPROM IBPP-SVM für kurze Sequenzen übertraf, war die Vorhersagefähigkeit von IBPP-SVM für lange Sequenzen vergleichbar mit der von BPROM (Tabelle 2). Das beste Ergebnis von IBPP-SVM wurde mit 10-dimensionalen Vektoren erzielt, was sowohl in Bezug auf Sensitivität als auch Spezifität sogar besser war als das von BPROM. Dies steht in starkem Kontrast zur Analyse kurzer Sequenzen, bei denen IBPP-SVM mit 10-dimensionalen Vektoren eine sehr geringe Sensitivität aufwies (31,08% ± 0,8%, Abb. 4). Wenn die Vektordimension 5 betrug, zeigte IBPP-SVM die beste Leistung für kurze Sequenzen, zeigte jedoch keine gute Spezifität für lange Sequenzen (Tabelle 2). Dieser Vergleich ergab, dass IBPP-SVM mit langen Sequenzen eine hervorragende Leistung erzielen konnte und dass die Leistung weitgehend von der Vektordimension beeinflusst wurde.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

Wir haben dann IBPP mit Schwellenwerten von 12 und 13 an langen Sequenzen getestet. Unter beiden Bedingungen zeigte IBPP eine mit BPROM vergleichbare Sensitivität und Spezifität (Tabelle 2). Obwohl IBPP mit einem Schwellenwert von 12 eine etwas höhere Sensitivität aufwies, wurde eine höhere Spezifität mit einem Schwellenwert von 13 erreicht. Da BPROM eine so außergewöhnliche Leistung bei der Analyse kurzer Sequenzen erbrachte, übertraf die Leistung von IBPP bei der Analyse langer Sequenzen unsere Erwartungen. Dies kann daran liegen, dass BPROM für intergene Sequenzen entwickelt wurde, die viel kürzer als 2 kb sind. Da wir BPROM in diesem Vergleich nur mit dem Standardparametersatz ausgeführt haben, kann sich die Leistung von BPROM bei langen Sequenzen bei der Optimierung der Parameter verbessern. Da bakterielle Gene normalerweise ~ l kb lang sind, kann es in jedem Fragment mehr als ein TSS geben. Daher können einige Treffer außerhalb des Bereichs durch andere Promotoren in den Fragmenten verursacht werden.

Die Sequenzen um Promotoren haben das Potenzial, den Vorhersagealgorithmus zu verzerren. In dieser Studie wurde keine offensichtliche Verzerrung für IBPP aufgrund umgebender Sequenzen festgestellt. Wenn der Schwellenwert beispielsweise 12 betrug, erhielt IBPP TP- und FP-Raten von 56% bzw. 5,88% für kurze Sequenzen und eine TP-Rate von 59% für lange Sequenzen. Daher kann die verlängerte Sequenzlänge selbst keinen negativen Einfluss auf die Leistung von IBPP haben. Der Grund für diesen Unterschied könnte mit dem Punktesystem zusammenhängen. Obwohl die FP-Rate für kurze Sequenzen 5,88% betrug, waren die Werte dieser FP-Sequenzen niedriger als die der TP-Sequenzen insgesamt. Wenn sie auf lange Sequenzen angewendet werden, anstatt von diesen FP-Treffern vorgespannt zu werden, würden solche Treffer zu den nahe gelegenen TP-Treffern gezogen. Darüber hinaus zeigte die Kombination von IBPP und SVM interessante Ergebnisse; Ähnlich wie bei kurzen Sequenzen übertraf auch die Leistung von IBPP-SVM zur Analyse langer Sequenzen die von IBPP. Die Auswirkungen der Vektordimension auf IBPP-SVM unterschieden sich stark zwischen langen Sequenzanalysen und kurzen Sequenzanalysen. Bei einer Vektordimension von 10 sank die TP-Rate für kurze Sequenzen auf 31%, begleitet von einer FP-Rate von 2.3%, was viel niedriger war als bei einer Vektordimension von 5. Unter den gleichen Bedingungen zeigte IBPP-SVM mit einer Vektorlänge von 10 jedoch eine TP-Rate von 65,6% für lange Sequenzen und eine niedrigere FP-Rate als die mit einer Vektorlänge von 5. Obwohl wir dieses Phänomen derzeit nicht erklären können, haben uns die Ergebnisse dazu gebracht, eine Lösung für die weitere Verbesserung dieser Vorhersagemethode für lange Sequenzen zu finden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.