Generation of “images” by an evolutionary approach
de basis van IBPP is het genereren van een “image” uit trainingssequenties, die vervolgens wordt gebruikt om elke doelsequentie te beoordelen en de gelijkenis met het “image”te evalueren. Uitgaande van random seed-beelden, werden de uiteindelijke “beelden” verkregen met behulp van een evolutionaire benadering. De evolutionaire methode had een uniformisatie-effect op de” beelden”, die de basis van dit proces was. Hoewel nieuwe seed-beelden voortdurend werden aangevuld tijdens het evolutieproces, vonden we dat de diversiteit van de “beelden” een dalende trend vertoonde (Fig.2, S1). Er was een toename in Diversiteit in de eerste vijf generaties veroorzaakt door vervanging van ‘–’ door nucleotide symbolen. Na de 60e generatie is de afname van de diversiteit echter vertraagd (Fig. 2c). Hoewel de diversiteit leek te blijven afnemen met de 100e generatie (Fig. 2c), stopten we de evolutie op dit punt om het voorspellende vermogen van de gegenereerde beelden te testen.
promotor-en niet-promotorsequenties in de testsets werden gescoord met het “beeld” gegenereerd bij de 100e generatie. Zoals getoond in Tabel 1 was de gemiddelde score van promotorsequenties hoger dan die van niet-promotorsequenties (p < 0,001). Hieruit bleek dat de” beelden ” het potentieel hadden om promotors van niet-promotors te onderscheiden. Met een passende drempelwaarde werden sequenties met scores boven de drempelwaarde voorspeld als promotors, terwijl sequenties met scores onder de drempelwaarde werden voorspeld als niet-promotors. Er was echter nog steeds enige overlapping tussen de scores van promotor-en niet-promotorsequenties, wat erop wijst dat de methode niet tegelijkertijd aan de vereisten van zowel gevoeligheid als specificiteit kon voldoen.
De gevoeligheid was inderdaad negatief gecorreleerd met de drempelwaarde (r = 0,999), terwijl de specificiteit positief gecorreleerd was met de drempelwaarde (r = 0,999; Fig. 3a). Toen de drempelwaarde lager was dan 9, kreeg IBPP een gevoeligheid van meer dan 87%, maar de specificiteit werd verminderd tot minder dan 70%. In onze experimenten werd de hoogste F1 score behaald met een drempelwaarde van 9 (F1 = 77,9%). In de praktijk kan een specificiteit van minder dan 90% echter aanzienlijke problemen veroorzaken. Daarom wordt een drempelwaarde van 12 aanbevolen, met een gevoeligheid en specificiteit van 58.Respectievelijk 2% ± 5,1% en 92,8% ± 1,6%. Voor promotors van andere soorten kan de optimale drempelwaarde verschillen.
de voorspelde gevoeligheden van de” beelden ” namen over de generaties toe, wat een sterke positieve correlatie laat zien in het aangepaste logaritmische regressiemodel (r = 0,99; Fig. 3b). In de eerste 40 generaties, de gemiddelde TP steeg van 0% naar 47%, en vervolgens meer geleidelijk, uiteindelijk tot 58% in de 90e generatie. Daarentegen veranderde het gemiddelde KP in de loop van de tijd niet substantieel en bleef voor de meeste generaties in de buurt van 5%. Gezien het feit dat de voorspellende prestaties van de beelden slechts lichte verbeteringen vertoonden na de 60e generatie en bijna geen verandering na de 90e generatie, zouden 100 generaties voldoende moeten zijn voor promotors met een lengte van 81 bp. In onze experimenten vereiste de voorbereiding van beelden voor kortere sequenties minder generaties.
de meest bekende kenmerken van bacteriële promotors zijn de regio -10 (TATAAT) en de regio -35 (TTGACA). Omdat de” beelden ” van E. coli σ70 promotors werden opgeleid, zouden zij sommige eigenschappen gelijkend op de E. coli σ70 promotor moeten bevatten. Hoewel het gemakkelijk was om de -10 regio in alle “beelden” te detecteren, was de -35 Regio altijd moeilijker te vinden. Bovendien verscheen de regio -10 altijd eerder dan de regio -35. We gingen ervan uit dat Dit kenmerk van eerdere verschijning het uiterlijk van andere kenmerken kan veranderen. Om de vorming van verschillende functies te evalueren, werd het algoritme enigszins gewijzigd. Toen een koord van ononderbroken nucleotidekarakters stabiel verscheen, werd het gebied vastgesteld en werd niet gebruikt in de volgende beeld-generatieprocessen. Met deze methode onderzochten we de effecten van de mismatch penalty voor beeldscores op de vorming van functies. Uit de resultaten (tabel S1) bleek dat lagere strafscores (0,4) de vorming van langere continue NTs veroorzaakten. Naarmate de penalty-score toenam, werd de lengte van de continue NTs verminderd. De -10 en -35 regio ‘ s kunnen worden erkend als “kenmerken” met verschillende lengtes. Hoewel “features” gegenereerd met een hogere strafscore (0,75) leek “schoon”, de “beelden” gegenereerd met een lagere strafscore leverde betere resultaten voor promotor voorspelling (gegevens niet weergegeven).
de combinatie van het SVM en het evolutionaire algoritme
” beelden “gegenereerd in onafhankelijke evolutionaire processen toonde een zekere diversiteit (gegevens niet getoond), wat impliceert dat verschillende” beelden ” aanvullende informatie kunnen bevatten. Dus, hoewel enkele “beelden” tentoongesteld soortgelijke voorspellende vermogen, de combinatie van verschillende “beelden” in een analyse kan de voorspellende prestaties te verbeteren. Om dit combinatie-effect te evalueren, gebruikten we SVM voor promotoranalyse met behulp van vectoren die bestaan uit waarden gegenereerd door verschillende beelden.
de gevoeligheid van IBPP-SVM voor korte sequenties werd grotendeels beïnvloed door de dimensie van de vectoren (Fig. 4a). Wanneer de lengte van vectoren lager was dan 6, nam de gevoeligheid van IBPP-SVM licht toe met toenemende vectorafmetingen (bijvoorbeeld 64,5% ± 1,1% voor een 2-dimensionale vector en 68,7% ± 1,4% voor een 5-dimensionale vector). De gevoeligheid nam echter af met hogere dimensies en daalde tot slechts 31,1% ± 0,8% voor de 10-dimensionale vector. De specificiteit van IBPP-SVM voor korte sequenties werd daarentegen niet beïnvloed door de vectorlengte en werd in alle gevallen op ongeveer 95% gehandhaafd. De combinatie van verschillende “beelden” door de introductie van SVM verbeterde de prestaties voor korte sequenties in vergelijking met IBPP. Onder dezelfde testomstandigheden waren de beste resultaten verkregen met IBPP-SVM (gevoeligheid = 68,7% ± 1,4%, specificiteit = 94,3% ± 0,2%) significant hoger dan die van IBPP met een drempelwaarde van 12 (gevoeligheid = 56,4% ± 4,9%, specificiteit = 94,1% ± 1,2%; Fig. 4b).
wanneer het aantal promotorsequenties in de trainingsdataset was vastgesteld, resulteerde een hoger aantal niet-promotorsequenties in een lagere gevoeligheid maar een hogere specificiteit (Fig. S2). Het verband tussen gevoeligheid en specificiteit werd geanalyseerd gebruikend een 5-dimensionale vector, en de resultaten toonden aan dat de gevoeligheid snel toen de specificiteit boven 85% was verminderde. Gezien de algehele prestaties werd de beste prestatie van IBPP-SVM verkregen met een gevoeligheid van 89,3% en specificiteit van 85,9%.
om de prestaties van IBPP en IBPP-SVM te evalueren, werden de testsets gebruikt om de prestaties van NNPP2.211 en BPROM25 te analyseren voor promotors en niet-promotors. Met behulp van dezelfde testsets, nnpp2.2 verkregen een gevoeligheid van 64.6% en specificiteit van 90,3%, terwijl BPROM een gevoeligheid van 95,7% en specificiteit van 98,9% verkregen. De F1-scores verkregen door NNPP2.2 en BPROM waren respectievelijk 74,1% en 97,3%. IBPP-SVM vertoonde een hogere gevoeligheid en specificiteit dan NNPP2.2, maar de prestaties waren nog steeds onvergelijkbaar met die van BPROM. Dit resultaat toonde aan dat IBPP-SVM een efficiëntie kan bereiken die vergelijkbaar is met of zelfs hoger is dan sommige machine learning algoritmen; echter, verdere verbeteringen zijn nodig om een prestatie te bereiken die vergelijkbaar is met die van BPROM.
het algoritme voor IBPP vereist geen kennis van kenmerken van promotors, zoals de -10 regio en -35 regio van E. coli promotors. In tegenstelling tot machine-learning programma ‘ s, die afhankelijk zijn van statistische gegevens voor de classificatie van promotors, de toepassing van een “beeld” in promotor voorspelling is vergelijkbaar met die in de PWM aanpak. Een “beeld” bestaat uit koorden van nucleotiden en hiaten tussen hen; aldus, lijken de ononderbroken nucleotiden in een “beeld” op de eigenschappen van bacteriële promotoropeenvolgingen, en de hiaten lijken op het uit elkaar plaatsen tussen eigenschappen, die pseudofeatures aan bepaalde posities beperken. Omdat dergelijke” beelden ” niet gemakkelijk kunnen worden geconstrueerd door machine-learning algoritmen, zoals SVM en ANN, hebben we een evolutionair algoritme toegepast. Zonder enige handmatige interventie zouden de” beelden ” zichzelf verbeteren met behulp van het evolutieproces. Theoretisch, zou dit evolutionaire systeem voor het trekken van informatie van andere types van opeenvolgingen, zoals ribosoom-bindende plaatsen en codageopvolgingen kunnen worden toegepast.
Performance of long sequences
vervolgens hebben we de mogelijkheid van IBPP en IBPP-SVM getest om met langere sequenties van 2000 nt om te gaan. Voor alle geteste methoden waren er gelijktijdig treffers op posities dicht bij of ver van het TSSs; de treffers waren echter meer geconcentreerd in het bereik van relatief tot tsss (Fig.5, S3). Voor lange sequenties namen we nieuwe definities voor gevoeligheid en specificiteit aan, zodat voorspellingen met meer hits in het bereik een hogere gevoeligheid vertoonden, terwijl voorspellingen met meer hits buiten het bereik een lagere specificiteit vertoonden. Hoewel BPROM beter presteerde dan IBPP-SVM voor korte sequenties, was het voorspellende vermogen van IBPP-SVM voor lange sequenties vergelijkbaar met dat van BPROM (Tabel 2). Het beste resultaat van IBPP-SVM werd verkregen met 10-dimensionale vectoren, die zelfs beter was dan die van BPROM gezien zowel gevoeligheid als specificiteit. Dit is in groot contrast met de analyse van korte opeenvolgingen, waarin IBPP-SVM met 10 dimensionale vectoren zeer lage gevoeligheid toonde (31,08% ± 0,8%, Fig. 4). Toen de vectordimensie 5 was, vertoonde IBPP-SVM de beste prestaties voor korte sequenties, maar vertoonde geen goede specificiteit voor lange sequenties (Tabel 2). Deze vergelijking toonde aan dat IBPP-SVM uitstekende prestaties kon bereiken met lange sequenties en dat de prestaties grotendeels werden beïnvloed door de vectordimensie.
We testten IBPP met drempels van 12 en 13 op lange sequenties. Onder beide omstandigheden vertoonde IBPP een gevoeligheid en specificiteit die vergelijkbaar was met die van BPROM (Tabel 2). Hoewel IBPP met een drempelwaarde van 12 een iets hogere gevoeligheid had, werd een hogere specificiteit bereikt met een drempelwaarde van 13. Omdat BPROM zulke buitengewone prestaties had voor de analyse van korte sequenties, overtrof de prestaties van IBPP in de analyse van lange sequenties onze verwachtingen. Dit kan zijn omdat BPROM voor intergenic opeenvolgingen veel korter dan 2 kb werd ontworpen. Bovendien, als we alleen liep BPROM met de standaard set van parameters in deze vergelijking, de prestaties van BPROM op lange sequenties kan verbeteren op optimalisatie van de parameters. Omdat de bacteriële genen gewoonlijk ~l kb in lengte zijn, kan er meer dan één TSS in elk fragment zijn. Aldus, kunnen sommige slagen buiten het bereik door andere promotors in de fragmenten worden veroorzaakt.
de sequenties rond promotors kunnen het voorspellingsalgoritme beïnvloeden. In deze studie, werd geen duidelijke bias ontdekt voor IBPP toe te schrijven aan omringende opeenvolgingen. Bijvoorbeeld, toen de drempelwaarde 12 was, kreeg IBPP TP-en FP-percentages van respectievelijk 56% en 5,88% voor korte sequenties, en een TP-percentage van 59% voor lange sequenties. Daarom kan de verlengde sequentielengte zelf geen negatief effect hebben op de prestaties van IBPP. De reden voor dit verschil kan te maken hebben met het scoresysteem. Hoewel het FP-percentage voor korte sequenties 5,88% was, waren de scores van deze FP-sequenties lager dan die van de TP-sequenties in het algemeen. Wanneer toegepast op lange sequenties, in plaats van bevooroordeeld door deze FP hits, dergelijke hits zou worden getrokken naar de nabijgelegen TP hits. Bovendien toonde de combinatie van IBPP en SVM interessante resultaten; vergelijkbaar met de prestaties op korte sequenties, de prestaties van IBPP-SVM voor de analyse van lange sequenties ook overtrof die van IBPP. De effecten van vectordimensie op IBPP-SVM waren grotendeels verschillend tussen lange sequentie-en korte sequentie-analyses. Met een vectordimensie van 10 daalde de TP-snelheid tot 31% voor korte sequenties, vergezeld van een FP-snelheid van 2.3%, wat veel lager was dan die met een vectordimensie van 5. Onder dezelfde omstandigheden vertoonde IBPP-SVM met een vectorlengte van 10 echter een TP-snelheid van 65,6% voor lange sequenties en een lagere FP-snelheid dan die met een vectorlengte van 5. Hoewel we dit fenomeen op dit moment niet kunnen verklaren, hebben de resultaten ons vooruit geholpen om een oplossing te vinden voor verdere verbetering van deze voorspellingsmethode op lange sequenties.