Image-based promoter prediction: A promoter prediction method based on evolutionarily generated patterns

Generation of «images» by an evolutionary approach

grunnlaget FOR IBPP er å generere et » bilde «fra treningssekvenser, som deretter brukes til å vurdere en hvilken som helst målsekvens og evaluere dens likhet med»image». Fra tilfeldige frøbilder ble de endelige «bildene» oppnådd ved hjelp av en evolusjonær tilnærming. Den evolusjonære metoden hadde en uniformiseringseffekt på «bildene», som var grunnlaget for denne prosessen. Selv om nye frøbilder ble kontinuerlig supplert gjennom hele utviklingsprosessen, fant vi at mangfoldet av «bildene» viste en avtagende trend (Fig 2, S1). Det var en økning i mangfoldet i de første fem generasjonene forårsaket av erstatning av ‘ – ‘ med nukleotidsymboler. Men etter den 60. generasjonen ble nedgangen i mangfoldet redusert (Fig. 2c). Selv om mangfoldet syntes å fortsette å redusere med 100-generasjonen(Fig. 2c), stoppet vi utviklingen på dette punktet for å teste prediktiv evne til de genererte bildene.

Promoter-og ikke-promoter-sekvenser i testsettene ble scoret med «bildet» generert ved 100. generasjon. Som vist i Tabell 1 var gjennomsnittlig poengsum for promoter-sekvenser høyere enn for ikke-promoter-sekvenser (p < 0,001). Dette viste at «bildene» hadde potensial til å skille promotorer fra ikke-promotorer. Med en passende terskel ble sekvenser med score over terskelen spådd som promotører, mens sekvenser med score under terskelen ble spådd som ikke-promotører. Imidlertid var det fortsatt noe overlapping mellom resultatene av promotor og ikke-promotor sekvenser, noe som indikerer at metoden ikke samtidig kunne oppfylle kravene til både følsomhet og spesifisitet.

Tabell 1 Sammenligning av antall promoter-og ikke-promoter-sekvenser beregnet ved hjelp av et «bilde»a.

faktisk var følsomheten negativt korrelert med terskelen (r = 0,999), mens spesifisiteten var positivt korrelert med terskelen (r = 0,999; Fig. 3a). NÅR terskelen var under 9, OPPNÅDDE IBPP en følsomhet høyere enn 87%, men spesifisiteten ble redusert til under 70%. I våre eksperimenter ble den høyeste f1-poengsummen oppnådd med en terskel på 9 (F1 = 77,9%). Men i praksis kan en spesifisitet under 90% forårsake betydelige problemer. Derfor anbefales en terskel på 12, med en følsomhet og spesifisitet på 58.2% ± 5,1% og henholdsvis 92,8% ± 1,6%. For promotorer i andre arter kan den optimale terskelen variere.

Figur 3
figure3

Promoter prediksjon evne TIL IBPP. Ibpps ytelse på e. coli σ 70-promotorer ble i stor grad påvirket av terskelen (a). Den prediktive evnen til «bildet» økte sammen med evolusjonen (b). Resultatene er fra 55 uavhengige replikasjoner. Sn, følsomhet; Sp, spesifisitet; FP, falsk-positiv rate; TP, sann-positiv rate.

de forventede følsomhetene til «bildene» økte over generasjonene, og viste en sterk positiv korrelasjon i den monterte logaritmiske regresjonsmodellen (r = 0,99; Fig. 3b). I de første 40 generasjonene økte gjennomsnittlig TP fra 0% til 47%, og økte deretter gradvis, og til slutt nådde 58% i 90. generasjon. I motsetning til DETTE endret gjennomsnittlig FP ikke vesentlig over tid, gjenværende nær 5% for de fleste generasjoner. Med tanke på at den prediktive ytelsen til bildene viste bare små forbedringer etter 60. generasjon og nesten ingen endring etter 90. generasjon, bør 100 generasjoner være tilstrekkelig for promotorer med en lengde på 81 bp. I våre eksperimenter krevde utarbeidelsen av bilder for kortere sekvenser færre generasjoner.De mest kjente egenskapene til bakterielle promotorer er -10-regionen (TATAAT) og -35-regionen (TTGACA). Siden «bildene» ble opplært Fra e. coli σ 70-arrangører, bør de inneholde noen funksjoner som Ligner På E. coli σ 70-arrangøren. Selv om det var lett å oppdage -10-regionen i alle «bilder», var -35-regionen alltid vanskeligere å finne. Videre oppstod -10-regionen alltid tidligere enn -35-regionen. Vi antok at denne funksjonen av tidligere utseende kan endre utseendet på andre funksjoner. For å evaluere dannelsen av forskjellige funksjoner ble algoritmen litt modifisert. Når en streng av kontinuerlige nukleotidtegn stabilt dukket opp, ble regionen løst og ble ikke brukt i de etterfølgende bildegenereringsprosessene. Ved hjelp av denne metoden, undersøkte vi effekten av mismatch straff for bilde scoring på dannelsen av funksjoner. Resultatene (Tabell S1) viste at lavere straffepoeng (0,4) forårsaket dannelsen av lengre kontinuerlige NTs. Etter hvert som straffen økte, ble lengden på den kontinuerlige NTs redusert. Regionene -10 og -35 kan gjenkjennes som «funksjoner» med forskjellige lengder. Selv om «funksjoner» som ble generert med en høyere straffepoeng (0,75) virket «rene», ga «bildene» som ble generert med en lavere straffepoeng bedre resultater for promotor prediksjon (data ikke vist).

Kombinere SVM og evolusjonær algoritme

«Bilder» generert i uavhengige evolusjonære prosesser viste et visst mangfold (data ikke vist), noe som tyder på at forskjellige «bilder» kan bære komplementær informasjon. Således, selv om enkelte «bilder» viste lignende prediktiv evne, kan kombinasjonen av forskjellige» bilder » i en analyse forbedre prediktiv ytelse. FOR å evaluere denne kombinasjonseffekten brukte VI SVM FOR promoteranalyse ved hjelp av vektorer som består av verdier generert av forskjellige bilder.

følsomheten TIL IBPP-SVM for korte sekvenser ble i stor grad påvirket av vektorens dimensjon (Fig. 4a). Når lengden på vektorer var under 6, økte FØLSOMHETEN TIL IBPP-SVM noe med økende vektordimensjoner (f.eks. 64.5% ± 1.1% for en 2-dimensjonal vektor og 68.7% ± 1.4% for en 5-dimensjonal vektor). Følsomheten ble imidlertid redusert med høyere dimensjoner, og falt til bare 31,1% ± 0,8% for den 10-dimensjonale vektoren. I kontrast ble spesifisiteten TIL IBPP-SVM for korte sekvenser ikke påvirket av vektorlengde og ble opprettholdt på rundt 95% i alle tilfeller. Kombinasjonen av forskjellige «bilder» ved å introdusere SVM forbedret ytelsen for korte sekvenser sammenlignet med IBPP. Under de samme testbetingelsene var de beste resultatene oppnådd ved BRUK AV IBPP-SVM (følsomhet = 68.7% ± 1.4%, spesifisitet = 94.3% ± 0.2%) betydelig høyere enn FOR IBPP med en terskel på 12 (følsomhet = 56.4% ± 4.9%, spesifisitet = 94.1% ± 1.2%; Fig. 4b).

Figur 4
figure4

Promoter prediksjon evne TIL IBPP-SVM. Ytelsen TIL IBPP-SVM ble testet med vektorer av forskjellige dimensjoner (a) og sammenlignet MED IBPP (b). Begge resultatene var fra tre uavhengige replikasjoner. Sn, følsomhet; Sp, spesifisitet; FP, falsk-positiv rate; TP, sann-positiv rate.

når antall promotorsekvenser i treningsdatasettet ble fikset, resulterte et høyere antall ikke-promotorsekvenser i lavere følsomhet, men høyere spesifisitet (Fig. S2). Forholdet mellom sensitivitet og spesifisitet ble analysert ved hjelp av en 5-dimensjonal vektor, og resultatene viste at følsomheten sank raskt når spesifisiteten var over 85%. Med tanke på den generelle ytelsen ble DEN BESTE ytelsen TIL IBPP-SVM oppnådd med en følsomhet på 89,3% og spesifisitet på 85,9%.for å evaluere ytelsen TIL IBPP og IBPP-SVM ble testsettene som ble brukt til å analysere ytelsen TIL NNPP2.211 og BPROM25 brukt til promotorer og ikke-promotorer. VED å bruke disse samme testsettene oppnådde NNPP2.2 en følsomhet på 64.6% og spesifisitet på 90,3%, MENS BPROM oppnådde en sensitivitet på 95,7% og spesifisitet på 98,9%. F1-skårene OPPNÅDD AV NNPP2.2 og bprom var henholdsvis 74,1% og 97,3%. IBPP-SVM viste høyere følsomhet og spesifisitet ENN NNPP2.2, men ytelsen var fortsatt uforlignelig MED BPROM. DETTE resultatet viste AT IBPP-SVM kunne oppnå en effektivitet som er sammenlignbar med eller enda høyere enn noen maskinlæringsalgoritmer; imidlertid er det nødvendig med ytterligere forbedringer for å oppnå en ytelse som LIGNER PÅ BPROM.algoritmen FOR IBPP krever ikke kunnskap om egenskaper hos promotorer, for eksempel -10-regionen og -35-regionen Av e. coli-promotorer. I motsetning til maskinlæringsprogrammer, som er avhengige av statistiske data for klassifisering av promotorer, er anvendelsen av et «bilde» i promotor-prediksjon lik DEN I PWM-tilnærmingen. Et «bilde» består av strenger av nukleotider og hull mellom dem; dermed ligner de kontinuerlige nukleotidene i et «bilde» egenskapene til bakterielle promoter-sekvenser, og hullene ligner avstanden mellom funksjoner, og begrenser pseudofeaturer til bestemte posisjoner. Fordi slike «bilder» ikke lett kan konstrueres av maskinlæringsalgoritmer, som SVM og ANN, brukte vi en evolusjonær algoritme. Uten manuell inngrep ville «bildene» forbedre seg selv ved hjelp av utviklingsprosessen. Teoretisk sett kan dette evolusjonære systemet brukes til å tegne informasjon fra andre typer sekvenser, for eksempel ribosombindende steder og kodende sekvenser.

Ytelse av lange sekvenser

Deretter testet VI IBPP og IBPP-SVMS evne til å håndtere lengre sekvenser på 2000 nt. For alle testede metoder var det treff på posisjoner nær Eller langt fra TSSs samtidig; treffene var imidlertid mer konsentrert i forhold til TSSs (Fig 5, S3). For lange sekvenser vedtok vi nye definisjoner for følsomhet og spesifisitet, slik at spådommer med flere treff i området viste høyere følsomhet, mens spådommer med flere treff utenfor området viste lavere spesifisitet. SELV OM BPROM overgikk IBPP-SVM for korte sekvenser, var den prediktive evnen TIL IBPP-SVM for lange sekvenser sammenlignbar MED BPROM (Tabell 2). DET beste resultatet AV IBPP-SVM ble oppnådd med 10-dimensjonale vektorer, noe som var enda bedre ENN bprom med tanke på både følsomhet og spesifisitet. DETTE står i stor kontrast til analysen av korte sekvenser, HVOR IBPP-SVM med 10 dimensjonsvektorer viste svært lav følsomhet (31.08% ± 0.8%, Fig. 4). NÅR vektordimensjonen var 5, VISTE IBPP-SVM den beste ytelsen for korte sekvenser, men viste ikke god spesifisitet for lange sekvenser (Tabell 2). Denne sammenligningen viste at IBPP-SVM kunne oppnå utmerket ytelse med lange sekvenser, og at ytelsen i stor grad ble påvirket av vektordimensjonen.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

VI testet IBPP med terskler på 12 og 13 på lange sekvenser. UNDER begge forhold viste IBPP en sensitivitet og spesifisitet som var sammenlignbar MED BPROM (Tabell 2). SELV OM IBPP med en terskel på 12 hadde en litt høyere følsomhet, ble høyere spesifisitet oppnådd med en terskel på 13. FORDI BPROM hadde en slik ekstraordinær ytelse for analysen av korte sekvenser, OVERGIKK IBPPS ytelse i analysen av lange sekvenser våre forventninger. Dette kan skyldes AT BPROM ble designet for intergeniske sekvenser mye kortere enn 2 kb. I tillegg, da vi bare kjørte BPROM med standard sett med parametere i denne sammenligningen, kan ytelsen TIL BPROM på lange sekvenser forbedre ved optimalisering av parametrene. Fordi bakterielle gener vanligvis er ~ l kb i lengde, kan det være mer enn ett TSS i hvert fragment. Dermed kan noen treff utenfor området skyldes andre promotorer i fragmentene.

sekvensene rundt promotorer har potensial til å forstyrre prediksjonsalgoritmen. I denne studien ble det ikke påvist noen åpenbar bias FOR IBPP på grunn av omgivende sekvenser. FOR eksempel, da terskelen var 12, OPPNÅDDE IBPP TP-og FP-hastigheter på henholdsvis 56% og 5,88% for korte sekvenser og en tp-rate på 59% for lange sekvenser. Derfor kan den utvidede sekvenslengden i seg selv ikke ha en negativ innvirkning på YTELSEN TIL IBPP. Årsaken til denne forskjellen kan være relatert til scoringssystemet. SELV OM fp-frekvensen for korte sekvenser var 5,88%, var scorene til DISSE FP-sekvensene lavere enn FOR TP-sekvensene totalt sett. Når den brukes på lange sekvenser, i stedet for å være partisk av DISSE FP treff, ville slike treff trekkes mot de nærliggende TP treff. I tillegg viste kombinasjonen AV IBPP og SVM interessante resultater; i likhet med ytelsen på korte sekvenser, overgikk YTELSEN TIL IBPP-SVM for analyse av lange sekvenser OGSÅ IBPPS. Effektene av vektordimensjon på IBPP-SVM var i stor grad forskjellig mellom lang sekvens og kort sekvensanalyser. Med en vektordimensjon på 10 falt TP-frekvensen til 31% for korte sekvenser, ledsaget AV EN FP-hastighet på 2.3%, som var mye lavere enn det med en vektordimensjon på 5. UNDER DE samme forholdene viste IBPP-SVM MED en vektorlengde på 10 en tp-hastighet på 65,6% for lange sekvenser og en lavere FP-hastighet enn den med en vektorlengde på 5. Selv om vi for øyeblikket ikke kan forklare dette fenomenet, avanserte resultatene oss mot å finne en løsning for ytterligere forbedring av denne prediksjonsmetoden på lange sekvenser.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.