billedbaseret promotor forudsigelse: en promotor forudsigelsesmetode baseret på evolutionært genererede mønstre

Generation af “billeder” ved en evolutionær tilgang

grundlaget for IBPP er at generere et “billede” fra træningssekvenser, som derefter bruges til at vurdere enhver målsekvens og evaluere dens lighed med “billedet”. Fra tilfældige frøbilleder blev de endelige “billeder” opnået ved hjælp af en evolutionær tilgang. Den evolutionære metode havde en ensartet effekt på” billederne”, som var grundlaget for denne proces. Selvom nye frøbilleder løbende blev suppleret gennem hele udviklingsprocessen, fandt vi, at mangfoldigheden af “billederne” viste en faldende tendens (fig 2, S1). Der var en stigning i mangfoldighed i de første fem generationer forårsaget af udskiftning af ‘–’ med nukleotidsymboler. Efter den 60.generation faldt faldet i mangfoldighed imidlertid (Fig. 2c). Selvom mangfoldigheden syntes at fortsætte med at falde med den 100.generation (Fig. 2c), stoppede vi udviklingen på dette tidspunkt for at teste de genererede billeders forudsigelige evne.

promotor-og ikke-promotorsekvenser i testsættene blev scoret med det “billede”, der blev genereret ved 100.generation. Som vist i tabel 1 var den gennemsnitlige score for promotorsekvenser højere end for ikke-promotorsekvenser (p < 0,001). Dette viste, at” billederne ” havde potentialet til at skelne promotorer fra ikke-promotorer. Med en passende tærskel blev sekvenser med scoringer over tærsklen forudsagt som promotorer, mens sekvenser med scoringer under tærsklen blev forudsagt som ikke-promotorer. Der var dog stadig en vis overlapning mellem scorerne af promotor-og ikke-promotorsekvenser, hvilket indikerer, at metoden ikke samtidig kunne opfylde kravene til både følsomhed og specificitet.

tabel 1 sammenligning af scoringer af promotor-og ikke-promotorsekvenser beregnet ved hjælp af et “billede”a.

følsomheden var faktisk negativt korreleret med tærsklen (r = 0,999), mens specificiteten var positivt korreleret med tærsklen (r = 0,999; Fig. 3a). Når tærsklen var under 9, fik IBPP en følsomhed højere end 87%, men specificiteten blev reduceret til Under 70%. I vores eksperimenter blev den højeste F1-score opnået med en tærskel på 9 (F1 = 77,9%). I praksis kan en specificitet Under 90% imidlertid forårsage betydelige problemer. Derfor anbefales en tærskel på 12 med en følsomhed og specificitet på 58.2% henholdsvis 5,1% og 92,8% henholdsvis 1,6%. For promotorer i andre arter kan den optimale tærskel variere.

figur 3
figur3

promotor forudsigelse evne IBPP. IBPP ‘ s ydeevne på E. coli-promotorer af colis70 blev i høj grad påvirket af tærskelværdien (a). Den forudsigelige evne til” billedet ” steg sammen med evolutionen (b). Resultaterne er fra 55 uafhængige replikationer. SN, følsomhed; Sp, specificitet; FP, falsk-positiv sats; TP, sand-positiv sats.

de forudsagte følsomheder af “billederne” steg gennem generationerne og viste en stærk positiv korrelation i den monterede logaritmiske regressionsmodel (r = 0,99; Fig. 3b). I de første 40 generationer steg den gennemsnitlige TP fra 0% til 47% og steg derefter mere gradvist og nåede i sidste ende 58% i den 90.generation. I modsætning hertil ændrede den gennemsnitlige FP sig ikke væsentligt over tid og forblev næsten 5% i de fleste generationer. I betragtning af at den forudsigelige ydeevne af billederne kun udviste små forbedringer efter den 60.generation og næsten ingen ændring efter den 90. generation, skulle 100 generationer være tilstrækkelige til promotorer med en længde på 81 bp. I vores eksperimenter krævede forberedelsen af billeder til kortere sekvenser færre generationer.

de mest kendte træk ved bakterielle promotorer er -10-regionen (TATAAT) og -35-regionen (TTGACA). Fordi “billederne” blev trænet fra E. coli-kurt70-promotorer, skulle de indeholde nogle funktioner, der ligner E. coli kurt70-promotoren. Selvom det var let at opdage -10-regionen i alle “billeder”, var -35-regionen altid vanskeligere at finde. Desuden optrådte -10-regionen altid tidligere end -35-regionen. Vi antog, at denne funktion af tidligere udseende kan ændre udseendet af andre funktioner. For at evaluere dannelsen af forskellige funktioner blev algoritmen lidt ændret. Når en streng af kontinuerlige nukleotidtegn optrådte stabilt, blev regionen rettet og blev ikke brugt i de efterfølgende billedgenereringsprocesser. Ved hjælp af denne metode undersøgte vi virkningerne af mismatch-straffen for billedscoring på dannelsen af funktioner. Resultaterne (tabel S1) viste, at lavere straffescore (0,4) forårsagede dannelsen af længere kontinuerlig NTs. Da straffesparket steg, blev længden af den kontinuerlige NTs reduceret. Regionerne -10 og -35 kunne genkendes som “funktioner” med forskellige længder. Selvom ” funktioner “genereret med en højere straffespark (0,75) syntes” rene”, gav de” billeder”, der blev genereret med en lavere straffespark, bedre resultater for promotorforudsigelse (data ikke vist).

kombination af SVM og evolutionær algoritme

“billeder” genereret i uafhængige evolutionære processer viste en vis mangfoldighed (data ikke vist), hvilket antyder, at forskellige “billeder” kan bære komplementær information. Selvom enkelte ” billeder “udviste lignende forudsigelsesevne, kan kombinationen af forskellige” billeder ” i en analyse forbedre den forudsigelige ydeevne. For at evaluere denne kombinationseffekt anvendte vi SVM til promotoranalyse ved hjælp af vektorer bestående af værdier genereret af forskellige billeder.

følsomheden af IBPP-SVM for korte sekvenser blev stort set påvirket af dimensionen af vektorerne (Fig. 4a). Når længden af vektorer var under 6, steg følsomheden af IBPP-SVM lidt med stigende vektordimensioner (f.eks. 64,5%-1,1% for en 2-dimensionel vektor og 68,7% – 1,4% for en 5-dimensionel vektor). Imidlertid faldt følsomheden med højere dimensioner og faldt til kun 31,1% liter 0,8% for den 10-dimensionelle vektor. I modsætning hertil blev specificiteten af IBPP-SVM for korte sekvenser ikke påvirket af vektorlængde og blev opretholdt på omkring 95% i alle tilfælde. Kombinationen af forskellige “billeder” ved at introducere SVM forbedrede ydeevnen for korte sekvenser sammenlignet med IBPP. Under de samme testbetingelser var de bedste resultater opnået ved anvendelse af IBPP-SVM (følsomhed = 68,7% ren 1,4%, specificitet = 94,3% ren 0,2%) signifikant højere end for IBPP med en tærskel på 12 (følsomhed = 56,4% ren 4,9%, specificitet = 94,1% ren 1,2%; Fig. 4b).

figur 4
figur4

promotor forudsigelse evne IBPP-SVM. Udførelsen af IBPP-SVM blev testet med vektorer af forskellige dimensioner (A) og sammenlignet med IBPP (b). Begge resultater var fra tre uafhængige replikationer. SN, følsomhed; Sp, specificitet; FP, falsk-positiv sats; TP, sand-positiv sats.

Når antallet af promotorsekvenser i træningsdatasættet blev rettet, resulterede et højere antal ikke-promotorsekvenser i lavere følsomhed, men højere specificitet (Fig. S2). Forholdet mellem følsomhed og specificitet blev analyseret ved anvendelse af en 5-dimensionel vektor, og resultaterne viste, at følsomheden faldt hurtigt, når specificiteten var over 85%. I betragtning af den samlede præstation blev den bedste ydelse af IBPP-SVM opnået med en følsomhed på 89,3% og specificitet på 85,9%.

for at evaluere præstationerne for IBPP og IBPP-SVM blev testsættene, der blev brugt til at analysere ydeevnen for NNPP2.211 og BPROM25, brugt til promotorer og ikke-promotorer. Ved hjælp af de samme testsæt opnåede NNPP2.2 en følsomhed på 64.6% og specificitet på 90,3%, mens BPROM opnåede en følsomhed på 95,7% og specificitet på 98,9%. F1-score opnået af NNPP2.2 og BPROM var henholdsvis 74,1% og 97,3%. IBPP-SVM viste højere følsomhed og specificitet end NNPP2.2, men ydeevnen var stadig uforlignelig med BPROMS. Dette resultat viste, at IBPP-SVM kunne opnå en effektivitet, der kan sammenlignes med eller endda højere end nogle maskinlæringsalgoritmer; der kræves dog yderligere forbedringer for at opnå en ydeevne, der ligner bproms.algoritmen til IBPP kræver ikke kendskab til funktioner hos promotorer, såsom -10-regionen og -35-regionen af E. coli-promotorer. I modsætning til maskinindlæringsprogrammer, der er afhængige af statistiske data til klassificering af promotorer, svarer anvendelsen af et “billede” i promotorforudsigelse til det i PMM-tilgangen. Et “billede” består af strenge af nukleotider og huller mellem dem; således ligner de kontinuerlige nukleotider i et “billede” funktionerne i bakterielle promotorsekvenser, og hullerne ligner afstanden mellem træk, hvilket begrænser pseudofeatures til bestemte positioner. Fordi sådanne “billeder” ikke let kan konstrueres af maskinlæringsalgoritmer, såsom SVM og ANN, anvendte vi en evolutionær algoritme. Uden nogen manuel indgriben ville” billederne ” forbedre sig selv ved hjælp af udviklingsprocessen. Teoretisk set kunne dette evolutionære system anvendes til tegning af information fra andre typer sekvenser, såsom ribosombindingssteder og kodende sekvenser.

udførelse af lange sekvenser

dernæst testede vi IBPP og IBPP-SVM ‘ s evne til at håndtere længere sekvenser på 2.000 nt. For alle testede metoder var der hits på positioner tæt på eller langt fra TSS ‘erne samtidigt; imidlertid var hits mere koncentreret i området i forhold til TSS’ er (Fig.5, S3). I lange sekvenser vedtog vi nye definitioner for følsomhed og specificitet, så forudsigelser med flere hits i området udviste højere følsomhed, mens forudsigelser med flere hits uden for området udviste lavere specificitet. Selvom BPROM overgik IBPP-SVM for korte sekvenser, var den forudsigelige evne af IBPP-SVM for lange sekvenser sammenlignelig med BPROM (tabel 2). Det bedste resultat af IBPP-SVM blev opnået med 10-dimensionelle vektorer, hvilket var endnu bedre end BPROM i betragtning af både følsomhed og specificitet. Dette er i stor kontrast til analysen af korte sekvenser, hvor IBPP-SVM med 10 dimensionelle vektorer viste meget lav følsomhed (31,08% liter 0,8%, Fig. 4). Når vektordimensionen var 5, viste IBPP-SVM den bedste ydelse for korte sekvenser, men udviste ikke god specificitet for lange sekvenser (tabel 2). Denne sammenligning afslørede, at IBPP-SVM kunne opnå fremragende ydelse med lange sekvenser, og at ydelsen stort set blev påvirket af vektordimensionen.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

Vi testede derefter IBPP med tærskler på 12 og 13 på lange sekvenser. Under begge forhold udviste IBPP en følsomhed og specificitet, der var sammenlignelig med bproms (tabel 2). Selvom IBPP med en tærskel på 12 havde en lidt højere følsomhed, blev højere specificitet opnået med en tærskel på 13. Fordi BPROM havde en sådan ekstraordinær præstation til analyse af korte sekvenser, oversteg IBPP ‘ s ydeevne i analysen af lange sekvenser vores forventninger. Dette kan skyldes, at BPROM var designet til intergeniske sekvenser meget kortere end 2 kb. Da vi kun kørte BPROM med standardindstillingen af parametre i denne sammenligning, kan udførelsen af BPROM på lange sekvenser forbedres ved optimering af parametrene. Fordi bakteriegener normalt er ~L kb i længden, kan der være mere end en TSS i hvert fragment. Således kan nogle hits uden for området være forårsaget af andre promotorer i fragmenterne.

sekvenserne omkring promotorer har potentialet til at bias forudsigelsesalgoritmen. I denne undersøgelse blev der ikke påvist nogen åbenbar bias for IBPP på grund af omgivende sekvenser. For eksempel, når tærsklen var 12, opnåede IBPP TP-og FP-hastigheder på henholdsvis 56% og 5,88% for korte sekvenser og en TP-hastighed på 59% for lange sekvenser. Derfor kan den udvidede sekvenslængde i sig selv ikke have en negativ indvirkning på IBPP ‘ s ydeevne. Årsagen til denne forskel kan være relateret til scoringssystemet. Selvom FP-hastigheden for korte sekvenser var 5,88%, var scorerne af disse FP-sekvenser lavere end for TP-sekvenserne generelt. Når de anvendes på lange sekvenser, i stedet for at være partisk af disse FP-hits, vil sådanne hits blive trukket mod de nærliggende TP-hits. Derudover viste kombinationen af IBPP og SVM interessante resultater; svarende til ydeevnen på korte sekvenser oversteg ydelsen af IBPP-SVM til analyse af lange sekvenser også IBPP. Virkningerne af vektordimension på IBPP-SVM var stort set forskellige mellem lang sekvens og kort sekvensanalyser. Med en vektordimension på 10 faldt TP-hastigheden til 31% for korte sekvenser ledsaget af en FP-hastighed på 2.3%, hvilket var meget lavere end med en vektordimension på 5. Under de samme betingelser viste IBPP-SVM med en vektorlængde på 10 imidlertid en TP-hastighed på 65,6% for lange sekvenser og en lavere FP-hastighed end den med en vektorlængde på 5. Selvom vi i øjeblikket ikke kan forklare dette fænomen, avancerede resultaterne os mod at finde en opløsning til yderligere forbedring af denne forudsigelsesmetode på lange sekvenser.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.