generering av ”bilder” med ett evolutionärt tillvägagångssätt
grunden för IBPP är att generera en ”bild” från träningssekvenser, som sedan används för att bedöma vilken målsekvens som helst och utvärdera dess likhet med ”bilden”. Med utgångspunkt från slumpmässiga fröbilder erhölls de slutliga” bilderna ” med hjälp av ett evolutionärt tillvägagångssätt. Den evolutionära metoden hade en uniformeringseffekt på” bilderna”, som var grunden för denna process. Även om nya fröbilder kontinuerligt kompletterades under hela utvecklingsprocessen fann vi att mångfalden av ”bilderna” visade en minskande trend (fig 2, S1). Det var en ökning av mångfalden under de första fem generationerna som orsakades av ersättning av ’–’ med nukleotidsymboler. Men efter den 60: e generationen minskade minskningen av mångfalden (Fig. 2c). Även om mångfalden tycktes fortsätta att minska med den 100: e generationen (Fig. 2c) stoppade vi utvecklingen vid denna tidpunkt för att testa de genererade bildernas prediktiva förmåga.
promotor-och icke-promotorsekvenser i testuppsättningarna gjordes med ”bilden” genererad vid 100: e generationen. Som visas i Tabell 1 var Medelpoängen för promotorsekvenser högre än för icke-promotorsekvenser (p < 0,001). Detta visade att” bilderna ” hade potential att skilja promotorer från icke-promotorer. Med en lämplig tröskel förutspåddes sekvenser med poäng över tröskeln som promotorer, medan sekvenser med poäng under tröskeln förutspåddes som icke-promotorer. Det fanns emellertid fortfarande en viss överlappning mellan poängen för promotor-och icke-promotorsekvenser, vilket indikerar att metoden inte samtidigt kunde uppfylla kraven för både känslighet och specificitet.
faktum är att känsligheten var negativt korrelerad med tröskeln (r = 0,999), medan specificiteten var positivt korrelerad med tröskeln (r = 0,999; Fig. 3a). När tröskeln var under 9 förvärvade IBPP en känslighet högre än 87%, men specificiteten reducerades till under 70%. I våra experiment erhölls den högsta F1-poängen med en tröskel på 9 (F1 = 77, 9%). I praktiken kan dock en specificitet under 90% orsaka betydande problem. Därför rekommenderas en tröskel på 12, med en känslighet och specificitet på 58.2% 5,1% och 92,8% 1,6%. För promotorer i andra arter kan den optimala tröskeln skilja sig.
den förutsagda känsligheten hos” bilderna ” ökade över generationerna, vilket visar en stark positiv korrelation i den monterade logaritmiska regressionsmodellen (r = 0,99; Fig. 3b). Under de första 40 generationerna ökade den genomsnittliga TP från 0% till 47% och ökade sedan mer gradvis och nådde slutligen 58% i 90: e generationen. Däremot förändrades den genomsnittliga FP inte väsentligt över tiden och förblev nära 5% för de flesta generationer. Med tanke på att bildens prediktiva prestanda endast uppvisade små förbättringar efter 60: e generationen och nästan ingen förändring efter 90: e generationen, bör 100 generationer vara tillräckliga för promotorer med en längd av 81 bp. I våra experiment krävde förberedelsen av bilder för kortare sekvenser färre generationer.
de mest kända egenskaperna hos bakteriella promotorer är -10-regionen (TATAAT) och -35-regionen (TTGACA). Eftersom ”bilderna”utbildades från E. coli-promotorer för 70, bör de innehålla vissa funktioner som liknar E. coli-promotorn för 70. Även om det var lätt att upptäcka -10-regionen i alla ”bilder”, var -35-regionen alltid svårare att hitta. Dessutom uppträdde -10-regionen alltid tidigare än -35-regionen. Vi antog att denna funktion av tidigare utseende kan förändra utseendet på andra funktioner. För att utvärdera bildandet av olika funktioner modifierades algoritmen något. När en sträng av kontinuerliga nukleotidtecken stabilt uppträdde fixades regionen och användes inte i de efterföljande bildgenereringsprocesserna. Med hjälp av denna metod undersökte vi effekterna av felmatchningsstraffet för bildpoäng på bildandet av funktioner. Resultaten (tabell S1) visade att lägre straffpoäng (0,4) orsakade bildandet av längre kontinuerliga NTs. När straffpoängen ökade minskades längden på den kontinuerliga NTs. Regionerna -10 och -35 kan erkännas som ”funktioner” med olika längder. Även om ” funktioner ”som genererades med en högre straffpoäng (0,75) verkade” rena”, gav” bilderna ” som genererades med en lägre straffpoäng bättre resultat för promotorprediktion (data visas inte).
kombinera SVM och evolutionär algoritm
”bilder” genererade i oberoende evolutionära processer visade viss mångfald (data visas inte), vilket antyder att olika ”bilder” kan ha kompletterande information. Således, även om enstaka ”bilder” uppvisade liknande prediktiv förmåga, kan kombinationen av olika ”bilder” i en analys förbättra den prediktiva prestandan. För att utvärdera denna kombinationseffekt använde vi SVM för promotoranalys med hjälp av vektorer bestående av värden genererade av olika bilder.
känsligheten hos IBPP-SVM för korta sekvenser påverkades till stor del av vektorns dimension (Fig. 4a). När vektorns längd var under 6 ökade känsligheten hos IBPP-SVM något med ökande vektordimensioner (t.ex. 64,5% 1,1% för en 2-dimensionell vektor och 68,7% 1,4% för en 5-dimensionell vektor). Känsligheten minskade emellertid med högre dimensioner och sjönk till endast 31,1% 0,8% för den 10-dimensionella vektorn. I kontrast, specificiteten av IBPP-SVM för korta sekvenser påverkades inte av vektorlängd och bibehölls vid cirka 95% i alla fall. Kombinationen av olika ”bilder” genom att introducera SVM förbättrade prestandan för korta sekvenser jämfört med IBPP. Under samma testförhållanden var de bästa resultaten som erhölls med IBPP-SVM (känslighet = 68,7% 1,4%, specificitet = 94,3% 0,2% 0,2%) signifikant högre än IBPP med ett tröskelvärde på 12 (känslighet = 56,4% 4,9% 4,9%, specificitet = 94,1% 1,2%; Fig. 4b).
När antalet promotorsekvenser i träningsdatasetet fixades resulterade ett högre antal icke-promotorsekvenser i lägre känslighet men högre specificitet (Fig. S2). Förhållandet mellan känslighet och specificitet analyserades med användning av en 5-dimensionell vektor, och resultaten visade att känsligheten minskade snabbt när specificiteten var över 85%. Med tanke på den totala prestandan erhölls IBPP-SVM: s bästa prestanda med en känslighet av 89,3% och specificitet på 85,9%.
för att utvärdera prestanda för IBPP och IBPP-SVM användes testuppsättningarna för att analysera prestanda för NNPP2.211 och BPROM25 för promotorer och icke-promotorer. Med samma testuppsättningar fick NNPP2.2 en känslighet på 64.6% och specificitet på 90,3%, medan BPROM erhöll en känslighet på 95,7% och specificitet på 98,9%. F1-poängen erhållna av NNPP2.2 och BPROM var 74.1% respektive 97.3%. IBPP-SVM visade högre känslighet och specificitet än NNPP2.2, men prestandan var fortfarande oföränderlig med BPROMS. Detta resultat visade att IBPP-SVM kunde uppnå en effektivitet jämförbar med eller till och med högre än vissa maskininlärningsalgoritmer; emellertid krävs ytterligare förbättringar för att uppnå en prestanda som liknar BPROM.
algoritmen för IBPP kräver inte kunskap om funktioner hos promotorer, såsom -10-regionen och -35-regionen för E. coli-promotorer. Till skillnad från maskininlärningsprogram, som bygger på statistiska data för klassificering av promotorer, är tillämpningen av en ”bild” i promotorprediktion liknande den i PWM-metoden. En ”bild” består av strängar av nukleotider och luckor mellan dem; således liknar de kontinuerliga nukleotiderna i en” bild ” egenskaperna hos bakteriella promotorsekvenser, och luckorna liknar avståndet mellan funktioner, vilket begränsar pseudofeatures till vissa positioner. Eftersom sådana ”bilder” inte lätt kan konstrueras av maskininlärningsalgoritmer, som SVM och ANN, tillämpade vi en evolutionär algoritm. Utan någon manuell ingrepp skulle” bilderna ” självförbättras med hjälp av utvecklingsprocessen. Teoretiskt kan detta evolutionära system tillämpas för att rita information från andra typer av sekvenser, såsom ribosombindningsställen och kodande sekvenser.
prestanda för långa sekvenser
därefter testade vi IBPP och IBPP-SVMs förmåga att hantera längre sekvenser på 2000 nt. För alla testade metoder fanns träffar på positioner nära eller långt ifrån TSSs samtidigt; träffarna var dock mer koncentrerade i intervallet relativt TSSs (fig 5, S3). För långa sekvenser antog vi nya definitioner för känslighet och specificitet så att förutsägelser med fler träffar i intervallet uppvisade högre känslighet, medan förutsägelser med fler träffar utanför intervallet uppvisade lägre specificitet. Även om BPROM överträffade IBPP-SVM för korta sekvenser, var den prediktiva förmågan hos IBPP-SVM för långa sekvenser jämförbar med den för BPROM (Tabell 2). Det bästa resultatet av IBPP-SVM erhölls med 10-dimensionella vektorer, vilket var ännu bättre än för BPROM med tanke på både känslighet och specificitet. Detta står i stor kontrast till analysen av korta sekvenser, där IBPP-SVM med 10-dimensionella vektorer visade mycket låg känslighet (31, 08% 0, 8%, fig. 4). När vektordimensionen var 5 visade IBPP-SVM den bästa prestandan för korta sekvenser men uppvisade inte god specificitet för långa sekvenser (Tabell 2). Denna jämförelse avslöjade att IBPP-SVM kunde uppnå utmärkt prestanda med långa sekvenser och att prestandan till stor del påverkades av vektordimensionen.
Vi testade sedan IBPP med tröskelvärden på 12 och 13 på långa sekvenser. Under båda förhållandena visade IBPP en känslighet och specificitet jämförbar med BPROM (Tabell 2). Även om IBPP med en tröskel på 12 hade en något högre känslighet uppnåddes högre specificitet med en tröskel på 13. Eftersom BPROM hade en sådan extraordinär prestanda för analys av korta sekvenser överträffade IBPPS prestanda i analysen av långa sekvenser våra förväntningar. Detta kan bero på att BPROM designades för intergena sekvenser mycket kortare än 2 kb. Dessutom, eftersom vi bara körde BPROM med standarduppsättningen parametrar i denna jämförelse, kan bproms prestanda på långa sekvenser förbättras vid optimering av parametrarna. Eftersom bakteriegener vanligtvis är ~ L kb långa kan det finnas mer än en TSS i varje fragment. Således kan vissa träffar utanför intervallet orsakas av andra promotorer i fragmenten.
sekvenserna runt promotorer har potential att förspänna prediktionsalgoritmen. I denna studie upptäcktes ingen uppenbar bias för IBPP på grund av omgivande sekvenser. Till exempel, när tröskeln var 12, erhöll IBPP TP-och FP-hastigheter på 56% respektive 5,88% för korta sekvenser och en TP-hastighet på 59% för långa sekvenser. Därför kan den förlängda sekvenslängden i sig inte ha en negativ inverkan på IBPP: s prestanda. Anledningen till denna skillnad kan vara relaterad till poängsystemet. Även om FP-hastigheten för korta sekvenser var 5,88% var poängen för dessa FP-sekvenser lägre än de för TP-sekvenserna totalt sett. När de appliceras på långa sekvenser, istället för att vara partisk av dessa FP-träffar, skulle sådana träffar dras mot de närliggande TP-träffarna. Dessutom visade kombinationen av IBPP och SVM intressanta resultat; i likhet med prestanda på korta sekvenser överskred ibpp-SVM: s prestanda för analys av långa sekvenser också IBPP: s. Effekterna av vektordimension på IBPP-SVM var till stor del olika mellan långa sekvensanalyser och korta sekvensanalyser. Med en vektordimension på 10 sjönk TP-hastigheten till 31% för korta sekvenser, åtföljd av en FP-hastighet på 2.3%, vilket var mycket lägre än med en vektordimension på 5. Under samma förhållanden visade emellertid IBPP-SVM med en vektorlängd på 10 en TP-hastighet på 65,6% för långa sekvenser och en lägre FP-hastighet än den med en vektorlängd på 5. Även om vi för närvarande inte kan förklara detta fenomen, avancerade resultaten oss mot att hitta en upplösning för ytterligare förbättring av denna prediktionsmetod på långa sekvenser.