predicția promotorului bazată pe imagini: o metodă de predicție a promotorului bazată pe modele generate evolutiv

generarea de „imagini” printr-o abordare evolutivă

baza IBPP este de a genera o „imagine” din secvențe de antrenament, care este apoi utilizată pentru a evalua orice secvență țintă și pentru a evalua similitudinea acesteia cu „imaginea”. Pornind de la imagini de semințe aleatorii, „imaginile” finale au fost obținute folosind o abordare evolutivă. Metoda evolutivă a avut un efect de uniformizare asupra „imaginilor”, care a stat la baza acestui proces. Deși noile imagini de semințe au fost completate continuu pe parcursul procesului de evoluție, am constatat că diversitatea „imaginilor” a arătat o tendință descrescătoare (Fig.2, S1). A existat o creștere a diversității în primele cinci generații cauzată de înlocuirea ‘–’ cu simboluri nucleotidice. Cu toate acestea, după a 60-a generație, scăderea diversității a încetinit (Fig. 2c). Deși diversitatea părea să continue să scadă până la a 100-a generație (Fig. 2c), am oprit evoluția în acest moment pentru a testa capacitatea predictivă a imaginilor generate.

secvențele promotor și non-promotor din seturile de testare au fost marcate cu „imaginea” generată la a 100-a generație. După cum se arată în tabelul 1, scorul mediu al secvențelor promotor a fost mai mare decât cel al secvențelor non-promotor (p < 0,001). Acest lucru a arătat că” imaginile ” au potențialul de a distinge promotorii de non-promotori. Cu un prag adecvat, secvențele cu scoruri peste prag au fost prezise ca promotori, în timp ce secvențele cu scoruri sub prag au fost prezise ca non-promotori. Cu toate acestea, a existat încă o suprapunere între scorurile secvențelor promotor și non-promotor, indicând faptul că metoda nu a putut îndeplini simultan cerințele atât de sensibilitate, cât și de specificitate.

Tabelul 1 compararea scorurilor secvențelor promotor și non-promotor calculate folosind o „imagine”a.

într-adevăr, sensibilitatea a fost corelată negativ cu pragul (r = 0,999), în timp ce specificitatea a fost corelată pozitiv cu pragul (r = 0,999; Fig. 3a). Când pragul a fost sub 9, IBPP a dobândit o sensibilitate mai mare de 87%, dar specificitatea a fost redusă la Sub 70%. În experimentele noastre, cel mai mare scor F1 a fost obținut cu un prag de 9 (F1 = 77,9%). Cu toate acestea, în practică, o specificitate Sub 90% poate provoca probleme considerabile. Prin urmare, se recomandă un prag de 12, cu o sensibilitate și specificitate de 58.2% 5,1%, respectiv 92,8% 1,6%. Pentru promotorii din alte specii, pragul optim poate fi diferit.

Figura 3
figure3

capacitatea de predicție a promotorului IBPP. Performanța IBPP pe promotorii E. coli pentru seria 70 a fost în mare măsură afectată de pragul (a). Capacitatea predictivă a” imaginii ” a crescut odată cu evoluția (b). Rezultatele provin din 55 de replici independente. SN, sensibilitate; Sp, specificitate; FP, rata fals pozitivă; TP, rata adevărat pozitivă.

sensibilitățile prezise ale „imaginilor” au crescut de-a lungul generațiilor, arătând o puternică corelație pozitivă în modelul de regresie logaritmică montat (r = 0,99; Fig. 3b). În primele 40 de generații, TP medie a crescut de la 0% la 47%, apoi a crescut mai treptat, ajungând în cele din urmă la 58% în a 90-a generație. În schimb, media PC nu s-a modificat substanțial în timp, rămânând aproape 5% pentru majoritatea generațiilor. Având în vedere că performanța predictivă a imaginilor a prezentat doar ușoare îmbunătățiri după generația a 60-a și aproape nicio schimbare după generația a 90-a, 100 de generații ar trebui să fie suficiente pentru promotorii cu o lungime de 81 bp. În experimentele noastre, pregătirea imaginilor pentru secvențe mai scurte a necesitat mai puține generații.cele mai cunoscute caracteristici ale promotorilor bacterieni sunt regiunea -10 (TATAAT) și regiunea -35 (TTGACA). Pentru că” imaginile ” au fost instruite de la promotorii E. coli xv70, acestea ar trebui să conțină unele caracteristici similare cu promotorul E. coli xv70. Deși a fost ușor de detectat Regiunea -10 în toate „imaginile”, Regiunea -35 a fost întotdeauna mai dificil de găsit. Mai mult, Regiunea -10 a apărut întotdeauna mai devreme decât regiunea -35. Am presupus că această caracteristică a aspectului anterior poate modifica aspectul altor caracteristici. Pentru a evalua formarea diferitelor caracteristici, algoritmul a fost ușor modificat. Când a apărut stabil un șir de caractere nucleotidice continue, regiunea a fost fixată și nu a fost utilizată în procesele ulterioare de generare a imaginilor. Folosind această metodă, am investigat efectele penalizării de nepotrivire pentru notarea imaginii asupra formării caracteristicilor. Rezultatele (tabelul S1) au arătat că scorurile de penalizare mai mici (0,4) au determinat formarea de NTs continue mai lungi. Pe măsură ce scorul de penalizare a crescut, lungimea NTs continuă a fost redusă. Regiunile -10 și -35 ar putea fi recunoscute ca „caracteristici” cu lungimi diferite. Deși ” caracteristicile „generate cu un scor de penalizare mai mare (0,75) păreau” curate”,” imaginile ” generate cu un scor de penalizare mai mic au dat rezultate mai bune pentru predicția promotorului (datele nu sunt afișate).

combinând SVM și algoritmul evolutiv

„imaginile” generate în procese evolutive independente au arătat o anumită diversitate (datele nu sunt afișate), ceea ce înseamnă că diferite „imagini” pot conține informații complementare. Astfel, deși „imagini” unice au prezentat o capacitate predictivă similară, combinația de „imagini” diferite într-o singură analiză poate îmbunătăți performanța predictivă. Pentru a evalua acest efect de combinație, am folosit SVM pentru analiza promotorului folosind vectori constând din valori generate de diferite imagini.

sensibilitatea IBPP-SVM pentru secvențe scurte a fost în mare măsură afectată de dimensiunea vectorilor (Fig. 4a). Când lungimea vectorilor a fost sub 6, sensibilitatea IBPP-SVM a crescut ușor odată cu creșterea dimensiunilor vectorului (de exemplu, 64,5% 1,1% pentru un vector 2-dimensional și 68,7% 1,4% pentru un vector 5-dimensional). Cu toate acestea, sensibilitatea a scăzut cu dimensiuni mai mari, scăzând la doar 31,1% 0,8% pentru vectorul 10-dimensional. În schimb, specificitatea IBPP-SVM pentru secvențe scurte nu a fost afectată de lungimea vectorului și a fost menținută la aproximativ 95% în toate cazurile. Combinația diferitelor „imagini” prin introducerea SVM a îmbunătățit performanța pentru secvențe scurte în comparație cu IBPP. În aceleași condiții de testare, cele mai bune rezultate obținute utilizând IBPP-SVM (sensibilitate = 68,7% 1,4%, specificitate = 94,3% 0,2%) au fost semnificativ mai mari decât cele ale IBPP cu un prag de 12 (sensibilitate = 56,4% 4,9%, specificitate = 94,1% 1,2%; Fig. 4b).

Figura 4
figure4

capacitatea de predicție a promotorului IBPP-SVM. Performanța IBPP-SVM a fost testată cu vectori de diferite dimensiuni (a) și comparată cu IBPP (b). Ambele rezultate au fost obținute din trei replici independente. SN, sensibilitate; Sp, specificitate; FP, rata fals pozitivă; TP, rata adevărat pozitivă.

când numărul secvențelor promotorului din setul de date de antrenament a fost fixat, un număr mai mare de secvențe non-promotor a dus la o sensibilitate mai mică, dar la o specificitate mai mare (Fig. S2). Relația dintre sensibilitate și specificitate a fost analizată folosind un vector 5-dimensional, iar rezultatele au demonstrat că sensibilitatea a scăzut rapid atunci când specificitatea a fost peste 85%. Având în vedere performanța generală, cea mai bună performanță a IBPP-SVM a fost obținută cu o sensibilitate de 89,3% și o specificitate de 85,9%.

pentru a evalua performanțele IBPP și IBPP-SVM, seturile de testare utilizate pentru a analiza performanța NNPP2.211 și BPROM25 au fost utilizate pentru promotori și non-promotori. Folosind aceleași seturi de testare, NNPP2.2 a obținut o sensibilitate de 64.6% și specificitate de 90,3%, în timp ce BPROM a obținut o sensibilitate de 95,7% și specificitate de 98,9%. Scorurile F1 obținute de NNPP2.2 și BPROM au fost de 74,1%, respectiv 97,3%. IBPP-SVM a arătat o sensibilitate și o specificitate mai mari decât NNPP2.2, dar performanța a fost încă incomparabilă cu cea a BPROM. Acest rezultat a arătat că IBPP-SVM ar putea obține o eficiență comparabilă sau chiar mai mare decât unii algoritmi de învățare automată; cu toate acestea, sunt necesare îmbunătățiri suplimentare pentru a obține o performanță similară cu cea a BPROM.

algoritmul pentru IBPP nu necesită cunoașterea caracteristicilor promotorilor, cum ar fi Regiunea -10 și regiunea -35 a promotorilor E. coli. Spre deosebire de programele de învățare automată, care se bazează pe date statistice pentru clasificarea promotorilor, aplicarea unei „imagini” în predicția promotorului este similară cu cea din abordarea PWM. O „imagine” este format din șiruri de nucleotide și lacune între ele; astfel, nucleotidele continue dintr-o” imagine ” seamănă cu trăsăturile secvențelor promotorului bacterian, iar golurile seamănă cu distanța dintre trăsături, restricționând pseudofeaturile la anumite poziții. Deoarece astfel de” imagini ” nu pot fi construite cu ușurință de algoritmi de învățare automată, cum ar fi SVM și ANN, am aplicat un algoritm evolutiv. Fără nicio intervenție manuală, „imaginile” s-ar Auto-îmbunătăți cu ajutorul procesului de evoluție. Teoretic, acest sistem evolutiv ar putea fi aplicat pentru extragerea informațiilor din alte tipuri de secvențe, cum ar fi situsurile de legare a ribozomilor și secvențele de codificare.

performanța secvențelor lungi

în continuare, am testat capacitatea IBPP și IBPP-SVM de a face față secvențelor mai lungi de 2.000 nt. Pentru toate metodele testate, au existat simultan lovituri în poziții apropiate sau departe de TSSs; cu toate acestea, loviturile au fost mai concentrate în intervalul relativ la TSSs (figurile 5, S3). Pentru secvențe lungi, am adoptat noi definiții pentru sensibilitate și specificitate, astfel încât predicțiile cu mai multe accesări în interval au prezentat o sensibilitate mai mare, în timp ce predicțiile cu mai multe accesări în afara intervalului au prezentat o specificitate mai mică. Deși BPROM a depășit IBPP-SVM pentru secvențe scurte, capacitatea predictivă a IBPP-SVM pentru secvențe lungi a fost comparabilă cu cea a BPROM (Tabelul 2). Cel mai bun rezultat al IBPP-SVM a fost obținut cu vectori 10-dimensionali, care a fost chiar mai bun decât cel al BPROM, având în vedere atât sensibilitatea, cât și specificitatea. Acest lucru este în mare contrast cu analiza secvențelor scurte, în care IBPP-SVM cu 10 vectori dimensionali a arătat o sensibilitate foarte scăzută (31,08% 0,8%, fig. 4). Când dimensiunea vectorului a fost 5, IBPP-SVM a arătat cea mai bună performanță pentru secvențe scurte, dar nu a prezentat o specificitate bună pentru secvențe lungi (Tabelul 2). Această comparație a arătat că IBPP-SVM ar putea obține performanțe excelente cu secvențe lungi și că performanța a fost în mare măsură afectată de dimensiunea vectorială.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

am testat apoi IBPP cu praguri de 12 și 13 pe secvențe lungi. În ambele condiții, IBPP a prezentat o sensibilitate și o specificitate comparabile cu cele ale BPROM (Tabelul 2). Deși IBPP cu un prag de 12 a avut o sensibilitate ușor mai mare, specificitatea mai mare a fost atinsă cu un prag de 13. Deoarece BPROM a avut o performanță extraordinară pentru analiza secvențelor scurte, performanța IBPP în analiza secvențelor lungi a depășit așteptările noastre. Acest lucru se poate datora faptului că BPROM a fost proiectat pentru secvențe intergenice mult mai scurte de 2 kb. În plus, deoarece am rulat BPROM doar cu setul implicit de parametri în această comparație, performanța BPROM pe secvențe lungi se poate îmbunătăți la optimizarea parametrilor. Deoarece genele bacteriene au de obicei o lungime de ~l kb, pot exista mai multe TSS în fiecare fragment. Astfel, unele accesări în afara intervalului pot fi cauzate de alți promotori din fragmente.

secvențele din jurul promotorilor au potențialul de a influența algoritmul de predicție. În acest studiu, nu a fost detectată nicio părtinire evidentă pentru IBPP din cauza secvențelor înconjurătoare. De exemplu, când pragul a fost de 12, IBPP a obținut rate TP și FP de 56% și, respectiv, 5,88% pentru secvențe scurte și o rată TP de 59% pentru secvențe lungi. Prin urmare, lungimea secvenței extinse în sine poate să nu aibă un impact negativ asupra performanței IBPP. Motivul acestei diferențe ar putea fi legat de sistemul de notare. Deși rata FP pentru secvențele scurte a fost de 5,88%, scorurile acestor secvențe FP au fost mai mici decât cele ale secvențelor TP în general. Atunci când sunt aplicate secvențelor lungi, în loc să fie părtinitoare de aceste accesări FP, astfel de accesări ar fi atrase spre accesările TP din apropiere. În plus, combinația dintre IBPP și SVM a arătat rezultate interesante; similar cu performanța pe secvențe scurte, performanța IBPP-SVM pentru analiza secvențelor lungi a depășit-o și pe cea a IBPP. Efectele dimensiunii vectoriale asupra IBPP-SVM au fost în mare măsură diferite între secvențele lungi și analizele secvenței scurte. Cu o dimensiune vectorială de 10, rata TP a scăzut la 31% pentru secvențele scurte, însoțită de o rată FP de 2.3%, care a fost mult mai mic decât cel cu o dimensiune vectorială de 5. Cu toate acestea, în aceleași condiții, IBPP-SVM cu o lungime a vectorului de 10 a arătat o rată TP de 65,6% pentru secvențele lungi și o rată FP mai mică decât cea cu o lungime a vectorului de 5. Deși în prezent nu putem explica acest fenomen, rezultatele ne-au avansat spre găsirea unei rezoluții pentru îmbunătățirea ulterioară a acestei metode de predicție pe secvențe lungi.

Lasă un răspuns

Adresa ta de email nu va fi publicată.