képalapú promoter predikció: evolúciósan generált mintákon alapuló promoter predikciós módszer

“képek” generálása evolúciós megközelítéssel

az IBPP alapja egy “kép” generálása képzési szekvenciákból, amelyet ezután bármilyen célszekvencia értékelésére és a “képhez”való hasonlóság értékelésére használnak. A véletlenszerű magképekből kiindulva a végső “képeket” evolúciós megközelítéssel kaptuk meg. Az evolúciós módszer egységesítő hatást gyakorolt a” képekre”, ami ennek a folyamatnak az alapja volt. Bár az evolúciós folyamat során folyamatosan új magképeket egészítettünk ki, azt tapasztaltuk, hogy a “képek” sokfélesége csökkenő tendenciát mutat (2.ábra, S1). Az első öt generációban nőtt a sokféleség, amelyet a ‘–’ nukleotid szimbólumokkal való helyettesítése okozott. A 60. generáció után azonban a sokféleség csökkenése lelassult (ábra. 2c). Bár úgy tűnt, hogy a sokféleség a 100.generációval tovább csökken (ábra. 2c), ezen a ponton megállítottuk az evolúciót, hogy teszteljük a generált képek prediktív képességét.

a tesztkészletek Promoter és nem promoter szekvenciáit a 100.generációban létrehozott “kép” alapján értékelték. Amint az 1. táblázatban látható, a promoter szekvenciák átlagos pontszáma magasabb volt, mint a nem promoter szekvenciáké (p < 0,001). Ez azt mutatta, hogy a “képek” képesek voltak megkülönböztetni a promótereket a nem promóterektől. Megfelelő küszöbértékkel a küszöbérték feletti pontszámokkal rendelkező szekvenciákat promoterként, míg a küszöb alatti pontszámokkal rendelkező szekvenciákat nem promoterként jósolták meg. Azonban még mindig volt némi átfedés a promoter és a nem promoter szekvenciák pontszáma között, ami azt jelzi, hogy a módszer nem tudott egyszerre megfelelni mind az érzékenység, mind a specifitás követelményeinek.

1.táblázat a promoter és a nem promoter szekvenciák pontszámainak összehasonlítása egy “kép”segítségével a.

valójában az érzékenység negatívan korrelált a küszöbértékkel (r = 0,999), míg a specifitás pozitívan korrelált a küszöbértékkel (r = 0,999; ábra. 3a). Amikor a küszöb 9 alatt volt, az IBPP 87% – nál nagyobb érzékenységet szerzett, de a specificitás 70% alá csökkent. Kísérleteink során a legmagasabb F1 pontszámot 9-es küszöbértékkel kaptuk (F1 = 77,9%). A gyakorlatban azonban a 90% alatti specifitás jelentős problémákat okozhat. Ezért 12-es küszöbérték ajánlott, 58-as érzékenységgel és specifikussággal.2% (5,1%), illetve 92,8% (1,6%). Más fajok promóterei esetében az optimális küszöbérték eltérhet.

3.ábra
3. ábra

az IBPP Promoter predikciós képessége. Az IBPP teljesítményét E. coli-n (60) nagymértékben befolyásolta az (a) küszöbérték. A “kép” prediktív képessége az evolúcióval együtt nőtt (b). Az eredmények 55 független replikációból származnak. SN, érzékenység; Sp, specifitás; FP, hamis pozitív arány; TP, igaz-pozitív arány.

a” képek ” várható érzékenysége nőtt a generációk során, erős pozitív korrelációt mutatva az illesztett logaritmikus regressziós modellben (r = 0,99; ábra. 3b). Az első 40 generációban az átlagos TP 0% – ról 47% – ra nőtt, majd fokozatosan nőtt, végül elérte az 58% – ot a 90.generációban. Ezzel szemben az átlagos keretprogram nem változott jelentősen az idő múlásával, a legtöbb generáció esetében közel 5% maradt. Figyelembe véve, hogy a képek prediktív teljesítménye a 60.generáció után csak csekély javulást mutatott, a 90. generáció után pedig szinte semmilyen változást nem mutatott, 100 generációnak elegendőnek kell lennie a 81 bp hosszúságú promóterek számára. Kísérleteinkben a rövidebb szekvenciákra készített képek elkészítése kevesebb generációt igényelt.

a bakteriális promoterek legismertebb jellemzői a -10 régió (TATAAT) és -35 régió (TTGACA). Mivel a” képeket ” az E. coli 670 promóterekből képezték ki, tartalmazniuk kell néhány, az E. coli 70 promóterhez hasonló tulajdonságot. Bár könnyű volt felismerni a -10 régiót az összes “képen”, a -35 régiót mindig nehezebb volt megtalálni. Sőt, a -10 régió mindig korábban jelent meg, mint a -35 régió. Feltételeztük, hogy a korábbi megjelenés ezen tulajdonsága megváltoztathatja más funkciók megjelenését. A különböző jellemzők kialakulásának értékeléséhez az algoritmust kissé módosítottuk. Amikor egy folyamatos nukleotid karakterlánc stabilan megjelent, a régiót rögzítették, és nem használták a későbbi képgenerálási folyamatokban. Ezzel a módszerrel megvizsgáltuk a kép pontozásáért járó mismatch büntetés hatásait a funkciók kialakulására. Az eredmények (S1 táblázat) azt mutatták, hogy az alacsonyabb büntetési pontszámok (0,4) hosszabb folyamatos NTs kialakulását okozták. A büntetési pontszám növekedésével a folyamatos NTs hossza csökkent. A -10 és -35 régiók különböző hosszúságú “jellemzőkként” ismerhetők fel. Bár a magasabb büntetési pontszámmal (0,75) generált” jellemzők “” tisztának “tűntek, az alacsonyabb büntetési pontszámmal generált” képek ” jobb eredményeket hoztak a promóter előrejelzéséhez (az adatok nem jelennek meg).

az SVM és az evolúciós algoritmus kombinálása

a független evolúciós folyamatokban generált”képek” bizonyos sokféleséget mutattak (az adatok nem szerepelnek), ami arra utal, hogy a különböző “képek” kiegészítő információkat hordozhatnak. Így, bár az egyes ” képek “hasonló prediktív képességet mutattak, a különböző” képek ” kombinációja egy elemzésben javíthatja a prediktív teljesítményt. Ennek a kombinációs hatásnak az értékeléséhez SVM-et alkalmaztunk a promoter elemzéséhez különböző képek által generált értékekből álló Vektorok felhasználásával.

az IBPP-SVM érzékenységét rövid szekvenciákra nagymértékben befolyásolta a vektorok dimenziója (ábra. 4a). Amikor a vektorok hossza 6 alatt volt, az IBPP-SVM érzékenysége kissé nőtt a vektor dimenzióinak növekedésével (például 64,5% 6,1% egy 2 dimenziós vektor esetében és 68,7% 1,4% egy 5 dimenziós vektor esetében). Az érzékenység azonban a magasabb dimenziókkal csökkent, csak 31,1%-ra esett vissza 0,8% a 10 dimenziós vektor esetében. Ezzel szemben az IBPP-SVM rövid szekvenciákra vonatkozó specifitását nem befolyásolta a vektor hossza, és minden esetben 95% körül maradt. A különböző “képek” kombinációja az SVM bevezetésével javította a rövid szekvenciák teljesítményét az IBPP-hez képest. Ugyanezen vizsgálati körülmények között az IBPP-SVM alkalmazásával elért legjobb eredmények (érzékenység = 68,7% ~ 1,4%, specificitás = 94,3% ~ 0,2%) szignifikánsan magasabbak voltak, mint az IBPP 12-es küszöbértékével (érzékenység = 56,4% ~ 4,9%, specifitás = 94,1% ~ 1,2%; ábra. 4b).

4.ábra
4. ábra

az IBPP-SVM Promoter prediktív képessége. Az IBPP-SVM teljesítményét különböző méretű (a) vektorokkal tesztelték, és összehasonlították az IBPP (b) – vel. Mindkét eredmény három független replikációból származott. SN, érzékenység; Sp, specifitás; FP, hamis pozitív arány; TP, igaz-pozitív arány.

amikor az edzési adatkészletben a promoter szekvenciák számát rögzítették, a nem promoter szekvenciák nagyobb száma alacsonyabb érzékenységet, de nagyobb specifitást eredményezett (ábra. S2). Az érzékenység és a specifitás közötti kapcsolatot egy 5 dimenziós vektor segítségével elemeztük, és az eredmények azt mutatták, hogy az érzékenység gyorsan csökkent, amikor a specifitás 85% felett volt. Az általános teljesítményt figyelembe véve az IBPP-SVM legjobb teljesítményét 89,3% – os érzékenységgel, 85,9% – os specifitással érték el.

az IBPP és az IBPP-SVM teljesítményének értékeléséhez az NNPP2.211 és a BPROM25 teljesítményének elemzéséhez használt tesztkészleteket használtuk promóterek és nem promóterek számára. Ugyanezen tesztkészletek felhasználásával az NNPP2.2 64 érzékenységet kapott.6% és 90,3% – os specificitás, míg a BPROM 95,7% – os érzékenységet és 98,9% – os specificitást kapott. Az Nnpp2.2 és a BPROM által elért F1 pontszámok 74,1%, illetve 97,3% voltak. Az IBPP-SVM nagyobb érzékenységet és specifitást mutatott, mint az NNPP2.2, de a teljesítmény még mindig összehasonlíthatatlan volt a BPROM teljesítményével. Ez az eredmény azt mutatta, hogy az IBPP-SVM egyes gépi tanulási algoritmusokhoz hasonló vagy annál magasabb hatékonyságot érhet el; a BPROM-hoz hasonló teljesítmény eléréséhez azonban további fejlesztésekre van szükség.

az IBPP algoritmusa nem igényli a promoterek jellemzőinek ismeretét, például az E. coli promoterek -10 és -35 régióját. A gépi tanulási programokkal ellentétben, amelyek statisztikai adatokra támaszkodnak a promóterek osztályozásához, a “kép” alkalmazása a promóter előrejelzésében hasonló a PWM megközelítéshez. A” kép ” nukleotidokból és köztük lévő résekből áll; így a “képben” lévő folyamatos nukleotidok hasonlítanak a bakteriális promoter szekvenciák jellemzőire, a rések pedig a jellemzők közötti távolságra hasonlítanak, az áljellemzőket bizonyos pozíciókra korlátozva. Mivel az ilyen” képeket ” nem lehet könnyen elkészíteni gépi tanulási algoritmusokkal, mint például az SVM és az ANN, evolúciós algoritmust alkalmaztunk. Kézi beavatkozás nélkül a” képek ” az evolúciós folyamat segítségével javulnának. Elméletileg ez az evolúciós rendszer alkalmazható más típusú szekvenciák, például riboszóma-kötő helyek és kódoló szekvenciák információinak rajzolására.

hosszú szekvenciák teljesítménye

ezután teszteltük az IBPP és az IBPP-SVM képességét a hosszabb, 2000 nt-os szekvenciák kezelésére. Az összes tesztelt módszer esetében egyszerre voltak találatok a TSSs-hez közeli vagy attól távol eső pozíciókban; a találatok azonban koncentráltabbak voltak a TSSs-hez viszonyított tartományban (5.ábra, S3). A hosszú szekvenciák esetében új definíciókat fogadtunk el az érzékenységre és a specificitásra, így a tartományban több találatot mutató előrejelzések nagyobb érzékenységet mutattak, míg a tartományon kívüli több találatot mutató előrejelzések alacsonyabb specifitást mutattak. Bár a BPROM felülmúlta az IBPP-SVM-et rövid szekvenciák esetén, az IBPP-SVM prediktív képessége hosszú szekvenciák esetében összehasonlítható volt a BPROM-val (2.táblázat). Az IBPP-SVM legjobb eredményét 10 dimenziós vektorokkal kaptuk, ami még jobb volt, mint a BPROMÉ, figyelembe véve mind az érzékenységet, mind a specifitást. Ez nagy ellentétben áll a rövid szekvenciák elemzésével, amelyben az IBPP-SVM 10 dimenziós vektorral nagyon alacsony érzékenységet mutatott (31,08% 0,8%, ábra. 4). Amikor a vektor dimenzió 5 volt, az IBPP-SVM a legjobb teljesítményt mutatta a rövid szekvenciák esetében, de a hosszú szekvenciák esetében nem mutatott jó specifitást (2.táblázat). Ez az összehasonlítás feltárta, hogy az IBPP-SVM kiváló teljesítményt tudott elérni hosszú szekvenciákkal, és hogy a teljesítményt nagymértékben befolyásolta a vektor dimenzió.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

ezután teszteltük az IBPP-t 12-es és 13-as küszöbértékkel hosszú szekvenciákon. Az IBPP mindkét körülmények között a BPROM-hoz hasonló érzékenységet és specificitást mutatott (2.táblázat). Bár a 12-es küszöbértékű IBPP valamivel nagyobb érzékenységgel rendelkezett, a 13-as küszöbértékkel magasabb specifitást értek el. Mivel a BPROM ilyen rendkívüli teljesítményt nyújtott a rövid szekvenciák elemzésében, az IBPP teljesítménye a hosszú szekvenciák elemzésében meghaladta várakozásainkat. Ennek oka lehet, hogy a BPROM-ot 2 kb-nál sokkal rövidebb intergenikus szekvenciákra tervezték. Ezenkívül, mivel ebben az összehasonlításban csak az alapértelmezett paraméterkészlettel futtattuk a BPROM-ot, a bprom teljesítménye hosszú szekvenciákon javulhat a paraméterek optimalizálásával. Mivel a bakteriális gének általában ~l kb hosszúak, mindegyik fragmensben egynél több TSS lehet. Így a tartományon kívüli találatokat a töredékek más promóterei okozhatják.

a promóterek körüli szekvenciák torzíthatják a predikciós algoritmust. Ebben a tanulmányban nem észleltek nyilvánvaló torzítást az IBPP esetében a környező szekvenciák miatt. Például, amikor a küszöbérték 12 volt, az IBPP a rövid szekvenciák esetében 56% – os TP és 5,88% – os FP arányt, a hosszú szekvenciák esetében pedig 59% – os TP arányt kapott. Ezért a kiterjesztett szekvencia hossza önmagában nem lehet negatív hatással az IBPP teljesítményére. Ennek a különbségnek az oka a pontozási rendszerhez kapcsolódhat. Bár a rövid szekvenciák FP aránya 5,88% volt, ezeknek az FP szekvenciáknak a pontszáma alacsonyabb volt, mint a TP szekvenciáké. Hosszú szekvenciákra alkalmazva, ahelyett, hogy ezek az FP találatok elfogultak lennének, az ilyen találatokat a közeli TP találatok felé vonzanák. Ezenkívül az IBPP és az SVM kombinációja érdekes eredményeket mutatott; a rövid szekvenciák teljesítményéhez hasonlóan az IBPP-SVM teljesítménye a hosszú szekvenciák elemzésére is meghaladta az IBPP teljesítményét. A vektor dimenzió IBPP-SVM-re gyakorolt hatása nagymértékben különbözött a hosszú szekvencia és a rövid szekvencia analízisek között. 10-es vektormérettel a TP arány 31% – ra csökkent a rövid szekvenciák esetében, 2-es FP-Arány kíséretében.3%, ami jóval alacsonyabb volt, mint az 5-ös vektor dimenzió. Ugyanezen feltételek mellett azonban a 10-es vektorhosszúságú IBPP-SVM 65,6% – os TP arányt mutatott a hosszú szekvenciák esetében, és alacsonyabb FP arányt mutatott, mint az 5-ös vektorhosszúságnál. Bár jelenleg nem tudjuk megmagyarázni ezt a jelenséget, az eredmények arra ösztönöztek minket, hogy megoldást találjunk ennek a predikciós módszernek a hosszú szekvenciákon történő további javítására.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.