Image-based promoter predikce: promoter predikce metoda založená na evolučně vytvořené vzory

Generace „obrázky“ tím, že evoluční přístup

základem IBPP je vytvářet „obraz“ z tréninkové sekvence, která se pak používá k posouzení cílové sekvence a zhodnotit jeho podobnost „obrazu“. Počínaje náhodnými obrazy semen byly konečné „obrazy“ získány pomocí evolučního přístupu. Evoluční metoda měla uniformizační účinek na „obrazy“, což bylo základem tohoto procesu. Přestože byly nové obrazy semen neustále doplňovány v průběhu procesu vývoje, zjistili jsme, že rozmanitost „obrazů“ vykazovala klesající trend (obr. 2, S1). V prvních pěti generacích došlo ke zvýšení rozmanitosti způsobené nahrazením ‚ – ‚ nukleotidovými symboly. Po 60. generaci se však pokles rozmanitosti zpomalil (obr. 2c). Ačkoli se zdálo, že rozmanitost stále klesá o 100. generaci (obr. 2c), zastavili jsme vývoj v tomto bodě, abychom otestovali prediktivní schopnost generovaných obrazů.

organizace a non-promotor sekvence ve zkušební sady byly hodnoceny s „image“ generované na 100. generace. Jak je uvedeno v Tabulce 1, průměrné skóre promotor sekvence byla vyšší než non-promotor sekvence (p < 0.001). To ukázalo, že „obrázky“ měly potenciál odlišit promotory od nepromotorů. Při vhodném prahu byly sekvence se skóre nad prahem předpovězeny jako promotory, zatímco sekvence se skóre pod prahem byly předpovězeny jako nepromotory. Nicméně, tam byl ještě nějaké překrývání mezi skóre promotér a non-promotor sekvence, což znamená, že metodu nelze současně splnit požadavky obou citlivost a specifičnost.

Tabulka 1 Srovnání skóre promotér a non-pořadatel sekvencí vypočítat pomocí „image“.

Opravdu, citlivost byla v negativní korelaci s prahem (r = 0.999), vzhledem k tomu, specifičnost byl pozitivně korelovala s prahem (r = 0.999; Obr. 3a). Když byla prahová hodnota nižší než 9, IBPP získal citlivost vyšší než 87%, ale specificita byla snížena na méně než 70%. V našich experimentech bylo dosaženo nejvyššího skóre F1 s prahem 9 (F1 = 77,9%). V praxi však může specificita nižší než 90% způsobit značné problémy. Proto se doporučuje prahová hodnota 12 s citlivostí a specificitou 58.2% ± 5,1% a 92,8% ± 1,6%. U promotorů u jiných druhů se optimální prahová hodnota může lišit.

Obrázek 3
obrázek 3

Promoter predikce schopnost IBPP. Výkon IBPP na promotorech E. coli σ70 byl do značné míry ovlivněn prahem (a). Prediktivní schopnost „obrazu“ se zvyšovala spolu s vývojem (b). Výsledky jsou z 55 nezávislých replikací. Sn, citlivost; Sp, specificita; FP, falešně pozitivní míra; TP, pravdivě pozitivní míra.

předpokládaná citlivost „obrázky“, se zvýšil v průběhu generací, což ukazuje silnou pozitivní korelaci ve vybavené logaritmické regresní model (r = 0.99; Obr. 3b). V prvních 40 generacích se průměrný TP zvýšil z 0% na 47% a poté postupně rostl, nakonec dosáhl 58% v 90.generaci. Naproti tomu průměrný FP se v průběhu času podstatně nezměnil a zůstal téměř 5% pro většinu generací. Vzhledem k tomu, že prediktivní výkon obrazy vystavoval pouze mírné zlepšení po 60. generace a téměř žádná změna po 90. generace, 100 generací by mělo být dostatečné pro předkladatele o délce 81 bp. V našich experimentech vyžadovala příprava obrazů pro kratší sekvence méně generací.

nejznámějšími rysy bakteriálních promotorů jsou -10 region (TATAAT) a -35 region (TTGACA). Protože „obrázky“ byly trénovány z promotorů E. coli σ70, měly by obsahovat některé vlastnosti podobné promotoru E.coli σ70. Ačkoli bylo snadné detekovat region -10 ve všech „obrázcích“, region -35 byl vždy obtížnější najít. Kromě toho se region -10 vždy objevil dříve než region -35. Předpokládali jsme, že tato vlastnost dřívějšího vzhledu může změnit vzhled dalších funkcí. Pro vyhodnocení tvorby různých funkcí byl algoritmus mírně upraven. Když se stabilně objevil řetězec spojitých nukleotidových znaků, oblast byla fixována a nebyla použita v následných procesech generování obrazu. Pomocí této metody jsme zkoumali účinky trestu nesouladu pro hodnocení obrazu na tvorbu funkcí. Výsledky (Tabulka S1) ukázaly, že nižší skóre trestů (0, 4) způsobilo tvorbu delších kontinuálních NTs. Jak se skóre trestu zvyšovalo, délka nepřetržitého NTs byla snížena. Regiony -10 a -35 lze rozpoznat jako „funkce“ s různými délkami. Ačkoli se „funkce“ generované s vyšším skóre trestu (0.75) zdály „čisté“,“ obrázky “ generované s nižším skóre trestu přinesly lepší výsledky pro predikci promotéra(údaje nejsou zobrazeny).

Kombinování SVM a evoluční algoritmus

„Obrázky“ vytvořené v nezávislých evolučních procesů, ukázala určitou rozmanitost (údaje nejsou uvedeny), což znamená, že různé „obrazy“ mohou nést doplňkové informace. Proto, i když jeden „obrázky“ vykazovaly podobný prediktivní schopnost, kombinace různých „obrázků“, v jedné analýze může zlepšit prediktivní výkon. Pro vyhodnocení tohoto kombinovaného efektu jsme použili SVM pro analýzu promotorů pomocí vektorů sestávajících z hodnot generovaných různými obrazy.

citlivost IBPP-SVM pro krátké sekvence byla do značné míry ovlivněna dimenzí vektorů (obr. 4a). Když délku vektorů byla pod 6, citlivost IBPP-SVM mírně zvýšila s rostoucí vektor dimenze (např. 64.5% ± 1.1% pro 2-dimenzionální vektor a 68.7% ± 1.4% pro 5-dimenzionální vektor). Citlivost se však snižovala s vyššími rozměry a u 10rozměrného vektoru klesla pouze na 31,1% ± 0,8%. Naproti tomu specificita IBPP-SVM pro krátké sekvence nebyla ovlivněna délkou vektoru a byla udržována na přibližně 95% ve všech případech. Kombinace různých „obrazů“ zavedením SVM zlepšila výkon krátkých sekvencí ve srovnání s IBPP. Za stejných zkušebních podmínek, nejlepší výsledky získané pomocí IBPP-SVM (citlivost = 68.7% ± 1.4%, specificita = 94.3% ± 0.2%) byla výrazně vyšší než IBPP s prahovou hodnotou 12 (citlivost = 56.4% ± 4.9%, specificita = 94.1% ± 1.2%; Obr. 4b).

Obrázek 4
figure4

Promoter predikce schopnost IBPP-SVM. Výkon IBPP-SVM byl testován s vektory různých rozměrů (a) a porovnán s IBPP (b). Oba výsledky byly ze tří nezávislých replikací. Sn, citlivost; Sp, specificita; FP, falešně pozitivní míra; TP, pravdivě pozitivní míra.

Když počet promotor sekvence v tréninku dataset byl stanoven vyšší počet non-promotor sekvence za následek nižší citlivost, ale vyšší specificitu (Obr. S2). Vztah mezi citlivostí a specificitou byl analyzován pomocí 5-dimenzionálního vektoru a výsledky prokázaly, že citlivost rychle klesala, když byla specificita vyšší než 85%. Vzhledem k celkovému výkonu byl dosažen nejlepší výkon IBPP-SVM s citlivostí 89,3% a specificitou 85,9%.

vyhodnotit výkony IBPP a IBPP-SVM, testovací soupravy používané k analýze výkonu NNPP2.211 a BPROM25 byly použity pro organizátory a non-organizací. Použitím těchto stejných testovacích sad získal NNPP2. 2 citlivost 64.6% a specificita 90,3%, zatímco BPROM získal citlivost 95,7% a specificitu 98,9%. F1 skóre získané NNPP2.2 a BPROM byly 74.1% a 97.3%, resp. IBPP-SVM ukázala vyšší citlivost a specifičnost, než NNPP2.2, ale výkon byl stále nesrovnatelné se BPROM. Tento výsledek ukázal, že IBPP-SVM mohla dosáhnout účinnosti srovnatelné nebo dokonce vyšší, než některé algoritmy strojového učení; nicméně, další zlepšení jsou zapotřebí k dosažení výkonnosti, podobný tomu BPROM.

algoritmus pro IBPP nevyžaduje znalost vlastností promotorů, jako je oblast -10 a -35 promotorů E. coli. Na rozdíl od programů strojového učení, které se při klasifikaci promotorů spoléhají na statistická data, je aplikace „obrazu“ v predikci promotoru podobná aplikaci v přístupu PWM. „Obraz“ se skládá z řetězců nukleotidů a mezer mezi nimi; to znamená, že kontinuální nukleotidů v „image“ připomínají vlastnosti bakteriální promotor, sekvence, a rozdíly se podobají vzdálenost mezi funkce, omezení pseudofeatures do určité pozice. Protože takové „obrazy“ nelze snadno vytvořit pomocí algoritmů strojového učení, jako jsou SVM a ANN, použili jsme evoluční algoritmus. Bez jakéhokoli ručního zásahu by se „obrazy“ samy zlepšily pomocí procesu evoluce. Teoreticky by tento evoluční systém mohl být použit pro kreslení informací z jiných typů sekvencí, jako jsou místa vázající ribozom a kódovací sekvence.

výkon dlouhých sekvencí

dále jsme testovali schopnost IBPP a IBPP-SVM vypořádat se s delšími sekvencemi 2 000 nt. Pro všechny testované metody, tam byly hity na pozice blízko nebo daleko od TSSs současně; nicméně, hity byly více soustředěny v rozsahu vzhledem k TSSs (Fíky 5, S3). Pro dlouhé sekvence, jsme přijali nové definice citlivosti a specifičnosti tak, že předpovědi s více hity v rozmezí vystaveny vyšší citlivost, zatímco předpovědi s více hity mimo rozsah vykazovaly nižší specificitu. Ačkoli BPROM překonal IBPP-SVM pro krátké sekvence, prediktivní schopnost IBPP-SVM pro dlouhé sekvence byla srovnatelná s BPROM (Tabulka 2). Nejlepší výsledek IBPP-SVM byl získán s 10-dimenzionálními vektory, což bylo ještě lepší než výsledek BPROM s ohledem na citlivost i specificitu. To je ve velkém kontrastu s analýzou krátkých sekvencí, v nichž IBPP-SVM s 10 dimenzionální vektory ukázala velmi nízká citlivost (31.08% ± 0.8%, Obr. 4). Kdy vektor dimenze 5, IBPP-SVM ukázal nejlepší výkon pro krátké sekvence, ale ne vykazují dobrou specifitu pro dlouhé sekvence (Tabulka 2). Toto srovnání ukázalo, že IBPP-SVM může dosáhnout vynikajícího výkonu s dlouhými sekvencemi a že výkon byl do značné míry ovlivněn vektorovou dimenzí.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

poté jsme testovali IBPP s prahovými hodnotami 12 a 13 na dlouhých sekvencích. Za obou podmínek vykazoval IBPP citlivost a specificitu srovnatelnou s BPROM (Tabulka 2). Ačkoli IBPP s prahem 12 měl mírně vyšší citlivost, vyšší specificita byla dosažena s prahem 13. Protože BPROM měl tak mimořádný výkon pro analýzu krátkých sekvencí, výkon IBPP v analýze dlouhých sekvencí předčil naše očekávání. Může to být proto, že BPROM byl navržen pro mezigenní sekvence mnohem kratší než 2 kb. Kromě toho, jak jsme jen běžel BPROM s výchozí sadu parametrů, v tomto srovnání, výkon BPROM na dlouhé sekvence může vylepšit optimalizace parametrů. Protože bakteriální geny mají obvykle délku ~l kb, může být v každém fragmentu více než jeden TSS. Některé zásahy mimo rozsah tedy mohou být způsobeny jinými promotory ve fragmentech.

sekvence kolem promotorů mají potenciál zkreslit Predikční algoritmus. V této studii nebylo zjištěno žádné zjevné zkreslení pro IBPP kvůli okolním sekvencím. Například, když prahová hodnota byla 12, IBPP získal rychlosti tp a FP 56% a 5,88% pro krátké sekvence a rychlost tp 59% pro dlouhé sekvence. Proto samotná prodloužená délka sekvence nemusí mít negativní dopad na výkon IBPP. Důvod tohoto rozdílu by mohl souviset se systémem bodování. Ačkoli míra FP pro krátké sekvence byla 5,88%, skóre těchto sekvencí FP bylo celkově nižší než skóre TP sekvencí. Při aplikaci na dlouhé sekvence, místo toho, aby zkreslená tím, že tyto FP hity, jako hity by být vypracován směrem k nedaleké TP hity. Kromě toho kombinace IBPP a SVM ukázala zajímavé výsledky; podobně jako výkon na krátkých sekvencích, výkon IBPP-SVM pro analýzu dlouhých sekvencí také překročil výkon IBPP. Účinky vektorové dimenze na IBPP-SVM byly do značné míry odlišné mezi analýzami dlouhé sekvence a krátké sekvence. S vektorovým rozměrem 10 klesla rychlost TP na 31% pro krátké sekvence, doprovázená rychlostí FP 2.3%, což bylo mnohem nižší než u vektorového rozměru 5. Za stejných podmínek však IBPP-SVM s délkou vektoru 10 vykazoval rychlost tp 65,6% pro dlouhé sekvence a nižší rychlost FP než rychlost s délkou vektoru 5. I když v současné době nemůžeme tento jev vysvětlit, výsledky nás posunuly k nalezení řešení pro další zlepšení této metody predikce na dlouhých sekvencích.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.