Generation of ”images” by An evolutionary approach
IBPP: n perustana on tuottaa ”image” from training sequences, jota sitten käytetään minkä tahansa kohdesarjan arvioimiseen ja sen samankaltaisuuden arvioimiseen ”image”: n kanssa. Satunnaisista siemenkuvista alkaen lopulliset ”kuvat” saatiin evolutiivista lähestymistapaa käyttäen. Evoluutiomenetelmällä oli uniformisaatiovaikutus ”kuviin”, mikä oli tämän prosessin perusta. Vaikka uusia siemenkuvia täydennettiin jatkuvasti koko evoluutioprosessin ajan, havaitsimme, että ”kuvien” monimuotoisuus osoitti laskevaa suuntausta (viikunat 2, S1). Monimuotoisuus lisääntyi viiden ensimmäisen sukupolven aikana, mikä johtui”–”: n korvaamisesta nukleotidisymboleilla. 60. sukupolven jälkeen monimuotoisuuden väheneminen kuitenkin hidastui (Kuva. 2c). Vaikka monimuotoisuus näytti edelleen laskevan 100. sukupolvi (Kuva. 2c), pysäytimme evoluution tässä vaiheessa testataksemme luotujen kuvien ennustamiskykyä.
testisarjojen promoottorit ja ei-promoottorit pisteytettiin 100.sukupolvessa syntyneellä ”kuvalla”. Kuten taulukosta 1 käy ilmi, promoottorijaksojen keskiarvo oli korkeampi kuin ei-promoottorijaksojen (p < 0,001). Tämä osoitti, että” kuvilla ” oli mahdollisuus erottaa promoottorit ei-promoottoreista. Kun kynnysarvo oli sopiva, sekvenssit, joiden tulokset ylittivät kynnyksen, ennustettiin promoottoreiksi, kun taas sekvenssit, joiden tulokset olivat alle kynnysarvon, ennustettiin ei-promoottoreiksi. Promoottorijaksojen ja ei-promoottorijaksojen pisteytysten välillä oli kuitenkin vielä jonkin verran päällekkäisyyttä, mikä viittaa siihen, että menetelmä ei voinut samanaikaisesti täyttää sekä herkkyyden että spesifisyyden vaatimuksia.
herkkyys korreloi negatiivisesti kynnyksen kanssa (r = 0, 999), kun taas spesifisyys korreloi positiivisesti kynnyksen kanssa (r = 0, 999; Fig. 3 A). Kun kynnysarvo oli alle 9, liiketoimintasuunnitelman herkkyys oli yli 87 prosenttia, mutta spesifisyys laski alle 70 prosenttiin. Kokeissamme korkein F1-pistemäärä saatiin 9: llä (F1 = 77,9%). Käytännössä alle 90 prosentin spesifisyys voi kuitenkin aiheuttaa huomattavia ongelmia. Siksi suositellaan kynnysarvoa 12, jonka herkkyys ja spesifisyys ovat 58.2 ± 5, 1% ja 92, 8% ± 1, 6%. Muiden lajien promoottoreilla optimikynnys voi vaihdella.
”kuvien” ennustetut herkkyydet lisääntyivät sukupolvien aikana, mikä osoittaa vahvan positiivisen korrelaation sovitetussa logaritmisessa regressiomallissa (r = 0,99; Kuva. 3b). Ensimmäisten 40 sukupolven aikana keskimääräinen TP kasvoi 0%: sta 47%: iin, minkä jälkeen se kasvoi asteittain ja oli lopulta 58% 90.sukupolvessa. Keskimääräinen FP ei sitä vastoin muuttunut merkittävästi ajan myötä, vaan pysyi lähes 5 prosentissa useimmissa sukupolvissa. Kun otetaan huomioon, että kuvien ennakoiva suorituskyky on parantunut vain vähän 60.sukupolven jälkeen eikä juuri mitään muutosta 90. sukupolven jälkeen, 100 sukupolven pitäisi riittää promoottoreille, joiden pituus on 81 bp. Kokeissamme kuvien valmistaminen lyhyempiin jaksoihin vaati vähemmän sukupolvia.
bakteerien promoottoreiden tunnetuimpia piirteitä ovat -10-alue (TATAAT) ja -35-alue (TTGACA). Koska ”kuvat” on koulutettu E. coli σ70-promoottoreista, niiden pitäisi sisältää joitakin piirteitä, jotka muistuttavat E. coli σ70-promoottoria. Vaikka kaikissa ”kuvissa” oli helppo havaita -10-alue, oli -35-alue aina vaikeampi löytää. Lisäksi -10-alue ilmestyi aina aikaisemmin kuin -35-alue. Oletimme, että tämä aikaisemman ulkonäön ominaisuus saattaa muuttaa muiden piirteiden ulkonäköä. Eri ominaisuuksien muodostumisen arvioimiseksi algoritmia muutettiin hieman. Kun jono jatkuvia nukleotidimerkkejä vakiintui, alue oli kiinteä, eikä sitä käytetty myöhemmissä kuvantuotantoprosesseissa. Tällä menetelmällä selvitimme kuvapisteytysrangaistuksen vaikutuksia ominaisuuksien muodostumiseen. Tulokset (taulukko S1) osoittivat, että alemmat rangaistuslukemat (0,4) aiheuttivat pidemmän yhtäjaksoisen NTs: n muodostumisen. Jäähymäärien kasvaessa yhtäjaksoisen NTs: n pituus lyheni. Alueet -10 ja -35 voitaisiin tunnistaa eripituisiksi ”piirteiksi”. Vaikka korkeammalla rangaistuspisteellä (0,75) luodut” ominaisuudet ”tuntuivat” puhtailta”, pienemmällä rangaistuspisteellä luodut” kuvat ” tuottivat parempia tuloksia promoottorin ennustamisessa (tietoja ei näytetä).
yhdistämällä SVM: n ja evoluutioalgoritmin
itsenäisissä evoluutioprosesseissa luodut”kuvat” osoittivat tiettyä monimuotoisuutta (tietoja ei näytetä), mikä viittaa siihen, että eri ”kuvissa” voi olla täydentävää tietoa. Näin ollen, vaikka yksittäisillä ” kuvilla ”oli samanlainen ennustamiskyky, eri” kuvien ” yhdistäminen yhdessä analyysissä voi parantaa ennustavaa suorituskykyä. Tämän yhdistelmävaikutuksen arvioimiseksi käytimme SVM: ää promoottorianalyysiin käyttäen vektoreita, jotka koostuvat eri kuvien tuottamista arvoista.
IBPP-SVM: n herkkyyteen lyhyille sekvensseille vaikutti suuresti vektorien ulottuvuus (Kuva. 4 A). Kun vektorien pituus oli alle 6, ibpp-SVM: n herkkyys kasvoi hieman vektorien mittojen kasvaessa (esim.64,5% ± 1,1% 2-ulotteisella vektorilla ja 68,7% ± 1,4% 5-ulotteisella vektorilla). Herkkyys kuitenkin pieneni suurempien mittojen myötä, jolloin se laski vain 31,1% ± 0,8%: iin 10-ulotteisella vektorilla. Sen sijaan IBPP-SVM: n spesifisyyteen lyhyille sekvensseille ei vaikuttanut vektoripituus, ja se säilyi kaikissa tapauksissa noin 95 prosentissa. Erilaisten ”kuvien” yhdistäminen ottamalla käyttöön SVM paransi lyhyiden jaksojen suorituskykyä IBPP: hen verrattuna. Samoissa testausolosuhteissa IBPP-SVM: llä saadut parhaat tulokset (herkkyys = 68,7% ± 1,4%, spesifisyys = 94,3% ± 0,2%) olivat huomattavasti korkeammat kuin IBPP: llä, jonka kynnysarvo oli 12 (herkkyys = 56,4% ± 4,9%, spesifisyys = 94,1% ± 1,2%; Kuva. 4b).
kun promoottorijaksojen lukumäärä koulutustietokannassa oli kiinteä, suurempi määrä ei-promoottorijaksoja johti alhaisempaan herkkyyteen mutta suurempaan spesifisyyteen (Kuva. S2). Herkkyyden ja spesifisyyden suhdetta analysoitiin 5-ulotteisen vektorin avulla, ja tulokset osoittivat, että herkkyys väheni nopeasti, kun spesifisyys oli yli 85%. Kokonaissuorituskyky huomioon ottaen IBPP-SVM: n paras suorituskyky saavutettiin 89,3%: n herkkyydellä ja 85,9%: n spesifisyydellä.
IBPP: n ja IBPP-SVM: n suorituskyvyn arviointiin käytettiin nnpp2.211: n ja BPROM25: n suorituskyvyn analysointiin käytettyjä testisarjoja promoottoreille ja ei-promoottoreille. Käyttämällä näitä samoja testisarjoja NNPP2.2 sai herkkyyden 64.6% ja spesifisyys 90,3%, kun taas BPROM sai herkkyyden 95,7% ja spesifisyyden 98,9%. Nnpp2.2: n ja BPROMIN saamat F1-pisteet olivat vastaavasti 74,1% ja 97,3%. IBPP-SVM osoitti suurempaa herkkyyttä ja spesifisyyttä kuin NNPP2.2, mutta suorituskyky oli silti verraton BPROMIN vastaavaan. Tämä tulos osoitti, että IBPP-SVM voisi saavuttaa hyötysuhteen, joka on verrattavissa joihinkin koneoppimisalgoritmeihin tai jopa korkeampi; kuitenkin tarvitaan lisäparannuksia, jotta saavutetaan samanlainen suorituskyky kuin BPROM: llä.
IBPP: n algoritmi ei edellytä tietoa promoottoreiden ominaisuuksista, kuten E. coli-bakteerien promoottoreiden -10 alueesta ja -35 alueesta. Toisin kuin koneoppimisohjelmissa, joissa promoottoreiden luokittelussa käytetään tilastotietoja, ”kuvan” soveltaminen promoottorin ennustamisessa on samanlaista kuin PWM-lähestymistavassa. ”Kuva” koostuu nukleotidien merkkijonoista ja niiden välisistä raoista; niinpä ”kuvan” jatkuvat nukleotidit muistuttavat bakteerien promoottorisekvenssien ominaisuuksia, ja aukot muistuttavat ominaisuuksien välejä rajoittaen pseudofeatuurit tiettyihin paikkoihin. Koska tällaisia” kuvia ” ei voida helposti rakentaa koneoppivien algoritmien, kuten SVM: n ja ANN: n, avulla, sovellimme evoluutioalgoritmia. Ilman manuaalista väliintuloa ”kuvat” paranisivat itsestään evoluutioprosessin avulla. Teoreettisesti tätä evoluutiojärjestelmää voitaisiin soveltaa informaation piirtämiseen muunlaisista sekvensseistä, kuten ribosomien sidontapaikoista ja koodaussekvensseistä.
pitkien sekvenssien suorituskyky
seuraavaksi testasimme IBPP: n ja IBPP-SVM: n kykyä käsitellä pidempiä 2 000 nt: n sekvenssejä. Kaikissa testatuissa menetelmissä osumat osuivat samanaikaisesti TSS: n lähellä tai kaukana siitä sijaitseviin paikkoihin; osumat keskittyivät kuitenkin enemmän TSS: n vaihteluväliin (Figs 5, S3). Pitkien jaksojen osalta hyväksyimme uudet määritelmät herkkyydelle ja spesifisyydelle niin, että ennusteissa, joissa on enemmän osumia alueella, oli suurempi herkkyys, kun taas ennusteissa, joissa on enemmän osumia alueen ulkopuolella, oli pienempi spesifisyys. Vaikka bprom menestyi lyhyissä jaksoissa IBPP-SVM: ää paremmin, IBPP-SVM: n ennustekyky pitkissä jaksoissa oli verrattavissa bpromin ennustekykyyn (Taulukko 2). IBPP-SVM: n paras tulos saatiin 10-ulotteisilla vektoreilla, mikä oli jopa parempi kuin BPROMIN, kun otetaan huomioon sekä herkkyys että spesifisyys. Tämä on suuri vastakohta lyhyiden sekvenssien analyysille, jossa IBPP-SVM 10-ulotteisella vektorilla osoitti hyvin alhaisen herkkyyden (31,08% ± 0,8%, Fig. 4). Kun vektorin ulottuvuus oli 5, IBPP-SVM osoitti parhaan suorituskyvyn lyhyille sekvensseille, mutta ei osoittanut hyvää spesifisyyttä pitkille sekvensseille (Taulukko 2). Vertailu osoitti, että IBPP-SVM pystyi saavuttamaan erinomaisen suorituskyvyn pitkillä jaksoilla ja että suorituskykyyn vaikutti suuresti vektoriulottuvuus.
tämän jälkeen testasimme IBPP: tä, jonka raja-arvot olivat pitkissä jaksoissa 12 ja 13. Molemmissa olosuhteissa liiketoimintasuunnitelma osoitti herkkyyttä ja spesifisyyttä, joka oli verrattavissa bprom: n herkkyyteen ja spesifisyyteen (Taulukko 2). Vaikka liiketoimintasuunnitelmalla, jonka kynnysarvo oli 12, oli hieman suurempi herkkyys, korkeampi spesifisyys saavutettiin kynnysarvolla 13. Koska bpromilla oli niin poikkeuksellinen suorituskyky lyhyiden jaksojen analysoinnissa, IBPP: n suorituskyky pitkien jaksojen analysoinnissa ylitti odotuksemme. Tämä saattaa johtua siitä, että BPROM on suunniteltu intergeenisille sekvensseille, jotka ovat paljon lyhyempiä kuin 2 kb. Lisäksi, koska ajoimme vain bprom oletusjoukon parametrit tässä vertailussa, suorituskyky bprom pitkiä sekvenssejä voi parantaa optimoinnin parametrit. Koska bakteerien geenit ovat yleensä ~l kb pituudeltaan, kussakin fragmentissa voi olla enemmän kuin yksi TSS. Niinpä jotkut osumat kantaman ulkopuolella saattavat olla kappaleiden muiden promoottorien aiheuttamia.
promoottoreiden ympärillä olevat sekvenssit voivat harhauttaa ennustusalgoritmia. Tässä tutkimuksessa IBPP: ssä ei havaittu selviä harhaluuloja ympäröivien sekvenssien vuoksi. Esimerkiksi kun raja-arvo oli 12, IBPP sai lyhyistä jaksoista 56% TP-ja 5,88% FP-osuudet ja pitkistä jaksoista 59% TP-osuudet. Näin ollen pidennetty sekvenssin pituus itsessään ei välttämättä vaikuta kielteisesti liiketoimintasuunnitelman suorituskykyyn. Eron syy voi liittyä pisteytysjärjestelmään. Vaikka lyhyiden jaksojen FP-osuus oli 5,88%, näiden FP-jaksojen pisteet olivat alhaisemmat kuin TP-jaksojen kokonaispisteet. Kun sovelletaan pitkiä jaksoja, sen sijaan, että olisi puolueellinen näiden FP osumia, tällaiset osumat vedetään kohti lähellä TP osumia. Lisäksi IBPP: n ja SVM: n yhdistelmällä saatiin mielenkiintoisia tuloksia; samoin kuin lyhyillä jaksoilla, myös IBPP-SVM: n suorituskyky pitkien jaksojen analysoinnissa ylitti IBPP: n suorituskyvyn. Vektoriulottuvuuden vaikutukset IBPP-SVM: ään olivat pitkälti erilaiset pitkän sekvenssin ja lyhyen sekvenssin analyysien välillä. Kun vektorin dimensio oli 10, TP-korko laski 31%: iin lyhyillä jaksoilla, ja FP-korko oli 2.3%, joka oli paljon pienempi kuin vektoridimensio 5. Samoissa olosuhteissa IBPP-SVM, jonka vektoripituus oli 10, osoitti kuitenkin pitkille jaksoille 65,6%: n TP-nopeuden ja pienemmän FP-nopeuden kuin se, jonka vektoripituus oli 5. Vaikka emme tällä hetkellä pysty selittämään tätä ilmiötä, tulokset edistivät meitä kohti ratkaisun löytämistä tämän ennustusmenetelmän edelleen parantamiseksi pitkillä jaksoilla.