billedbaseret promotor forudsigelse: en promotor forudsigelsesmetode baseret på evolutionært genererede mønstre
Posted on
Generation af “billeder” ved en evolutionær tilgang
grundlaget for IBPP er at generere et “billede” fra træningssekvenser, som derefter bruges til at vurdere enhver målsekvens og evaluere dens lighed med “billedet”. Fra tilfældige frøbilleder blev de endelige “billeder” opnået ved hjælp af en evolutionær tilgang. Den evolutionære metode havde en ensartet effekt på” billederne”, som var grundlaget for denne proces. Selvom nye frøbilleder løbende blev suppleret gennem hele udviklingsprocessen, fandt vi, at mangfoldigheden af “billederne” viste en faldende tendens (fig 2, S1). Der var en stigning i mangfoldighed i de første fem generationer forårsaget af udskiftning af ‘–’ med nukleotidsymboler. Efter den 60.generation faldt faldet i mangfoldighed imidlertid (Fig. 2c). Selvom mangfoldigheden syntes at fortsætte med at falde med den 100.generation (Fig. 2c), stoppede vi udviklingen på dette tidspunkt for at teste de genererede billeders forudsigelige evne.
promotor-og ikke-promotorsekvenser i testsættene blev scoret med det “billede”, der blev genereret ved 100.generation. Som vist i tabel 1 var den gennemsnitlige score for promotorsekvenser højere end for ikke-promotorsekvenser (p < 0,001). Dette viste, at” billederne ” havde potentialet til at skelne promotorer fra ikke-promotorer. Med en passende tærskel blev sekvenser med scoringer over tærsklen forudsagt som promotorer, mens sekvenser med scoringer under tærsklen blev forudsagt som ikke-promotorer. Der var dog stadig en vis overlapning mellem scorerne af promotor-og ikke-promotorsekvenser, hvilket indikerer, at metoden ikke samtidig kunne opfylde kravene til både følsomhed og specificitet.
følsomheden var faktisk negativt korreleret med tærsklen (r = 0,999), mens specificiteten var positivt korreleret med tærsklen (r = 0,999; Fig. 3a). Når tærsklen var under 9, fik IBPP en følsomhed højere end 87%, men specificiteten blev reduceret til Under 70%. I vores eksperimenter blev den højeste F1-score opnået med en tærskel på 9 (F1 = 77,9%). I praksis kan en specificitet Under 90% imidlertid forårsage betydelige problemer. Derfor anbefales en tærskel på 12 med en følsomhed og specificitet på 58.2% henholdsvis 5,1% og 92,8% henholdsvis 1,6%. For promotorer i andre arter kan den optimale tærskel variere.