Przewidywanie promotorów oparte na obrazie: metoda przewidywania promotorów oparta na ewolucyjnie generowanych wzorach

generowanie „obrazów” przez podejście ewolucyjne

podstawą IBPP jest generowanie „obrazu” z sekwencji treningowych, który jest następnie używany do oceny dowolnej sekwencji docelowej i oceny jej podobieństwa do „obrazu”. Począwszy od przypadkowych obrazów nasion, końcowe „obrazy” zostały uzyskane przy użyciu podejścia ewolucyjnego. Metoda ewolucyjna miała wpływ uniformizacyjny na” obrazy”, które były podstawą tego procesu. Chociaż nowe obrazy nasion były stale uzupełniane przez cały proces ewolucji, odkryliśmy, że różnorodność „obrazów” wykazywała tendencję spadkową (fig.2, S1). W pierwszych pięciu pokoleniach nastąpił wzrost różnorodności spowodowany zastąpieniem ” – ” symbolami nukleotydów. Jednak po 60. pokoleniu spadek różnorodności spowolnił (rys. 2c). Chociaż różnorodność wydawała się nadal zmniejszać przez 100. pokolenie (rys. 2C), zatrzymaliśmy ewolucję w tym momencie, aby przetestować zdolność predykcyjną generowanych obrazów.

sekwencje promotorów i nie promotorów w zestawach testowych zostały ocenione za pomocą „obrazu” wygenerowanego w setnej generacji. Jak pokazano w tabeli 1, średni wynik sekwencji promotorów był wyższy niż w przypadku sekwencji innych niż promotory (p < 0,001). Pokazało to, że” obrazy ” mają potencjał odróżniania promotorów od nie-promotorów. Przy odpowiednim progu sekwencje z wynikami powyżej progu przewidywano jako promotory, podczas gdy sekwencje z wynikami poniżej progu przewidywano jako nie-promotory. Jednakże nadal istniało pewne nakładanie się wyników sekwencji promotorowych i nie promotorowych, co wskazuje, że metoda nie mogła jednocześnie spełniać wymagań zarówno czułości, jak i swoistości.

Tabela 1 Porównanie wyników sekwencji promotorowych i nie promotorowych obliczonych za pomocą „obrazu”a.

w rzeczywistości czułość była ujemnie skorelowana z progiem (r = 0,999), natomiast swoistość była dodatnio skorelowana z progiem (R = 0,999; Fig. 3A). Gdy próg był poniżej 9, IBPP uzyskał czułość wyższą niż 87%, ale swoistość została zmniejszona do poniżej 70%. W naszych eksperymentach najwyższy wynik F1 uzyskano z progiem 9 (F1 = 77,9%). Jednak w praktyce specyfika poniżej 90% może powodować poważne problemy. Dlatego zaleca się próg 12, przy czułości i swoistości 58.Odpowiednio 2% ± 5,1% i 92,8% ± 1,6%. Dla promotorów u innych gatunków próg optymalny może się różnić.

Rysunek 3
figure3

zdolność przewidywania promotora IBPP. Działanie IBPP na promotorach E. coli σ70 w dużym stopniu wpłynęło na próg (a). Predykcyjna zdolnoĹ „Ä ‡” obrazu „wzrastaĺ’ a wraz z ewolucjÄ … (b). Wyniki pochodzą z 55 niezależnych replikacji. Sn, czułość; Sp, swoistość; FP, wskaźnik fałszywie dodatni; TP, wskaźnik prawdziwie dodatni.

przewidywane czułości „obrazów” rosły w ciągu pokoleń, wykazując silną dodatnią korelację w dopasowanym modelu regresji logarytmicznej (r = 0,99; rys. 3b). W pierwszych 40 pokoleniach średnia TP wzrosła z 0% do 47%, a następnie rosła stopniowo, ostatecznie osiągając 58% W 90.pokoleniu. Natomiast średni program ramowy nie zmieniał się znacząco w czasie, pozostając w pobliżu 5% dla większości pokoleń. Biorąc pod uwagę, że przewidywana wydajność obrazów wykazywała jedynie niewielką poprawę po 60. generacji i prawie brak zmian po 90. generacji, 100 generacji powinno wystarczyć dla promotorów o długości 81 bp. W naszych eksperymentach przygotowanie obrazów do krótszych sekwencji wymagało mniejszej liczby pokoleń.

najbardziej znanymi cechami promotorów bakteryjnych są region -10 (TATAAT) i region -35 (TTGACA). Ponieważ „obrazy” zostały wytrenowane z promotorów E. coli σ70, powinny one zawierać pewne cechy podobne do promotora E. coli σ70. Chociaż łatwo było wykryć region -10 we wszystkich „obrazach”, region -35 był zawsze trudniejszy do znalezienia. Ponadto region -10 zawsze pojawiał się wcześniej niż region -35. Założyliśmy, że ta cecha wcześniejszego wyglądu może zmienić wygląd innych cech. Aby ocenić powstawanie różnych cech, algorytm został nieznacznie zmodyfikowany. Gdy ciąg ciągłych znaków nukleotydowych pojawił się stabilnie, region został ustalony i nie był używany w późniejszych procesach generowania obrazu. Za pomocą tej metody zbadaliśmy wpływ kary niedopasowania do punktacji obrazu na tworzenie cech. Wyniki (tabela S1) wykazały, że niższe punkty karne (0,4) powodowały powstawanie dłuższych ciągłych NTs. Wraz ze wzrostem liczby punktów karnych zmniejszono długość nieprzerwanego NTs. Regiony -10 i -35 można uznać za” cechy ” o różnej długości. Chociaż „cechy” generowane z wyższym wynikiem karnym (0,75) wydawały się” czyste”,” obrazy ” generowane z niższym wynikiem karnym dawały lepsze wyniki dla przewidywania promotora (dane nie są wyświetlane).

połączenie SVM i algorytmu ewolucyjnego

„obrazy” generowane w niezależnych procesach ewolucyjnych wykazały pewną różnorodność (dane nie pokazane), co oznacza, że różne „obrazy” mogą zawierać komplementarne informacje. Tak więc, chociaż pojedyncze ” obrazy „wykazywały podobną zdolność predykcyjną, połączenie różnych” obrazów ” w jednej analizie może poprawić wydajność predykcyjną. Aby ocenić ten efekt kombinacji, zastosowaliśmy SVM do analizy promotorów przy użyciu wektorów składających się z wartości generowanych przez różne obrazy.

czułość IBPP-SVM dla krótkich sekwencji miała duży wpływ na wymiar wektorów (rys. 4a). Gdy długość wektorów była mniejsza niż 6, czułość IBPP-SVM zwiększała się nieznacznie wraz ze wzrostem wymiarów wektorowych (np. 64,5% ± 1,1% dla wektora 2-wymiarowego i 68,7% ± 1,4% dla wektora 5-wymiarowego). Jednak czułość zmniejszała się przy wyższych wymiarach, spadając do zaledwie 31,1% ± 0,8% dla wektora 10-wymiarowego. Natomiast specyficzność IBPP-SVM dla krótkich sekwencji nie miała wpływu na długość wektora i utrzymywała się na poziomie około 95% we wszystkich przypadkach. Połączenie różnych „obrazów” poprzez wprowadzenie SVM poprawiło wydajność krótkich sekwencji w porównaniu z IBPP. W tych samych warunkach badania, najlepsze wyniki uzyskane przy użyciu IBPP-SVM (czułość = 68,7% ± 1,4%, swoistość = 94,3% ± 0,2%) były istotnie wyższe niż w przypadku IBPP z progiem 12 (czułość = 56,4% ± 4,9%, swoistość = 94,1% ± 1,2%; Fig. 4B).

Rysunek 4
figure4

zdolność przewidywania promotora IBPP-SVM. Działanie IBPP-SVM zostało przetestowane na wektorach o różnych wymiarach (A) i porównane z IBPP (b). Oba wyniki pochodzą z trzech niezależnych replik. Sn, czułość; Sp, swoistość; FP, wskaźnik fałszywie dodatni; TP, wskaźnik prawdziwie dodatni.

gdy liczba sekwencji promotorów w zestawie danych treningowych została ustalona, większa liczba sekwencji innych niż promotory powodowała mniejszą czułość, ale większą swoistość (Fig. S2). Związek między czułością a swoistością analizowano za pomocą wektora 5-wymiarowego, a wyniki wykazały, że czułość szybko się zmniejszała, gdy swoistość wynosiła powyżej 85%. Biorąc pod uwagę ogólną wydajność, najlepszą wydajność IBPP-SVM uzyskano z czułością 89,3% i swoistością 85,9%.

do oceny wydajności IBPP i IBPP-SVM wykorzystano zestawy testowe używane do analizy wydajności NNPP2.211 i BPROM25 dla promotorów i nie promotorów. Stosując te same zestawy testowe, NNPP2.2 uzyskał czułość 64.6% i swoistość 90,3%, podczas gdy BPROM uzyskał czułość 95,7%, a swoistość 98,9%. Wyniki F1 uzyskane przez NNPP2.2 i BPROM wyniosły odpowiednio 74,1% i 97,3%. IBPP-SVM wykazywał większą czułość i swoistość niż NNPP2. 2, ale wydajność była nadal nieporównywalna z wydajnością BPROM. Wynik ten pokazał, że IBPP-SVM może osiągnąć wydajność porównywalną lub nawet wyższą niż niektóre algorytmy uczenia maszynowego; jednak dalsze ulepszenia są wymagane, aby osiągnąć wydajność podobną do wydajności BPROM.

algorytm IBPP nie wymaga znajomości cech promotorów, takich jak region -10 i region -35 promotorów E. coli. W przeciwieństwie do programów uczenia maszynowego, które opierają się na danych statystycznych do klasyfikacji promotorów, zastosowanie „obrazu” w przewidywaniu promotorów jest podobne do tego w podejściu PWM. „Obraz” składa się z ciągów nukleotydów i przerw między nimi; tak więc ciągłe nukleotydy w „obrazie” przypominają cechy sekwencji promotorów bakterii, a luki przypominają odstępy między cechami, ograniczając pseudofeatury do pewnych pozycji. Ponieważ takie „obrazy” nie mogą być łatwo skonstruowane przez algorytmy uczenia maszynowego, takie jak SVM i ANN, zastosowaliśmy algorytm ewolucyjny. Bez żadnej ręcznej interwencji „obrazy” poprawiłyby się samoczynnie za pomocą procesu ewolucji. Teoretycznie, ten ewolucyjny system mógł być zastosowany do pobierania informacji z innych typów sekwencji, takich jak miejsca wiązania rybosomów i sekwencje kodujące.

wydajność długich sekwencji

następnie przetestowaliśmy zdolność IBPP i IBPP-SVM do radzenia sobie z dłuższymi sekwencjami 2000 nt. W przypadku wszystkich badanych metod odnotowano trafienia w miejscach zbliżonych do lub oddalonych od TSSs jednocześnie, jednak trafienia były bardziej skoncentrowane w zakresie względem tsss (Fig. 5, S3). W przypadku długich sekwencji przyjęliśmy nowe definicje czułości i swoistości, dzięki czemu Przewidywania z większą liczbą trafień w zakresie wykazywały wyższą czułość, podczas gdy przewidywania z większą liczbą trafień poza zakresem wykazywały niższą swoistość. Chociaż BPROM przewyższał IBPP-SVM dla krótkich sekwencji, zdolność predykcyjna IBPP-SVM dla długich sekwencji była porównywalna z zdolnością bprom(Tabela 2). Najlepszy wynik IBPP-SVM uzyskano z 10-wymiarowymi wektorami, co było nawet lepsze niż BPROM, biorąc pod uwagę zarówno czułość, jak i swoistość. Jest to w dużym kontraście do analizy krótkich sekwencji, w których IBPP-SVM z 10 wektorami wymiarowymi wykazał bardzo niską czułość (31,08% ± 0,8%, Fig. 4). Gdy wymiar wektorowy wynosił 5, IBPP-SVM wykazywał najlepszą wydajność dla krótkich sekwencji, ale nie wykazywał dobrej specyficzności dla długich sekwencji(Tabela 2). Porównanie to ujawniło, że IBPP-SVM mógł osiągnąć doskonałą wydajność przy długich sekwencjach i że na wydajność w dużym stopniu wpływ miał wymiar wektorowy.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

następnie testowaliśmy IBPP z progami 12 i 13 na długich sekwencjach. W obu warunkach IBPP wykazywał czułość i swoistość porównywalną z czułością BPROM(Tabela 2). Chociaż IBPP z progiem 12 miał nieco wyższą czułość, wyższą swoistość uzyskano z progiem 13. Ponieważ BPROM miał tak niezwykłą wydajność w analizie krótkich sekwencji, wydajność IBPP w analizie długich sekwencji przekroczyła nasze oczekiwania. Może to być spowodowane tym, że BPROM został zaprojektowany dla sekwencji międzygenicznych znacznie krótszych niż 2 kb. Ponadto, ponieważ uruchomiliśmy BPROM tylko z domyślnym zestawem parametrów w tym porównaniu, wydajność BPROM na długich sekwencjach może się poprawić po optymalizacji parametrów. Ponieważ geny bakterii mają zwykle długość ~l kb, w każdym fragmencie może być więcej niż jeden TSS. Tak więc niektóre uderzenia poza zasięgiem mogą być spowodowane przez inne promotory we fragmentach.

sekwencje wokół promotorów mają potencjał do odchylenia algorytmu predykcji. W tym badaniu nie wykryto oczywistego odchylenia dla IBPP z powodu otaczających sekwencji. Na przykład, gdy próg wynosił 12, IBPP uzyskało wskaźniki TP i FP odpowiednio 56% i 5,88% dla krótkich sekwencji, a wskaźnik TP 59% dla długich sekwencji. Dlatego też sama Wydłużona długość sekwencji może nie mieć negatywnego wpływu na działanie IBPP. Przyczyna tej różnicy może być związana z systemem punktacji. Chociaż współczynnik FP dla krótkich sekwencji wynosił 5,88%, wyniki tych sekwencji FP były niższe niż w przypadku sekwencji TP ogółem. Po zastosowaniu do długich sekwencji, zamiast być tendencyjnym przez te uderzenia FP, takie uderzenia będą przyciągane w kierunku pobliskich uderzeń TP. Ponadto połączenie IBPP i SVM wykazało interesujące wyniki; podobnie jak w przypadku krótkich sekwencji, wydajność IBPP-SVM do analizy długich sekwencji również przewyższała wydajność IBPP. Wpływ wymiaru wektorowego na IBPP-SVM był w dużej mierze różny między analizami długiej i krótkiej sekwencji. Przy wymiarze wektorowym 10, szybkość TP spadła do 31% dla krótkich sekwencji, wraz z szybkością FP równą 2.3%, co było znacznie niższe niż przy wymiarze wektorowym 5. Jednak w tych samych warunkach IBPP-SVM o długości wektora 10 wykazał szybkość TP 65,6% dla długich sekwencji i niższą szybkość FP niż ta o długości wektora 5. Chociaż obecnie nie możemy wyjaśnić tego zjawiska, wyniki skłoniły nas do znalezienia rozwiązania dla dalszej poprawy tej metody przewidywania długich sekwencji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.