Image-based promotore di stima: un promotore metodo di previsione basato su evolutivamente generato modelli

Generazione di “immagini” da un approccio evolutivo

base di IBPP è quello di generare un’ “immagine” da sequenze di formazione, che viene poi utilizzato per valutare eventuali sequenza target e valutare la sua somiglianza con il “immagine”. Partendo da seed-images casuali, le “immagini” finali sono state ottenute con un approccio evolutivo. Il metodo evolutivo ha avuto un effetto di uniformizzazione sulle “immagini”, che è stato il fondamento di questo processo. Sebbene le nuove immagini-seme siano state continuamente integrate durante tutto il processo evolutivo, abbiamo scoperto che la diversità delle “immagini” mostrava una tendenza decrescente (Fig 2, S1). C’è stato un aumento della diversità nelle prime cinque generazioni causato dalla sostituzione di ‘–’ con simboli nucleotidici. Tuttavia, dopo la 60a generazione, la diminuzione della diversità ha rallentato (Fig. 2 quater). Anche se la diversità sembrava continuare a diminuire dalla generazione 100th (Fig. 2c), abbiamo fermato l’evoluzione a questo punto per testare la capacità predittiva delle immagini generate.

Le sequenze promoter e non promoter nei set di test sono state valutate con l ‘ “immagine” generata alla 100a generazione. Come mostrato nella Tabella 1, il punteggio medio delle sequenze promoter era superiore a quello delle sequenze non promoter (p < 0,001). Ciò ha dimostrato che le “immagini” avevano il potenziale per distinguere i promotori dai non promotori. Con una soglia appropriata, le sequenze con punteggi superiori alla soglia sono state previste come promotori, mentre le sequenze con punteggi inferiori alla soglia sono state previste come non promotori. Tuttavia, c’era ancora una certa sovrapposizione tra i punteggi delle sequenze promoter e non promoter, indicando che il metodo non poteva soddisfare simultaneamente i requisiti di sensibilità e specificità.

Tabella 1 Confronto dei punteggi delle sequenze promoter e non promoter calcolate utilizzando un ‘ “immagine”a.

In effetti, la sensibilità era correlata negativamente con la soglia (r = 0,999), mentre la specificità era correlata positivamente con la soglia(r = 0,999; Fig. 3 bis). Quando la soglia era inferiore a 9, IBPP ha acquisito una sensibilità superiore all ‘ 87%, ma la specificità è stata ridotta al di sotto del 70%. Nei nostri esperimenti, il punteggio F1 più alto è stato ottenuto con una soglia di 9 (F1 = 77,9%). Tuttavia, in pratica, una specificità inferiore al 90% può causare problemi considerevoli. Pertanto, si raccomanda una soglia di 12, con una sensibilità e specificità di 58.2% ± 5.1% e 92.8% ± 1.6%, rispettivamente. Per i promotori in altre specie, la soglia ottimale può differire.

Figura 3
figure3

Capacità di previsione del promotore di IBPP. La performance dell’IBPP sui promotori di E. coli σ70 è stata ampiamente influenzata dalla soglia (a). La capacità predittiva dell ‘ “immagine” è aumentata insieme all’evoluzione (b). I risultati provengono da 55 repliche indipendenti. Sn, sensibilità; Sp, specificità; FP, tasso falso positivo; TP, tasso vero positivo.

La sensibilità prevista delle” immagini ” è aumentata nel corso delle generazioni, mostrando una forte correlazione positiva nel modello di regressione logaritmica montato (r = 0.99; Fig. 3 ter). Nelle prime 40 generazioni, il TP medio è aumentato dallo 0% al 47%, per poi aumentare più gradualmente, raggiungendo infine il 58% nella 90a generazione. Al contrario, il PQ medio non è cambiato sostanzialmente nel tempo, rimanendo vicino al 5% per la maggior parte delle generazioni. Considerando che le prestazioni predittive delle immagini hanno mostrato solo lievi miglioramenti dopo la 60a generazione e quasi nessun cambiamento dopo la 90a generazione, 100 generazioni dovrebbero essere sufficienti per i promotori con una lunghezza di 81 bp. Nei nostri esperimenti, la preparazione di immagini per sequenze più brevi richiedeva meno generazioni.

Le caratteristiche più note dei promotori batterici sono la regione -10 (TATAAT) e la regione -35 (TTGACA). Poiché le “immagini” sono state addestrate da promotori di E. coli σ70, dovrebbero contenere alcune caratteristiche simili al promotore di E. coli σ70. Sebbene fosse facile rilevare la regione -10 in tutte le “immagini”, la regione -35 era sempre più difficile da trovare. Inoltre, la regione -10 è sempre apparsa prima della regione -35. Abbiamo ipotizzato che questa caratteristica dell’aspetto precedente possa alterare l’aspetto di altre caratteristiche. Per valutare la formazione di diverse caratteristiche, l’algoritmo è stato leggermente modificato. Quando appariva stabilmente una stringa di caratteri nucleotidici continui, la regione veniva fissata e non veniva utilizzata nei successivi processi di generazione dell’immagine. Utilizzando questo metodo, abbiamo studiato gli effetti della penalità di mancata corrispondenza per il punteggio dell’immagine sulla formazione delle caratteristiche. I risultati (Tabella S1) hanno mostrato che punteggi di penalità inferiori (0.4) hanno causato la formazione di NTS continui più lunghi. Con l’aumentare del punteggio di penalità, la lunghezza del NTS continuo è stata ridotta. Le regioni -10 e -35 potrebbero essere riconosciute come “caratteristiche” con lunghezze diverse. Sebbene le “caratteristiche” generate con un punteggio di penalità più alto (0,75) sembrassero “pulite”, le” immagini ” generate con un punteggio di penalità più basso hanno prodotto risultati migliori per la previsione del promotore (dati non mostrati).

Combinando l’SVM e l’algoritmo evolutivo

le”Immagini” generate in processi evolutivi indipendenti hanno mostrato una certa diversità (dati non mostrati), implicando che “immagini” diverse possono portare informazioni complementari. Pertanto, sebbene singole ” immagini “mostrassero capacità predittive simili, la combinazione di” immagini” diverse in un’analisi può migliorare le prestazioni predittive. Per valutare questo effetto di combinazione, abbiamo impiegato SVM per l’analisi del promotore utilizzando vettori costituiti da valori generati da immagini diverse.

La sensibilità di IBPP-SVM per sequenze brevi è stata in gran parte influenzata dalla dimensione dei vettori (Fig. 4 bis). Quando la lunghezza dei vettori era inferiore a 6, la sensibilità di IBPP-SVM aumentava leggermente con l’aumentare delle dimensioni del vettore (ad esempio, 64,5% ± 1,1% per un vettore a 2 dimensioni e 68,7% ± 1,4% per un vettore a 5 dimensioni). Tuttavia, la sensibilità è diminuita con dimensioni più elevate, scendendo a solo il 31,1% ± 0,8% per il vettore a 10 dimensioni. Al contrario, la specificità di IBPP-SVM per sequenze brevi non è stata influenzata dalla lunghezza del vettore ed è stata mantenuta intorno al 95% in tutti i casi. La combinazione di diverse “immagini” introducendo SVM ha migliorato le prestazioni per sequenze brevi rispetto a IBPP. Nelle stesse condizioni di prova, i migliori risultati ottenuti utilizzando IBPP-SVM (sensibilità = 68,7% ± 1,4%, specificità = 94,3% ± 0,2%) erano significativamente superiori a quelli di IBPP con una soglia di 12 (sensibilità = 56,4% ± 4,9%, specificità = 94,1% ± 1,2%; Fig. 4 ter).

Figura 4
figure4

Capacità di previsione del promotore di IBPP-SVM. Le prestazioni di IBPP-SVM sono state testate con vettori di dimensioni diverse (a) e confrontate con IBPP (b). Entrambi i risultati provenivano da tre repliche indipendenti. Sn, sensibilità; Sp, specificità; FP, tasso falso positivo; TP, tasso vero positivo.

Quando il numero di sequenze di promotori nel set di dati di allenamento è stato fissato, un numero più elevato di sequenze non promotrici ha determinato una sensibilità inferiore ma una specificità più elevata (Fig. S2). La relazione tra sensibilità e specificità è stata analizzata utilizzando un vettore 5-dimensionale e i risultati hanno dimostrato che la sensibilità diminuiva rapidamente quando la specificità era superiore all ‘ 85%. Considerando le prestazioni complessive, le migliori prestazioni di IBPP-SVM sono state ottenute con una sensibilità dell ‘89,3% e una specificità dell’ 85,9%.

Per valutare le prestazioni di IBPP e IBPP-SVM, i set di test utilizzati per analizzare le prestazioni di NNPP2.211 e BPROM25 sono stati utilizzati per promotori e non promotori. Utilizzando questi stessi set di test, NNPP2.2 ha ottenuto una sensibilità di 64.6% e specificità del 90,3%, mentre BPROM ha ottenuto una sensibilità del 95,7% e una specificità del 98,9%. I punteggi F1 ottenuti da NNPP2.2 e BPROM sono stati rispettivamente del 74,1% e del 97,3%. IBPP-SVM ha mostrato una maggiore sensibilità e specificità rispetto a NNPP2.2, ma le prestazioni erano ancora incomparabili a quelle di BPROM. Questo risultato ha mostrato che IBPP-SVM potrebbe raggiungere un’efficienza paragonabile o addirittura superiore ad alcuni algoritmi di apprendimento automatico; tuttavia, sono necessari ulteriori miglioramenti per ottenere prestazioni simili a quelle di BPROM.

L’algoritmo per IBPP non richiede la conoscenza delle caratteristiche dei promotori, come la regione -10 e la regione -35 dei promotori di E. coli. A differenza dei programmi di apprendimento automatico, che si basano su dati statistici per la classificazione dei promotori, l’applicazione di una “immagine” nella previsione del promotore è simile a quella nell’approccio PWM. Una “immagine” è composta da stringhe di nucleotidi e spazi tra di loro; pertanto, i nucleotidi continui in una “immagine” assomigliano alle caratteristiche delle sequenze di promotori batterici e le lacune assomigliano alla spaziatura tra le caratteristiche, limitando le pseudofeatures a determinate posizioni. Poiché tali “immagini” non possono essere facilmente costruite da algoritmi di apprendimento automatico, come SVM e ANN, abbiamo applicato un algoritmo evolutivo. Senza alcun intervento manuale, le “immagini” si auto-migliorerebbero con l’aiuto del processo evolutivo. Teoricamente, questo sistema evolutivo potrebbe essere applicato per disegnare informazioni da altri tipi di sequenze, come i siti di legame dei ribosomi e le sequenze codificanti.

Prestazioni di sequenze lunghe

Successivamente, abbiamo testato la capacità di IBPP e IBPP-SVM di gestire sequenze più lunghe di 2.000 nt. Per tutti i metodi testati, ci sono stati colpi in posizioni vicine o lontane dal TSSs contemporaneamente; tuttavia, i colpi erano più concentrati nell’intervallo di rispetto al TSSs (Figs 5, S3). Per le sequenze lunghe, abbiamo adottato nuove definizioni per la sensibilità e la specificità in modo che le previsioni con più hit nell’intervallo mostrassero una maggiore sensibilità, mentre le previsioni con più hit al di fuori dell’intervallo mostravano una specificità inferiore. Sebbene BPROM abbia sovraperformato IBPP-SVM per sequenze brevi, la capacità predittiva di IBPP-SVM per sequenze lunghe era paragonabile a quella di BPROM (Tabella 2). Il miglior risultato di IBPP-SVM è stato ottenuto con vettori 10-dimensionali, che era anche migliore di quello di BPROM considerando sia la sensibilità che la specificità. Questo è in grande contrasto con l’analisi di sequenze brevi, in cui IBPP-SVM con 10 vettori dimensionali ha mostrato una sensibilità molto bassa (31,08% ± 0,8%, Fig. 4). Quando la dimensione vettoriale era 5, IBPP-SVM ha mostrato le migliori prestazioni per sequenze brevi ma non ha mostrato una buona specificità per sequenze lunghe (Tabella 2). Questo confronto ha rivelato che IBPP-SVM poteva ottenere prestazioni eccellenti con sequenze lunghe e che le prestazioni erano in gran parte influenzate dalla dimensione vettoriale.

Figure 5
figure5

Analysis of long sequences using IBPP-SVM (a), IBPP (b), and BPROM (c) for sequences spanning the region related to TSSs. The results of IBPP-SVM and IBPP were from three independent replications.

Table 2 Performance of IBPP-SVM and IBPP for long sequencesa.

Abbiamo poi testato IBPP con soglie di 12 e 13 su sequenze lunghe. In entrambe le condizioni, IBPP ha mostrato una sensibilità e una specificità paragonabili a quelle di BPROM (Tabella 2). Sebbene IBPP con una soglia di 12 avesse una sensibilità leggermente superiore, è stata raggiunta una maggiore specificità con una soglia di 13. Poiché BPROM ha avuto prestazioni così straordinarie per l’analisi di sequenze brevi, le prestazioni di IBPP nell’analisi di sequenze lunghe hanno superato le nostre aspettative. Ciò potrebbe essere dovuto al fatto che BPROM è stato progettato per sequenze intergeniche molto più corte di 2 kb. Inoltre, poiché abbiamo eseguito BPROM solo con il set predefinito di parametri in questo confronto, le prestazioni di BPROM su sequenze lunghe possono migliorare con l’ottimizzazione dei parametri. Poiché i geni batterici sono solitamente ~l kb di lunghezza, ci possono essere più di un TSS in ogni frammento. Pertanto, alcuni colpi al di fuori dell’intervallo possono essere causati da altri promotori nei frammenti.

Le sequenze attorno ai promotori hanno il potenziale per alterare l’algoritmo di previsione. In questo studio, non è stato rilevato alcun pregiudizio evidente per IBPP a causa delle sequenze circostanti. Ad esempio, quando la soglia era 12, IBPP ha ottenuto tassi TP e FP del 56% e del 5,88% per le sequenze brevi, rispettivamente, e un tasso TP del 59% per le sequenze lunghe. Pertanto, la lunghezza della sequenza estesa stessa potrebbe non avere un impatto negativo sulle prestazioni di IBPP. La ragione di questa differenza potrebbe essere correlata al sistema di punteggio. Sebbene il tasso di FP per le sequenze brevi fosse del 5,88%, i punteggi di queste sequenze FP erano inferiori a quelli delle sequenze TP complessive. Quando applicato a sequenze lunghe, invece di essere prevenuto da questi colpi FP, tali colpi sarebbero attratti verso i colpi TP vicini. Inoltre, la combinazione di IBPP e SVM ha mostrato risultati interessanti; simile alle prestazioni su sequenze brevi, anche le prestazioni di IBPP-SVM per l’analisi di sequenze lunghe hanno superato quelle di IBPP. Gli effetti della dimensione vettoriale su IBPP-SVM erano in gran parte diversi tra le analisi di sequenza lunga e di sequenza breve. Con una dimensione vettoriale di 10, il tasso di TP è sceso al 31% per sequenze brevi, accompagnato da un tasso di FP di 2.3%, che era molto più basso di quello con una dimensione vettoriale di 5. Tuttavia, nelle stesse condizioni, IBPP-SVM con una lunghezza vettoriale di 10 ha mostrato un tasso di TP del 65,6% per le sequenze lunghe e un tasso di FP inferiore a quello con una lunghezza vettoriale di 5. Anche se non possiamo attualmente spiegare questo fenomeno, i risultati ci hanno avanzato verso la ricerca di una risoluzione per un ulteriore miglioramento di questo metodo di previsione su sequenze lunghe.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.