Geração de “imagens” por uma abordagem evolutiva
A base de IBPP é gerar uma “imagem” a partir de sequências de ensino, o qual é então usado para avaliar qualquer sequência-alvo e avaliar a sua semelhança com a “imagem”. A partir de imagens-semente aleatórias, as “imagens” finais foram obtidas usando uma abordagem evolutiva. O método evolutivo teve um efeito de uniformização nas” imagens”, que foi a base deste processo. Embora novas imagens-semente foram continuamente complementadas ao longo do processo de evolução, descobrimos que a diversidade das “imagens” mostrou uma tendência decrescente (figos 2, S1). Houve um aumento na diversidade nas primeiras cinco gerações causada pela substituição de ” – ” por símbolos nucleotídeos. No entanto, após a 60ª geração, a diminuição da diversidade abrandou (Fig. 2c). Embora a diversidade parecesse continuar a diminuir pela centésima geração (Fig. 2c), interrompemos a evolução neste ponto para testar a capacidade preditiva das imagens geradas.as sequências de promotor e não promotor nos conjuntos de ensaio foram marcadas com a “imagem” gerada na centésima geração. Como demonstrado no quadro 1, a pontuação média das sequências Promotoras foi superior à das sequências não Promotoras (p < 0, 001). Isto mostrou que as” imagens ” tinham o potencial de distinguir promotores de não-promotores. Com um limiar adequado, as sequências com pontuações acima do limiar foram previstas como promotores, enquanto as sequências com pontuações abaixo do limiar foram previstas como não promotores. No entanto, verificou-se ainda alguma sobreposição entre as pontuações das sequências de promotor e não promotor, indicando que o método não podia satisfazer simultaneamente os requisitos de sensibilidade e especificidade.
de Fato, a sensibilidade foi negativamente correlacionada com o limite de (r = 0.999), enquanto a especificidade foi positivamente correlacionada com o limite de (r = 0.999; Fig. 3a). Quando o limiar era inferior a 9, a IBPP adquiriu uma sensibilidade superior a 87%, mas a especificidade foi reduzida para menos de 70%. Em nossas experiências, a maior pontuação F1 foi obtida com um limiar de 9 (F1 = 77,9%). No entanto, na prática, uma especificidade inferior a 90% pode causar problemas consideráveis. Por conseguinte, recomenda-se um limiar de 12, com uma sensibilidade e especificidade de 58.2% ± 5, 1% e 92, 8% ± 1, 6%, respectivamente. Para os promotores de outras espécies, o limiar óptimo pode diferir.
as sensibilidades previstas das “imagens” aumentaram ao longo das gerações, mostrando uma forte correlação positiva no modelo de regressão logarítmica (r = 0.99; Fig. 3b). Nas primeiras 40 gerações, o PTE médio aumentou de 0% para 47%, e depois aumentou mais gradualmente, atingindo 58% na 90ª geração. Em contraste, O PF médio não mudou substancialmente ao longo do tempo, permanecendo perto de 5% para a maioria das gerações. Considerando que o desempenho preditivo das imagens exibiu apenas ligeiras melhorias após a 60ª geração e quase nenhuma mudança após a 90ª geração, 100 gerações devem ser suficientes para promotores com um comprimento de 81 bp. Nas nossas experiências, a preparação de imagens para sequências mais curtas exigiu menos gerações.
As características mais conhecidas dos promotores bacterianos são a região -10 (TATAAT) e -35 (TTGACA). Como as” imagens ” foram treinadas a partir de promotores de E. coli σ70, elas devem conter algumas características semelhantes ao promotor de E. coli σ70. Embora fosse fácil detectar a região -10 em todas as “imagens”, a região -35 foi sempre mais difícil de encontrar. Além disso, a região -10 sempre apareceu mais cedo do que a região -35. Assumimos que esta característica de aparência anterior pode alterar a aparência de outras características. Para avaliar a formação de diferentes características, o algoritmo foi ligeiramente modificado. Quando apareceu uma cadeia de caracteres nucleótidos contínuos, a região foi fixa e não foi usada nos processos subsequentes de geração de imagens. Usando este método, investigamos os efeitos da penalidade de desajustamento para a pontuação de imagem na formação de recursos. Os resultados (tabela S1) mostraram que pontuações menores (0.4) causaram a formação de NTs contínuos mais longos. Como a Pontuação da penalidade aumentou, o comprimento do NTs contínuo foi reduzido. As regiões -10 e -35 poderiam ser reconhecidas como” características ” com comprimentos diferentes. Embora “recursos” gerados com uma pontuação de penalidade mais elevada (0,75) parecia “limpo”, as “imagens” geradas com uma pontuação de penalidade mais baixa renderam melhores resultados para a previsão do promotor (dados não mostrados).
combinando a SVM e o algoritmo evolutivo
“imagens” geradas em processos evolutivos independentes mostraram certa diversidade( dados não mostrados), implicando que diferentes “imagens” podem transportar informações complementares. Assim, embora “imagens” individuais exibissem uma capacidade preditiva semelhante, a combinação de diferentes “imagens” em uma análise pode melhorar o desempenho preditivo. Para avaliar este efeito combinado, empregamos a SVM para a análise do promotor utilizando vetores que consistem em valores gerados por diferentes imagens.
a sensibilidade do IBPP-SVM para sequências curtas foi largamente afectada pela dimensão dos vectores (Fig. 4a). Quando o comprimento dos vetores era inferior a 6, a sensibilidade do IBPP-SVM aumentou ligeiramente com o aumento das dimensões do Vetor (por exemplo, 64,5% ± 1,1% para um vetor bidimensional e 68,7% ± 1,4% para um vetor bidimensional). No entanto, a sensibilidade diminuiu com dimensões mais elevadas, caindo para apenas 31,1% ± 0,8% para o vetor 10-dimensional. Em contraste, a especificidade do IBPP-SVM para sequências curtas não foi afetada pelo comprimento do vetor e foi mantida em cerca de 95% em todos os casos. A combinação de diferentes “imagens” através da introdução de SVM melhorou o desempenho para sequências curtas em comparação com IBPP. Sob as mesmas condições de teste, os melhores resultados obtidos utilizando-IBPP-SVM (sensibilidade = 68.7% ± 1.4%, especificidade = 94.3% ± 0.2%) foram significativamente maiores do que aqueles do IBPP com um limite de 12 (sensibilidade = 56.4% ± 4.9%, especificidade = 94.1% ± 1.2%; Fig. 4b).
Quando o número de promotor de seqüências do conjunto de dados de treinamento foi corrigido, um maior número de não-promotor de sequências resultou em menor sensibilidade, mas com maior especificidade (Fig. S2). A relação entre sensibilidade e especificidade foi analisada usando um vetor 5-dimensional, e os resultados demonstraram que a sensibilidade diminuiu rapidamente quando a especificidade foi superior a 85%. Considerando o desempenho geral, o melhor desempenho do IBPP-SVM foi obtido com uma sensibilidade de 89.3% e especificidade de 85.9%.para avaliar os desempenhos do IBPP e do IBPP-SVM, os conjuntos de testes utilizados para analisar o desempenho do NNPP2.211 E BPROM25 foram usados para promotores e não-promotores. Utilizando estes mesmos conjuntos de ensaio, NNPP2.2 obteve uma sensibilidade de 64.6% e especificidade de 90,3%, enquanto o BPROM obteve uma sensibilidade de 95,7% e especificidade de 98,9%. As pontuações F1 obtidas pelo NNPP2.2 e BPROM foram de 74,1% e 97,3%, respectivamente. IBPP-SVM mostrou maior sensibilidade e especificidade do que NNPP2.2, mas o desempenho ainda era incomparável ao do BPROM. Este resultado mostrou que o IBPP-SVM poderia alcançar uma eficiência comparável ou mesmo superior a alguns algoritmos de aprendizagem de máquinas; no entanto, são necessárias melhorias adicionais para alcançar um desempenho semelhante ao do BPROM.
o algoritmo para IBPP não requer conhecimento das características dos promotores, tais como a região -10 e a região -35 dos promotores de E. coli. Ao contrário dos programas de aprendizagem por máquina, que dependem de dados estatísticos para a Classificação dos promotores, a aplicação de uma “imagem” na previsão do promotor é semelhante à da abordagem PWM. Uma “imagem” é composta de cadeias de nucleótidos e lacunas entre eles; assim, os nucleótidos contínuos em uma “imagem” se assemelham às características das sequências Promotoras bacterianas, e as lacunas se assemelham ao espaçamento entre características, restringindo pseudofeaturas a certas posições. Como tais “imagens” não podem ser facilmente construídas por algoritmos de aprendizagem de máquinas, como SVM e ANN, nós aplicamos um algoritmo evolucionário. Sem qualquer intervenção manual, as” imagens ” se auto-melhorariam com a ajuda do processo de evolução. Teoricamente, este sistema evolutivo poderia ser aplicado para desenhar informações de outros tipos de sequências, tais como sítios de ligação aos ribossomas e sequências de codificação.
Performance of long sequences
Next, we tested the ability of IBPP and IBPP-SVM to deal with longer sequences of 2,000 nt. Para todos os métodos testados, houve acertos em posições próximas ou Distantes dos TSS simultaneamente; no entanto, os acertos foram mais concentrados na gama de TSSs em relação aos TSSs (Figos 5, S3). Para sequências longas, adotamos novas definições para sensibilidade e especificidade de modo que as previsões com mais hits na faixa exibiam maior sensibilidade, enquanto as previsões com mais hits fora da faixa exibiam menor especificidade. Embora o BPROM superasse o IBPP-SVM para sequências curtas, a capacidade preditiva do IBPP-SVM para sequências longas era comparável à do BPROM (Tabela 2). O melhor resultado do IBPP-SVM foi obtido com vetores 10-dimensionais, o que foi ainda melhor do que o de BPROM considerando tanto a sensibilidade quanto a especificidade. Isto é em grande contraste com a análise de sequências curtas, em que IBPP-SVM com vetores 10 dimensionais mostrou sensibilidade muito baixa (31,08% ± 0,8%, Fig. 4). Quando a dimensão vetorial era 5, O IBPP-SVM mostrou o melhor desempenho para sequências curtas, mas não exibiu boa especificidade para sequências longas (Tabela 2). Esta comparação revelou que o IBPP-SVM poderia alcançar um excelente desempenho com sequências longas e que o desempenho foi amplamente afetado pela dimensão vetorial.
we then tested IBPP with thresholds of 12 and 13 on long sequences. Em ambas as condições, o IBPP mostrou uma sensibilidade e especificidade comparáveis às do BPROM (Quadro 2). Embora o IBPP com um limiar de 12 tivesse uma sensibilidade ligeiramente mais elevada, a especificidade mais elevada foi alcançada com um limiar de 13. Como a BPROM teve um desempenho tão extraordinário para a análise de sequências curtas, o desempenho do IBPP na análise de sequências longas excedeu as nossas expectativas. Isto pode ser porque BPROM foi projetado para sequências intergênicas muito menores que 2 kb. Além disso, como nós apenas executamos BPROM com o conjunto padrão de parâmetros nesta comparação, o desempenho de BPROM em sequências longas pode melhorar em cima da otimização dos parâmetros. Como os genes bacterianos são geralmente ~l kb em comprimento, pode haver mais de um TSS em cada fragmento. Assim, alguns acessos fora do intervalo podem ser causados por outros promotores nos fragmentos.
As sequências em torno dos promotores têm o potencial de influenciar o algoritmo de previsão. Neste estudo, nenhum viés óbvio foi detectado para o IBPP devido a sequências circundantes. Por exemplo, quando o limiar era de 12, O IBPP obteve taxas de TP e FP de 56% e 5,88% para sequências curtas, respectivamente, e uma taxa de TP de 59% para sequências longas. Portanto, o comprimento da sequência estendida em si pode não ter um impacto negativo no desempenho do IBPP. A razão para esta diferença pode estar relacionada com o sistema de pontuação. Embora a taxa de FP para sequências curtas tenha sido de 5,88%, as pontuações destas sequências de FP foram inferiores às das sequências de TP globais. Quando aplicada a sequências longas, em vez de ser tendenciosa por esses hits FP, tais hits seriam atraídos para os hits TP próximos. Além disso, a combinação de IBPP e SVM mostrou resultados interessantes; semelhante ao de desempenho em sequências curtas, o desempenho do IBPP-SVM para análise de longas sequências também superou a do IBPP. Os efeitos da dimensão vectorial no IBPP-SVM foram muito diferentes entre as análises de sequência longa e de sequência curta. Com uma dimensão vectorial de 10, a taxa TP caiu para 31% para sequências curtas, acompanhada por uma taxa FP de 2.3%, que era muito menor do que aquela com uma dimensão vectorial de 5. No entanto, sob as mesmas condições, IBPP-SVM com um comprimento vetorial de 10 mostrou uma taxa TP de 65,6% para sequências longas e uma taxa FP menor do que aquela com um comprimento vetorial de 5. Embora não possamos atualmente explicar este fenômeno, os resultados nos adiantaram para encontrar uma resolução para a melhoria adicional deste método de previsão em sequências longas.