Download como arquivo ICAL
Plataforma computacional de seleção de modelos para predição de sítios de ligação de fatores de transcrição: um estudo de caso em Drosophila melanogaster
Quarta-feira 22 Julho 2020, 14:00
Candidato: Guilherme Miura Lavezzo
 
Orientadora: Profa. Dra. Ariane Machado Lima
Coorientador : Prof. Dr. Luiz Paulo Moura Andrioli
 
Resumo: Apesar do grande volume de dados gerados por técnicas experimentais in vivo e in vitro, os pesquisadores ainda não caracterizaram completamente as interações entre DNA e fatores de transcrição (FT). Embora FTs mantenham certa especificidade em reconhecer sequências curtas de DNA, os sítios de ligação de fatores de transcrição (SLFT) são sequências degeneradas.Para elucidar os mecanismos de regulação transcricional ainda é necessário responder várias perguntas, como por exemplo qual o papel das distâncias entre sítios, ou sobreposição entre eles, na cooperação de FTs e na competição entre eles. Para isso, as localizações dos SLFTs precisam ser acuradamente preditas ao longo do genoma de estudo. Técnicas experimentais high throughput, como ChIP-seq, ainda que muito utilizadas, identificam regiões de 100-600 pares de bases (pb), enquanto FTs geralmente se ligam a sequências de 6-15 pb.
Existem diversos modelos computacionais que procuram predizer esses sítios exatos. No entanto, devido ao curto tamanho dos sítios, tais modelos tendem a produzir muitos falsos positivos, dificultando uma interpretação biológica acurada do contexto biológico. Além disso, nenhum modelo excede os demais em todos os casos, tornando a escolha de um melhor modelo caso-específica para cada FT de interesse.
O modelo mais utilizado para predição de SLFT são PWMs (Position Weight Matrix), que assumem independência entre as bases do sítio, o que não é verdadeiro para determinados fatores de transcrição.
Gramáticas regulares estocásticas (GRE) são uma alternativa às PWMs, pois são modelos que conseguem capturar uma relação de dependência dentro de uma sequência de símbolos. No entanto, por possuírem um número maior de parâmetros a serem aprendidos, demandam amostras de treinamento (sequências conhecidas dos sítios do FT em questão) maiores para que o erro de estimação, e consequentemente o de classificação, não seja elevado.
Considerando esse problema, este projeto tem como objetivo geral avaliar quando cada modelo é mais apropriado e então criar uma plataforma que realiza a predição  de SLFTs de forma caso-específica, considerando o nível de dependência entre bases e o tamanho da amostra de treinamento. Além disso, pretende-se utilizar tal plataforma para realizar um estudo piloto em Drosophila melanogaster para, com as localizações exatas preditas para os FT da cascata de segmentação, levantar hipóteses acerca da relação entre  quantidades dos sítios preditos e distâncias entre eles com o efeito de regulação sobre o gene alvo.
 
Palavras-chaves : Sítios de ligação de fatores de transcrição. Position Weighted Matrix. Gramáticas Regulares Estocásticas. Predição in silico. ChIP-seq.
 
Link do streaming : https://stream.meet.google.com/stream/2a23cde2-e225-4cfd-b5a6-16a0aaf0fe94