Bancos de dados e aplicações


Quando se fala em bancos de dados se pensa em:
  1. Obter informações
  2. Anotar sequencias

    A ferramenta principal para anotar sequencias eacute; o BLAST. Um alinhador local que natilde;o tem a finalidade de fazer uma comparaccedil;atilde; compreensiva, mas encontrar num banco de dados a sequencia mais similar. Ela vai revelar um grau de similaridade caracterizado como um escore, o escore observado. Se o BLAST esperar muitos escores de comparaccedil;atilde;o melhores ao acaso que o observado o escore observado natilde;o quer dizer nada. Se o BLAST esperar bem poucos escores melhores o acaso estaacute; desfavorecido. QUal eacute; a hipoacute;tese alternativa? Parentesco, homologia!

    Vamos ver isso praticamente no item 2 deste tutorial

    E quanto a obter informações? Alguns dos principais bancos utilizados podem ser visitados na parte inicial do mesmo tutorial

    Vamos procurar no UniProt a CCR2, olhar em Expression, copiar o identificador ENSEMBLE e colocar nesta ferramenta e observar o Profile de espressão tecidual na base GTEx (ecolha Profile e Select database GTEx)

    Vc usa muito o BLAST no caso da anotação de um genoma, com o software ARTEMIS


    Parece incrível mas muitos experimentos de transcriptoma já foram feitos

    A base de dados para isso é o GEO que é composto de:

    1. Plataformas (GPL) que seriam microarranjos de muitos tipos, RNAseq, SAGE, etc.
    2. Séries (GSE) que seriam experimentos ao longo do tempo, com diversas...
    3. Samples (GSM) que seriam as amostras de RNA
    4. E quando uma GSE foi analisada pelo NCBI isso vira uma Dataset
    Para exemplificar vamos abrir Query & Browse, escolher Search GEO DataSets e nela procurar por chikungunya. Tem DataSets? Quantas GSE tem?

    Vamos na barra da esquerda especificar dois Organisms Homo sapiens e Mus musculus e buscar novamente chikungunya.

    Vamos especificar como Study type: Expression profiling by high throughput sequencing e Non-coding RNA profiling by high throughput sequencing. Agora tem que selecionar cada um ou deselecionar pra ver quantos tem. Abra um de Non-coding e veja a plataforma.

    Como exemplo de experimentos realizados vamos primeiro adicionar em Study type: Expression profiling by array, que são os microarranjos realizados, e procurar por

    Veja que tem uma GDS de humano (selecione Homo sapiens e deselecione Mus musculus) vamos olhar ela

    Existem várias análises que podem ser feitas em R, explore depois


    Uma importante base de dados é a Taxonomy

    Nela vc pode conhecer toda a linhagem de um organismo. Qual a classe da Pseudomonas aeruginosa? E a ordem? Sabe o filo?

    Podemos inclusive verificar quais delas tem mais proteinas caracterizadas selecionando a caixa Protein

    E clicando em Pseudomonas aeruginosa podemos ter uma tabela de tudo que tem em bancos no NCBI sobre ela


    Agora vamos ter um tutorial sobre a existencia de genes em ordens taxonomicas