Identificação de variantes de SARS-Cov-2

Escolha sua amostra

Amostras Amostras Amostras Amostras
10_S10 11_S11 12_S12 13_S13
14_S14 15_S15 16_S16 17_S17
18_S18 19_S19 1_S1 20_S20
21_S21 22_S22 23_S23 24_S24
25_S25 26_S26 27_S27 28_S28
29_S29 2_S2 30_S30 31_S31
32_S32 33_S33 34_S34 35_S35
36_S36 37_S37 38_S38 39_S39
3_S3 40_S40 41_S41 42_S42
43_S43 44_S44 45_S45 46_S46
47_S47 48_S48 49_S49 4_S4
cd ~/eusoujacu
mkdir SARS
cd SARS
export AMOSTRA="AMOSTRA_ESCOLHIDA" #Substitua o conteúdo entre aspas pelo código da amostra da tabela que escolheu
cp /home/bioufmg2/anaconda3/bak/SARS/input/$AMOSTRA*.fastq.gz .

Entre no ambiente conda

conda activate SARS

Controle de qualidade

trimmomatic PE -threads 20 $AMOSTRA\_L001_R1_001.fastq.gz $AMOSTRA\_L001_R2_001.fastq.gz Paired_R1.fastq.gz Unpaired_R1.fastq.gz Paired_R2.fastq.gz Unpaired_R2.fastq.gz ILLUMINACLIP:/home/bioufmg2/anaconda3/bak/SARS/adapters.fasta:2:30:10:2:keepBothReads LEADING:5 TRAILING:5 SLIDINGWINDOW:4:20 MINLEN:50

Mapeamento ao genoma de referência

bwa mem /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta Paired_R1.fastq.gz Paired_R2.fastq.gz -o map.bam

Ordenar o mapeamento e Empilhar as sequências

samtools sort map.bam -o map.sorted.bam
samtools mpileup -d 50000 --reference /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta -a -Q 30 map.sorted.bam > pile.bam

Identificação de variações genéticas

conda activate ivar
cat pile.bam | ivar variants -p variant -q 30 -t 0.05 -r /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta -g /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.gff
cat pile.bam | ivar consensus -p variant -q 30 -t 0.05 -m 30 -n N

Bônus

Montagem do genoma viral
conda activate SARS
spades.py --only-assembler --trusted-contigs /home/bioufmg2/anaconda3/bak/SARS/reference/RefSeq.fasta -1 Paired_R1.fastq.gz -2 Paired_R2.fastq.gz -t 20 -o assembly
Filtragem de fragmentos
cat assembly/scaffolds.fasta | perl /home/bioufmg2/anaconda3/bak/SARS/filter_small.pl 20000 > pangolin_input.fasta

Faz identicação de variante de SARS-Cov-2

conda activate pangolin
pangolin <(cat variant.fa pangolin_input.fasta)
cat lineage_report.csv | awk -F "," '{print $2"\t"$4"\t"$5}'