Qual é a diferença entre FASTA e FASTQ

A principal diferença entre o FASTA e o FASTQ é que o FASTA é um formato baseado em texto que armazena apenas sequências de nucleotídeos ou proteínas, enquanto o FASTQ é um formato baseado em texto que armazena tanto a sequência quanto os valores de qualidade de sequência associados.

A bioinformática é uma área que utiliza diferentes softwares para analisar e entender dados biológicos, principalmente quando o conjunto de dados é complexo e grande. Este campo combina biologia, química, física, ciência da computação, engenharia da informação, matemática e estatística para analisar e interpretar dados biológicos. FASTA e FASTQ são dois formatos de representação de sequências no campo da bioinformática para alinhar e analisar sequências. Na verdade, FASTQ é um formato de arquivo de sequência que estende o formato FASTA com a capacidade de armazenar a qualidade da sequência.

CONTEÚDO

1. Visão geral e diferença chave
2. O que é FASTA
3. O que é FASTQ
4. Semelhanças – FASTA e FASTQ
5. FASTA vs FASTQ em forma de tabela
6. Resumo – FASTA vs FASTQ

O que é FASTA?

FASTA é um software de alinhamento para sequência de DNA e proteínas. O software FASTA usa o formato FASTA. É um formato baseado em texto que representa sequências de nucleotídeos ou sequências de aminoácidos (proteínas). Aqui, os códigos de uma única letra representam ambas as sequências. FASTA é uma ferramenta importante nas áreas de bioinformática e bioquímica. Esse formato permite que nomes de sequência e comentários precedam as sequências.

Figura 01: Sequência FASTA

Este formato originou-se do software FASTA e foi introduzido por David J. Lipmann e William R. Pearson em 1985. A ferramenta FASTA sofreu muitas modificações ao longo do tempo, e a última versão consiste em programas para protein:protein, DNA:DNA, protein: DNA traduzido (com frameshifts) e buscas ordenadas ou não ordenadas de peptídeos. O FASTA lê uma determinada sequência de nucleotídeos ou aminoácidos e procura o banco de dados de sequência correspondente usando o alinhamento de sequência local para encontrar correspondências de sequências de banco de dados semelhantes.

O que é FASTQ?

O FASTQ é um software de alinhamento usado no campo da bioinformática, que armazena tanto uma sequência biológica (geralmente sequência de nucleotídeos) quanto seus índices de qualidade correspondentes. O FASTQ foi originalmente desenvolvido para agrupar uma sequência formatada em FASTA e os dados de qualidade relacionados pelo Wellcome Trust Sanger Institute. Com o desenvolvimento no campo da bioinformática, o FASTQ tornou-se o padrão de fato para armazenar a saída de muitos instrumentos de sequenciamento de alto rendimento.

O formato FASTQ usa quatro linhas diferentes por sequência. A linha 1 começa com o caractere @ e é seguida por um identificador de sequência (semelhante a uma linha de título FASTA). A linha 2 consiste em letras de sequência brutas. Na linha 3, a sequência começa com um caractere ‘+’ e é opcionalmente seguida pelo mesmo identificador de sequência. A linha 4 codifica os valores de qualidade para a sequência na linha 2 e deve consistir no mesmo número de símbolos que as letras na sequência.

Quais são as semelhanças entre FASTA e FASTQ?

FASTA e FASTQ são ferramentas de alinhamento. São dois formatos de representação de sequência. Ambos estão relacionados ao campo da bioinformática. Tanto o FAST quanto o FASTQ são ferramentas importantes para fins de armazenamento e sequenciamento. FASTQ é uma extensão do formato FASTA com a capacidade de armazenar a qualidade da sequência.

Qual é a diferença entre FASTA e FASTQ?

O FASTA é um formato baseado em texto que armazena apenas sequências de nucleotídeos ou proteínas, enquanto o FASTQ é um formato baseado em texto que armazena tanto a sequência quanto os valores de qualidade de sequência associados. Assim, esta é a principal diferença entre FASTA e FASTQ. Além disso, o FASTA armazena fragmentos de sequência após o mapeamento, enquanto o FASTQ armazena fragmentos de sequência antes do mapeamento. Além disso, outra diferença entre o FASTA e o FASTQ é que o FASTA consiste em uma linha de descrição e o FASTAQ consiste em quatro linhas.

O infográfico abaixo apresenta as diferenças entre FASTA e FASTQ em forma de tabela para comparação lado a lado.

Resumo – FASTA vs FASTQ

A bioinformática usa diferentes formatos de sequências como FASTA e FASTQ, etc. FASTA armazena fragmentos de sequência após serem mapeados enquanto FASTQ armazena os fragmentos de sequência antes do mapeamento. FASTA é um software de alinhamento para sequência de DNA e proteínas. Ele consiste em programas para proteína:proteína, DNA:DNA, proteína:DNA traduzido (com frameshifts) e buscas ordenadas ou não ordenadas de peptídeos. O FASTQ é um software de alinhamento usado no campo da bioinformática e armazena tanto uma sequência biológica (geralmente sequência de nucleotídeos) quanto suas pontuações de qualidade correspondentes. O FASTA consiste em uma linha de descrição e o FASTQ consiste em quatro linhas. Então, isso resume a diferença entre FASTA e FASTQ.

Referência:

1. Akalin, Altuna. “Genômica Computacional com R.” 7.1 Formatos FASTA e FASTQ.
2. “Descrição do formato Fasta.” Centro Nacional de Informações sobre Biotecnologia, Biblioteca Nacional de Medicina dos EUA.

Cortesia da imagem:

1. “Alinhamento de Histonas” Por Thomas Shafee – Trabalho próprio (CC POR 4,0) via Commons Wikimedia

Deixe um comentário