DADA2 es un pipeline bioinformĆ”tico creado por Callahan et al., 2016. Consiste es una serie de pasos que filtran las secuencias crudas obtenidas con la secuenciación de Illumina. El Ćŗltimo paso es obtener la taxonomĆa de las secuencias que han sido filtradas para estudiar la comunidad microbiana.
DADA2 tiene dos caracterĆsticas principales que lo distinguen de otros pipelines comĆŗnmente utilizados. Por un lado, procede a la modelización del error de secuenciación que se supone permite distinguir las secuencias mutantes de las erróneas. Por otro lado, a diferencia de otros pipelines como QIIME o Mothur, DADA2 no agrupa el 97% de las secuencias similares en unidades taxonómicas operativas (Operational Taxonomy Units, OTU). Sus variantes de secuencia de ampliación (Amplicon Sequence Variants, ASVs) no se agrupan si las secuencias no son 100% idĆ©nticas. VĆ©ase la figura anterior.
Construido originalmente para secuencias del gen marcador 16S (Bacterias), lo utilizaremos con secuencias del gen marcador ITS (Hongos) procedentes de la secuenciación Illumina MiSEQ 2x300 bp paired-end. Para acelerar la ejecución de cada paso, submuestreamos aleatoriamente un conjunto de datos para conservar sólo 1000 secuencias por muestra. Por último, Redde Caesari quae sunt Caesaris : este tutorial se ha inspirado en gran medida en el original tutorial DADA2.
En general, antes de iniciar este pipeline, debemos tomar algunas precauciones:
Esta figura tomada de Hugerth y Andersson, 2017 ilustra la diferencia teórica entre OTUs y ASV. Cada color representa un clado. Las estrellas amarillas indican mutaciones, las rojas indican errores de amplificación o secuenciación. El tamaño del espacio entre las secuencias indica su agrupación.
(A) OTUs agrupadas con un 100% de identidad
La mĆ”s mĆnima variación en las secuencias provoca la creación de un nuevo grupo. Las secuencias mutantes y erróneas se tratan de la misma manera.
(B) OTUs agrupadas con un 97% de identidad
Una agrupación mÔs amplia permite descartar las secuencias erróneas, aunque las secuencias mutantes también se agruparÔn en el grupo de consenso.
(C) ASVs
En teorĆa, el aprendizaje de la tasa de error permite agrupar las secuencias erróneas con las secuencias de consenso. Sin embargo, las secuencias mutantes se consideran por derecho propio.
Primero cargaremos la biblioteca DADA2. DeberĆa tener la Ćŗltima versión: packageVersion('dada2')
.
A continuación, crearemos una variable path que indique la ruta de acceso a los objetos que necesitaremos.
library(dada2); packageVersion("dada2")
## Loading required package: Rcpp
## [1] '1.18.0'
path <- "data/ITS_sub/"