Cuántas réplicas son necesarias para un experimento de RNA-Seq?

Desde su aparición hace algo más de una década, hemos sido testigos de cómo la tecnología RNA-Seq ha revolucionado nuestro conocimiento del transcriptoma. Esta metodología lleva a cabo una estimación de la expresión génica en base al número de fragmentos de ARN procedentes de la secuenciación que alinean con una determinada región de un genoma o transcriptoma de referencia.

Los análisis de expresión diferencial comparan la actividad transcripcional entre varias condiciones de interés con el fin de identificar qué genes son los responsables de las diferencias entre estas. Hay que tener presente que en este tipo de experimentos existe un ruido inherente a la propia metodología RNA-Seq resultado de la combinación de la variabilidad biológica y de la generada durante el procesamiento de las muestras y la secuenciación. Se requiere, por lo tanto, un diseño experimental apropiado para contrarrestar este inconveniente y garantizar una interpretación acertada de los resultados.

De forma general, con un mayor número de réplicas se obtienen datos estadísticamente más robustos, permitiendo identificar los genes diferencialmente expresados y estimar los niveles de expresión de forma más precisa. Por lo tanto, lo ideal sería partir del mayor número posible de muestras por condición para poder prescindir de aquellas en las que los resultados no sean adecuados. Sin embargo, debido principalmente a limitaciones económicas y de tiempo, no siempre es fácil obtener replicados. Aunque se suele sugerir el uso de 3, este dato no es aplicable a todos los tipos de proyectos.

Si se quieren comparar las diferencias de expresión entre distintos grupos, se necesitan un mínimo de 3 muestras por condición, siempre y cuando se espere poca variación entre ellas, como suele suceder con las procedentes de cultivos bacterianos. En cambio, si son de origen humano, la variación entre estas es mayor y se recomienda utilizar al menos 6 réplicas biológicas para aumentar la potencia estadística.
Si por el contrario, el objetivo es identificar genes diferencialmente expresados biológicamente significativos, o caracterizar transcritos y/o variantes de splicing, es preferible subir el número de muestras a 12 por condición. De esa forma se asegura un número suficiente para obtener resultados de calidad incluso en el caso de que alguna tenga que ser eliminada.
Si se están estudiando genes con muy baja expresión o se quiera comparar expresión diferencial a nivel de isoformas, además de tener un mínimo de 6 replicados, es necesario aumentar la profundidad de secuenciación.

En resumen, aunque la decisión de cuántas réplicas se van a utilizar depende en última instancia del investigador, ampliar el número siempre conlleva un aumento de la sensibilidad y de la especificidad, y en definitiva de la calidad de los resultados.

BIBLIOGRAFÍA

Lamarre S. et al. (2018) Optimization of an RNA-Seq Differential Gene Expression Analysis Depending on Biological Replicate Number and Library Size. Front Plant Sci.
Schurch NJ. et al. (2016) How many biological replicates are needed in an RNA-seq experiment and which differential expression tool should you use? RNA.
Gierliński M. et al. (2015) Statistical models for RNA-seq data derived from a two-condition 48-replicate experiment. Bioinformatics.
Wang Z. et al. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nat. Rev. Genet.