Interferencia de los pseudogenes en el diagnóstico genético realizado mediante NGS

Del total de ADN que compone nuestro genoma, entre un 95-98 % corresponde a pseudogenes, intrones, secuencias UTR, y otros ADNs no codificantes. En humanos, se estima que existen más 19.000 pseudogenes con secuencias semejantes a las de genes conocidos, pero sin regiones esenciales para la codificación de proteínas. Aunque se ha asumido que son el resultado de la pérdida de función de algunos genes en el curso de la evolución, hoy en día se sabe que algunos desempeñan funciones importantes para nuestro organismo. Los pseudogenes se clasifican en dos categorías principales:

Procesados o retropseudogenes: tienen su origen en un proceso de transcripción reversa del RNA mensajero (mRNA) y su posterior inserción de forma aleatoria en el DNA de doble cadena. Al proceder de mRNA, carecen de intrones y promotores y, en general, se suelen encontrar lejos de sus genes homólogos, incluso en cromosomas diferentes.

No procesados: a diferencia de los anteriores, mantienen una estructura similar a la de un gen funcional, con intrones y regiones promotoras. A su vez, los pseudogenes no procesados se dividen en dos subcategorías:

– Unitarios: son el resultado de la acumulación de una serie de mutaciones de diferentes tipos en un gen codificante cuya consecuencia es la pérdida de funcionalidad total o parcial de éste. En este caso, por lo tanto, no existe un gen homólogo funcional.

– Duplicados: son el resultado de la duplicación de un gen funcional. El proceso de duplicación puede no ser completo, de manera que la copia carezca de algunas regiones y por lo tanto, no sea funcional. También puede ocurrir que el gen original o el duplicado acumulen mutaciones que den lugar a la pérdida de funcionalidad de uno de ellos.

Tipos de pseudogenes: (A) Pseudogenes unitarios, resultado de la acumulación de mutaciones. (B) Pseudogenes duplicados, resultado de la duplicación de un gen funcional. (C) Pseudogenes procesados, resultado de un proceso de transcripción reversa.

Imagen adaptada del artículo: Theranostics 2020; 10(4):1479-1499. doi:10.7150/thno.40659.

El alto grado de homología compartido entre algunos pseudogenes con regiones funcionales del genoma supone un importante problema cuando se llevan a cabo análisis genómicos con enfoques Next-generation Sequencing (NGS), especialmente en el entorno clínico. Las secuencias pseudogénicas se caracterizan por tener unas tasas de mutación mucho más altas, por lo que su mapeo en el correspondiente gen funcional puede ocasionar falsos positivos, y el caso contrario, en el que lecturas provenientes del gen funcional con mutaciones mapeen en un pseudogen, puede dar lugar a falsos negativos. Por lo tanto, la secuenciación de pseudogenes puede afectar a la interpretación de las mutaciones identificadas como causantes de una patología. Aunque las herramientas bioinformáticas reducen notablemente este inconveniente, es aconsejable realizar un abordaje específico cuando se conoce la presencia de pseudogenes.

A continuación, se ofrecen algunas recomendaciones para contrarrestar las limitaciones tecnológicas y aumentar la fiabilidad de los resultados:

Enriquecer las regiones de homología en los genes funcionales mediante PCR o captura antes de la secuenciación. Debido al gran tamaño del genoma, se suelen enriquecer exclusivamente aquellos genes responsables de determinados fenotipos clínicos. Para ello, es necesario llevar a cabo un diseño adecuado de primers o sondas que permitan distinguir entre genes y pseudogenes.
Aumentar el número de lecturas de secuenciación para compensar la pérdida de especificidad.
Utilizar lecturas pair-end para aumentar la confianza del mapeo.
Generar lecturas largas para mejorar su posicionamiento en el genoma de referencia.
Validar mediante secuenciación Sanger las variantes identificadas como potenciales causantes de enfermedades. De nuevo, es preciso diseñar primers específicos para el gen funcional.

En resumen, la aplicación de la tecnología NGS en el diagnóstico clínico requiere de una particular atención para distinguir los pseudogenes de las regiones funcionales del genoma. Sin embargo, no hay que perder de vista la posible contribución de las secuencias pseudogénicas a la biología de nuestro organismo. En el futuro, los avances en tecnologías NGS y análisis bioinformático ayudarán a esclarecer sus funciones y a entender su papel en el desarrollo de algunas enfermedades.

BIBLIOGRAFÍA

Claes K. & Leeneer K. (2014) Dealing with pseudogenes in molecular diagnostics in the next-generation sequencing era. Methods Mol Biol.
Coonrod EM. et al (2013) Developing genome and exome sequencing for candidate gene identification in inherited disorders: an integrated technical and bioinformatics approach. Arch Pathol Lab Med.
Mueller PW. et al (2013) Standard enrichment methods for targeted next-generation sequencing in high-repeat genomic regions. Genet Med.
Seth W. et al (2020) Overcoming challenges and dogmas to understand the functions of pseudogenes. Nature.
Torrents D. et al (2003) A genome-wide survey of human pseudogenes. Genome Research.