ADN basura

Escrito por Horacio Cano Camacho

Cuando se emprendió el proyecto “Genoma humano” (1990), un esfuerzo internacional para secuenciar completamente el genoma humano e identificar y “cartografiar” todos los genes de un humano promedio, nadie imaginaba que el esfuerzo no solo implicaba aspectos técnicos: el problema mayor era la “interpretación” de los resultados.

Siempre se había comparado, por analogía, al genoma (el contenido total de genes de un ser vivo) como un libro de instrucciones o una suerte de manual escrito en un lenguaje químico muy simple, en el que las instrucciones están codificadas por el orden de acomodo de las cuatro letras que forman ese código: Adenina (A), Timina (T), Guanina (G) y Citosina (C).

Estas cuatro “letras” se acomodan de manera muy precisa, pero variable. Digamos que la oración UUAGGAACGUAA (doy el código en ARN por si alguien quiere verificarlo en la tabla correspondiente al código genético) significa que la maquinaria celular acomoda allí los aminoácidos Leucina-Glutámico-Treonina-Stop (UAA es una señal de paro de la síntesis de proteínas). Hay, además, muchas secuencias cuyo significado conocemos ya muy bien como el inicio de un gen, donde debe iniciar la transcripción y donde termina, así como las secuencias características de varios tipos de proteínas… De manera que, si secuenciamos, es decir, obtenemos el orden de acomodo de cada letra de este código, podremos interpretar esas instrucciones contenidas en él, o eso se pensaba con muy ingenuidad.

Un primer problema es el tamaño del genoma humano. Se habían secuenciado hasta entonces varios genes, tanto de humanos como de muchas otras especies, de unos cuantos miles de pares de bases (Kb) que es la medida del “tamaño” de un segmento del ADN correspondiente a un gen pequeño y de algunos virus, hasta genomas completos de unos pocos millones de pares de bases (Mb). Era un trabajo inmenso para la época, que podía durar años por las dificultades técnicas. El esfuerzo, por lo tanto, era mayúsculo ya que el genoma humano andaba por las 3,400 Mb, es decir 3,400 millones de pares de bases. Comparémosla con el genoma de la bacteria Escherichia coli ya secuenciado para entonces, que es de 4.6 millones de pares de bases y nos da una imagen de la tarea. Regresando a la analogía del libro, la bacteria tiene un libro con 4 millones y medio de letras, mientras que el libro humano lo tiene de más tres mil millones de letras… Y el tamaño no lo era todo.

Pensemos que la bacteria tiene un gen (en promedio, una bacteria tiene alrededor de 4,000 genes) que en la analogía del libro se escribe como una oración continua: “ESTAESUNAPROTEINAPARATRANSPORTARSODIO”. Podemos con la tarea. La palabra tendrá señales de donde comienza, donde termina y las pausas entre palabras específicas. Pero resulta que los genes de los eucariotas, es decir de los organismos que poseemos membranas nucleares y sistemas endomenbranales y conformamos el otro dominio de los seres vivos (las bacterias y arqueas son procariontas y no poseen eso), nuestros genes no son oraciones continuas. Este mismo gen en el humano podría verse así:

 “LMNGEMNOSTAERTSSLMNNAPCSUNAHHVBUSNRTPRORTVCCTEIQWERTYUILOPASNAZAQXSWCDEPARASDFGAZXCVBBNMÑLKJHGFDSATRANQWERSPORPOIUYTRETARÑLKJHGFDSSODIOMNBPOIU”.

Yo resalto la oración que buscamos para facilitar la lectura, pero en la realidad esto no sucede, debemos interpretar y luego probar cual es la oración contenida allí.

Para cuando inició el proyecto, sabíamos que los genes eucariontes se encuentra interrumpidos por secuencias “sin sentido”, llamadas intrones. En ocasiones esas secuencias son gigantescas, mucho más grandes que los exones o parte de la oración con sentido (en rojo en mi ejemplo).

Pero no había problema, para entonces se conocía ya que los intrones tienen secuencias precisas que indican sus limites, así que una computadora potente, alimentada con estas secuencias, podría fácilmente identificarlas y señalarlas para nosotros con el fin de hacer más fácil la lectura de las oraciones…

Un gen es una secuencia de la combinación de las letras ATGC en palabras variables en tamaño, muchas veces interrumpidas por intrones, pero muy bien acotada. Es decir, inicia en un punto y termina en otro que se pueden identificar. El tamaño “efectivo”,  de los exones, anda en promedio entre los 1000-1500 pares bases, pero los intrones los hacen más grandes. Además, los genes poseen una región regulatoria que le indica, a la maquinaria celular, donde inicia el gen (se le llama a esta secuencia, promotor) y allí se posa el complejo proteico que “lee” el gen y lo traduce a una secuencia de ARN que luego va a ser interpretada para sintetizar una cadena de aminoácidos de una proteína. Se conocen muchos promotores y sabemos que varios son comunes a cierto tipo de genes, pero hay promotores que determinan la expresión precisa, espacial y temporal de muchos genes, de manera que hay que identificarlos y eso requiere no solo una computadora, también, el trabajo experimental en el laboratorio.

Además de los promotores, hay una serie de secuencias más o menos pequeñas, de unas cuantas letras de longitud, hasta algunas decenas, que actúan como moduladores de la expresión de los genes y se les llama “elementos cis”. Estas secuencias determinan el órgano en que se expresa un gen, el momento o condición en que lo hace, incluso cuánto se expresa. Conocemos muchos de estos módulos y sabemos que se combinan en muchos genes que responden a condiciones similares. Sabemos que hay módulos de respuesta a la luz, por ejemplo, que se presentan en los promotores de genes que responden a la luz; los hay de respuesta a las heridas; a la concentración de determinados nutrientes; a determinadas hormonas y señales celulares, etc. Pero no los conocemos todos, ni mucho menos, de manera que, para los años del proyecto, era un reto enorme su identificación, que necesariamente debería hacerse en el laboratorio y probarse con evidencias muy sólidas…

Hasta aquí quiero remarcar que la “lectura” del libro del genoma no es equivalente a la lectura de este artículo y, por lo tanto, el libro en cuestión no es un libro común, de hecho, en la biología molecular moderna esa analogía ya casi ni se usa. El asunto es que para 1990 teníamos un “libro” cuyo texto no es continuo, con un montón de palabras o frases que ignoramos su significado y peor aún, un porcentaje muy importante de ese texto …no parece tener sentido, es decir, palabras claras, parece basura.

 

¿Qué tanto del texto en el libro no tienen sentido?

Los genes tienen tamaños muy variables porque codifican para proteínas muy diversas. Hay proteínas de entre 100 y 300 aminoácidos (aa), algunas incluso más pequeñas y las hay más grandes de más de mil aa (un anticuerpo como IgG tiene 1320 aminoácidos, mientras que la hemoglobina tiene 564). Hay proteínas más grandes como la titina de los músculos que tiene 30,000 aa... De manera que sus genes varían mucho en tamaño. Si le adicionamos el asunto de los intrones y todas las otras secuencias pues ya tenemos un porcentaje muy grande de “ADN basura” o texto sin sentido.

Podríamos pensar que entre más complejo es el organismo, más grande es su genoma porque requiere más proteínas para armarse y tiene más funciones… Un humano es claramente más complejo que un gusano o una cebolla. Pero no es tan simple…

En tamaño del genoma no tiene relación con la complejidad. Los genomas de las bacterias son pequeños, de unos pocos miles hasta millones de bases. Y esto tiene sentido. Son organismos unicelulares, muy sencillos, microscópicos y con funciones muy elementales. El genoma más pequeño, hasta el momento, es el del endosimbionte Buchnera sp. una bacteria que habita en los pulgones y tiene un ADN de apenas 0.45 Mb o el de un patógeno intracelular llamado Mycoplasma genitalium de 0.58 Mb. En promedio, los genomas bacterianos no son mayores de 5 Mb. Los genes de las bacterias no están interrumpidos, son continuos y están organizados de manera que un promotor controla varios genes de una misma ruta y hay pocas secuencias moduladoras.

El problema llega con los eucariotas. El genoma más grande conocido es el de una florecita japonesa llamada Paris japonica que tiene un tamaño de 150,000,000,000 de pares de bases (¡150 billones!) y el pez pulmonado de marmol Protopterus aethiopicus tiene, hasta ahora, el segundo genoma más grande con 138 billones de pares de bases; la cebolla, esa de la cocina, tienen un genoma de 18,000 Mb, es decir, varias veces más grandes que el genoma humano que es de “apenas” 3,400 Mb (3,400 millones). Sabemos que muchas plantas, animales como las ranas, los peces, los insectos o los gusanos, tienen genomas mayores que nosotros.

Entonces, es claro que esos bichos no pueden tener más genes que un humano… Por alguna razón, los biólogos moleculares pensaban en 1990 que “minimamente” debería haber unos 150,000 genes en el humano. Esa era la estimación basada en las funciones bioquímicas y las estructuras que se conocian, más un promedio del tamaño de un gen en relación al tamaño del genoma (recuerde, tres mil cuatrocientos millones de bases). Para el año 2000 que se presentó el primer borrador del genoma humano, la sorpresa mayúscula era que el número estimado de genes era menor. Al inicio se calculó en 45,000, luego de diversas pruebas de laboratorio y nuevos análisis se ajustó a la baja: 35,000, 28,000, 25,000… Actualmente se estima que tenemos alrededor de 20,000 genes. Si lo comparamos con cuántos genes se necesitan para componer un gusano nematodo, continúan las sorpresas: 18,500; una mosca 13,500, una rana unos 25,000. Si calculamos la proporción de genes por función metabólica de las proteínas que codifican, nos encontramos con que independientemente del tamaño del genoma y del número de genes, la distribución de los mismos por función es una constante en todos los seres vivos desde una levadura hasta nosotros. Es claro que en el genoma completo no todos son genes.

Regresando a la analogía del genoma como un libro: resulta que nuestro libro de millones y millones de palabras sólo tiene unos pocos miles de las mismas que tengan sentido. El 98% del genoma de un ser humano no codifica para proteínas, es decir no tiene sentido… aparentemente.

Entonces ¿por qué los eucariotas, como nosotros, tenemos genomas tan grandes? Como hasta hace poco no comprendiamos esta paradoja, al 98% del genoma se le comenzó a llamar “DNA basura”, asumiendo que no tenía sentido alguno. El asunto es que no lo entendamos no significa que no cumpla una función o no tenga alguna importancia. Y esta noción rapidamente comenzó a cambiar. Resulta que la definición de gen usada hasta entonces no era la correcta. Se asumía que un gen es la secuencia de bases del ADN que codifican para un polipéptido (una cadena de aminoácidos), pero esto no es exacto. Hay un número muy grande de genes, incluso mayor que los genes protéicos, que codifican para ARN, un polímero parecido al ADN, pero de cadena sencilla y que realiza múltiples funciones esenciales para la vida. Hay ARNt que su función es trasladar a los aminoácidos hasta la fábrica de proteínas (ribosomas) y son específicos para cada aminoácido; hay ARNr que son los verdaderos interpretes del código genético y forman la parte catalítica de los ribosomas; tenemos los ARNsn que juegan papeles determinantes en la remoción de los intrones y la maduración del ARNm que lleva el mensaje genético hasta las fábricas de proteínas y una miriada de ARNs más, involucrados en la regulación de diversas funciones celulares o la defensa contra genomas ajenos, entre otras y que apenas estamos conociendo y claro, todos son codificados por el genoma, que tiene genes específicos para ellos.

Además, hay eventos de duplicación de genes, por ejemplo, la domesticación de muchas plantas selecciona carácteres visibles o deseables, pero el agricultor activa (sin saberlo) mecanismos de duplicación de genes, incluso multiplicación y selección de los propios cromosomas con lo que el genoma “crece” en estas plantas. La multiplicación cromosómica también es un fenomeno natural y más frecuente de lo que pensabamos. Además de ello constantemente y a lo largo de toda la historia evolutiva hay secuencias que se insertan en los genomas, provenientes de retrovirus y transposones que infectan al organismo y se quedan allí, genes dañados (pseudogenes) que por alguna razón permanecen, secuencias pequeñas (repetidos cortos) que en algún momento se produjeron por errores en la síntesis del ADN y permanecieron haciendo más y más largo el genoma de una especie… El genoma tiene porciones que aún no entendemos, pero que persisten, se heredan, se reparan y mantienen y eso tal vez signifique que juega algún papel en la evolución o no y, efectivamente es ADN residual sin alguna función.

Vamos a decirlo de manera muy clara: en el ser humano, el 98% del ADN no codifica para proteinas, lo cual no lo convierte en “basura”. De hecho, cada vez hay más evidencias del involucramiento de muchas de estas regiones “sin sentido” en la regulación de procesos muy complejos como el desarrollo corporal, la evolución del cáncer, y de alguna manera esta regiones sin sentido participan de la complejidad biológica. De cualquier manera, este ADN se encuentra sometido a procesos evolutivos como todo el genoma, aunque pueda presentar peculiaridades.

Sobre todo esto trata el libro que ahora recomiendo en Saber Más: ADN Basura, de Nessa Carey (Biblioteca Buridán, 2018. ISBN 9788416288663), un texto indispensable para todo mundo. Cualquiera que desee entender la naturaleza física y química de la vida, el proceso evolutivo y sus sutrato, el genoma, debe acercarse a este libro. No es un texto para expertos, está contando con emoción, sorpresa y propone muchas preguntas. Las que van apareciendo a medida que meditamos acerca de la vida y del concepto información genética.

El libro nos va encaminando de manera muy certera a comprender que la complejidad de la vida está relacionada de alguna manera con estas zonas del genoma cuya función desconocemos. Nos motiva a ser abiertos y críticos con aquello que por ahora no comprendemos, pero dado que la biología nos ha enseñado que en la vida, en tanto fenomeno de organización de la materia, no hay nada superfluo, nada que esté demás y aún más cuando energéticamente es muy costoso, al famoso ADN sin sentido “podría” tener algún significado o no. El libro nos va poniendo a disposición las nuevas evidencias que así lo indican.

Cuando se inició el proyecto del genoma humano, secuenciar un gen era una tarea muy compleja, ahora secuenciar un genoma completo puede ser cuestion de horas y las nuevas tecnologías de análisis molecular ponen a disposición de los científicos datos que nos están mostrando cosas sorprendentes…

No le cuento más, lea este libro, será casi casi una novela de aventuras.

 

Horacio Cano Camacho, Profesor Investigador del Centro Multidisciplinario de Estudios en Biotecnología y Jefe del Departamento de Comunicación de la Ciencia de la Universidad Michoacana de San Nicolás de Hidalgo.

Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.