El complejo de cohesina: homologías de secuencias, redes de interacción y motivos compartidos

Homólogos de proteínas de cohesina
proteínas SMC
Proteínas SCC
Red de interacción de cohesión
Un elemento de ADN ascendente común
Motivos compartidos dentro de la red de interacción de cohesión

Homólogos de proteínas de cohesina

proteínas SMC

Una búsqueda por explosión PSI de homólogos de secuencias de SMC1 y SMC3 de Saccharomyces cerevisiae reveló homólogos de muchas especies de eucariotas, arqueas y eubacterias como se informó anteriormente (Tabla 1). Estas búsquedas de homología proporcionaron la base para un árbol filogenético y para el análisis de nuevos homólogos de secuencias.

Tabla 1 Proteínas implicadas en la cohesión de cromátidas hermanas en S. cerevisiae y sus homólogos de secuencia

El árbol filogenético SMC creado a partir de la alineación de los homólogos SMC3 (Figura 2) revela cinco familias: Smc1-Smc4 de eucariotas y una quinta familia ‘ancestral’ que incluye los SMC de eubacterias y arqueas. Esta familia ancestral también incluye una serie de proteínas eucariotas de S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster y humanos. Cada uno de estos eucariotas tiene proteínas SMC de las cinco familias. Las proteínas eucariotas dentro de la familia ancestral incluyen el Rad18 de S. pombe y Rhc18, el homólogo Rad18 en S. cerevisiae. Rad18 en S. pombe está involucrado en la reparación del ADN dañado por la radiación UV . Las secuencias de C. elegans, Drosophila y human que se agrupan con Rad18 dentro de la familia ancestral son probablemente homólogas de Rad18. También está agrupada dentro de este grupo Spr18, una proteína SMC propuesta para ser la compañera homodimérica de rad18 en S. pombe . Además, el MukB de Escherichia coli también se encuentra dentro de esta familia ancestral. Se sabe que el MukB es esencial para la partición cromosómica en esta especie . El agrupamiento de los homólogos Rad18 con las proteínas ancestrales SMC no se observa en el árbol filogenético construido por Cobbe y Heck .

Un homólogo de secuencia inusual de SMC3 en ratón (SMCD) ya ha sido reportado en forma de bamacan, un proteoglicano de sulfato de condroitina . Se sabe que esta proteína tiene una identidad de secuencia al 100% de SMCD . Aquí identificamos otro homólogo nuevo, Mmip1, que también comparte una identidad de secuencia extremadamente alta con el SMCD del ratón. La Mmip1 (proteína interactuante Mad 1) se identificó a partir de una pantalla de levadura de dos híbridos para proteínas que se unen a Mxi, un factor de transcripción básico de hélice-bucle-hélice (bHLH). Mmip1 es una proteína básica de cremallera de hélice-bucle-hélice (bHLH-ZIP) que dimeriza fuertemente con Mad1, Mxi, Mad3 y Mad4, pero no con Max o c-Myc . Una alineación Clustal X de Mmip1 con SMCD revela que Mmip1 carece del primer dominio globular y el primer dominio de bobina enrollada común a las proteínas SMC. En la alineación hay un 40% de identidad de secuencia entre Mmip1 y SMCD en toda la longitud del SMCD (1.217 aminoácidos). Sin embargo, a lo largo de la proteína Mmip1 (485 aminoácidos), la proteína comparte un 99% de identidad de secuencia con SMCD. Estas identidades de secuencias de alto porcentaje también se reflejan en las secuencias de ADN que codifican estas proteínas. El ADNc que codifica la proteína Mmip1 es 100% idéntico al ADNc que codifica SMCD sobre los 2.612 pares de bases de la secuencia Mmip1.

Se ha sugerido previamente que las eubacterias contienen una sola proteína ancestral SMC . La búsqueda PSI-BLAST de homólogos SMC en el trabajo actual identificó dos proteínas relacionadas con SMC en dos especies de eubacterias, B. subtilis y Aquifex aeolicus. En ambas especies, una secuencia ha sido identificada previamente como homólogo de SMC, mientras que la función de la segunda es desconocida. Las dos secuencias de B. subtilis comparten un 95% de identidad de secuencia, mientras que las dos secuencias de A. aeolicus comparten un 20% de identidad de secuencia. Los cuatro homólogos contienen un motivo Walker A y B, y los dos homólogos de B. subtilis contienen los cinco dominios característicos de las proteínas SMC (Figura 1a). La A. la proteína aeolicus conocida por ser un homólogo de SMC (número de acceso de TrEMBL O60878) también contiene los cinco dominios, incluidos los dos dominios de bobina enrollada separados por una región de bisagra de 180-200 residuos. Sin embargo, el segundo homólogo en A. aeolicus (número de acceso de TrEMBL O67124) tiene los dos dominios de bobina enrollada (predichos usando Bobinas), pero la región de bisagra que los separa consiste en solo aproximadamente 10-20 residuos. En el modelo actual de dímeros SMC, la región de la bisagra permite el plegado de la estructura en un complejo aproximadamente simétrico (Figura 1b). Para este A. homólogo de aeolicus, sin embargo, la región de la bisagra muy corta restringiría el rango de plegado. En esta especie, se pueden formar dos estructuras homodiméricas SMC, una del SMC de cinco dominios y otra del homólogo SMC de cuatro dominios que carece del dominio de bisagra. La presencia de dos posibles homólogos de CME en B. subtilis, sin embargo, podría significar que el modelo heterodimérico de interacciones de CME propuesto para eucariotas (por ejemplo,) también podría extenderse a algunos procariotas. La presencia de dos homólogos SMC en algunas eubacterias no se muestra en el árbol filogenético SMC construido por Cobbe y Heck .

Proteínas SCC

Las proteínas SCC solo están presentes en los eucariotas y no están tan bien caracterizadas como las proteínas SMC. El Scc1 (también identificado como MCD1) está asociado físicamente con el protómero SMC1 en el complejo . Los homólogos de S. pombe, Xenopus laevis, humanos y Drosophila se identifican como proteínas Rad21 (Tabla 1), involucradas en la reparación de roturas de doble cadena de ADN inducidas por radiación ionizante. El Scc3 (anteriormente identificado como IRR1 ) contiene una secuencia de localización nuclear (ver más adelante) y se han identificado varios homólogos (Tabla 1). Los homólogos de Scc3 en Drosophila, ratón, humano y Arabidopsis son una familia de proteínas de estromalina que comparten entre un 20-25% de identidad de secuencia (Tabla 1). En Drosophila, ratón y humano hay dos proteínas de estromalina (dSA, dSA2; SA1, SA2; y STAG1, STAG2, respectivamente), que se encuentran en el núcleo, pero su función es desconocida. Además, se ha identificado STAG3 en humanos y se propone que participe en el emparejamiento cromosómico durante la meiosis.

Scc2 y Scc4 son los factores de carga de cohesina recientemente identificados . Se han identificado homólogos a Scc2 en S. pombe (Mis4) y Drosophila (Nipped-B), Coprinus cinereus (Rad9 y humano (IDN3-B; número de acceso de TrEMBL Q9Y6Y3) (Tabla 1). Mis4 en S. pombe se requiere para la separación cromátida igual en anafase y tiene una función distinta de la cohesina . El producto del gen Rad9 en C. cinereus es esencial para la finalización normal de la meiosis. Se propone que el producto del gen Nipped-B funcione arquitectónicamente entre potenciadores de transcripción y promotores para facilitar las interacciones potenciador-promotor . La función del gen IDN3-B en humanos es desconocida, aparte de que se expresa preferentemente en carcinomas hepatocelulares (CHC) . Se ha propuesto que estas moléculas de CCE representan una familia de’ adherinas ‘ que comparten un gran dominio central de homología de secuencias .

El Scc4 fue identificado como un producto del marco de lectura abierto (ORF) YER147C, y comprende una secuencia de 624 aminoácidos que incluye un motivo de unión de AMP. Sin embargo, aparte de interactuar con el Scc2 y participar en el establecimiento de la cohesión de cromátidas hermanas, se sabe poco sobre esta proteína. El Scc4 no tiene homólogos de secuencia identificables ni en la secuencia completa ni en las bases de datos EST, y por lo tanto podría ser el producto de un gen huérfano.

Red de interacción de cohesión

Se creó una red de interacción de cohesión mediante la recopilación de información de dos bases de datos de proteomas y de la literatura (Figura 3). En la Figura 3, se dibujan líneas entre proteínas para indicar interacciones conocidas o potenciales. Los datos de los que se derivan las interacciones se indican en una clave detallada que diferencia entre las dos bases de datos proteómicas (y entre las diferentes fuentes de datos dentro de cada base de datos) y la literatura. Cuatro proteínas (Esp1, Trf4, Prp11 y Tid3) interactúan directamente con proteínas SMC o SCC en S. cerevisiae. La interacción de Esp1 y Scc1 se conoce actualmente a nivel funcional , y su importancia ya se ha discutido. Esta interacción depende del tiempo y no se ha identificado en la pantalla de dos híbridos de levadura, y esta información no se registra actualmente en el YPD.

Trf4 es una proteína involucrada tanto en la condensación de cromosomas mitóticos como en la cohesión de cromátidas hermanas . En X. laevis Trf4 interactúa con Smc1 y Smc2, y en S. cerevisiae Trp4 interactúa con Smc1 y Trf5 , otro miembro de la familia TRF. Se han identificado homólogos de Trf4 en S. pombe, C. elegans, Drosophila, human y Arabidopsis (Tabla 2). Trf4 ha sido identificado muy recientemente como una polimerasa de ADN con propiedades similares a la β-polimerasa y ahora se denomina polimerasa de ADN κ (la cuarta clase de polimerasas de ADN nucleares) . Los homólogos remotos de S. cerevisiae Trf4 incluyen la proteína I de muerte celular inducida por cafeína (Cid1) en S. pombe (13.4% de identidad de secuencia) y la enzima polinucleótido adeniltransferasa de varios organismos, incluidos S. pombe y humanos (10,2% y 9,7% de identidad de secuencia, respectivamente). Cid1 es de particular interés, ya que se cree que desempeña un papel en el camino de puntos de control S-M en S. pombe . Como homólogo de Trf4, Cid1 podría ser el vínculo entre la cohesión de cromátidas hermanas y esta vía de control.

Tabla 2 Tres proteínas que interactúan con la cohesina de S. cerevisiae y sus homólogos de secuencia

Prp11 es un factor de empalme de levadura involucrado en las primeras etapas de la vía de ensamblaje del empalme o empalme . Prp11 es una proteína de 266 aminoácidos que incluye un dominio de dedo de zinc común a las proteínas de unión al ARN . Este factor de empalme forma un complejo con otros dos, Prp9 y Prp21, que junto con Prp5 son necesarios para la unión de U2 snRNP al pre-ARNm . Hay homólogos de este factor de empalme en S. pombe, C. elegans, Drosophila, Arabidopsis, ratón y humano (Tabla 2) y todos incluyen el motivo de unión al ARN. En ratones y humanos, el homólogo es SAP62 (proteína asociada a spliceosomas), una proteína spliceosómica que se une al pre-ARNm en el complejo prepliceosómico .

Tid3 (NCD80) es una proteína del cuerpo del polo del huso que tiene homólogos en varios eucariotas (Tabla 2). Se predice que Tid3 interactúa con Smc1 y Smc2, y se ha demostrado experimentalmente que interactúa con Spc24, otro componente del cuerpo del polo del husillo. También se han observado interacciones entre el homólogo humano de Tid3, Hec1 y los homólogos humanos de Smc1 y Smc2 . Las interacciones de Tid3 con subunidades de las macromoléculas de cohesina y condensina, lo colocan junto a Trf4 y Scc1, como una proteína involucrada integralmente en ambos mecanismos. También se propone que el Hec1 pueda estar involucrado en el ensamblaje de la cromatina en el centrómero y en la regulación del cinetocoro . Spc24, un socio de interacción de Tid3, también interactúa con Prp11, el factor de empalme de levadura que está vinculado a los factores de carga de cohesina a través de su interacción con Scc2 (Figura 3).

Un elemento de ADN ascendente común

Se buscaron motivos compartidos en las regiones ascendentes de los genes que codifican 17 proteínas en la red de cohesina (Figura 3) utilizando AlignACE. Se identificaron tres motivos de consenso que eran comunes a los subconjuntos de los 17 genes. Sin embargo, se encontró que solo un motivo era relativamente específico, coincidiendo con secuencias ascendentes de solo 29 genes en el SGD (ver Materiales y métodos). Este motivo tiene la secuencia de consenso A6ACGCGTH2RXAAX e incluye el elemento MluI cell-cycle box (MCB) (secuencia de consenso ACGCGT) . El motivo de consenso extendido encontrado en el trabajo actual estaba presente en regiones ascendentes de los genes que codifican Scc1, Scc3, Smc3, Pds1, Eco1 y Spc24. Este motivo se localizó entre 123-299 pares de bases (bp) aguas arriba de los genes que codifican estas seis proteínas. Una búsqueda del SGD reveló 23 genes adicionales que contenían este motivo aguas arriba. Ocho de estos genes adicionales codifican proteínas hipotéticas de función desconocida. Sin embargo, estos genes adicionales también incluyeron aquellos que codifican acompañantes (JEM1 y PDI1n), componentes del factor de transcripción (TFA1, RFA2, ARN polimerasa II, SPT20 y PRT1), y un componente YC del proteasoma. Cuando la búsqueda se extendió a 2,000 bp aguas arriba de las regiones no traducidas de 5′ del genoma de la levadura, también se encontró que el gen que codifica Trf4 contenía este motivo de consenso (1,560 bp aguas arriba).

Motivos compartidos dentro de la red de interacción de cohesión

Teiresias , un algoritmo de descubrimiento de patrones, se utilizó para buscar motivos comunes entre dos o más secuencias en las 17 proteínas de la red de cohesión. El mayor número de proteínas que compartían un motivo común fue de tres, y estas fueron las tres proteínas SMC, que tienen una alta identidad de secuencia y comparten motivos de prótesis conocidos (Tabla 3). Más interesantes fueron las 24 coincidencias de patrones encontradas entre pares de proteínas en la red. Varias proteínas comparten más de un motivo de secuencia con la misma proteína. Todos los motivos compartidos eran específicos de las dos proteínas de la red de cohesión, o en el caso de tres motivos, compartidos por otra secuencia de proteínas.

Tabla 3 Motivos de secuencia de prositas localizados usando ProfileScan en proteínas involucradas en el mecanismo de cohesión de cromátidas hermanas

Un motivo compartido por dos secuencias en la red y una secuencia adicional, es el motivo DXXPENIXLXKN compartido por las secuencias de Scc2, Chk1 y una tercera proteína PKH1 de S. cerevisiae (levadura ORF YDR490C) (Figura 4). Tanto la Chk1 como la PKH1 son proteínas quinasas de serina/treonina (ST), y el motivo que comparten con la Scc2 incluye parte del motivo característico de la PROSTITA ST quinasa (XXDKXXN(3), donde X indica cualquier residuo, (3) indica que el residuo anterior se repite tres veces, y D es el residuo en el lugar activo). La secuencia de Scc2 no coincide exactamente con el motivo de la firma de la cinasa ST. De los 13 residuos en el motivo de la cinasa ST, el Scc2 tiene cuatro desajustes, pero, lo que es más importante, el ácido aspártico del sitio activo se conserva.

Un segundo motivo compartido por una tercera proteína no incluida en la red de cohesión fue SXXSXLKKKXLXT; esto se encuentra en Scc1, Scc2 y la levadura ORF YHR011W, una supuesta seril-ARNt sintetasa (Figura 5a). Sin embargo, este motivo no formaba parte del motivo de ligasa de ARNt de YHR011W, ni de ningún otro motivo conocido dentro de esta secuencia. Un tercer motivo compartido por una proteína de fuera de la red de cohesión fue NDXNXDDXDN, compartido por Scc1, Smc1 y una ATPasa de tipo P de Plasmodium yoelii (Figura 5b). El Scc4 es uno de los factores de carga de cohesina para el que no se ha encontrado homólogo conocido. Sin embargo, se encontró que esta proteína compartía un motivo de secuencia de 10 residuos (GKXVALTNAK) con Smc3 (Figura 5c).

Securin Pds1 es un inhibidor de la anafasa que contiene un motivo de caja de destrucción (RXXXLXXXXN), que se dirige a esta proteína para su destrucción por la ubiquitina ligasa APC. Encontramos tres motivos de caja de destrucción en Smc3, uno en la región de la bisagra (en la posición 682, RTRLESLKN) y dos en el segundo dominio de bobina enrollada (uno en la posición 744 (RTSLNTKKN) y uno en la posición 920 (RLLLKKLDN)). También encontramos un motivo KEN-box (una señal de reconocimiento APC adicional) en SMC2 en la posición 304 (KENGLLN), en el primer dominio de bobina enrollada.