O cohesin complexo: sequência de homologias, interação e redes compartilhadas motivos

Homologs de cohesin proteínas

SMC proteínas

UM PSI-BLAST pesquisa para a sequência de homologs de SMC1 e SMC3 a partir de Saccharomyces cerevisiae revelou homologs de muitas espécies de seres eucariontes, archaea e eubacteria como relatado anteriormente (Tabela 1). Estas pesquisas de homologia forneceram a base para uma árvore filogenética e para a análise de novos homólogos sequenciais.

Tabela 1 Proteínas envolvidas na irmã chromatid de coesão em S. cerevisiae, e sua seqüência homologs

O SMC árvore filogenética criado a partir do alinhamento de SMC3 homologs (Figura 2) revela cinco famílias: Smc1-Smc4 de eucariotas e um quinto ‘ancestrais’ família que inclui a Apms da eubacteria e archaea. Esta família ancestral também inclui uma série de proteínas eucarióticas de S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster e humanos. Cada um destes eucariontes tem proteínas SMC de todas as cinco famílias. As proteínas eucarióticas dentro da família ancestral incluem o Rad18 de S. pombe e Rhc18, o Rad18 homolog em S. cerevisiae. Rad18 in S. pombe is involved in the repair of DNA damaged by UV radiation . As sequências de C. elegans, Drosophila e human que se agrupam com Rad18 dentro da família ancestral são susceptíveis de ser homólogos Rad18. Também agrupado dentro deste grupo é Spr18, uma proteína SMC proposta para ser o parceiro homodimérico de rad18 em S. pombe . Além disso, MukB de Escherichia coli também está dentro desta família ancestral. O MukB é conhecido por ser essencial para a separação cromossômica nesta espécie . O agrupamento dos homólogos Rad18 com as proteínas ancestrais SMC não é observado na árvore filogenética construída por Cobbe e Heck .

Figura 2
a figura2

árvore Evolutiva para o SMC proteínas, criado usando PHYLIP . Cada uma das cinco famílias SMC é destacada e rotulada. Os nomes das proteínas eucarióticas presentes na família ancestral são sublinhados. Os valores de Bootstrap de 100 ensaios de bootstrap são mostrados nos ramos primários da árvore. ÁGUA, Aquifex aeolicus; ARATH, a Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus preto original; BACSU, tipo de bacillus sutil; CAEEL, Caenorhabditis elegante; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, o Japonês baiacu; METJA, Methanococcus jannaschii; MUS,mouse; MYCGE, Mycoplasma genital; MYCHR, Mycoplasma hyorhinis; MYCPN, Mycoplasma pneumonia; PYRAB, Pyrococcus abyssii; PYRHO, Pyrococcus horikoshii; SCHP, Schizosaccharomyces pombe; SYNSP, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, Xenopus laevis; levedura, Saccharomyces cerevisiae.

uma sequência incomum de homolog de SMC3 em mouse (SMCD) já foi relatada na forma de bamacan, um proteoglicano sulfato de condroitina . Esta proteína é conhecida por ter 100% de identidade sequencial para SMCD . Aqui identificamos outro novo homolog, o Mmip1, que também compartilha uma identidade de sequência extremamente alta com o mouse SMCD. O Mmip1 (Mad interacting protein 1) foi identificado a partir de um ecrã híbrido de levedura para proteínas que se ligam ao Mxi, um factor básico de transcrição do ciclo-hélice (bHLH). Mmip1 é uma proteína básica de Hélix-loop-helix zipper (bHLH-ZIP) que dimeriza fortemente com Mad1, Mxi, Mad3 e Mad4, mas não com Max ou c-Myc . Um alinhamento Clustal X do Mmip1 com SMCD revela que o Mmip1 não possui o primeiro domínio globular e o primeiro domínio coiled-coiled comum às proteínas SMC. No alinhamento há uma identidade de sequência de 40% entre Mmip1 e SMCD ao longo de todo o comprimento do SMCD (1.217 aminoácidos). Ao longo do comprimento da proteína Mmip1 (485 aminoácidos), no entanto, a proteína compartilha identidade de sequência de 99% com SMCD. Estas identidades de sequência de alta porcentagem também são refletidas nas sequências de DNA que codificam essas proteínas. O cDNA que codifica a proteína Mmip1 é 100% idêntico ao cDNA que codifica SMCD sobre os 2.612 pares de base da sequência Mmip1.Foi sugerido anteriormente que eubacteria contém uma única proteína ancestral SMC . The PSI-BLAST search for SMC homologs in the current work identified two SMC-related proteins in two species of eubacteria, B. subtilis e Aquifex aeolicus. Em ambas as espécies uma sequência foi previamente identificada como um homologo SMC, enquanto a função do segundo é desconhecida. As duas sequências de B. subtilis compartilham identidade de sequência de 95%, enquanto as duas sequências de A. aeolicus compartilham identidade de sequência de 20%. Todos os quatro homólogos contêm um motivo Walker A E B, e os dois homólogos de B. subtilis contêm os cinco domínios característicos das proteínas SMC (figura 1a). O A. a eolicus protein known to be an SMC homolog (TrEMBL accession number O60878) also contains the five domains, including the two coiled-coil domains separated by a hinge region of 180-200 residues. No entanto, o segundo homolog em A. aeolicus (número TrEMBL adession O67124) tem os dois domínios de coiled-coil (predito usando bobinas), mas a região da dobradiça que os separa consiste de apenas cerca de 10-20 resíduos. No modelo actual de dimers SMC, a região da dobradiça permite dobrar a estrutura num complexo aproximadamente simétrico (figura 1b). Para este A. aeolicus homolog, no entanto, a região de dobradiças muito curta iria restringir o intervalo de dobragem. Nesta espécie, duas estruturas homodiméricas de SMC poderiam ser formadas, uma do SMC de cinco domínios e uma do homolog de quatro domínios sem o domínio de dobradiças. A presença de dois homólogos potenciais SMC em B. subtilis, no entanto, poderia significar que o modelo heterodimérico de interações SMC proposto para eucariontes (por exemplo ) também poderia ser estendido A alguns procariontes. A presença de dois homólogos SMC em algumas eubactérias não é mostrada na árvore filogenética SMC construída por Cobbe e Heck .

proteínas SCC

as proteínas SCC só estão presentes em eucariotas e não são tão bem caracterizadas como as proteínas SMC. Scc1 (também identificado como MCD1) é fisicamente associado com o PROTÔMERO SMC1 no complexo . Homólogos em S. pombe, Xenopus laevis, humanos e Drosophila são identificados como proteínas Rad21 (Tabela 1), envolvidos na reparação de quebras de cadeia dupla de DNA induzidas por radiação ionizante. O Scc3 (anteriormente identificado como IRR1 ) contém uma sequência de localização nuclear (ver mais adiante) e foram identificados vários homologs (Quadro 1). Os homólogos Scc3 em Drosophila, ratinho, humano e Arabidopsis são uma família de proteínas de estromalina que compartilham entre 20-25% da identidade da sequência (Tabela 1). Em Drosophila, rato e humano existem duas proteínas de estromalina (dSA, dSA2; SA1, SA2; e STAG1, STAG2, respectivamente), que estão localizadas no núcleo, mas sua função é desconhecida. Além disso, o STAG3 foi identificado em seres humanos e é proposto para estar envolvido na emparelhação de cromossomas durante a meiose.

Scc2 e Scc4 são as coes recentemente identificadas nos factores de carga . Os homólogos do Scc2 foram identificados em S. pombe (Mis4 ) e Drosophila (nipp-B ), Coprinus cinereus (Rad9 e humano (IDN3-B; Número TrEMBL de Adesão Q9Y6Y3) (Quadro 1). Mis4 in S. pombe is required for equal chromatid separation in anaphase and has a function distinct from coesin . O produto genético Rad9 em C. cinereus é essencial para a conclusão normal da meiose. O produto do gene Nipped-B é proposto para funcionar arquitetonicamente entre intensificadores de transcrição e promotores para facilitar interações potenciador-promotor . A função do gene IDN3-B no ser humano é desconhecida, além de ser expressa preferencialmente em carcinomas hepatocelulares (HCC) . Foi proposto que estas moléculas SCC representam uma família de ‘adherinas’ que compartilham um grande domínio Central de homologia de sequência .

Scc4 foi identificado como um produto de estrutura de leitura aberta (ORF) YER147C , e compreende uma sequência de 624 aminoácidos que inclui um motivo de ligação AMP. No entanto, além de interagir com o Scc2 e estar envolvido no estabelecimento da coesão cromatídica irmã, pouco se sabe sobre esta proteína. Scc4 não tem homólogos de sequência identificáveis em qualquer uma das bases de dados de sequência completa ou EST, e portanto pode ser o produto de um gene órfão.

rede de interacção da coesão

foi criada uma rede de interacção da coesão através da recolha de informações a partir de duas bases de dados do proteoma e da literatura (Figura 3). Na Figura 3, as linhas são traçadas entre proteínas para indicar interacções conhecidas ou potenciais. Os dados a partir dos quais as interações são derivadas são indicados em uma chave detalhada que diferencia entre as duas bases de dados proteômicos (e entre as diferentes fontes de dados dentro de cada banco de dados) e a literatura. Quatro proteínas (Esp1, Trf4, Prp11 e Tid3) interagem directamente com proteínas SMC ou SCC na S. cerevisiae. A interação de Esp1 e Scc1 é atualmente conhecida em um nível funcional, e sua importância já foi discutida. Esta interacção é dependente do tempo e não foi identificada no ecrã híbrido de levedura, e esta informação não está actualmente registada no YPD.

Figura 3
figueiraura3

A coesão, a interacção de rede. Linhas conectando proteínas indicam interações conhecidas ou potenciais derivadas de duas bases de dados proteômicas e da literatura. Coesina e os factores de carga estão em amarelo; proteínas adicionais envolvidas na coesão ou na interacção com coesina ou os factores de carga estão em azul; todas as outras proteínas da rede estão em branco. As proteínas delineadas com caixas fazem parte de complexos macromoleculares. Prp11 é parte de um complexo na Via spliceosômica, e Apc2 é parte do complexo de promoção de anafase (APC). Tid3p e Spc24 são ambos parte do corpo do eixo. Linhas negras sólidas indicam proteínas que formam interações diméricas. A rede de coesão de 17 proteínas inclui todas as rotuladas, excluindo Apc2, Tid4, Tid1 e Rad51.

Trf4 é uma proteína envolvida tanto na condensação cromossômica mitótica quanto na coesão cromatídica irmã . Em X. laevis Trf4 interage com Smc1 e Smc2 , e em S. cerevisiae Trp4 interage com Smc1 e Trf5 , outro membro do TRF da família. Os homólogos Trf4 foram identificados em S. pombe, C. elegans, Drosophila, human and Arabidopsis (Quadro 2). A Trf4 foi recentemente identificada como uma DNA polimerase com propriedades semelhantes a β-polimerase e agora é designada DNA polimerase κ (a quarta classe de DNA polimerases nucleares) . Os homólogos remotos de S. cerevisiae Trf4 incluem a proteína da morte celular induzida pela cafeína I (Cid1) em S. pombe (13.4% de identidade sequencial) e a enzima adeniltransferase polinucleótida de vários organismos, incluindo S. pombe e humanos (10,2% e 9,7% de identidade sequencial, respectivamente). O Cid1 é de particular interesse, já que ele pensou em desempenhar um papel no caminho de checkpoint S-M em S. pombe . Como um homolog de Trf4, Cid1 pode ser a ligação entre a coesão cromatídica irmã e esta via de checkpoint.

Quadro 2 três coesin-proteínas com interacção de S. cerevisiae e seus homólogos sequenciais

o Prp11 é um factor de separação de leveduras envolvido nos estágios iniciais da via de montagem spliceosómica . Prp11 é uma proteína de 266 aminoácidos que inclui um domínio dedo-zinco comum às proteínas de ligação ao ARN . Este fator de articulação forma um complexo com dois outros, Prp9 e Prp21, que juntamente com Prp5 são necessários para a ligação do U2 snRNP ao pré-mRNA . Existem homólogos deste fator de articulação em S. pombe, C. elegans, Drosophila, Arabidopsis, rato e humano (Tabela 2) e todos incluem o motivo de ligação RNA. No rato e no ser humano, o homolog é SAP62 (proteína associada ao spliceosoma), uma proteína spliceosómica que se liga ao pré-mRNA no complexo prespliceosómico .

Tid3 (NCD80) é uma proteína do tronco do fuso que tem homólogos em vários eucariontes (Tabela 2). Tid3 é previsto para interagir com Smc1 e Smc2, e tem sido mostrado experimentalmente para interagir com Spc24, outro componente do corpo do eixo do fuso. Interações entre o homolog humano de Tid3, Hec1, e homólogos humanos Smc1 e Smc2 também foram observadas . As interações de Tid3 com subunidades de ambas as coesinas e condensina macromoléculas, coloca-a ao lado de Trf4 e Scc1, como uma proteína integralmente envolvida em ambos os mecanismos. Também é proposto que Hec1 pode estar envolvido na montagem de cromatina no centrômero e regulação do cinetócoro . O Spc24, um parceiro de interacção do Tid3, também interage com o Prp11, o factor de ligação da levedura que está ligado aos factores de carga coesin através da sua interacção com o Scc2 (Figura 3).

a common upstream DNA element

The upstream regions of the genes encoding 17 proteins in the coesin network (Figure 3) were searched for shared motifs using Alinhace. Três motivos consensuais foram identificados que eram comuns aos subconjuntos dos 17 genes. Apenas um motivo foi encontrado para ser relativamente específico, no entanto, coincidindo sequências upstream de apenas 29 genes no SGD (veja os materiais e métodos). Este motivo tem a sequência de consenso A6ACGCGTH2RXAAX e inclui o elemento mlui cell-cycle box (MCB) (consensus sequence ACG CGT) . O motivo de consenso estendido encontrado no trabalho atual estava presente nas regiões upstream dos genes que codificam Scc1, Scc3, Smc3, Pds1, Eco1 e Spc24. Este motivo foi localizado entre 123-299 pares de bases (bp) a montante dos genes que codificam estas seis proteínas. Uma pesquisa do SGD revelou 23 genes adicionais contendo este motivo upstream. Oito destes genes adicionais codificaram proteínas hipotéticas de função desconhecida. No entanto, estes genes também incluídos os de codificação de acompanhantes (JEM1 e PDI1n), fator de transcrição componentes (TFA1, RFA2, a RNA polimerase II, SPT20 e PRT1), e um YC componente do proteassoma. Quando a pesquisa foi estendida para 2.000 bp a montante das 5 ‘ regiões não traduzidas do genoma da levedura, o gene que codifica o Trf4 também foi encontrado para conter este motivo de consenso (1.560 bp a montante).

motivos partilhados dentro da rede de interacção da coesão

Teiresias, um algoritmo de descoberta de padrões , foi usado para procurar motivos comuns entre duas ou mais sequências nas 17 proteínas da rede de coesão. O maior número de proteínas compartilhando um motivo comum foi três, e estas foram as três proteínas SMC, que têm uma identidade de alta sequência e compartilham motivos Prosite conhecidos (Tabela 3). Mais interessante foram 24 correspondências padrão encontradas entre pares de proteínas na rede. Uma série de proteínas compartilham mais de uma sequência de motivos com a mesma proteína. Todos os motivos compartilhados foram específicos para as duas proteínas na rede de coesão, ou no caso de três motivos, compartilhados por uma outra sequência de proteínas.

Tabela 3 PROSITE sequência de motivos localizados usando ProfileScan em proteínas envolvidas na irmã chromatid mecanismo de coesão

Um motivo compartilhada por duas sequências de rede e uma seqüência adicional, é a DXXPENIXLXKN motivo compartilhado por sequências de Scc2, Chk1 e uma terceira de S. cerevisiae proteína PKH1 (levedura ORF YDR490C) (Figura 4). Tanto Chk1 quanto PKH1 são cinases proteicas serina / treonina (ST), e o motivo que compartilham com o Scc2 inclui parte do motivo da Assinatura PROSITE ST kinase (XXDKXN(3), onde X indica qualquer resíduo, (3) indica que o resíduo anterior é repetido três vezes, e D é o resíduo ativo do local). A sequência do Scc2 não corresponde exactamente ao motivo da assinatura de St kinase. Dos 13 resíduos no motivo de St kinase, o Scc2 tem quatro desajustamentos, mas, o que é importante, o ácido aspártico do local ativo é conservado.

Figura 4
figura4

alinhamento de sequências do conservada motivo Scc2, Chk1 e Pkh1, que inclui o PROSITE serina/treonina (S/T) de proteína quinase motivo. No alinhamento os resíduos conservados do motivo identificado usando Teiresias estão em vermelho e as posições conservadas adicionais estão em verde. Os resíduos que coincidem com o motivo S/T kinase são delineados com uma caixa. O número antes de cada motivo indica a posição do primeiro resíduo dentro da sequência completa. O motivo PROSITE S / T kinase é mostrado sob o alinhamento. Os resíduos alternativos são mostrados em parênteses quadrados; X indica qualquer resíduo; o ácido aspártico do local ativo está em azul.

um segundo motivo compartilhado por uma terceira proteína não incluída na rede de coesão foi SXXSXLKKKXLXT; isto é encontrado no Scc1, Scc2 e levedura ORF YHR011W, uma putativa seryl-tRNA sintetase (figura 5a). No entanto, este motivo não fazia parte do motivo da ligase tRNA de YHR011W, ou de qualquer outro motivo conhecido dentro desta sequência. Um terceiro motivo compartilhado por uma proteína de fora da rede de coesão foi NDXNXDDXDN, compartilhada por Scc1, Smc1, e um tipo P ATPase de Plasmodium yoelii (figura 5b). O Scc4 é um dos factores de carga coesin para os quais não foi encontrado nenhum homolog conhecido. No entanto, verificou-se que esta proteína partilhava um motivo de sequência de 10 resíduos (GKXVALTNAK) com o Smc3 (figura 5c).

Figura 5
Figura 5

alinhamentos de sequência para três motivos partilhados por proteínas na rede de coesão. a) um motivo partilhado pelo Scc2 e pelo Trf4 na rede e uma putativa Seril-tRNA sintetase (YHH1) da levedura. b) um motivo partilhado pela Scc1, Smc1 e um ATPase Tipo P do Plasmodium yoelii. c) um motivo partilhado pelas cohesin loading factor Scc4 e SMC3. Em cada alinhamento os resíduos conservados do motivo identificado usando Teiresias estão em vermelho e as posições conservadas adicionais estão em verde. O número antes de cada motivo indica a posição do primeiro resíduo dentro da sequência completa.

o securin Pds1 é um inibidor de anáfase que contém um motivo de caixa de destruição (RXXXLXXXXN), que tem como alvo esta proteína para destruição pela ligase ubiquitina da APC. Nós encontramos três destruição caixa de motivos Smc3, um na região da dobradiça (na posição 682, RTRLESLKN) e dois no segundo coiled-coil de domínio (um de cada posição 744 (RTSLNTKKN) e um na posição 920 (RLLLKKLDN)). Também encontramos um motivo KEN-box (um sinal adicional de reconhecimento APC ) no SMC2 na posição 304 (KENGLLN), no primeiro domínio coiled-coil.



+