Le complexe de cohésine : homologies de séquence, réseaux d’interaction et motifs partagés

Homologues des protéines de cohésine

Protéines SMC

Une recherche par EXPLOSION PSI des homologues de séquence de SMC1 et SMC3 de Saccharomyces cerevisiae a révélé des homologues de nombreuses espèces d’eucaryotes, archaea et eubacteria comme indiqué précédemment (tableau 1). Ces recherches d’homologie ont servi de base à un arbre phylogénétique et à l’analyse de nouveaux homologues de séquences.

Tableau 1 Protéines impliquées dans la cohésion des chromatides sœurs chez S. cerevisiae, et leurs homologues de séquence

L’arbre phylogénétique SMC créé à partir de l’alignement des homologues SMC3 (Figure 2) révèle cinq familles : Smc1-Smc4 des eucaryotes et une cinquième famille  » ancestrale » qui comprend les SMC des eubactéries et des archées. Cette famille ancestrale comprend également un certain nombre de protéines eucaryotes de S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster et les humains. Chacun de ces eucaryotes a des protéines SMC des cinq familles. Les protéines eucaryotes de la famille ancestrale comprennent la Rad18 de S. pombe et la Rhc18, l’homologue de Rad18 chez S. cerevisiae. Rad18 chez S. pombe est impliqué dans la réparation de l’ADN endommagé par le rayonnement UV. Les séquences de C. elegans, de Drosophile et d’humain qui se regroupent avec Rad18 au sein de la famille ancestrale sont probablement des homologues de Rad18. Spr18, une protéine SMC proposée comme partenaire homodimérique de rad18 chez S. pombe, est également regroupée au sein de ce groupe. De plus, MukB d’Escherichia coli fait également partie de cette famille ancestrale. Le MukB est connu pour être essentiel au cloisonnement des chromosomes chez cette espèce. Le regroupement des homologues Rad18 avec les protéines SMC ancestrales n’est pas observé dans l’arbre phylogénétique construit par Cobbe et Heck.

Figure 2
 figure2

Arbre évolutif pour les protéines SMC, créé à l’aide de PHYLIP. Chacune des cinq familles de SMC est mise en évidence et étiquetée. Les noms des protéines eucaryotes présentes dans la famille ancestrale sont soulignés. Les valeurs d’amorçage de 100 essais d’amorçage sont affichées sur les branches principales de l’arborescence. EAU, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus noir unique; BACSU, sorte de bacille subtil; CAEEL, Caenorhabditis élégant; CAUCR, Caulobacter crescentus; DROS, Drosophile; ECOLI, Escherichia coli; JAPPU, le poisson-globe japonais; METJA, Methanococcus jannaschii; MUS, souris; MYCGE, Mycoplasma génital; MYCHR, Mycoplasma hyorhinis; MYCPN, Pneumonie à Mycoplasmes; PYRAB, Pyrococcus abyssii; PYRHO, Pyrococcus horikoshii; SCHP, Schizosaccharomyces pombe; SYNP, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENA, XENO, Xenopus laevis; LEVURE, Saccharomyces cerevisiae.

Un homologue de séquence inhabituel de SMC3 chez la souris (SMCD) a déjà été rapporté sous forme de bamacan, un protéoglycane au sulfate de chondroïtine. Cette protéine est connue pour avoir 100% d’identité de séquence par rapport au SMCD. Nous identifions ici un autre nouvel homologue, Mmip1, qui partage également une identité de séquence extrêmement élevée avec SMCD de souris. La Mmip1 (Mad interacting protein 1) a été identifiée à partir d’un criblage à deux hybrides de levure pour les protéines qui lient Mxi, un facteur de transcription de base hélice-boucle-hélice (bHLH). Mmip1 est une protéine de base à fermeture éclair en hélice-boucle-hélice (bHLH-ZIP) qui se dimérise fortement avec Mad1, Mxi, Mad3 et Mad4, mais pas avec Max ou c-Myc. Un alignement Clustal X de Mmip1 avec SMCD révèle que Mmip1 n’a pas le premier domaine globulaire et le premier domaine de bobine enroulée commun aux protéines SMC. Dans l’alignement, il y a 40% d’identité de séquence entre Mmip1 et SMCD sur toute la longueur du SMCD (1 217 acides aminés). Sur la longueur de la protéine Mmip1 (485 acides aminés), cependant, la protéine partage une identité de séquence de 99% avec le SMCD. Ces identités de séquences à pourcentage élevé se reflètent également dans les séquences d’ADN qui codent ces protéines. L’ADNc codant pour la protéine Mmip1 est 100% identique à l’ADNc codant pour SMCD sur les 2 612 paires de bases de la séquence Mmip1.

Il a déjà été suggéré que les eubactéries contiennent une seule protéine SMC ancestrale. La recherche PSI-BLAST des homologues SMC dans les travaux en cours a identifié deux protéines liées à SMC chez deux espèces d’eubactéries, B. subtilis et Aquifex aeolicus. Chez les deux espèces, une séquence a déjà été identifiée comme un homologue SMC, alors que la fonction de la seconde est inconnue. Les deux séquences de B. subtilis partagent 95% d’identité de séquence, alors que les deux séquences de A. aeolicus partagent 20% d’identité de séquence. Les quatre homologues contiennent un motif Walker A et B, et les deux homologues de B. subtilis contiennent les cinq domaines caractéristiques des protéines SMC (Figure 1a). Le A. la protéine aeolicus connue pour être un homologue SMC (numéro d’accession de Trembll O60878) contient également les cinq domaines, y compris les deux domaines en bobine enroulée séparés par une région charnière de 180-200 résidus. Cependant, le deuxième homologue chez A. aeolicus (numéro d’accession de Trembll O67124) a les deux domaines de bobines enroulées (prédits à l’aide de bobines) mais la région charnière qui les sépare ne comprend qu’environ 10 à 20 résidus. Dans le modèle actuel des dimères SMC, la région de la charnière permet le pliage de la structure en un complexe approximativement symétrique (Figure 1b). Pour ce A. homologue d’aeolicus, cependant, la région de charnière très courte limiterait la plage de pliage. Chez cette espèce, deux structures SMC homodimériques pourraient être formées, l’une à partir du SMC à cinq domaines et l’autre à partir de l’homologue SMC à quatre domaines dépourvu du domaine charnière. La présence de deux homologues potentiels de SMC chez B. subtilis pourrait cependant signifier que le modèle hétérodimérique des interactions SMC proposé pour les eucaryotes (par exemple) pourrait également être étendu à certains procaryotes. La présence de deux homologues SMC chez certaines eubactéries n’est pas démontrée dans l’arbre phylogénétique SMC construit par Cobbe et Heck.

Protéines SCC

Les protéines SCC ne sont présentes que chez les eucaryotes et ne sont pas aussi bien caractérisées que les protéines SMC. Scc1 (également identifié comme MCD1) est physiquement associé au protomère SMC1 dans le complexe. Les homologues de S. pombe, de Xenopus laevis, d’humains et de Drosophiles sont identifiés comme des protéines Rad21 (tableau 1), impliquées dans la réparation des ruptures double brin de l’ADN induites par les rayonnements ionisants. Scc3 (précédemment identifié comme IRR1) contient une séquence de localisation nucléaire (voir plus loin) et un certain nombre d’homologues ont été identifiés (tableau 1). Les homologues du Scc3 chez la Drosophile, la souris, l’homme et l’Arabidopsis forment une famille de protéines stromaline qui partagent entre 20 et 25 % d’identité de séquence (tableau 1). Chez la Drosophile, la souris et l’homme, il existe deux protéines de stromaline (dSA, dSA2; SA1, SA2; et STAG1, STAG2, respectivement), qui sont situées dans le noyau, mais leur fonction est inconnue. De plus, le STAG3 a été identifié chez l’homme et il est proposé qu’il soit impliqué dans l’appariement des chromosomes au cours de la méiose.

Scc2 et Scc4 sont les facteurs de charge de cohésine récemment identifiés. Des homologues de Scc2 ont été identifiés dans S. pombe (Mis4) et Drosophile (Pincée-B), Coprinus cinereus (Rad9 et humain (IDN3-B; numéro d’accession Trembll Q9Y6Y3) (Tableau 1). Mis4 chez S. pombe est nécessaire pour une séparation égale des chromatides en anaphase et a une fonction distincte de la cohésine. Le produit du gène Rad9 chez C. cinereus est essentiel à l’achèvement normal de la méiose. Le produit du gène Nipped-B est proposé pour fonctionner de manière architecturale entre les amplificateurs de transcription et les promoteurs afin de faciliter les interactions entre les amplificateurs et les promoteurs. La fonction du gène IDN3-B chez l’homme est inconnue, si ce n’est qu’elle est exprimée préférentiellement dans les carcinomes hépatocellulaires (CHC). Il a été proposé que ces molécules de CSC représentent une famille d' » adhérines  » qui partagent un grand domaine central d’homologie de séquence.

Scc4 a été identifié comme un produit du cadre de lecture ouvert (ORF) YER147C, et comprend une séquence de 624 acides aminés qui comprend un motif de liaison à l’AMP. Cependant, à part interagir avec Scc2 et être impliqué dans l’établissement de la cohésion des chromatides sœurs, on sait peu de choses sur cette protéine. Scc4 n’a pas d’homologues de séquence identifiables dans les bases de données de séquence complète ou EST, et pourrait donc être le produit d’un gène orphelin.

Réseau d’interaction de cohésion

Un réseau d’interaction de cohésion a été créé en rassemblant des informations provenant de deux bases de données de protéomes et de la littérature (Figure 3). Sur la figure 3, des lignes sont tracées entre les protéines pour indiquer des interactions connues ou potentielles. Les données à partir desquelles les interactions sont dérivées sont indiquées dans une clé détaillée qui fait la différence entre les deux bases de données protéomiques (et entre les différentes sources de données au sein de chaque base de données) et la littérature. Quatre protéines (Esp1, Trf4, Prp11 et Tid3) interagissent directement avec les protéines SMC ou SCC chez S. cerevisiae. L’interaction entre Esp1 et Scc1 est actuellement connue au niveau fonctionnel, et son importance a déjà été discutée. Cette interaction dépend du temps et n’a pas été identifiée dans le crible à deux hybrides de levure, et cette information n’est actuellement pas enregistrée dans le YPD.

Figure 3
 figure3

Le réseau d’interaction de cohésion. Les lignées reliant les protéines indiquent des interactions connues ou potentielles dérivées de deux bases de données protéomiques et de la littérature. La cohésine et les facteurs de charge sont en jaune; les protéines supplémentaires impliquées dans la cohésion ou interagissant avec la cohésine ou les facteurs de charge sont en bleu; toutes les autres protéines du réseau sont en blanc. Les protéines décrites avec des boîtes font partie des complexes macromoléculaires. Prp11 fait partie d’un complexe de la voie spliceosomal, et Apc2 fait partie du complexe favorisant l’anaphase (APC). Tid3p et Spc24 font tous deux partie du corps du pôle de broche. Des lignes noires solides indiquent des protéines qui forment des interactions dimériques. Le réseau de cohésion de 17 protéines comprend toutes celles marquées, à l’exclusion de Apc2, Tid4, Tid1 et Rad51.

Trf4 est une protéine impliquée à la fois dans la condensation des chromosomes mitotiques et dans la cohésion des chromatides sœurs. En X. laevis Trf4 interagit avec Smc1 et Smc2, et chez S. cerevisiae, Trp4 interagit avec Smc1 et Trf5, un autre membre de la famille des TRF. Des homologues Trf4 ont été identifiés chez S. pombe, C. elegans, Drosophile, humain et Arabidopsis (tableau 2). Trf4 a été identifié très récemment comme une ADN polymérase avec des propriétés de type β-polymérase et est maintenant désignée ADN polymérase κ (la quatrième classe d’ADN polymérases nucléaires). Les homologues distants de S. cerevisiae Trf4 comprennent la protéine I de mort cellulaire induite par la caféine (Cid1) chez S. pombe (13.4% d’identité de séquence) et l’enzyme polynucléotide adényltransférase d’un certain nombre d’organismes, dont S. pombe et les humains (10,2% et 9,7% d’identité de séquence respectivement). Le Cid1 présente un intérêt particulier car il pensait jouer un rôle dans la voie du point de contrôle Sm à S. pombe. En tant qu’homologue de Trf4, Cid1 pourrait être le lien entre la cohésion des chromatides sœurs et cette voie de point de contrôle.

Tableau 2 Trois protéines interagissant avec la cohésine de S. cerevisiae et leurs homologues de séquence

Prp11 est un facteur d’épissage de la levure impliqué dans les premiers stades de la voie d’assemblage de l’épissure. Prp11 est une protéine de 266 acides aminés qui comprend un domaine de doigt de zinc commun aux protéines de liaison à l’ARN. Ce facteur d’épissage forme un complexe avec deux autres, Prp9 et Prp21, qui, avec Prp5, sont nécessaires pour la liaison du snRNP U2 au pré-ARNm. Il existe des homologues de ce facteur d’épissage chez S. pombe, C. elegans, Drosophila, Arabidopsis, souris et humain (tableau 2) et tous incluent le motif de liaison à l’ARN. Chez la souris et l’homme, l’homologue est SAP62 (spliceosome-associated protein), une protéine spliceosomale qui se lie au pré-ARNm dans le complexe préspliceosomal.

Tid3 (NCD80) est une protéine du corps du pôle du fuseau qui a des homologues chez un certain nombre d’eucaryotes (tableau 2). Tid3 devrait interagir avec Smc1 et Smc2, et il a été démontré expérimentalement qu’il interagissait avec Spc24, un autre composant du corps du pôle de broche. Des interactions entre les homologues humains de Tid3, Hec1 et les homologues humains Smc1 et Smc2 ont également été observées. Les interactions de Tid3 avec les sous-unités des macromolécules de la cohésine et de la condensine la placent aux côtés de Trf4 et de Scc1, en tant que protéine impliquée intégralement dans les deux mécanismes. Il est également proposé que Hec1 puisse être impliqué dans l’assemblage de la chromatine dans le centromère et la régulation du kinétochore. Spc24, un partenaire d’interaction de Tid3, interagit également avec Prp11, le facteur d’épissage de la levure qui est lié aux facteurs de charge de la cohésine par son interaction avec Scc2 (Figure 3).

Un élément d’ADN amont commun

Les régions amont des gènes codant pour 17 protéines du réseau de cohésine (Figure 3) ont été recherchées pour des motifs partagés à l’aide d’AlignACE. Trois motifs consensuels communs aux sous-ensembles des 17 gènes ont été identifiés. Cependant, un seul motif s’est avéré relativement spécifique, correspondant à des séquences en amont de seulement 29 gènes dans le SGD (voir les Matériaux et les méthodes). Ce motif a la séquence de consensus A6ACGCGTH2RXAAX et comprend l’élément MluI cell-cycle box (MCB) (séquence de consensus ACGCGT). Le motif de consensus étendu trouvé dans les travaux actuels était présent dans les régions en amont des gènes codant Scc1, Scc3, Smc3, Pds1, Eco1 et Spc24. Ce motif était situé entre 123 et 299 paires de bases (pb) en amont des gènes codant pour ces six protéines. Une recherche du SGD a révélé 23 gènes supplémentaires contenant ce motif en amont. Huit de ces gènes supplémentaires codaient des protéines hypothétiques de fonction inconnue. Cependant, ces gènes supplémentaires comprenaient également ceux codant pour les chaperons (JEM1 et PDI1n), les composants du facteur de transcription (TFA1, RFA2, ARN polymérase II, SPT20 et PRT1) et un composant YC du protéasome. Lorsque la recherche a été étendue à 2000 pb en amont des régions 5′ non traduites du génome de la levure, le gène codant Trf4 a également été trouvé pour contenir ce motif de consensus (1560 pb en amont).

Motifs partagés au sein du réseau d’interaction de cohésion

Teiresias, un algorithme de découverte de motifs, a été utilisé pour rechercher des motifs communs entre deux séquences ou plus dans les 17 protéines du réseau de cohésion. Le plus grand nombre de protéines partageant un motif commun était de trois, et ce sont les trois protéines SMC, qui ont une identité de séquence élevée et partagent des motifs de prosite connus (tableau 3). Plus intéressant était 24 correspondances de motifs trouvées entre des paires de protéines dans le réseau. Un certain nombre de protéines partagent plus d’un motif de séquence avec la même protéine. Tous les motifs partagés étaient soit spécifiques aux deux protéines du réseau de cohésion, soit dans le cas de trois motifs, partagés par une autre séquence protéique.

Tableau 3 Motifs de séquence de PROSITE localisés à l’aide de ProfileScan dans des protéines impliquées dans le mécanisme de cohésion des chromatides sœurs

Un motif partagé par deux séquences du réseau et une séquence supplémentaire, est le motif DXXPENIXLXKN partagé par les séquences de Scc2, Chk1 et une troisième protéine de S. cerevisiae PKH1 (levure ORF YDR490C) (Figure 4). Chk1 et PKH1 sont toutes deux des protéines kinases sérine/thréonine (ST), et le motif qu’elles partagent avec Scc2 comprend une partie du motif signature de la PROSITE ST kinase (XXDKXXN(3), où X indique tout résidu, (3) indique que le résidu précédent est répété trois fois, et D est le résidu du site actif). La séquence de Scc2 ne correspond pas exactement au motif de signature de la ST kinase. Sur les 13 résidus du motif ST kinase, le Scc2 présente quatre non-appariements, mais surtout, l’acide aspartique au site actif est conservé.

Figure 4
 figure4

Alignement de séquence du motif conservé dans Scc2, Chk1 et Pkh1, qui comprend le motif de protéine kinase sérine/thréonine (S/T) PROSITE. Dans l’alignement, les résidus conservés du motif identifié à l’aide de Teiresias sont en rouge et les positions conservées supplémentaires sont en vert. Les résidus qui coïncident avec le motif kinase S/T sont délimités par une boîte. Le nombre devant chaque motif indique la position du premier résidu dans la séquence complète. Le motif PROSITE S/T kinase est représenté sous l’alignement. Les résidus alternatifs sont représentés entre crochets ; X désigne tout résidu ; l’acide aspartique au site actif est en bleu.

Un deuxième motif partagé par une troisième protéine non incluse dans le réseau de cohésion était SXXSXLKKKXLXT ; on le retrouve dans Scc1, Scc2 et la levure ORF YHR011W, une séryl-ARNt synthétase putative (Figure 5a). Cependant, ce motif ne faisait pas partie du motif de ligase de l’ARNt de YHR011W, ni de tout autre motif connu dans cette séquence. Un troisième motif partagé par une protéine de l’extérieur du réseau de cohésion était NDXNXDDXDN, partagé par Scc1, Smc1 et une ATPase de type P de Plasmodium yoelii (Figure 5b). Le Scc4 est l’un des facteurs de charge de la cohésine pour lequel aucun homologue connu n’a été trouvé. Cette protéine partage cependant un motif de séquence à 10 résidus (GKXVALTNAK) avec Smc3 (Figure 5c).

Figure 5
 figure5

Alignements de séquence pour trois motifs partagés par les protéines dans le réseau de cohésion. (a) Un motif partagé par Scc2 et Trf4 dans le réseau et une séryl-ARNt synthétase putative (YHH1) de levure. (b) Un motif partagé par Scc1, Smc1 et une ATPase de type P de Plasmodium yoelii. c) Un motif partagé par le facteur de charge de cohésine Scc4 et SMC3. Dans chaque alignement, les résidus conservés du motif identifié à l’aide de Teiresias sont en rouge et les positions conservées supplémentaires sont en vert. Le nombre devant chaque motif indique la position du premier résidu dans la séquence complète.

La securine Pds1 est un inhibiteur de l’anaphase qui contient un motif de boîte de destruction (RXXXLXXXXN), qui cible cette protéine pour la destruction par l’ubiquitine ligase de l’APC. Nous avons trouvé trois motifs de boîte de destruction dans Smc3, un dans la région de la charnière (à la position 682, RTRLESLKN) et deux dans le deuxième domaine de bobine enroulée (un à la position 744 (RTSLNTKKN) et un à la position 920 (RLLLKKLDN)). Nous avons également trouvé un motif KEN-box (un signal de reconnaissance APC supplémentaire) dans SMC2 à la position 304 (KENGLLN), dans le premier domaine de bobine enroulée.



+