The cohesin complex: sequence homologies, interaction networks and shared motifs

Homologs of cohesin proteins

SMC proteins

Eine PSI-BASIERTE Suche nach Sequenzhomologen von SMC1 und SMC3 aus Saccharomyces cerevisiae ergab Homologe aus vielen Arten von Eukaryoten, Archaeen und Eubakterien wie zuvor berichtet (Tabelle 1). Diese Homologiesuchen lieferten die Grundlage für einen phylogenetischen Baum und für die Analyse neuer Sequenzhomologe.

Tabelle 1: Proteine, die an der Schwesterchromatid-Kohäsion in S. cerevisiae beteiligt sind, und ihre Sequenzhomologen

Der phylogenetische SMC-Baum, der aus der Ausrichtung von SMC3-Homologen erstellt wurde (Abbildung 2), zeigt fünf Familien: Smc1-Smc4 aus Eukaryoten und eine fünfte ‚Ahnenfamilie‘, die die SMCs aus Eubakterien und Archaeen umfasst. Diese Ahnenfamilie umfasst auch eine Reihe von eukaryotischen Proteinen aus S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster und Menschen. Jeder dieser Eukaryoten hat SMC-Proteine aus allen fünf Familien. Zu den eukaryotischen Proteinen innerhalb der Ahnenfamilie gehören das Rad18 aus S. pombe und Rhc18, das Rad18-Homolog in S. cerevisiae. Rad18 in S. pombe ist an der Reparatur von durch UV-Strahlung geschädigter DNA beteiligt . Die Sequenzen von C. elegans, Drosophila und Human, die sich mit Rad18 innerhalb der Ahnenfamilie gruppieren, sind wahrscheinlich Rad18-Homologe. Ebenfalls in dieser Gruppe gruppiert ist Spr18, ein SMC-Protein, das als homodimerer Partner von rad18 in S. pombe vorgeschlagen wird. Darüber hinaus liegt MukB von Escherichia coli auch innerhalb dieser Ahnenfamilie. Es ist bekannt, dass MukB für die Chromosomenverteilung bei dieser Spezies essentiell ist . Das Clustering der Rad18-Homologen mit den angestammten SMC-Proteinen wird in dem von Cobbe und Heck konstruierten phylogenetischen Baum nicht beobachtet .

Abbildung 2
 abbildung2

Evolutionärer Baum für SMC-Proteine, erstellt mit PHYLIP . Jede der fünf SMC-Familien ist hervorgehoben und beschriftet. Die Namen der in der Ahnenfamilie vorhandenen eukaryotischen Proteine sind unterstrichen. Bootstrap-Werte aus 100 Bootstrap-Versuchen werden auf den primären Zweigen des Baums angezeigt. WASSER, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, Aspergillus einzigartig schwarz; BACSU, Art von Bazillus subtil; CAEEL, Caenorhabditis elegant; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, der japanische Kugelfisch; METJA, Methanococcus jannaschii; MUS, Maus; MYCGE, Mycoplasma genital; MYCHR, Mycoplasma hyorhinis; MYCPN, Mycoplasma pneumonia; PYRAB, Pyrococcus abyssii; PYRHO, Pyrococcus horikoshii; SCHP, Schizosaccharomyces pombe; SYNSP, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; HEFE, Saccharomyces cerevisiae.

Ein ungewöhnliches Sequenzhomolog von SMC3 in der Maus (SMCD) wurde bereits in Form von Bamacan, einem Chondroitinsulfat-Proteoglycan, berichtet . Es ist bekannt, dass dieses Protein eine 100% ige Sequenzidentität zu SMCD aufweist . Hier identifizieren wir ein weiteres neues Homolog, Mmip1, das auch eine extrem hohe Sequenzidentität mit Maus-SMCD teilt. Mmip1 (Mad Interacting Protein 1) wurde aus einem Hefe-Zwei-Hybrid-Bildschirm für Proteine identifiziert, die Mxi, einen basischen Helix-Loop-Helix (bHLH) -Transkriptionsfaktor, binden . Mmip1 ist ein grundlegendes Helix-Loop-Helix-Reißverschluss-Protein (bHLH-ZIP), das stark mit Mad1, Mxi, Mad3 und Mad4 dimerisiert, jedoch nicht mit Max oder c-Myc . Eine Clustal-X-Ausrichtung von Mmip1 mit SMCD zeigt, dass Mmip1 die erste globuläre Domäne und die erste Coiled-Coil-Domäne fehlt, die SMC-Proteinen gemeinsam ist. In der Ausrichtung gibt es 40% Sequenzidentität zwischen Mmip1 und SMCD über die gesamte Länge der SMCD (1.217 Aminosäuren). Über die Länge des Mmip1-Proteins (485 Aminosäuren) teilt das Protein jedoch 99% Sequenzidentität mit SMCD. Diese hohen prozentualen Sequenzidentitäten spiegeln sich auch in den DNA-Sequenzen wider, die für diese Proteine kodieren. Die für das Mmip1-Protein kodierende cDNA ist über die 2.612 Basenpaare der Mmip1-Sequenz zu 100% identisch mit der für SMCD kodierenden cDNA.

Es wurde bereits vorgeschlagen, dass Eubakterien ein einzelnes angestammtes SMC-Protein enthalten . Die PSI-BLAST-Suche nach SMC-Homologen in der aktuellen Arbeit identifizierte zwei SMC-verwandte Proteine in zwei Arten von Eubakterien, B. subtilis und Aquifex aeolicus. In beiden Spezies wurde bisher eine Sequenz als SMC-Homolog identifiziert, während die Funktion der zweiten unbekannt ist. Die beiden Sequenzen aus B. subtilis teilen 95% Sequenzidentität, während die beiden Sequenzen aus A. aeolicus teilen 20% Sequenzidentität. Alle vier Homologe enthalten ein Walker-A- und B-Motiv, und die beiden Homologe von B. subtilis enthalten die fünf Domänen, die für die SMC-Proteine charakteristisch sind (Abbildung 1a). Das A. das als SMC-Homolog bekannte Aeolicus-Protein (TrEMBL accession number O60878) enthält ebenfalls die fünf Domänen, einschließlich der beiden Coiled-Coil-Domänen, die durch eine Scharnierregion von 180-200 Resten getrennt sind. Das zweite Homolog in A. aeolicus (Tremblant-Nummer O67124) hat jedoch die beiden Coiled-Coil-Domänen (vorhergesagt unter Verwendung von Spulen), aber der sie trennende Scharnierbereich besteht nur aus ungefähr 10-20 Resten. Im aktuellen Modell von SMC-Dimeren ermöglicht die Scharnierregion die Faltung der Struktur in einen annähernd symmetrischen Komplex (Abbildung 1b). Dafür A. aeolicus homolog würde jedoch der sehr kurze Scharnierbereich den Faltbereich einschränken. In dieser Spezies konnten zwei homodimere SMC-Strukturen gebildet werden, eine aus dem Fünf-Domänen-SMC und eine aus dem Vier-Domänen-SMC-Homolog, dem die Scharnierdomäne fehlt. Das Vorhandensein von zwei potenziellen SMC-Homologen in B. subtilis könnte jedoch bedeuten, dass das heterodimere Modell der SMC-Wechselwirkungen, das beispielsweise für Eukaryoten vorgeschlagen wird, auch auf einige Prokaryoten ausgedehnt werden könnte. Das Vorhandensein von zwei SMC-Homologen in einigen Eubakterien wird im von Cobbe und Heck konstruierten SMC-phylogenetischen Baum nicht gezeigt.

SCC-Proteine

Die SCC-Proteine kommen nur in Eukaryoten vor und sind nicht so gut charakterisiert wie die SMC-Proteine. Scc1 (auch als MCD1 bezeichnet) ist physikalisch mit dem SMC1-Protomer im Komplex assoziiert . Homologe in S. pombe , Xenopus laevis , Menschen und Drosophila werden als Rad21-Proteine identifiziert (Tabelle 1), die an der Reparatur von doppelsträngigen DNA-Brüchen beteiligt sind, die durch ionisierende Strahlung induziert werden. Scc3 (zuvor als IRR1 identifiziert) enthält eine nukleare Lokalisierungssequenz (siehe später) und eine Reihe von Homologen wurden identifiziert (Tabelle 1). Scc3-Homologe in Drosophila, Maus, Mensch und Arabidopsis sind eine Familie von Stromalin-Proteinen, die eine Sequenzidentität von 20-25% aufweisen (Tabelle 1). In Drosophila, Maus und Mensch gibt es zwei Stromalin-Proteine (dSA, dSA2; SA1, SA2; und STAG1, STAG2), die sich im Kern befinden, deren Funktion jedoch unbekannt ist. Darüber hinaus wurde STAG3 beim Menschen identifiziert und es wird vermutet, dass es an der Chromosomenpaarung während der Meiose beteiligt ist.

Scc2 und Scc4 sind die kürzlich identifizierten Kohäsinbeladungsfaktoren . Homologe zu Scc2 wurden in S identifiziert. pombe (Mis4) und Drosophila (Nipped-B ), Coprinus cinereus (Rad9 und human (IDN3-B; TrEMBL accession number Q9Y6Y3) (Tabelle 1). Mis4 in S. pombe ist für eine gleichmäßige Chromatidtrennung in der Anaphase erforderlich und hat eine von Cohesin verschiedene Funktion . Das Rad9-Genprodukt in C. cinereus ist essentiell für den normalen Abschluss der Meiose. Es wird vorgeschlagen, dass das Nipped-B-Genprodukt architektonisch zwischen Transkriptionsverstärkern und Promotoren funktioniert, um Enhancer-Promotor-Interaktionen zu erleichtern . Die Funktion des IDN3-B-Gens beim Menschen ist unbekannt, außer dass es bevorzugt in hepatozellulären Karzinomen (HCC) exprimiert wird . Es wurde vorgeschlagen, dass diese SCC-Moleküle eine Familie von ‚Adherinen‘ darstellen, die eine große zentrale Kerndomäne der Sequenzhomologie teilen .

Scc4 wurde als Produkt des offenen Leserahmens (ORF) YER147C identifiziert und umfasst eine Sequenz von 624 Aminosäuren, die ein AMP-bindendes Motiv enthält. Abgesehen von der Interaktion mit Scc2 und der Beteiligung an der Etablierung der Schwester-Chromatid-Kohäsion ist jedoch wenig über dieses Protein bekannt. Scc4 hat keine identifizierbaren Sequenzhomologen in der Vollsequenz- oder EST-Datenbank und könnte daher das Produkt eines Orphan-Gens sein.

Kohäsions-Interaktionsnetzwerk

Ein Kohäsions-Interaktionsnetzwerk wurde durch die Zusammenstellung von Informationen aus zwei Proteomdatenbanken und der Literatur erstellt (Abbildung 3). In Abbildung 3 werden Linien zwischen Proteinen gezeichnet, um bekannte oder potenzielle Wechselwirkungen anzuzeigen. Die Daten, aus denen die Wechselwirkungen abgeleitet werden, sind in einem detaillierten Schlüssel angegeben, der zwischen den beiden proteomischen Datenbanken (und zwischen den verschiedenen Datenquellen innerhalb jeder Datenbank) und der Literatur unterscheidet. Vier Proteine (Esp1, Trf4, Prp11 und Tid3) interagieren direkt mit SMC- oder SCC-Proteinen in S. cerevisiae. Das Zusammenspiel von Esp1 und Scc1 ist derzeit auf funktionaler Ebene bekannt und seine Bedeutung wurde bereits diskutiert. Diese Interaktion ist zeitabhängig und wurde im Hefe-Zwei-Hybrid-Bildschirm nicht identifiziert, und diese Informationen werden derzeit nicht im YPD aufgezeichnet.

Abbildung 3
 abbildung3

Das Kohäsions-Interaktionsnetzwerk. Linien, die Proteine verbinden, weisen auf bekannte oder potenzielle Wechselwirkungen hin, die aus zwei proteomischen Datenbanken und der Literatur abgeleitet wurden. Cohesin und die Beladungsfaktoren sind gelb; Zusätzliche Proteine, die an der Kohäsion beteiligt sind oder mit Cohesin oder den Beladungsfaktoren interagieren, sind blau dargestellt; alle anderen Proteine im Netzwerk sind weiß. Mit Kästen umrissene Proteine sind Teil makromolekularer Komplexe. Prp11 ist Teil eines Komplexes im spleißosomalen Weg und Apc2 ist Teil des Anaphase-fördernden Komplexes (APC). Tid3p und Spc24 sind beide Teil des Spindelpolkörpers. Durchgezogene schwarze Linien zeigen Proteine an, die dimere Wechselwirkungen bilden. Das Kohäsionsnetzwerk von 17 Proteinen umfasst alle markierten Proteine mit Ausnahme von Apc2, Tid4, Tid1 und Rad51.

Trf4 ist ein Protein, das sowohl an der mitotischen Chromosomenkondensation als auch an der Schwester-Chromatid-Kohäsion beteiligt ist . In X. laevis Trf4 interagiert mit Smc1 und Smc2 und in S. cerevisiae interagiert Trp4 mit Smc1 und Trf5 , einem weiteren Mitglied der TRF-Familie. Trf4-Homologe wurden in S. pombe, C. elegans, Drosophila, human und Arabidopsis identifiziert (Tabelle 2). Trf4 wurde erst kürzlich als DNA-Polymerase mit β-Polymerase-ähnlichen Eigenschaften identifiziert und wird nun als DNA-Polymerase κ (die vierte Klasse der nuklearen DNA-Polymerasen) bezeichnet . Zu den entfernten Homologen von S. cerevisiae Trf4 gehört das Koffein-induzierte Zelltodprotein I (Cid1) in S. pombe (13.4% Sequenzidentität) und das Polynukleotid-Adenyltransferase-Enzym aus einer Reihe von Organismen, einschließlich S. pombe und Menschen (10,2% bzw. 9,7% Sequenzidentität). Cid1 ist von besonderem Interesse, da es bei S. pombe eine Rolle im S-M-Checkpoint-Weg spielen soll . Als Homolog von Trf4 könnte Cid1 die Verbindung zwischen Schwester-Chromatid-Kohäsion und diesem Checkpoint-Weg sein.

Tabelle 2: Drei Cohesin-wechselwirkende Proteine aus S. cerevisiae und ihre Sequenzhomologen

Prp11 ist ein Hefe-Spleißfaktor, der in den frühen Stadien des spleißosomalen Assemblierungsweges beteiligt ist . Prp11 ist ein 266-Aminosäureprotein, das eine Zinkfinger-Domäne enthält, die RNA-bindenden Proteinen gemeinsam ist . Dieser Spleißfaktor bildet einen Komplex mit zwei anderen, Prp9 und Prp21, die zusammen mit Prp5 für die Bindung von U2 snRNP an Prä-mRNA benötigt werden . Es gibt Homologe dieses Spleißfaktors in S. pombe, C. elegans, Drosophila, Arabidopsis, Maus und Mensch (Tabelle 2), die alle das RNA-bindende Motiv enthalten. Bei Mäusen und Menschen ist das Homolog SAP62 (Spliceosome-associated Protein), ein spliceosomales Protein, das an Prä-mRNA im präpliceosomalen Komplex bindet .

Tid3 (NCD80) ist ein Spindelpolkörperprotein, das in einer Reihe von Eukaryoten homologe aufweist (Tabelle 2). Es wird vorhergesagt, dass Tid3 mit Smc1 und Smc2 interagiert, und es wurde experimentell gezeigt, dass es mit Spc24, einer weiteren Komponente des Spindelpolkörpers, interagiert. Wechselwirkungen zwischen dem humanen Homolog von Tid3, Hec1 und humanen Smc1- und Smc2-Homologen wurden ebenfalls beobachtet . Die Wechselwirkungen von Tid3 mit Untereinheiten aus den Makromolekülen Cohesin und Condensin platzieren es neben Trf4 und Scc1 als Protein, das an beiden Mechanismen integral beteiligt ist. Es wird auch vorgeschlagen, dass Hec1 an der Chromatin-Assemblierung im Zentromer und der Regulation des Kinetochors beteiligt sein kann . Spc24, ein Interaktionspartner von Tid3, interagiert auch mit Prp11, dem Hefespleißfaktor, der durch seine Wechselwirkung mit Scc2 mit den Kohäsinbeladungsfaktoren verbunden ist (Abbildung 3).

Ein gemeinsames Upstream-DNA-Element

Die Upstream-Regionen der Gene, die 17 Proteine im Cohesin-Netzwerk kodieren (Abbildung 3), wurden mit AlignACE nach gemeinsamen Motiven durchsucht. Es wurden drei Konsensusmotive identifiziert, die Untergruppen der 17 Gene gemeinsam waren. Es wurde jedoch festgestellt, dass nur ein Motiv relativ spezifisch ist und nur mit den Sequenzen von 29 Genen in der SGD übereinstimmt (siehe Materialien und Methoden). Dieses Motiv hat die Konsensussequenz A6ACGCGTH2RXAAX und beinhaltet das MluI Cell-Cycle Box (MCB) Element (Konsensussequenz ACGCGT). Das in der aktuellen Arbeit gefundene erweiterte Konsensusmotiv war in Upstream-Regionen der Gene vorhanden, die für Scc1, Scc3, Smc3, Pds1, Eco1 und Spc24 kodieren. Dieses Motiv befand sich zwischen 123-299 Basenpaaren (bp) stromaufwärts der Gene, die für diese sechs Proteine kodieren. Eine Suche der SGD ergab 23 zusätzliche Gene, die dieses Upstream-Motiv enthielten. Acht dieser zusätzlichen Gene kodierten hypothetische Proteine unbekannter Funktion. Zu diesen zusätzlichen Genen gehörten jedoch auch solche, die Chaperone (JEM1 und PDI1n), Transkriptionsfaktorkomponenten (TFA1, RFA2, RNA-Polymerase II, SPT20 und PRT1) und eine YC-Komponente des Proteasoms kodieren. Als die Suche auf 2.000 bp stromaufwärts der 5′-untranslatierten Regionen des Hefegenoms ausgedehnt wurde, wurde festgestellt, dass das für Trf4 kodierende Gen auch dieses Konsensusmotiv enthielt (1.560 bp stromaufwärts).

Gemeinsame Motive innerhalb des Kohäsions-Interaktionsnetzwerks

Teiresias, ein Musterentdeckungsalgorithmus , wurde verwendet, um nach gemeinsamen Motiven zwischen zwei oder mehr Sequenzen in den 17 Proteinen des Kohäsionsnetzwerks zu suchen. Die höchste Anzahl von Proteinen, die ein gemeinsames Motiv teilen, war drei, und dies waren die drei SMC-Proteine, die eine hohe Sequenzidentität haben und bekannte Prosite-Motive teilen (Tabelle 3). Interessanter waren 24 Musterübereinstimmungen zwischen Proteinpaaren im Netzwerk. Eine Reihe von Proteinen teilen mehr als ein Sequenzmotiv mit demselben Protein. Alle gemeinsamen Motive waren entweder spezifisch für die beiden Proteine im Kohäsionsnetzwerk oder im Fall von drei Motiven für eine andere Proteinsequenz.

Tabelle 3: Mit ProfileScan lokalisierte PROSITE-Sequenzmotive in Proteinen, die am Schwesterchromatid-Kohäsionsmechanismus beteiligt sind

Ein Motiv, das von zwei Sequenzen im Netzwerk und einer zusätzlichen Sequenz gemeinsam genutzt wird, ist das DXXPENIXLXKN-Motiv, das von den Sequenzen von Scc2, Chk1 und einem dritten S. cerevisiae-Protein PKH1 (Hefe-ORF YDR490C) gemeinsam genutzt wird (Abbildung 4). Sowohl Chk1 als auch PKH1 sind Serin / Threonin (ST) -Proteinkinasen, und das Motiv, das sie mit Scc2 teilen, umfasst einen Teil des PROSITE-ST-Kinase-Signaturmotivs (XXDKXXN (3), wobei X einen beliebigen Rest angibt, (3) angibt, dass der vorherige Rest dreimal wiederholt wird, und D der Rest des aktiven Zentrums ist). Die Sequenz von Scc2 stimmt nicht genau mit dem Signaturmotiv der ST-Kinase überein. Von den 13 Resten im ST-Kinase-Motiv weist Scc2 vier Fehlpaarungen auf, aber wichtig ist, dass die Asparaginsäure im aktiven Zentrum konserviert ist.

Abbildung 4
 abbildung4

Sequenzausrichtung des konservierten Motivs in Scc2, Chk1 und Pkh1, einschließlich des PROSITE-Serin / Threonin (S / T) -Proteinkinase-Motivs. In der Ausrichtung sind die konservierten Reste des mit Teiresien identifizierten Motivs rot und zusätzliche konservierte Positionen grün dargestellt. Die Reste, die mit dem S / T-Kinase-Motiv übereinstimmen, sind mit einem Kasten umrissen. Die Zahl vor jedem Motiv gibt die Position des ersten Restes innerhalb der gesamten Sequenz an. Das PROSITE-S/T-Kinase-Motiv ist unterhalb der Ausrichtung dargestellt. Die alternativen Reste sind in eckigen Klammern angegeben; X bezeichnet einen beliebigen Rest; die Asparaginsäure des aktiven Zentrums ist blau dargestellt.

Ein zweites Motiv, das von einem dritten Protein geteilt wird, das nicht im Kohäsionsnetzwerk enthalten ist, war SXXSXLKKKXLXT; Dies findet sich in Scc1, Scc2 und Hefe ORF YHR011W, einer mutmaßlichen Seryl-tRNA-Synthetase (Abbildung 5a). Dieses Motiv war jedoch nicht Teil des tRNA-Ligase-Motivs von YHR011W oder eines anderen bekannten Motivs innerhalb dieser Sequenz. Ein drittes Motiv, das von einem Protein außerhalb des Kohäsionsnetzwerks geteilt wurde, war NDXNXDDXDN, das von Scc1, Smc1 und einer P-Typ-ATPase aus Plasmodium yoelii geteilt wurde (Abbildung 5b). Scc4 ist einer der Kohäsinbeladungsfaktoren, für die kein bekanntes Homolog gefunden wurde. Es wurde jedoch festgestellt, dass dieses Protein ein 10-Restsequenzmotiv (GKXVALTNAK) mit Smc3 teilt (Abbildung 5c).

Abbildung 5
 abbildung5

Sequenzausrichtungen für drei Motive, die von Proteinen im Kohäsionsnetzwerk gemeinsam genutzt werden. (a) Ein Motiv, das von Scc2 und Trf4 im Netzwerk geteilt wird, und eine mutmaßliche Seryl-tRNA-Synthetase (YHH1) aus Hefe. (b) Ein Motiv, das von Scc1, Smc1 und einer P-Typ-ATPase aus Plasmodium yoelii geteilt wird. (c) Ein Motiv, das durch den Kohäsinbeladungsfaktor Scc4 und SMC3 geteilt wird. In jeder Ausrichtung sind die konservierten Reste des mit Teiresien identifizierten Motivs rot und zusätzliche konservierte Positionen grün dargestellt. Die Zahl vor jedem Motiv gibt die Position des ersten Restes innerhalb der gesamten Sequenz an.

Das Securin Pds1 ist ein Anaphase-Inhibitor, der ein Destruction-Box-Motiv (RXXXLXXXXN) enthält, das auf dieses Protein zur Zerstörung durch die APC-Ubiquitin-Ligase abzielt. Wir fanden drei Destruction-Box-Motive in Smc3, eines im Scharnierbereich (an Position 682, RTRLESLKN) und zwei im zweiten Coiled-Coil-Bereich (eines an Position 744 (RTSLNTKKN) und eines an Position 920 (RLLLKKLDN)). Wir fanden auch ein KEN-Box-Motiv (ein zusätzliches APC-Erkennungssignal) in SMC2 an Position 304 (KENGLLN) in der ersten Coiled-Coil-Domäne.



+