De cohesin complex: sequence homologies, interactie, netwerken en gedeelde motieven

Homologen van cohesin eiwitten

SMC eiwitten

EEN PSI-BLAST zoeken volgorde homologen van SMC1 en SMC3 van Saccharomyces cerevisiae geopenbaard homologen van vele soorten prokaryoten, archaea en eubacteria zoals eerder gemeld (Tabel 1). Deze homologische zoekopdrachten vormden de basis voor een fylogenetische boom en voor de analyse van nieuwe sequentiehomologen.

Tabel 1 eiwitten betrokken bij zusterchromatide cohesie in S. cerevisiae en hun sequentiehomologen

de SMC fylogenetische boom gemaakt uit de uitlijning van SMC3 homologen (Figuur 2) onthult vijf families: Smc1-Smc4 uit eukaryoten en een vijfde ‘voorouderlijke’ familie die de SMC ‘ s uit eubacteria en archaea omvat. Deze voorouderlijke familie omvat ook een aantal eukaryotic proteã nen van S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster en mensen. Elk van deze eukaryotes heeft SMC proteã nen van alle vijf families. De eukaryotic proteã nen binnen de voorouderlijke familie omvatten Rad18 van S. pombe en Rhc18, Rad18 homolog in S. cerevisiae. Rad18 in S. pombe is betrokken bij de reparatie van DNA beschadigd door UV-straling . De opeenvolgingen van C. elegans, Drosophila en mens die met Rad18 binnen de voorouderlijke familie clusteren zijn waarschijnlijk Rad18 homologs. Binnen deze groep is ook Spr18 geclusterd, een SMC eiwit voorgesteld om de homodimere partner van rad18 in S. pombe te zijn . Daarnaast ligt MukB van Escherichia coli ook binnen deze voorouderlijke familie. Het is bekend dat MukB essentieel is voor de verdeling van de chromosomen in deze soort . Het clusteren van de Rad18 homologs met de voorouderlijke SMC proteã nen wordt niet waargenomen in de phylogenetic boom die door Cobbe en Heck wordt gebouwd .

Figuur 2
figuur 2

evolutionaire boom voor SMC-eiwitten, gemaakt met behulp van PHYLIP . Elk van de vijf SMC families is gemarkeerd en gelabeld. De namen van de eukaryotic proteã nen huidig in de voorouderlijke familie worden onderstreept. Bootstrap waarden van 100 bootstrap trials worden getoond op de primaire takken van de boom. WATER, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus unieke black; BACSU, soort van bacillus subtiel; CAEEL, Caenorhabditis elegante; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, de Japanse kogelvis; METJA, Methanococcus jannaschii; MUS,muis; MYCGE, Mycoplasma genitale; MYCHR, Mycoplasma hyorhinis; MYCPN, Mycoplasma pneumonie; PYRAB, Pyrococcus abyssii; PYRHO, Pyrococcus horikoshii; SCHP, Schizosaccharomyces pombe; Synsp, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; gist, Saccharomyces cerevisiae.

een ongebruikelijke sequentie homolog van SMC3 in muis (SMCD) is al gemeld in de vorm van bamacan, een chondroïtinesulfaat proteoglycaan . Dit eiwit is gekend om 100% opeenvolgingsidentiteit aan SMCD te hebben . Hier identificeren we een andere nieuwe homoloog, Mmip1, die ook een extreem hoge sequentie identiteit deelt met muis SMCD. Mmip1 (Mad interacting protein 1) werd geà dentificeerd van een gist twee-hybride scherm voor proteã nen die MXI, een basis helix-loop-helix (bHLH) transcriptiefactor binden . Mmip1 is een basis helix-loop-helix ritssluiting (bHLH-ZIP) eiwit dat sterk dimeriseert met Mad1, Mxi, Mad3 en Mad4, maar niet met Max of c-Myc . Een clustale x-uitlijning van Mmip1 met SMCD onthult dat Mmip1 het eerste bolvormige domein en het eerste opgerolde-roldomein gemeenschappelijk aan SMC-proteã nen mist. In de uitlijning is er 40% sequentieidentiteit tussen Mmip1 en SMCD over de gehele lengte van de SMCD (1.217 aminozuren). Over de lengte van het Mmip1-eiwit (485 aminozuren) deelt het eiwit echter 99% sequentieidentiteit met SMCD. Deze identiteiten van de hoogpercentageopeenvolging worden ook weerspiegeld in de opeenvolgingen van DNA die deze proteã NEN coderen. De cDNA die het Mmip1-eiwit codeert is 100% identiek aan de cDNA die SMCD codeert over de 2.612 basisparen van de Mmip1-sequentie.

eerder werd gesuggereerd dat eubacteriën één enkel voorouderlijk SMC-eiwit bevatten . De PSI-BLAST zoektocht naar SMC homologen in het huidige werk identificeerde twee SMC-gerelateerde eiwitten in twee soorten eubacteriën, B. subtilis en Aquifex aeolicus. In beide soorten is één sequentie eerder geïdentificeerd als een SMC homolog, terwijl de functie van de tweede onbekend is. De twee sequenties van B. subtilis delen 95% sequentieidentiteit, terwijl de twee sequenties van A. aeolicus 20% sequentieidentiteit delen. Alle vier homologen bevatten een Walker A-en B-motief, en de twee homologen van B. subtilis bevatten de vijf domeinen die kenmerkend zijn voor de SMC-eiwitten (figuur 1a). De A. aeolicus eiwit bekend als een SMC homolog (TrEMBL toetreding nummer O60878) bevat ook de vijf domeinen, met inbegrip van de twee coiled-coil domeinen gescheiden door een scharniergebied van 180-200 residuen. Echter, de tweede homolog in A. aeolicus (trembl toetreding nummer O67124) heeft de twee coiled-coil domeinen (voorspeld met behulp van spoelen), maar het scharniergebied dat hen scheidt bestaat uit slechts ongeveer 10-20 residuen. In het huidige model van SMC dimeert het scharniergebied maakt het vouwen van de structuur in een ongeveer symmetrisch complex (figuur 1b). Voor deze A. aeolicus homolog, echter, de zeer korte scharnier regio zou het bereik van het vouwen beperken. Bij deze soort konden twee homodimere SMC-structuren worden gevormd, één uit het vijfdomein SMC en één uit het vierdomein SMC homolog zonder het scharnierdomein. De aanwezigheid van twee potentiële SMC-homologen in B. subtilis zou echter kunnen betekenen dat het heterodimere model van SMC-interacties die voor eukaryoten worden voorgesteld (bijvoorbeeld ) ook tot sommige prokaryoten kan worden uitgebreid. De aanwezigheid van twee SMC-homologen in sommige eubacteriën wordt niet aangetoond in de door Cobbe en Heck gebouwde SMC-fylogenetische boom .

SCC-eiwitten

de SCC-eiwitten zijn alleen aanwezig in eukaryoten en zijn niet zo goed gekarakteriseerd als de SMC-eiwitten. Scc1 (ook geà dentificeerd als MCD1) wordt fysisch geassocieerd met het smc1-protomeer in het complex . De homologen in S. pombe, Xenopus laevis, mensen en Drosophila worden geà dentificeerd als Rad21 proteã nen (Tabel 1), betrokken bij de reparatie van dubbelstrengs onderbrekingen van DNA die door het ioniseren straling worden veroorzaakt. Scc3 (eerder geïdentificeerd als IRR1 ) bevat een nucleaire localisatiesequentie (zie later) en een aantal homologen zijn geïdentificeerd (Tabel 1). Scc3 homologen in Drosophila, muis, mens en Arabidopsis zijn een familie van stromalin proteã nen die tussen 20-25% opeenvolgingsidentiteit delen (Tabel 1). In Drosophila, muis en mens zijn er twee stromalin proteã nen (DSA, dSA2; SA1, SA2; en STAG1, STAG2, respectievelijk), die zich in de kern bevinden, maar hun functie is onbekend. Bovendien, STAG3 is geà dentificeerd in mensen en wordt voorgesteld om bij chromosoom het in paren rangschikken tijdens meiosis te zijn betrokken.

Scc2 en Scc4 zijn de recent geïdentificeerde cohesiefactoren voor de belasting . Homologen aan Scc2 zijn geïdentificeerd in S. pombe (Mis4) en Drosophila (Nipped-B), Coprinus cinereus (Rad9 en humaan (IDN3-B; TrEMBL-Toelatingsnummer Q9Y6Y3) (Tabel 1). Mis4 in S. pombe wordt vereist voor Gelijke chromatid scheiding in anafase en heeft een functie verschillend van cohesin . Het Rad9 genproduct in C. cinereus is essentieel voor de normale voltooiing van meiose. Het genproduct Nipped-B wordt voorgesteld om architectonisch tussen transcriptieversterkers en promotors te functioneren om versterker-promotorinteractie te vergemakkelijken . De functie van het IDN3-B-gen bij de mens is onbekend, anders dan wordt het bij voorkeur uitgedrukt in hepatocellulaire carcinomen (HCC) . Men heeft voorgesteld dat deze SCC molecules een familie van ‘adherins’ vertegenwoordigen die een groot centraal kerndomein van opeenvolgingshomologie delen .

Scc4 werd geïdentificeerd als een product van open reading frame (ORF) YER147C , en bestaat uit een sequentie van 624 aminozuren die een amp-bindend motief bevat. Nochtans, buiten het in wisselwerking staan met Scc2 en betrokken zijnd bij de oprichting van Zuster-chromatid samenhang, is weinig bekend over deze proteã ne. Scc4 heeft geen identificeerbare sequentiehomologen in de volledige sequentie-of EST-databases en kan daarom het product zijn van een weesgen.

Cohesieinteractienetwerk

een cohesieinteractienetwerk werd gecreëerd door informatie uit twee proteoomdatabases en de literatuur te verzamelen (Figuur 3). In Figuur 3, worden de lijnen getrokken tussen proteã nen om bekende of potentiële interactie aan te geven. De gegevens waarvan de interactie worden afgeleid worden vermeld in een gedetailleerde sleutel die tussen de twee proteomic gegevensbestanden (en tussen de verschillende bronnen van gegevens binnen elk gegevensbestand) en de literatuur onderscheidt. Vier eiwitten (Esp1, Trf4, Prp11 en Tid3) interageren direct met SMC-of SCC-eiwitten in S. cerevisiae. De interactie van Esp1 en Scc1 is momenteel bekend op functioneel niveau, en het belang ervan is al besproken. Deze interactie is tijdsafhankelijk en is niet geïdentificeerd in het gist tweehybride scherm, en deze informatie wordt momenteel niet geregistreerd in de YPD.

Figuur 3
figuur 3

het netwerk voor interactie tussen cohesie. De lijnen die proteã NEN verbinden wijzen op bekende of potentiële interactie zoals afgeleid uit twee proteomic gegevensbestanden en de literatuur. Cohesine en de ladingsfactoren zijn in geel; extra proteã NEN betrokken bij cohesie of interactie met cohesine of de ladingsfactoren zijn in blauw; alle andere eiwitten in het netwerk zijn wit. De proteã nen die met dozen worden geschetst maken deel uit van macromoleculaire complexen. Prp11 maakt deel uit van een complex in de spliceosomale weg, en Apc2 maakt deel uit van het anaphase-bevorderende complex (APC). Tid3p en Spc24 maken beide deel uit van de spindel-pole body. De stevige zwarte lijnen wijzen op proteã nen die dimere interactie vormen. Het cohesienetwerk van 17 proteã nen omvat al die geëtiketteerd, met uitzondering van Apc2, Tid4, Tid1 en Rad51.

Trf4 is een eiwit betrokken bij zowel mitotische chromosoomcondensatie als zusterchromatide cohesie . In X. laevis Trf4 interageert met Smc1 en Smc2 , en in S. cerevisiae interageert Trp4 met Smc1 en Trf5 , een ander lid van de TRF-familie. Trf4-homologen zijn geïdentificeerd in S. pombe, C. elegans, Drosophila, human en Arabidopsis (Tabel 2). Trf4 is zeer recent geà dentificeerd als polymerase van DNA met β-polymerase-als eigenschappen en wordt nu aangewezen polymerase κ van DNA (de vierde klasse van nucleaire polymerases van DNA) . Remote homologen van S. cerevisiae Trf4 omvatten het door cafeïne geïnduceerde celdoodproteïne I (Cid1) in S. pombe (13.4% sequentieidentiteit) en het polynucleotide-adenyltransferase-enzym van een aantal organismen, waaronder S. pombe en mensen (respectievelijk 10,2% en 9,7% sequentieidentiteit). Cid1 is van bijzonder belang omdat het een rol dacht te spelen in de S-M checkpoint pathway in S. pombe . Als homolog van Trf4, zou Cid1 de link kunnen zijn tussen zuster-chromatide cohesie en deze checkpointweg.

Tabel 2 drie cohesine-interagerende eiwitten van S. cerevisiae en hun sequentiehomologen

Prp11 is een gist splicing factor betrokken bij de vroege stadia van de spliceosomale assemblageweg . Prp11 is een 266 aminozuurproteã ne die een zink-vingerdomein gemeenschappelijk aan RNA-Bindende proteã nen omvat . Deze verbindende factor vormt een complex met twee anderen, Prp9 en Prp21, die samen met Prp5 voor de band van U2 snRNP aan pre-mRNA worden vereist . Er zijn homologen van deze splicing factor In S. pombe, C. elegans, Drosophila, Arabidopsis, muis en mens (Tabel 2) en allen omvatten het RNA-Bindende motief. Bij muizen en mensen is homolog SAP62 (spliceosoom-geassocieerd eiwit), een spliceosomaal eiwit dat zich bindt aan pre-mRNA in het prespliceosomaal complex .

Tid3 (NCD80) is een lichaamsproteïne dat homologen heeft in een aantal eukaryoten (Tabel 2). Tid3 wordt voorspeld om met Smc1 en Smc2 in wisselwerking te staan, en is experimenteel getoond om met Spc24, een andere component van het lichaam van de spindelpool in wisselwerking te staan. De interactie tussen menselijke homolog van tid3, Hec1, en menselijke smc1 en smc2 homologs zijn ook waargenomen . De interactie van Tid3 met subeenheden van zowel cohesin als condensin macromoleculen, plaatst het naast Trf4 en Scc1, als proteã ne integraal betrokken bij beide mechanismen. Men stelt ook voor dat Hec1 bij chromatin assemblage in centromeer en Verordening van de kinetochoor kan worden betrokken . Spc24, een interactiepartner van Tid3, interageert ook met Prp11, de gist splicing factor die via zijn interactie met Scc2 verbonden is met de cohesin ladingsfactoren (Figuur 3).

een gemeenschappelijk upstream DNA-element

de upstream gebieden van de genen die 17 eiwitten coderen in het cohesin netwerk (Figuur 3) werden gezocht naar gedeelde motieven met behulp van AlignACE. Drie consensusmotieven werden geà dentificeerd die gemeenschappelijk waren aan subsets van de 17 genen. Slechts één motief werd gevonden om vrij specifiek te zijn, nochtans, die upstream opeenvolgingen van slechts 29 genen in SGD aanpassen (zie de materialen en methodes). Dit motief heeft de consensusvolgorde A6ACGCGTH2RXAAX en bevat het MluI cell-cycle box (MCB) element (consensusvolgorde ACGCGT) . Het uitgebreide consensusmotief dat in het huidige werk wordt gevonden, is aanwezig in upstreamgebieden van de genen die coderen voor Scc1, Scc3, Smc3, Pds1, Eco1 en Spc24. Dit motief werd gevonden tussen 123-299 basenparen (bp) stroomopwaarts van de genen die deze zes proteã nen coderen. Een onderzoek van de SGD onthulde 23 extra genen die dit upstream motief bevatten. Acht van deze extra genen codeerden hypothetische proteã nen met onbekende functie. Echter, deze extra genen omvatten ook die coderen chaperones (JEM1 en PDI1n), transcriptiefactor componenten (tfa1, RFA2, RNA polymerase II, SPT20 en PRT1), en een YC component van het proteasoom. Toen het onderzoek tot 2000 bp stroomopwaarts van de 5′ onvertaalde gebieden van het gistgenoom werd uitgebreid, werd het gen dat Trf4 codeert ook gevonden om dit consensusmotief (1560 BP stroomopwaarts) te bevatten.

gedeelde motieven binnen het cohesienetwerk

Teiresias , een algoritme voor patroondetectie, werd gebruikt om gemeenschappelijke motieven te zoeken tussen twee of meer sequenties in de 17 eiwitten van het cohesienetwerk. Het hoogste aantal proteã nen die een gemeenschappelijk motief deelden was drie, en dit waren de drie proteã nen SMC, die een hoge opeenvolgingsidentiteit hebben en bekende Prosietmotieven delen (Tabel 3). Interessanter waren 24 patronen gevonden tussen paren van eiwitten in het netwerk. Een aantal proteã nen delen meer dan één opeenvolgingsmotief met dezelfde proteã ne. Alle gedeelde motieven waren ofwel specifiek voor de twee eiwitten in het cohesienetwerk, of in het geval van drie motieven, gedeeld door een andere eiwitopeenvolging.

Tabel 3 PROSIETSEQUENTIEMOTIEVEN met ProfileScan in eiwitten die betrokken zijn bij het zusterchromatide cohesiemechanisme

een motief gedeeld door twee sequenties in het netwerk en een extra sequentie, is het dxxpenixlxkn motief gedeeld door de sequenties van Scc2, Chk1 en een derde S. cerevisiae eiwit PKH1 (gist ORF YDR490C) (Figuur 4). Zowel Chk1 als PKH1 zijn serine / threonine (ST) eiwitkinasen, en het motief dat ze delen met Scc2 omvat een deel van het prosite St kinase signature motif (XXDKXXN(3), waarbij X een residu aangeeft, (3) aangeeft dat het vorige residu driemaal wordt herhaald, en D het actieve residu is). De volgorde van Scc2 komt niet precies overeen met het St kinase-signatuurmotief. Van de 13 residuen in het St kinase-motief heeft Scc2 vier mismatches, maar belangrijk is dat het actieve asparaginezuur behouden blijft.

Figuur 4
figuur 4

Opeenvolgingsuitlijning van het behouden motief in Scc2, Chk1 en Pkh1, die het prosite serine/threonine (S/T) eiwitkinasemotief omvat. In de uitlijning zijn de geconserveerde resten van het met Teiresias geïdentificeerde motief in rood en de extra geconserveerde posities in groen. De residuen die samenvallen met het S / T-kinasemotief worden geschetst met een doos. Het getal voor elk motief geeft de positie van het eerste residu binnen de volledige reeks aan. Het PROSITE s / t kinase motief wordt getoond onder de uitlijning. De alternatieve residuen staan tussen vierkante haakjes; X staat voor elk residu; het actieve asparaginezuur is blauw.

een tweede motief gedeeld door een derde eiwit dat niet is opgenomen in het cohesienetwerk was SXXSXLKKKXLXT; dit wordt gevonden in Scc1, Scc2 en gist ORF YHR011W, een vermeende seryl-tRNA synthetase (figuur 5a). Dit motief maakte echter geen deel uit van het tRNA ligase-motief van YHR011W, of Van enig ander bekend motief binnen deze volgorde. Een derde motief gedeeld door een eiwit van buiten het cohesienetwerk was NDXNXDDXDN, gedeeld door Scc1, Smc1, en een P-type ATPase van Plasmodium yoelii (figuur 5b). Scc4 is een van de cohesiefactoren waarvoor geen homolog is gevonden. Dit eiwit bleek echter een 10-residu sequentiemotief (GKXVALTNAK) te delen met Smc3 (figuur 5c).

Figuur 5
figuur 5

Sequence alignments voor drie motieven gedeeld door eiwitten in het cohesienetwerk. (a) een motief gedeeld door Scc2 en Trf4 in het netwerk en een vermeende seryl-tRNA synthetase (YHH1) uit gist. (b) een motief gedeeld door Scc1, Smc1 en een P-type ATPase van Plasmodium yoelii. c) een motief dat wordt gedeeld door de cohesin-ladingsfactor Scc4 en SMC3. In elke uitlijning zijn de geconserveerde resten van het met Teiresias geïdentificeerde motief in rood en de extra geconserveerde posities in groen. Het getal voor elk motief geeft de positie van het eerste residu binnen de volledige reeks aan.

securin Pds1 is een anaphase inhibitor die een vernietigingsdoos motief (RXXXLXXXN) bevat, die dit eiwit voor vernietiging door APC ubiquitin ligase richt. We vonden drie vernietigingsdoos motieven in Smc3, een in de scharnier regio (op positie 682, RTRLESLKN) en twee in de tweede coiled-coil domein (een op positie 744 (RTSLNTKKN) en een op positie 920 (RLLLKKLDN)). We vonden ook een KEN-box motief (een extra APC herkenningssignaal ) in SMC2 op positie 304 (KENGLLN), in het eerste coiled-coil domein.



+