cohesinkomplekset: sekvenshomologier, interaktionsnetværk og delte motiver

homologer af cohesinproteiner

SMC-proteiner

en PSI-BLAST-søgning efter sekvenshomologer af SMC1 og SMC3 fra Saccharomyces cerevisiae afslørede homologer fra mange arter af eukaryoter, arkæer og eubakterier som tidligere rapporteret (tabel 1). Disse homologisøgninger udgjorde grundlaget for et fylogenetisk træ og til analyse af nye sekvenshomologer.

tabel 1 proteiner involveret i søsterkromatidsammenhæng i S. cerevisiae og deres sekvenshomologer

SMC-fylogenetisk træ oprettet ud fra tilpasningen af SMC3-homologer (figur 2) afslører fem familier: Smc1-Smc4 fra eukaryoter og en femte ‘forfædres’ familie, der inkluderer SMC ‘ erne fra eubakterier og archaea. Denne forfædres familie inkluderer også et antal eukaryote proteiner fra S. cerevisiae, schisosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster og mennesker. Hver af disse eukaryoter har SMC-proteiner fra alle fem familier. De eukaryote proteiner i den forfædres familie inkluderer Rad18 fra S. pombe og Rhc18, Rad18 homolog i S. cerevisiae. Rad18 i S. pombe er involveret i reparation af DNA beskadiget af UV-stråling . Sekvenserne fra C. elegans, Drosophila og human, der klynger sig med Rad18 inden for forfædres familie, er sandsynligvis Rad18-homologer. Også grupperet inden for denne gruppe er Spr18, et SMC-protein, der foreslås at være den homodimeriske partner af rad18 i S. pombe . Derudover ligger MukB fra Escherichia coli også inden for denne forfædres familie. MukB er kendt for at være afgørende for kromosompartitionering i denne art . Klyngningen af Rad18-homologerne med de forfædres SMC-proteiner observeres ikke i det fylogenetiske træ Konstrueret af Cobbe og Heck .

figur 2
figur2

evolutionært træ til SMC-proteiner, oprettet ved hjælp af PHYLIP . Hver af de fem SMC-familier er fremhævet og mærket. Navnene på de eukaryote proteiner, der er til stede i forfædres familie, understreges. Bootstrap-værdier fra 100 bootstrap-forsøg vises på træets primære grene. Vand, Akvifeks aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus unik sort; BACSU, slags bacillus subtil; CAEEL, Caenorhabditis elegant; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, den japanske pufferfish; METJA, Methanococcus jannaschii; MUS,mus; MYCGE, Mycoplasma genital; MYCHR, Mycoplasma HYORHINIS; mycpn, mycoplasma pneumoni; Pyrab, pyrococcus Abyssii; PYRHO, PYROCOCCUS horikoshii; SCHP, CHISOSACCHAROMYCES pombe; SYNSP, Synechocystis sp.; Thema, thermotoga maritima; TREPA, Treponema pallidum; gær, Saccharomyces cerevisiae.

en usædvanlig sekvenshomolog af SMC3 i mus (SMCD) er allerede rapporteret i form af bamacan, et chondroitinsulfat proteoglycan . Dette protein er kendt for at have 100% sekvensidentitet til SMCD . Her identificerer vi en anden ny homolog, Mmip1, der også deler en ekstremt høj sekvensidentitet med mus SMCD. Mmip1 (Mad interagerende protein 1) blev identificeret fra en gær to-hybrid skærm for proteiner, der binder Mksi, en grundlæggende spiral-loop-spiral (bHLH) transkriptionsfaktor . Mmip1 er et grundlæggende protein med lynlås (bHLH-lynlås), der dimeriserer kraftigt med Mad1, Mksi, Mad3 og Mad4, men ikke med maks .eller C-Myc. Mmip1 med SMCD afslører, at Mmip1 mangler det første kugleformede domæne og det første coiled-coil domæne, der er fælles for SMC-proteiner. I justeringen er der 40% sekvensidentitet mellem Mmip1 og SMCD over hele længden af SMCD (1.217 aminosyrer). Over længden af Mmip1-proteinet (485 aminosyrer) deler proteinet imidlertid 99% sekvensidentitet med SMCD. Disse sekvensidentiteter med høj procentdel afspejles også i DNA-sekvenserne, der koder for disse proteiner. CDNA, der koder for Mmip1-proteinet, er 100% identisk med cDNA, der koder for SMCD over 2.612 basepar i Mmip1-sekvensen.

det er tidligere blevet foreslået, at eubakterier indeholder et enkelt forfædres SMC-protein . PSI-BLAST-søgningen efter SMC-homologer i det nuværende arbejde identificerede to SMC-relaterede proteiner i to arter af eubakterier, B. subtilis og Akvifeks aeolicus. I begge arter er en sekvens tidligere blevet identificeret som en SMC-homolog, mens funktionen af den anden er ukendt. De to sekvenser fra B. subtilis deler 95% sekvensidentitet, mens de to sekvenser fra A. aeolicus deler 20% sekvensidentitet. Alle fire homologer indeholder et rullator A-og B-motiv, og de to homologer fra B. subtilis indeholder de fem domæner, der er karakteristiske for SMC-proteinerne (figur 1a). A. aeolicus-protein, der vides at være en SMC-homolog (TrEMBL-tiltrædelsesnummer O60878), indeholder også de fem domæner, herunder de to coiled-coil-domæner adskilt af et hængselområde på 180-200 rester. Imidlertid har den anden homolog i A. aeolicus (TrEMBL tiltrædelsesnummer O67124) de to coiled-coil domæner (forudsagt ved hjælp af spoler), men hængselområdet, der adskiller dem, består kun af cirka 10-20 rester. I den nuværende model af SMC-dimerer tillader hængselområdet foldning af strukturen i et omtrent symmetrisk kompleks (figur 1b). Til dette A. aeolicus homolog, imidlertid, den meget korte hængselregion ville begrænse rækkevidden af foldning. I denne art kunne der dannes to homodimeriske SMC-strukturer, en fra SMC med fem domæner og en fra SMC-homolog med fire domæner, der mangler hængseldomænet. Tilstedeværelsen af to potentielle SMC-homologer i B. subtilis kan imidlertid betyde, at den heterodimeriske model af SMC-interaktioner foreslået for eukaryoter (for eksempel ) også kunne udvides til nogle prokaryoter. Tilstedeværelsen af to SMC-homologer i nogle eubakterier er ikke vist i SMC-fylogenetisk træ Konstrueret af Cobbe og Heck .

SCC-proteiner

SCC-proteinerne er kun til stede i eukaryoter og er ikke så godt karakteriseret som SMC-proteinerne. Scc1 (også identificeret som MCD1) er fysisk forbundet med SMC1-protomeren i komplekset . Homologer i S. pombe , Ksenopus laevis , mennesker og Drosophila identificeres som Rad21-proteiner (tabel 1), der er involveret i reparation af DNA-dobbeltstrengede pauser induceret af ioniserende stråling. Scc3 (tidligere identificeret som IRR1 ) indeholder en nuklear lokaliseringssekvens (se senere), og et antal homologer er blevet identificeret (tabel 1). Scc3-homologer i Drosophila, mus, human og Arabidopsis er en familie af stromalinproteiner, der deler mellem 20-25% sekvensidentitet (tabel 1). I Drosophila, mus og menneske er der to stromalinproteiner (henholdsvis DSA, dSA2; SA1, SA2; og STAG1, STAG2), som er placeret i kernen, men deres funktion er ukendt. Derudover er STAG3 blevet identificeret hos mennesker og foreslås at være involveret i kromosomparring under meiose.

Scc2 og Scc4 er de nyligt identificerede cohesin loading faktorer . Homologer til Scc2 er blevet identificeret i S. pombe (Mis4) og Drosophila (Nipped-B), Coprinus cinereus (Rad9 og human (IDN3-B; TrEMBL tiltrædelsesnummer 9.kvartal 63) (tabel 1). Mis4 i S. pombe er påkrævet for lige kromatidseparation i anafase og har en funktion, der adskiller sig fra cohesin . Rad9-genproduktet i C. cinereus er afgørende for den normale afslutning af meiose. Nipped-B genproduktet foreslås at fungere arkitektonisk mellem transkriptionsforstærkere og promotorer for at lette forstærker-promotor interaktioner . Funktionen af IDN3-B-genet hos mennesker er ukendt, bortset fra at det fortrinsvis udtrykkes i hepatocellulære carcinomer (HCC) . Det er blevet foreslået, at disse SCC-molekyler repræsenterer en familie af ‘adheriner’, der deler et stort centralt kernedomæne af sekvenshomologi .

Scc4 blev identificeret som et produkt af åben læseramme (ORF) YER147C og omfatter en sekvens på 624 aminosyrer , der inkluderer et AMP-bindende motiv. Men bortset fra at interagere med scc2 og være involveret i etableringen af søster-kromatid samhørighed, er der lidt kendt om dette protein. Scc4 har ingen identificerbare sekvenshomologer i hverken fuldsekvens-eller EST-databaserne og kan derfor være et produkt af et forældreløst gen.

Samhørighedsinteraktionsnetværk

et samhørighedsinteraktionsnetværk blev oprettet ved at samle information fra to proteomdatabaser og litteraturen (figur 3). I figur 3 trækkes linjer mellem proteiner for at indikere kendte eller potentielle interaktioner. De data, hvorfra interaktionerne stammer, er angivet i en detaljeret nøgle, der skelner mellem de to proteomiske databaser (og mellem de forskellige datakilder i hver database) og litteraturen. Fire proteiner (Esp1, Trf4, Prp11 og Tid3) interagerer direkte med SMC-eller SCC-proteiner i S. cerevisiae. Samspillet mellem Esp1 og Scc1 er i øjeblikket kendt på et funktionelt niveau , og dets betydning er allerede blevet diskuteret. Denne interaktion er tidsafhængig og er ikke identificeret i gær-to-hybridskærmen, og disse oplysninger registreres i øjeblikket ikke i YPD.

figur 3
figur3

samhørighedsinteraktionsnetværket. Linjer, der forbinder proteiner, indikerer kendte eller potentielle interaktioner, der stammer fra to proteomiske databaser og litteraturen. Cohesin og belastningsfaktorerne er i gule; yderligere proteiner involveret i samhørighed eller interagerer med cohesin eller belastningsfaktorerne er i blåt; alle andre proteiner i netværket er i hvidt. Proteiner skitseret med kasser er en del af makromolekylære komplekser. Prp11 er en del af et kompleks i den spliceosomale vej, og Apc2 er en del af det anafasefremmende kompleks (APC). Tid3p og Spc24 er begge en del af spindelstangen. Faste sorte linjer angiver proteiner, der danner dimeriske interaktioner. Samhørighedsnetværket på 17 proteiner inkluderer alle dem, der er mærket, undtagen Apc2, Tid4, Tid1 og Rad51.

Trf4 er et protein involveret i både mitotisk kromosomkondensation og søster-kromatid samhørighed . I H. laevis Trf4 interagerer med Smc1 og Smc2 , og I S. cerevisiae interagerer Trp4 med Smc1 og Trf5, et andet medlem af TRF-familien. Trf4-homologer er blevet identificeret i S. pombe, C. elegans, Drosophila, human og Arabidopsis (tabel 2). Trf4 er meget for nylig blevet identificeret som en DNA-polymerase med relativpolymerase-lignende egenskaber og betegnes nu DNA-polymerase-Larsen (den fjerde klasse af nukleare DNA-polymeraser) . Fjernhomologer af S. cerevisiae Trf4 inkluderer det koffeininducerede celledødsprotein i (Cid1) i S. pombe (13.4% sekvensidentitet) og polynukleotidadenyltransferase fra en række organismer, herunder S. pombe og mennesker (henholdsvis 10,2% og 9,7% sekvensidentitet). Cid1 er af særlig interesse, da den troede at spille en rolle i S-M checkpoint-stien i S. pombe . Som en homolog af Trf4 kunne Cid1 være forbindelsen mellem søster-kromatid samhørighed og denne kontrolpunktsvej.

tabel 2 tre sammenhængende-interagerende proteiner fra S. cerevisiae og deres sekvenshomologer

Prp11 er en gær splejsningsfaktor involveret i de tidlige stadier af den spliceosomale samlingsvej . Prp11 er et 266 aminosyreprotein, der indeholder et SITC-fingerdomæne, der er fælles for RNA-bindende proteiner . Denne splejsningsfaktor danner et kompleks med to andre, Prp9 og Prp21, som sammen med Prp5 er nødvendige for binding af U2 snRNP til pre-mRNA . Der er homologer af denne splejsningsfaktor I S. pombe, C. elegans, Drosophila, Arabidopsis, mus og menneske (tabel 2) og alle inkluderer RNA-bindende motiv. Hos mus og mennesker er homologen SAP62 (spliceosomassocieret protein), et spliceosomalt protein, der binder til præ-mRNA i det prespliceosomale kompleks .

Tid3 (NCD80) er et spindelpol kropsprotein, der har homologer i et antal eukaryoter (tabel 2). Tid3 forudsiges at interagere med Smc1 og Smc2 og har vist sig eksperimentelt at interagere med Spc24, en anden komponent i spindelpol-kroppen. Interaktioner mellem den humane homolog af Tid3, Hec1 og humane Smc1-og Smc2-homologer er også blevet observeret . Interaktionerne mellem Tid3 og underenheder fra både cohesin-og kondensinmakromolekyler placerer det sammen med Trf4 og scc1 som et protein, der er integreret involveret i begge mekanismer. Det foreslås også, at Hec1 kan være involveret i kromatinsamling i centromeren og reguleringen af kinetochore . Spc24, en interaktionspartner for Tid3, interagerer også med Prp11, gærsplejsningsfaktoren, der er knyttet til cohesinbelastningsfaktorerne gennem dens interaktion med scc2 (figur 3).

et fælles opstrøms DNA-element

opstrømsregionerne af generne, der koder for 17 proteiner i cohesin-netværket (figur 3) blev søgt efter delte motiver ved hjælp af AlignACE. Der blev identificeret tre konsensusmotiver, der var fælles for undergrupper af de 17 gener. Kun et motiv viste sig at være relativt specifikt, men matchede opstrøms sekvenser af kun 29 gener i SGD (se materialer og metoder). Dette motiv har konsensussekvensen A6ACGCGTH2RK og inkluderer mlui cellecyklusboks (MCB) element (konsensussekvens ACGCGT) . Det udvidede konsensusmotiv, der findes i det nuværende arbejde, var til stede i opstrømsregioner af generne, der koder for Scc1, Scc3, Smc3, Pds1, Eco1 og Spc24. Dette motiv var placeret mellem 123-299 basepar (bp) opstrøms for generne, der koder for disse seks proteiner. En søgning af SGD afslørede 23 yderligere gener indeholdende dette opstrømsmotiv. Otte af disse yderligere gener kodede hypotetiske proteiner med ukendt funktion. Imidlertid omfattede disse yderligere gener også dem, der koder for chaperoner (JEM1 og PDI1n), transkriptionsfaktorkomponenter (TFA1, RFA2, RNA-polymerase II, SPT20 og PRT1) og en YC-komponent i proteasomet. Da søgningen blev udvidet til 2.000 bp opstrøms for de 5′ uoversatte regioner i gærgenomet, blev genet, der koder for Trf4, også fundet at indeholde dette konsensusmotiv (1.560 bp opstrøms).

delte motiver inden for samhørighedsinteraktionsnetværket

Teiresias, en mønsteropdagelsesalgoritme , blev brugt til at søge efter almindelige motiver mellem to eller flere sekvenser i samhørighedsnetværkets 17 proteiner. Det højeste antal proteiner, der deler et fælles motiv, var tre, og disse var de tre SMC-proteiner, som har en høj sekvensidentitet og deler kendte Prositmotiver (tabel 3). Mere interessant var 24 mønsterkampe fundet mellem par proteiner i netværket. Et antal proteiner deler mere end et sekvensmotiv med det samme protein. Alle delte motiver var enten specifikke for de to proteiner i samhørighedsnetværket eller i tilfælde af tre motiver, delt af en anden proteinsekvens.

tabel 3 prosite-sekvensmotiver placeret ved hjælp af ProfileScan i proteiner involveret i søsterkromatid-samhørighedsmekanismen

et motiv, der deles af to sekvenser i netværket og en yderligere sekvens, er motivet, der deles af sekvenserne af Scc2, Chk1 og et tredje S. cerevisiae protein PKH1 (gær ORF YDR490C) (figur 4). Både Chk1 og PKH1 er serin/threonin (ST) proteinkinaser, og motivet, de deler med Scc2, inkluderer en del af prosite ST-kinasesignaturmotivet (3), Hvor h angiver enhver rest, (3) indikerer, at den tidligere rest gentages tre gange, og D er den aktive stedsrest). Sekvensen af Scc2 svarer ikke nøjagtigt til St kinase-signaturmotivet. Af de 13 rester i ST kinase-motivet har Scc2 fire uoverensstemmelser, men vigtigere er asparaginsyre på det aktive sted bevaret.

figur 4
figur4

Sekvensjustering af det konserverede motiv i Scc2, Chk1 og Pkh1, som inkluderer prosite serin/threonin (S/T) proteinkinase motiv. I justeringen er de konserverede rester af motivet identificeret ved hjælp af Teiresias i rødt, og yderligere konserverede positioner er i grønt. Resterne, der falder sammen med S/T-kinasemotivet, er skitseret med en kasse. Tallet før hvert motiv angiver placeringen af den første rest inden for den komplette sekvens. Prosite S/T kinase motiv er vist under justeringen. De alternative rester er vist i firkantede parenteser; h angiver enhver rest; asparaginsyre på aktivt sted er i blåt.

et andet motiv, der deles af et tredje protein, der ikke er inkluderet i samhørighedsnetværket, var SCC1, Scc2 og gær ORF YHR011V, en formodet seryl-tRNA-syntetase (figur 5a). Imidlertid var dette motiv ikke en del af tRNA-ligasemotivet i YHR011V eller noget andet kendt motiv inden for denne sekvens. Et tredje motiv, der deles af et protein uden for samhørighedsnetværket, blev delt af Scc1, Smc1 og en P-type ATPase fra Plasmodium yoelii (figur 5b). Scc4 er en af de sammenhængende belastningsfaktorer, for hvilke der ikke er fundet nogen kendt homolog. Dette protein blev imidlertid fundet at dele et 10-restsekvensmotiv med Smc3 (figur 5c).

figur 5
figur5

Sekvensjusteringer for tre motiver, der deles af proteiner i samhørighedsnetværket. (a) et motiv, der deles af Scc2 og Trf4 i netværket og en formodet seryl-tRNA-syntetase (YHH1) fra gær. (B) et motiv, der deles af Scc1, Smc1 og en P-type ATPase fra Plasmodium yoelii. C) et motiv, der deles af cohesin loading factor scc4 og SMC3. I hver justering er de konserverede rester af motivet identificeret ved hjælp af Teiresias i rødt, og yderligere konserverede positioner er i grønt. Tallet før hvert motiv angiver placeringen af den første rest inden for den komplette sekvens.

securin Pds1 er en anafasehæmmer , der indeholder et ødelæggelsesboksmotiv, der er målrettet mod dette protein til destruktion af APC allestedsnærværende ligase. Vi fandt tre ødelæggelsesboksmotiver i Smc3, en i hængselområdet (i position 682, RTRLESLKN) og to i det andet coiled-coil domæne (en i position 744 (RTSLNTKKN) og en i position 920 (RLLLLKKKLDN)). Vi fandt også et Ken-boks motiv (et ekstra APC-genkendelsessignal ) i SMC2 ved position 304 (KENGLLN) i det første coiled-coil domæne.



+