the cohesin complex: sekvenshomologier, interaksjonsnettverk og delte motiver

Homologer av kohesinproteiner

SMC-proteiner

ET PSI-BLAST-søk etter sekvenshomologer AV SMC1 og SMC3 fra Saccharomyces cerevisiae avslørte homologer fra mange arter av eukaryoter, archaea og eubacteria som tidligere rapportert (tabell 1). Disse homologi søk gitt grunnlag for en fylogenetisk tre og for analyse av nye sekvens homologer.

Tabell 1 Proteiner involvert i søsterkromatid-kohesjon I s. cerevisiae, og deres sekvenshomologer

SMC fylogenetisk tre opprettet fra justeringen AV SMC3 homologer (Figur 2) avslører fem familier: Smc1-Smc4 fra eukaryoter og en femte ‘forfedrefamilie’ som inkluderer Smc fra eubacteria og archaea. Denne forfedrefamilien inneholder også en rekke eukaryote proteiner Fra S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster og mennesker. Hver av disse eukaryotene har SMC-proteiner fra alle fem familier. De eukaryote proteinene i forfedrefamilien inkluderer Rad18 Fra S. pombe Og Rhc18, Rad18 homolog i s. cerevisiae. Rad18 I S. pombe er involvert i reparasjon AV DNA skadet AV UV-stråling . Sekvensene Fra c. elegans, Drosophila og human som klynge Med Rad18 innenfor forfedrefamilien er sannsynlig Å Være Rad18 homologer. Også gruppert i denne gruppen Er Spr18, et SMC-protein foreslått å være den homodimere partneren til rad18 I S. pombe . I tillegg Ligger MukB Fra Escherichia coli også innenfor denne forfedre familien. MukB er kjent for å være avgjørende for kromosom partisjonering i denne arten . Klyngen Av Rad18-homologene med de forfedre SMC-proteinene observeres ikke i det fylogenetiske treet konstruert Av Cobbe og Heck .

Figur 2
figur2

Evolusjonært tre FOR smc-proteiner, opprettet ved HJELP AV PHYLIP . Hver AV DE fem SMC-familiene er uthevet og merket. Navnene på de eukaryotiske proteinene som er tilstede i forfedrefamilien er understreket. Bootstrap verdier fra 100 bootstrap forsøk vises på de primære grener av treet. VANN, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus unik svart; BACSU, slags bacillus subtil; CAEEL, Caenorhabditis elegant; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, Den Japanske pufferfish; METJA, Methanococcus jannaschii; MUS,mus; MYCGE, Mycoplasma genital; MYCHR, MYCOPLASMA Hyorhinis; mycpn, mycoplasma Pneumoni; pyrab, pyrococcus abyssii; pyrho, pyrococcus horikoshii; schp, schizosaccharomyces POMBE; SYNSP, Synechocystis sp. THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; GJÆR, Saccharomyces cerevisiae.

en uvanlig sekvens homolog AV SMC3 i mus (SMCD) har allerede blitt rapportert i form av bamacan, en kondroitinsulfat proteoglykan . Dette proteinet er kjent for å ha 100% sekvensidentitet TIL SMCD . Her identifiserer vi en annen ny homolog, Mmip1, som også deler en ekstremt høy sekvensidentitet med mus SMCD. Mmip1 (Mad interagerende protein 1) ble identifisert fra en gjær to-hybrid skjerm for proteiner som binder Mxi, en grunnleggende helix-loop-helix (bHLH) transkripsjonsfaktor . Mmip1 er et grunnleggende helix-loop-helix glidelås (bHLH-ZIP) protein som sterkt dimerizes Med Mad1, Mxi, Mad3 Og Mad4, men ikke Med Max eller C-Myc . En Clustal x-justering Av Mmip1 med SMCD avslører At Mmip1 mangler det første kuleformede domenet og det første coiled-coil-domenet som er felles FOR SMC-proteiner. I justeringen er det 40% sekvensidentitet Mellom Mmip1 OG SMCD over hele lengden AV SMCD (1,217 aminosyrer). Over Lengden Av Mmip1-proteinet (485 aminosyrer) deler proteinet 99% sekvensidentitet med SMCD. Disse høye prosentsekvensidentitetene reflekteres også I DNA-sekvensene som koder for disse proteinene. CDNA som koder For Mmip1-proteinet er 100% identisk med cDNA som koder FOR SMCD over De 2,612 baseparene I Mmip1-sekvensen.

det har tidligere blitt foreslått at eubakterier inneholder et enkelt forfedre SMC-protein . PSI-BLAST-søket ETTER SMC-homologer i det nåværende arbeidet identifiserte to SMC-relaterte proteiner i to arter av eubakterier, B. subtilis Og Aquifex aeolicus. I begge arter har en sekvens tidligere blitt identifisert SOM EN SMC homolog, mens funksjonen til den andre er ukjent. De to sekvensene fra b. subtilis deler 95% sekvensidentitet, mens De to sekvensene fra A. aeolicus deler 20% sekvensidentitet. Alle fire homologene inneholder Et Walker a-og B-motiv, og De to homologene fra b. subtilis inneholder DE fem domenene som er karakteristiske FOR SMC-proteinene (Figur 1a). A. aeolicus protein kjent FOR Å være EN SMC homolog (TrEMBL tiltredelse nummer O60878) inneholder også de fem domener, inkludert de to kveilet-coil domener adskilt av en hengsel region av 180-200 rester. Imidlertid har den andre homolog I A. aeolicus (TrEMBL tiltredelsesnummer O67124) de to spiralspoledomenene (spådd Ved Bruk Av Spoler), men hengselområdet som skiller dem består av bare omtrent 10-20 rester. I den nåværende modellen AV SMC dimers hengsel regionen tillater folding av strukturen i en tilnærmet symmetrisk kompleks (Figur 1b). For Dette A. aeolicus homolog, derimot, den meget korte hengsel regionen ville begrense omfanget av folding. I denne arten, to homodimere SMC strukturer kan dannes, en fra fem-domene SMC og en fra fire-domene SMC homolog mangler hengseldomenet. Tilstedeværelsen av to potensielle SMC-homologer I b. subtilis kan imidlertid bety at den heterodimere modellen FOR SMC-interaksjoner foreslått for eukaryoter (for eksempel ) også kan utvides til noen prokaryoter. Tilstedeværelsen av to SMC-homologer i noen eubakterier er ikke vist i SMC-fylogenetisk tre konstruert Av Cobbe og Heck .

SCC-proteiner

SCC-proteinene finnes bare i eukaryoter og er ikke like godt karakterisert SOM SMC-proteinene. Scc1 (også identifisert SOM MCD1) er fysisk assosiert MED SMC1 protomeren i komplekset . Homologer I S. Pombe, Xenopus laevis, mennesker og Drosophila er identifisert Som Rad21-proteiner (Tabell 1), involvert i reparasjon AV DNA-dobbeltstrengede brudd indusert av ioniserende stråling. Scc3 (TIDLIGERE IDENTIFISERT SOM IRR1 ) inneholder en nukleær lokaliseringssekvens (se senere) og en rekke homologer er identifisert (Tabell 1). Scc3-homologer i Drosophila, mus, menneske og Arabidopsis er en familie av stromalinproteiner som deler mellom 20-25% sekvensidentitet (Tabell 1). I Drosophila, mus og menneske er det to stromalinproteiner (dSA, dSA2; SA1, SA2; og STAG1, STAG2, henholdsvis), som ligger i kjernen, men deres funksjon er ukjent. I tillegg HAR STAG3 blitt identifisert hos mennesker og foreslås å være involvert i kromosomparing under meiose.

Scc2 Og Scc4 er de nylig identifiserte kohesinbelastningsfaktorene . Homologer Til Scc2 har blitt identifisert I S. pombe (Mis4) Og Drosophila( Nipped-B), Coprinus cinereus (Rad9 og human (IDN3-B; TrEMBL tiltredelsesnummer Q9Y6Y3) (Tabell 1). Mis4 I S. pombe er nødvendig for lik kromatidseparasjon i anafase og har en funksjon forskjellig fra kohesin . Rad9-genproduktet I c. cinereus er avgjørende for normal fullføring av meiose. Nipped-b-genproduktet foreslås å fungere arkitektonisk mellom transkripsjonsforsterkere og promotorer for å lette enhancer-promotorinteraksjoner . FUNKSJONEN TIL IDN3-b-genet hos mennesker er ukjent, annet enn at DET fortrinnsvis uttrykkes i hepatocellulære karsinomer (HCC) . DET har blitt foreslått at DISSE SCC-molekylene representerer en familie av ‘adherins’ som deler et stort sentralt kjernedomene av sekvenshomologi .

Scc4 ble identifisert som et produkt av open reading frame (ORF) YER147C, og omfatter en sekvens av 624 aminosyrer som inkluderer ET AMP-bindende motiv. Men annet enn å interagere Med Scc2 og være involvert i etableringen av søsterkromatid-kohesjon, er lite kjent om dette proteinet. Scc4 har ingen identifiserbare sekvenshomologer i enten fullsekvens-eller EST-databasene, og kan derfor være produktet av et foreldreløst gen.

Samhørighetsinteraksjonsnettverk

et samhørighetsinteraksjonsnettverk ble opprettet ved å samle informasjon fra to proteomdatabaser og litteraturen (Figur 3). I Figur 3 trekkes linjer mellom proteiner for å indikere kjente eller potensielle interaksjoner. Dataene som interaksjonene er avledet fra, er angitt i en detaljert nøkkel som skiller mellom de to proteomiske databasene (og mellom de forskjellige datakildene i hver database) og litteraturen. Fire proteiner (Esp1, Trf4, Prp11 Og Tid3) interagerer direkte med SMC-eller SCC-proteiner i s. cerevisiae. Samspillet Mellom Esp1 Og Scc1 er for tiden kjent på et funksjonelt nivå, og dets betydning er allerede diskutert. Denne interaksjonen er tidsavhengig og har ikke blitt identifisert i gjær to-hybrid skjermen, og denne informasjonen er foreløpig ikke registrert i YPD.

Figur 3
figur3

cohesion interaction network. Linjer som forbinder proteiner indikerer kjente eller potensielle interaksjoner som avledet fra to proteomiske databaser og litteraturen. Kohesin og belastningsfaktorene er i gult; ytterligere proteiner involvert i kohesjon eller samspill med kohesin eller belastningsfaktorene er i blått; alle andre proteiner i nettverket er i hvitt. Proteiner skissert med bokser er en del av makromolekylære komplekser. Prp11 er en del av et kompleks i spliceosomalbanen, Og Apc2 er en del av anafasefremmende kompleks (APC). Tid3p Og Spc24 er begge deler av spindelpol kroppen. Faste svarte linjer indikerer proteiner som danner dimere interaksjoner. Kohesjonsnettverket av 17 proteiner inkluderer alle de merkede, unntatt Apc2, Tid4, Tid1 og Rad51.

Trf4 er et protein involvert i både mitotisk kromosomkondensasjon og søsterkromatid-kohesjon . I X. laevis Trf4 samhandler Med Smc1 Og Smc2 , og I s. cerevisiae trp4 samhandler Med Smc1 Og Trf5, et annet medlem AV trf-familien. Trf4 homologer har blitt identifisert I S. pombe, C. elegans, Drosophila, human Og Arabidopsis (Tabell 2). Trf4 har nylig blitt identifisert SOM EN DNA-polymerase med β-polymerase-lignende egenskaper og er nå betegnet DNA-polymerase κ (fjerde klasse av nukleære DNA-polymeraser) . Fjern homologer Av s. cerevisiae Trf4 inkluderer koffein-indusert celledød protein I (Cid1)I S. pombe (13 .4% sekvensidentitet) og polynukleotidadenyltransferaseenzymet fra en rekke organismer, inkludert S. pombe og mennesker (henholdsvis 10,2% og 9,7% sekvensidentitet). Cid1 er av spesiell interesse som det antas å spille en rolle I S-M checkpoint pathway I S. pombe . Som en homolog Av Trf4 Kan Cid1 være koblingen mellom søsterkromatid-kohesjon og denne kontrollpunktveien.

Tabell 2 tre kohesin-interagerende proteiner Fra S. cerevisiae og deres sekvenshomologer

Prp11 er en gjær spleising faktor involvert i de tidlige stadier av spliceosomal assembly pathway . Prp11 er et 266 aminosyreprotein som inneholder et sinkfingerdomene som er felles FOR RNA-bindende proteiner . Denne spleisingsfaktoren danner et kompleks Med to andre, Prp9 Og Prp21, som sammen Med Prp5 kreves For binding Av U2 snRNP til pre-mRNA . Det er homologer av denne spleisingsfaktoren I S. pombe, C. elegans, Drosophila, Arabidopsis, mus og menneske (Tabell 2) og alle inkluderer RNA-bindende motivet. Hos mus og mennesker er homolog SAP62 (spliceosom-assosiert protein), et spliceosomalt protein som binder seg til pre-mRNA i det prespliceosomale komplekset .

Tid3 (NCD80) er et spindelpolprotein som har homologer i en rekke eukaryoter(Tabell 2). Tid3 forventes å interagere Med Smc1 Og Smc2, og har vist seg eksperimentelt å interagere Med Spc24, en annen komponent i spindelpollegemet. Interaksjoner mellom human homolog Av Tid3, Hec1, og human Smc1 og Smc2 homologer har også blitt observert . Interaksjonene Mellom Tid3 og underenheter fra både kohesin-og kondensinmakromolekylene, plasserer Den sammen Med Trf4 og Scc1, som et protein som er integrert involvert i begge mekanismer. Det er også foreslått At Hec1 kan være involvert i kromatinmontering i sentromere og regulering av kinetochore . Spc24, En interaksjonspartner Av Tid3, interagerer også Med Prp11, gjær spleisingsfaktoren som er knyttet til kohesjonsbelastningsfaktorene gjennom samspillet Med Scc2 (Figur 3).

et felles OPPSTRØMS DNA-element

oppstrømsregionene i genene som koder for 17 proteiner i kohesjonsnettet (Figur 3) ble søkt etter delte motiver ved Hjelp Av AlignACE. Tre konsensusmotiver ble identifisert som var felles for undergrupper av de 17 gener. Bare ett motiv ble funnet å være relativt spesifikt, men samsvarende oppstrøms sekvenser av bare 29 gener i SGD(se Materialene og metodene). Dette motivet har konsensussekvensen A6ACGCGTH2RXAAX og inkluderer MluI celle-syklus boks (MCB) element (konsensussekvens ACGCGT). Det utvidede konsensusmotivet som ble funnet i det nåværende arbeidet var tilstede i oppstrøms regioner Av genene som koder For Scc1, Scc3, Smc3, Pds1, Eco1 og Spc24. Dette motivet var plassert mellom 123-299 basepar (bp) oppstrøms av genene som koder for disse seks proteinene. Et søk på SGD avslørte 23 ekstra gener som inneholdt dette oppstrøms motivet. Åtte av disse ekstra gener kodet hypotetiske proteiner av ukjent funksjon. Imidlertid inkluderte disse ekstra gener også de kodende anstand (JEM1 Og PDI1n), transkripsjonsfaktorkomponenter (TFA1, RFA2, RNA polymerase II, SPT20 OG PRT1) og EN yc-komponent av proteasomet. Når søket ble utvidet til 2,000 bp oppstrøms for 5 ‘ uoversatte regioner av gjærgenomet, ble genet som koder For Trf4 også funnet å inneholde dette konsensusmotivet (1,560 bp oppstrøms).

Delte motiver i cohesion interaction network

Teiresias, en mønsteroppdagelsesalgoritme , ble brukt til å søke etter felles motiver mellom to eller flere sekvenser i de 17 proteinene i cohesion network. Det høyeste antall proteiner som deler et felles motiv var tre, og DISSE var DE tre SMC-proteinene, som har en høy sekvensidentitet og deler kjente Prosittmotiver (Tabell 3). Mer interessant var 24 mønsterkamper funnet mellom par proteiner i nettverket. Et antall proteiner deler mer enn ett sekvensmotiv med det samme proteinet. Alle delte motiver var enten spesifikke for de to proteinene i kohesjonsnettverket, eller i tilfelle av tre motiver, delt av en annen proteinsekvens.

Tabell 3 PROSITT-sekvensmotiver plassert ved Hjelp Av ProfileScan i proteiner involvert i søsterkromatid-kohesjonsmekanismen

Ett motiv som deles av to sekvenser i nettverket og en ekstra sekvens, er DXXPENIXLXKN motivet som deles Av sekvensene Av Scc2, Chk1 og et tredje s. cerevisiae protein PKH1(gjær ORF YDR490C) (Figur 4). Både Chk1 og PKH1 er serin / treonin (ST) proteinkinaser, og motivet de deler Med Scc2 inkluderer en del AV PROSITE ST kinase signaturmotivet (XXDKXXN(3), Hvor X indikerer rester, (3) indikerer at den forrige resten gjentas tre ganger, Og D er det aktive stedet resten). Sekvensen Av Scc2 samsvarer ikke MED ST kinase signaturmotivet nøyaktig. Av de 13 rester I st kinase motiv, Scc2 har fire uoverensstemmelser, men, viktigere, den aktive-site asparaginsyre er konservert.

Figur 4
figur4

Sekvensjustering av det konserverte motivet I Scc2, Chk1 og Pkh1, som inkluderer PROSITT serin/treonin (s / T) proteinkinasemotivet. I justeringen er de konserverte restene av motivet identifisert Ved Hjelp Av Teiresias i rødt og ytterligere konserverte stillinger er i grønt. Resterne som sammenfaller Med s / T-kinasemotivet er skissert med en boks. Tallet før hvert motiv angir posisjonen til den første residuet i hele sekvensen. PROSITE s / T kinase-motivet vises under justeringen. De alternative rester er vist i kvadrerte parentes; X betegner noen rester; den aktive-site asparaginsyre er i blått.

ET annet motiv som deles av et tredje protein som ikke er inkludert I kohesjonsnettverket var SXXSXLKKKXLXT; dette finnes I Scc1, Scc2 OG gjær ORF YHR011W, en antatt seryl-tRNA syntetase (Figur 5a). Dette motivet var imidlertid ikke en del av tRNA ligase-motivet I YHR011W, eller av noe annet kjent motiv i denne sekvensen. ET tredje motiv delt av et protein fra utenfor kohesjonsnettverket var NDXNXDDXDN, delt Av Scc1, Smc1 og En P-Type ATPase Fra Plasmodium yoelii (Figur 5b). Scc4 er en av de kohesinbelastningsfaktorene som ingen kjent homolog er funnet for. Dette proteinet ble imidlertid funnet å dele et 10-restsekvensmotiv (GKXVALTNAK) Med Smc3 (Figur 5c).

Figur 5
figur5

Sekvensjusteringer for tre motiver som deles av proteiner i kohesjonsnettverket. (a) et motiv som deles Av Scc2 Og Trf4 i nettverket og en antatt seryl-tRNA syntetase (YHH1) fra gjær. (b) et motiv som deles Av Scc1, Smc1 og En P-Type ATPase Fra Plasmodium yoelii. (c) et motiv som deles av cohesin loading factor Scc4 OG SMC3. I hver justering er de konserverte restene av motivet identifisert Ved Hjelp Av Teiresias i rødt og ytterligere konserverte stillinger er i grønt. Tallet før hvert motiv angir posisjonen til den første residuet i hele sekvensen.

securin Pds1 er en anafasehemmer som inneholder et destruksjonsboksmotiv (RXXXLXXXXN), som retter seg mot dette proteinet for destruksjon AV apc ubiquitin ligase. Vi fant tre destruksjonsboksmotiver I Smc3, en i hengselområdet (i posisjon 682, RTRLESLKN) og to i det andre spiralspoledomenet (en i posisjon 744 (RTSLNTKKN) og en i posisjon 920 (RLLLKKLDN)). VI fant OGSÅ ET KEN-boksmotiv (et ekstra apc-gjenkjenningssignal) I SMC2 i posisjon 304 (KENGLLN), i det første coiled-coil-domenet.



+