kohesinkomplexet: sekvenshomologier, interaktionsnätverk och delade motiv

homologer av kohesinproteiner

SMC-proteiner

en psi-BLAST-sökning efter sekvenshomologer av SMC1 och SMC3 från Saccharomyces cerevisiae avslöjade homologer från många arter av eukaryoter, archaea och Eubacteria som tidigare rapporterats (tabell 1). Dessa homologiska sökningar gav grunden för ett fylogenetiskt träd och för analys av nya sekvenshomologer.

Tabell 1 proteiner involverade i systerkromatidsammanhållning i S. cerevisiae, och deras sekvenshomologer

SMC fylogenetiskt träd skapat från anpassningen av SMC3-homologer (Figur 2) avslöjar fem familjer: Smc1-Smc4 från eukaryoter och en femte ’förfäders’ familj som inkluderar SMCs från eubacteria och archaea. Denna förfäderfamilj innehåller också ett antal eukaryota proteiner från S. cerevisiae, Schizosackaromyces pombe, Caenorhabditis elegans, Drosophila melanogaster och människor. Var och en av dessa eukaryoter har SMC-proteiner från alla fem familjerna. De eukaryota proteinerna inom förfäderfamiljen inkluderar Rad18 från S. pombe och Rhc18, Rad18 homolog i S. cerevisiae. Rad18 i S. pombe är involverad i reparation av DNA som skadas av UV-strålning . Sekvenserna från C. elegans, Drosophila och människa som kluster med Rad18 inom förfäderfamiljen kommer sannolikt att vara Rad18-homologer. Grupperas också inom denna grupp är Spr18, ett SMC-protein som föreslås vara den homodimera partnern för rad18 i S. pombe . Dessutom ligger MukB från Escherichia coli också inom denna förfäderfamilj. MukB är känt för att vara avgörande för kromosompartitionering i denna art . Klustringen av rad18-homologerna med förfädernas SMC-proteiner observeras inte i det fylogenetiska trädet konstruerat av Cobbe och Heck .

Figur 2
figur2

evolutionärt träd för SMC-proteiner, Skapat med PHYLIP . Var och en av de fem SMC-familjerna är markerade och märkta. Namnen på de eukaryota proteinerna som finns i förfäderfamiljen understryks. Bootstrap-värden från 100 bootstrap-försök visas på trädets primära grenar. Vatten, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, Aspergillus unik svart; BACSU, typ av Bacillus subtil; CAEEL, Caenorhabditis elegant; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, den japanska blåsfisken; METJA,Methanococcus jannaschii; MUS, mus; MYCGE, Mycoplasma genital; MYCHR, Mycoplasma Hyorhinis; mycpn, Mycoplasma pneumoni; pyrab, PYROCOCCUS Abyssii; pyrho, PYROCOCCUS horikoshii; SCHP, schizosaccharomyces pombe; SYNSP, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; jäst, Saccharomyces cerevisiae.

en ovanlig sekvenshomolog av SMC3 i mus (SMCD) har redan rapporterats i form av bamacan, en kondroitinsulfatproteoglykan . Detta protein är känt för att ha 100% sekvensidentitet till SMCD . Här identifierar vi en annan ny homolog, Mmip1, som också delar en extremt hög sekvensidentitet med mus SMCD. Mmip1 (Mad interactive protein 1) identifierades från en jäst två-hybrid skärm för proteiner som binder Mxi, en grundläggande helix-loop-helix (bHLH) transkriptionsfaktor . Mmip1 är en grundläggande helix-loop-helix dragkedja (bHLH-ZIP) protein som starkt dimerizes med Mad1, Mxi, Mad3 och Mad4, men inte med Max eller c-Myc . En Clustal X-inriktning av Mmip1 med SMCD avslöjar att Mmip1 saknar den första globulära domänen och den första spolade spoldomänen som är gemensam för SMC-proteiner. I inriktningen finns 40% sekvensidentitet mellan Mmip1 och SMCD över hela längden av SMCD (1 217 aminosyror). Över längden av mmip1-proteinet (485 aminosyror) delar emellertid proteinet 99% sekvensidentitet med SMCD. Dessa högprocentiga sekvensidentiteter återspeglas också i DNA-sekvenserna som kodar för dessa proteiner. CDNA-kodningen av mmip1-proteinet är 100% identiskt med cDNA-kodningen SMCD över de 2 612 basparen i mmip1-sekvensen.

det har tidigare föreslagits att eubakterier innehåller ett enda förfäders SMC-protein . PSI-BLAST-sökningen efter SMC-homologer i det aktuella arbetet identifierade två SMC-relaterade proteiner i två arter av eubakterier, B. subtilis och Aquifex aeolicus. I båda arterna har en sekvens tidigare identifierats som en SMC-homolog, medan den andra funktionen är okänd. De två sekvenserna från B. subtilis delar 95% sekvensidentitet, medan de två sekvenserna från A. aeolicus delar 20% sekvensidentitet. Alla fyra homologerna innehåller ett Walker A-och B-motiv, och de två homologerna från B. subtilis innehåller de fem domäner som är karakteristiska för SMC-proteinerna (Figur 1a). A. aeolicusprotein som är känt för att vara en SMC-homolog (TrEMBL-anslutningsnummer O60878) innehåller också de fem domänerna, inklusive de två spolade spoldomänerna åtskilda av en gångjärnsregion på 180-200 rester. Den andra homologen i A. aeolicus (TrEMBL-anslutningsnummer O67124) har emellertid de två spolade spoldomänerna (förutsagda med spolar ) men gångjärnsområdet som skiljer dem består av endast cirka 10-20 rester. I den nuvarande modellen av SMC-dimerer tillåter gångjärnsområdet vikning av strukturen till ett ungefärligt symmetriskt komplex (Figur 1b). För detta A. aeolicus homolog, i alla fall, den mycket korta gångjärnsregionen skulle begränsa vikningsområdet. I denna art kunde två homodimera SMC-strukturer bildas, en från femdomänen SMC och en från fyradomänen SMC homolog saknar gångjärnsdomänen. Närvaron av två potentiella SMC-homologer I B. subtilis kan emellertid innebära att den heterodimera modellen för SMC-interaktioner som föreslås för eukaryoter (till exempel ) också kan utvidgas till vissa prokaryoter. Närvaron av två SMC-homologer i vissa eubakterier visas inte i SMC fylogenetiskt träd konstruerat av Cobbe och Heck .

SCC-proteiner

SCC-proteinerna finns endast i eukaryoter och karakteriseras inte lika bra som SMC-proteinerna. Scc1 (även identifierad som MCD1) är fysiskt associerad med SMC1-protomeren i komplexet . Homologer i S. pombe , Xenopus laevis , människor och Drosophila identifieras som rad21-proteiner (Tabell 1), involverade i reparation av DNA-dubbelsträngade raster inducerade av joniserande strålning. Scc3 (tidigare identifierad som IRR1 ) innehåller en nukleär lokaliseringssekvens (se senare) och ett antal homologer har identifierats (Tabell 1). Scc3-homologer i Drosophila, mus, människa och Arabidopsis är en familj av stromalinproteiner som delar mellan 20-25% sekvensidentitet (Tabell 1). I Drosophila, mus och människa finns två stromalinproteiner (dSA, dSA2; SA1, SA2; respektive STAG1, STAG2), som är belägna i kärnan, men deras funktion är okänd. Dessutom har STAG3 identifierats hos människor och föreslås vara involverad i kromosomparning under meios.

Scc2 och Scc4 är de nyligen identifierade kohesinbelastningsfaktorerna . Homologer till Scc2 har identifierats i S. pombe (Mis4) och Drosophila (Nipped-B), Coprinus cinereus (Rad9 och human (IDN3-B; TrEMBL anslutningsnummer Q9Y6Y3) (Tabell 1). Mis4 i S. pombe krävs för lika kromatidseparation i anafas och har en funktion som skiljer sig från kohesin . Rad9-genprodukten i C. cinereus är väsentlig för normal slutförande av meios. Den nippade-B-genprodukten föreslås fungera arkitektoniskt mellan transkriptionsförstärkare och promotorer för att underlätta interaktioner mellan förstärkare och promotor . Funktionen hos IDN3-B-genen hos människor är okänd, annat än den uttrycks företrädesvis i hepatocellulära karcinom (HCC) . Det har föreslagits att dessa SCC-molekyler representerar en familj av ’adheriner’ som delar en stor central kärndomän för sekvenshomologi .

Scc4 identifierades som en produkt av open reading frame (ORF) YER147C och innefattar en sekvens av 624 aminosyror som inkluderar ett AMP-bindande motiv. Men annat än att interagera med Scc2 och vara involverad i etableringen av syster-kromatidkohesion, är lite känt om detta protein. Scc4 har inga identifierbara sekvenshomologer i antingen fullsekvensen eller EST-databaserna och kan därför vara produkten av en föräldralös gen.

Sammanhållningsinteraktionsnätverk

ett sammanhållningsinteraktionsnätverk skapades genom att samla information från två proteomdatabaser och litteraturen (Figur 3). I Figur 3 dras linjer mellan proteiner för att indikera kända eller potentiella interaktioner. De data som interaktionerna härrör från anges i en detaljerad nyckel som skiljer mellan de två proteomiska databaserna (och mellan de olika datakällorna i varje databas) och litteraturen. Fyra proteiner (Esp1, Trf4, Prp11 och Tid3) interagerar direkt med SMC-eller SCC-proteiner i S. cerevisiae. Samspelet mellan Esp1 och Scc1 är för närvarande känt på funktionell nivå och dess betydelse har redan diskuterats. Denna interaktion är tidsberoende och har inte identifierats i jäst-tvåhybridskärmen, och denna information registreras för närvarande inte i YPD.

Figur 3
figur3

sammanhållningsinteraktionsnätverket. Linjer som förbinder proteiner indikerar kända eller potentiella interaktioner som härrör från två proteomiska databaser och litteraturen. Kohesin och belastningsfaktorerna är i gult; ytterligare proteiner som är involverade i sammanhållning eller interagerar med kohesin eller belastningsfaktorerna är i blått; alla andra proteiner i nätverket är i vitt. Proteiner som skisseras med lådor är en del av makromolekylära komplex. Prp11 är en del av ett komplex i den spliceosomala vägen, och Apc2 är en del av det anafasfrämjande komplexet (APC). Tid3p och Spc24 är båda en del av spindelpolskroppen. Fasta svarta linjer indikerar proteiner som bildar dimera interaktioner. Sammanhållningsnätverket av 17 proteiner inkluderar alla de märkta, exklusive Apc2, Tid4, Tid1 och Rad51.

Trf4 är ett protein involverat i både mitotisk kromosomkondensation och systerkromatidkohesion . I X. laevis Trf4 interagerar med Smc1 och Smc2 , och i S. cerevisiae Trp4 interagerar med Smc1 och Trf5 , en annan medlem av TRF-familjen. Trf4-homologer har identifierats i S. pombe, C. elegans, Drosophila, human och Arabidopsis (Tabell 2). Trf4 har helt nyligen identifierats som ett DNA-polymeras med egenskaper som liknar den som liknar den och betecknas nu som DNA-polymeras (den fjärde klassen av nukleära DNA-polymeraser) . Avlägsna homologer av S. cerevisiae Trf4 inkluderar det koffeininducerade celldödsproteinet i (Cid1) i S. pombe (13.4% sekvensidentitet) och polynukleotidadenyltransferasenzym från ett antal organismer inklusive S. pombe och människor (10,2% respektive 9,7% sekvensidentitet). Cid1 är av särskilt intresse eftersom det trodde att spela en roll i S-M checkpoint pathway i S. pombe . Som en homolog av Trf4 kan Cid1 vara länken mellan syster-kromatidkohesion och denna kontrollpunktväg.

Tabell 2 tre kohesin-interagerande proteiner från S. cerevisiae och deras sekvens homologer

Prp11 är en jäst splitsningsfaktor involverad i de tidiga stadierna av den spliceosomala monteringsvägen . Prp11 är ett 266 aminosyraprotein som innehåller en zinkfingerdomän som är gemensam för RNA-bindande proteiner . Denna splitsningsfaktor bildar ett komplex med två andra, Prp9 och Prp21, som tillsammans med Prp5 krävs för bindning av U2 snRNP till pre-mRNA . Det finns homologer av denna skarvningsfaktor i S. pombe, C. elegans, Drosophila, Arabidopsis, mus och människa (Tabell 2) och alla inkluderar RNA-bindande motiv. Hos mus och människor är homologen SAP62 (spliceosome-associated protein), ett spliceosomalt protein som binder till pre-mRNA i det prespliceosomala komplexet .

Tid3 (NCD80) är ett spindelpoligt kroppsprotein som har homologer i ett antal eukaryoter (Tabell 2). Tid3 förutspås interagera med Smc1 och Smc2 och har visats experimentellt att interagera med Spc24, en annan komponent i spindelpolkroppen. Interaktioner mellan den mänskliga homologen av Tid3, Hec1 och humana Smc1-och Smc2-homologer har också observerats . Interaktionerna mellan Tid3 och subenheter från både kohesin-och kondensinmakromolekylerna placerar den tillsammans med Trf4 och Scc1, som ett protein som är integrerat involverat i båda mekanismerna. Det föreslås också att Hec1 kan vara involverad i kromatinmontering i centromeren och reglering av kinetochore . Spc24, en interaktionspartner till Tid3, interagerar också med Prp11, jästsplitsningsfaktorn som är kopplad till kohesinbelastningsfaktorerna genom dess interaktion med Scc2 (Figur 3).

ett vanligt uppströms-DNA-element

uppströmsregionerna för generna som kodar för 17 proteiner i kohesin-nätverket (Figur 3) sökte efter delade motiv med hjälp av AlignACE. Tre konsensusmotiv identifierades som var vanliga för delmängder av de 17 generna. Endast ett motiv befanns vara relativt specifikt, men matchade uppströmssekvenser av endast 29 gener i SGD (se material och metoder). Detta motiv har konsensussekvensen A6ACGCGTH2RXAAX och inkluderar mlui cellcykelbox (MCB)-elementet (konsensussekvens ACGCGT) . Det utökade konsensusmotivet som hittades i det aktuella arbetet var närvarande i uppströmsregioner av generna som kodar för Scc1, Scc3, Smc3, Pds1, Eco1 och Spc24. Detta motiv lokaliserades mellan 123-299 baspar (bp) uppströms om generna som kodar för dessa sex proteiner. En sökning av SGD avslöjade 23 ytterligare gener som innehöll detta uppströms motiv. Åtta av dessa ytterligare gener kodade hypotetiska proteiner med okänd funktion. Dessa ytterligare gener inkluderade emellertid också de kodande chaperonerna (JEM1 och PDI1n), transkriptionsfaktorkomponenter (TFA1, RFA2, RNA-polymeras II, SPT20 och PRT1) och en YC-komponent i proteasomen. När sökningen utvidgades till 2000 bp uppströms om de 5′ oöversatta regionerna i jästgenomet, visade sig genen som kodar Trf4 också innehålla detta konsensusmotiv (1560 bp uppströms).

delade motiv inom sammanhållningsinteraktionsnätverket

Teiresias , en mönsterupptäcktsalgoritm, användes för att söka efter vanliga motiv mellan två eller flera sekvenser i de 17 proteinerna i sammanhållningsnätverket. Det högsta antalet proteiner som delar ett gemensamt motiv var tre, och dessa var de tre SMC-proteinerna, som har en hög sekvensidentitet och delar Kända Prositmotiv (tabell 3). Mer intressant var 24 mönstermatchningar som hittades mellan par av proteiner i nätverket. Ett antal proteiner delar mer än ett sekvensmotiv med samma protein. Alla delade motiv var antingen specifika för de två proteinerna i sammanhållningsnätverket, eller i fallet med tre motiv, delade av en annan proteinsekvens.

tabell 3 prosite sekvensmotiv lokaliserade med hjälp av Profilerkan i proteiner som är involverade i systerkromatid sammanhållningsmekanismen

ett motiv som delas av två sekvenser i nätverket och en ytterligare sekvens är dxxpenixlxkn-motivet som delas av sekvenserna av Scc2, Chk1 och ett tredje S. cerevisiae-protein PKH1 (jäst ORF YDR490C) (Figur 4). Både Chk1 och PKH1 är serin/treonin (ST) proteinkinaser, och motivet de delar med Scc2 inkluderar en del av PROSITE ST-Kinas signaturmotiv (XXDKXXN(3), Där X indikerar någon rest, (3) indikerar att den tidigare återstoden upprepas tre gånger, och D är den aktiva platsresten). Sekvensen för Scc2 matchar inte ST kinase-signaturmotivet exakt. Av de 13 resterna i ST-kinasmotivet har Scc2 fyra felmatchningar men, viktigare, asparaginsyran på aktivt ställe bevaras.

Figur 4
figur4

Sekvensinriktning av det konserverade motivet i Scc2, Chk1 och Pkh1, som inkluderar PROSITE serin/treonin (S/T) proteinkinasmotiv. I inriktningen är de konserverade resterna av motivet som identifierats med Teiresier i rött och ytterligare konserverade positioner är i grönt. Resterna som sammanfaller med S/T-kinasmotivet skisseras med en låda. Numret före varje motiv anger positionen för den första återstoden i hela sekvensen. Prosite S / T-kinasmotivet visas under inriktningen. De alternativa resterna visas i kvadrerade parenteser; X betecknar vilken rest som helst; den aktiva platsen asparaginsyra är i blått.

ett andra motiv som delas av ett tredje protein som inte ingår i sammanhållningsnätverket var SXXSXLKKKXLXT; detta finns i Scc1, Scc2 och jäst ORF YHR011W, ett förmodat seryl-tRNA-syntetas (figur 5a). Emellertid var detta motiv inte en del av tRNA-ligasmotivet av YHR011W, eller av något annat känt motiv inom denna sekvens. Ett tredje motiv som delades av ett protein utanför sammanhållningsnätverket var NDXNXDDXDN, delat av Scc1, Smc1 och ett p-typ ATPas från Plasmodium yoelii (figur 5b). Scc4 är en av de kohesinbelastningsfaktorer för vilka ingen känd homolog har hittats. Detta protein visade sig emellertid dela ett 10-restsekvensmotiv (GKXVALTNAK) med Smc3 (figur 5c).

Figur 5
figur5

Sekvensinriktningar för tre motiv som delas av proteiner i sammanhållningsnätverket. (a) ett motiv som delas av Scc2 och Trf4 i nätverket och ett förmodat seryl-tRNA-syntetas (YHH1) från jäst. (b) ett motiv som delas av Scc1, Smc1 och en P-typ ATPas från Plasmodium yoelii. C) ett motiv som delas av cohesin-belastningsfaktorn Scc4 och SMC3. I varje inriktning är de konserverade resterna av motivet som identifieras med Teiresier i rött och ytterligare konserverade positioner är i grönt. Numret före varje motiv anger positionen för den första återstoden i hela sekvensen.

securin Pds1 är en anafasinhibitor som innehåller ett destruction box-motiv (RXXXLXXXXN) , som riktar sig mot detta protein för destruktion av APC ubiquitinligas. Vi hittade tre förstörelse box motiv i Smc3, en i gångjärnsområdet (vid position 682, RTRLESLKN) och två i den andra lindade-spole domän (en vid position 744 (RTSLNTKKN) och en vid position 920 (RLLLKKLDN)). Vi hittade också ett Ken-box-motiv (en ytterligare APC-igenkänningssignal ) i SMC2 vid position 304 (KENGLLN), i den första spolade spoldomänen.



+