cohesin komplex: sekvence homologies, interakce sítě a sdílené motivy

Homologů z cohesin bílkoviny

SMC proteiny

PSI-BLAST vyhledávání pro sekvenční homology z SMC1 a SMC3 ze Saccharomyces cerevisiae odhalila homologů z mnoha druhů eukaryot, archaea a eubacteria jak bylo oznámeno dříve (Tabulka 1). Tato homologická vyhledávání poskytla základ pro fylogenetický strom a pro analýzu nových sekvenčních homologů.

Tabulka 1 Proteiny se podílejí sestra chromatid soudržnosti v S. cerevisiae, a jejich pořadí homologů

SMC fylogenetický strom vytvořený z vyrovnání SMC3 homologů (Obrázek 2) ukazuje pět rodin: Smc1-Smc4 z eukaryot a pátý ‚předků‘ rodina, která zahrnuje jižního středomoří od eubacteria a archaea. Tento předků rodiny, také obsahuje řadu eukaryotických proteinů z S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster a lidí. Každá z těchto eukaryot má proteiny SMC ze všech pěti rodin. Eukaryotické proteiny v rodové rodině zahrnují Rad18 od S.pombe a Rhc18, Rad18 homolog v S. cerevisiae. Rad18 v S. pombe se podílí na opravě DNA poškozené UV zářením . Sekvence z C. elegans, Drosophila a human, které se shlukují s Rad18 v rodině předků, budou pravděpodobně Rad18 homologové. V této skupině je také seskupen Spr18, protein SMC navržený jako homodimerní partner rad18 v S. pombe . Kromě toho MukB z Escherichia coli také leží v této rodové rodině. Je známo, že MukB je nezbytný pro dělení chromozomů u tohoto druhu . Shlukování homologů Rad18 s proteiny SMC předků není pozorováno ve fylogenetickém stromu vytvořeném Cobbeem a Heckem .

Obrázek 2
obrázek 2

Evoluční strom pro SMC proteiny, vytvořené pomocí PHYLIP . Každá z pěti rodin SMC je zvýrazněna a označena. Názvy eukaryotických proteinů přítomných v rodové rodině jsou podtrženy. Hodnoty Bootstrap ze 100 pokusů bootstrap jsou zobrazeny na primárních větvích stromu. VODA, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus unikátní černá; BACSU, druh bacillus jemné; CAEEL, Caenorhabditis elegant; CAUCR, Caulobacter crescentus; DROS, Drosophila; E, Escherichia coli; JAPPU, Japonské pufferfish; METJA, Methanococcus jannaschii; MUS,myši; MYCGE, Mycoplasma genitální; MYCHR, Mycoplasma hyorhinis; MYCPN, Mycoplasma pneumonie; PYRAB, Pyrococcus abyssii; PYRHO, Pyrococcus horikoshii; SCHP, Schizosaccharomyces pombe; SYNSP, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; KVASINKY, Saccharomyces cerevisiae.

Jeden neobvyklý sekvenční homolog SMC3 v myši (SMCD) již byly hlášeny v podobě bamacan, chondroitin sulfát proteoglykan . Je známo, že tento protein má 100% sekvenční identitu s SMCD . Zde identifikujeme další nový homolog, Mmip1, který také sdílí extrémně vysokou sekvenční identitu s myší SMCD. Mmip1 (Mad interagující protein 1) byl identifikován z kvasinkové dvouhybridní obrazovky pro proteiny, které váží Mxi, základní transkripční faktor helix-loop-helix (bHLH). Mmip1 je základní helix-loop-helix zip (bHLH-ZIP) protein, který silně dimerizes s Mad1, Mxi, Mad3 a Mad4, ale ne s Max nebo c-Myc . Shlukové x zarovnání Mmip1 s SMCD ukazuje, že Mmip1 postrádá první globulární doménu a první doménu s cívkou společnou pro proteiny SMC. V zarovnání je 40% identita sekvence mezi Mmip1 a SMCD po celé délce SMCD (1 217 aminokyselin). Po celé délce proteinu Mmip1 (485 aminokyselin) však protein sdílí 99% sekvenční identitu se SMCD. Tyto vysoké procento identit sekvencí se také odráží v sekvencích DNA, které kódují tyto proteiny. CDNA kódující protein Mmip1 je 100% identický s cDNA kódujícím SMCD na 2 612 párů bází sekvence Mmip1.

již dříve bylo navrženo, že eubakterie obsahují jediný rodový SMC protein . PSI-BLAST hledání SMC homologů v současné práci identifikovalo dva proteiny související s SMC u dvou druhů eubakterií, B. subtilis a Aquifex aeolicus. U obou druhů byla jedna sekvence dříve identifikována jako homolog SMC, zatímco funkce druhého není známa. Dvě sekvence z B. subtilis sdílejí 95% identitu sekvence, zatímco dvě sekvence z a. aeolicus sdílejí 20% identitu sekvence. Všechny čtyři homology obsahují motiv Walkera A A B a dva homology z B. subtilis obsahují pět domén charakteristických pro proteiny SMC (obrázek 1a). A. aeolicus protein, známý jako SMC homolog (TrEMBL přistoupení číslo O60878) obsahuje také pět domén, včetně dvou coiled-coil domény odděleny závěsem oblasti 180-200 zbytků. Nicméně, druhý homolog v. A. aeolicus (TrEMBL přistoupení číslo O67124) má dvě coiled-coil domén (předpokládané použití Cívky ), ale závěs regionu oddělující nich se skládá z pouze přibližně 10-20 zbytků. V současném modelu SMC dimerů umožňuje oblast závěsu skládání struktury do přibližně symetrického komplexu (obrázek 1b). Pro tento a. aeolicus homolog, nicméně, velmi krátká oblast závěsu by omezila rozsah skládání. U tohoto druhu by mohly být vytvořeny dvě homodimerní SMC struktury, jedna z SMC s pěti doménami a jedna ze SMC homologů se čtyřmi doménami. Přítomnost dvou potenciálních SMC homologů v B. subtilis by však mohla znamenat, že heterodimerní model interakcí SMC navržený pro eukaryoty (například) by mohl být také rozšířen na některé prokaryoty. Přítomnost dvou SMC homologů v některých eubacteria není zobrazen v SMC fylogenetický strom postavené Cobbe a Sakra .

SCC bílkoviny

SCC proteiny jsou přítomny pouze u eukaryot a nejsou tak dobře charakterizována jako SMC proteiny. Scc1 (také identifikován jako MCD1) je fyzicky spojen s PROTOMEREM SMC1 v komplexu . Jeho homologů v S. pombe , Xenopus laevis , lidí a Drosophila jsou označeny jako Rad21 proteinů (Tabulka 1), které jsou zapojeny v oprava DNA dvouřetězcové zlomy indukované ionizujícím zářením. Scc3 (dříve identifikovaný jako IRR1 ) obsahuje nukleární lokalizační sekvenci (viz dále) a bylo identifikováno několik homologů (Tabulka 1). Scc3 homologů v Drosophila, myš, člověk a Arabidopsis jsou rodina stromalin proteiny, které sdílejí mezi 20-25% sekvenční identity (Tabulka 1). U Drosophily, myši a člověka existují dva stromalinové proteiny (dSA, dSA2; SA1, SA2; a STAG1, STAG2), které jsou umístěny v jádru, ale jejich funkce není známa. Kromě toho byl STAG3 identifikován u lidí a navrhuje se, aby byl zapojen do párování chromozomů během meiózy.

Scc2 a Scc4 jsou nedávno identifikované kohezinové zatěžovací faktory . Homologové k Scc2 byly identifikovány v S. pombe (Mis4 ) a Drosophila (Udusila-B ), Coprinus cinereus (Rad9 a lidské (IDN3-B; TrEMBL přistoupení číslo Q9Y6Y3) (Tabulka 1). Mis4 v S. pombe je nutná pro rovné oddělení chromatid v anafázi a má funkci odlišnou od cohesin . Produkt genu Rad9 v C. cinereus je nezbytný pro normální dokončení meiózy. Produkt genu Nipp-B je navržen tak, aby architektonicky fungoval mezi stimulátory transkripce a promotory, aby se usnadnily interakce enhancer-promotor . Funkce genu IDN3-B u lidí není známa, kromě toho, že je přednostně exprimována v hepatocelulárních karcinomech (HCC). Bylo navrženo, že tyto molekuly SCC představují rodinu „adherinů“, které sdílejí velkou centrální jádrovou doménu sekvenční homologie .

Scc4 byl identifikován jako produkt open reading frame (ORF) YER147C , a zahrnuje sekvence 624 aminokyseliny, které zahrnuje ZESILOVAČ-vázající motiv. Kromě interakce s Scc2 a zapojení do vytváření sesterské chromatidové soudržnosti je však o tomto proteinu známo jen málo. Scc4 nemá žádné identifikovatelné sekvenční homology v celé sekvenci ani v est databázích, a proto by mohl být produktem genu pro vzácná onemocnění.

Soudržnosti interakce sítě

soudržnosti, interakce sítě byl vytvořen shromažďování informací od dvou proteomu databází a literatury (Obrázek 3). Na obrázku 3 jsou nakresleny čáry mezi proteiny, které označují známé nebo potenciální interakce. Údaje, ze kterých jsou interakce odvozeny, jsou uvedeny v podrobném klíči, který rozlišuje mezi dvěma proteomickými databázemi (a mezi různými zdroji dat v každé databázi) a literaturou. Čtyři proteiny (Esp1, Trf4, Prp11 a Tid3) interagují přímo s proteiny SMC nebo SCC v S. cerevisiae. Interakce Esp1 a Scc1 je v současné době známa na funkční úrovni a její význam již byl diskutován. Tato interakce je časově závislá a nebyla identifikována v kvasinkové dvouhybridní obrazovce a tato informace není v současné době zaznamenána v YPD.

Obrázek 3
obrázek 3

soudržnosti interakce sítě. Linky spojující proteiny naznačují známé nebo potenciální interakce odvozené ze dvou proteomických databází a literatury. Kohezin a zatěžovací faktory jsou žluté; další proteiny podílející se na soudržnosti nebo interakci s kohezinem nebo zatěžovací faktory jsou modré; všechny ostatní proteiny v síti jsou bílé. Proteiny načrtnuté krabicemi jsou součástí makromolekulárních komplexů. Prp11 je součástí komplexu v spliceosomal dráhy, a Apc2 je součástí anafázi podporující komplex (APC). Tid3p a Spc24 jsou součástí těla vřetena. Pevné černé čáry označují proteiny, které tvoří dimerní interakce. Soudržná síť 17 proteinů zahrnuje všechny označené, s výjimkou Apc2, Tid4, Tid1 a Rad51.

Trf4 je protein zapojený do obou mitotických chromozomů kondenzaci a sister-chromatid soudržnosti . V X. laevis Trf4 interaguje s Smc1 Smc2 a a v S. cerevisiae Trp4 interaguje s Smc1 a Trf5 , další člen TRF rodiny. Homologové Trf4 byli identifikováni U S. pombe, C. elegans, Drosophila, human a Arabidopsis (Tabulka 2). Trf4 byl nedávno identifikován jako DNA polymeráza s vlastnostmi podobnými β-polymerázám a nyní je označen jako DNA polymeráza κ (čtvrtá třída jaderných DNA polymeráz) . Vzdálené homology S. cerevisiae Trf4 patří kofein-indukované buněčné smrti bílkovin I (Cid1) v S. pombe (13.4% identita sekvence) a enzym polynukleotid adenyltransferázy z řady organismů včetně s. pombe a lidí (10,2% a 9,7% identita sekvence). Cid1 je zvláště zajímavý, protože si myslel, že hraje roli v cestě kontrolního bodu S-M V S .pombe. Jako homolog Trf4, Cid1 by mohla být souvislost mezi sesterské chromatid soudržnosti a tento kontrolní bod cesty.

Tabulka 2 tři proteiny interagující s kohezinem od S. cerevisiae a jejich pořadí homologů

Prp11 je droždí sestřih faktor, který je zapojen v časných stádiích spliceosomal sestavení dráhy . Prp11 je 266 aminokyselinový protein, který obsahuje doménu zinku a prstu společnou pro proteiny vázající RNA . Tento faktor sestřihu tvoří komplex se dvěma dalšími, Prp9 a Prp21, které jsou společně s Prp5 nutné pro vazbu U2 snRNP na pre-mRNA . Tam jsou homologů tohoto sestřihu faktor v S. pombe, C. elegans, Drosophila, Arabidopsis, myši a člověka (Tabulka 2) a všechny obsahují RNA-vázající motiv. U myší a lidí je homolog SAP62 (protein spojený se spliceozomem), spliceozomální protein, který se váže na pre-mRNA v prespliceozomálním komplexu .

Tid3 (NCD80)je tělesný protein vřetenového pólu, který má homology v řadě eukaryot (Tabulka 2). Tid3 předpokládá se, že komunikovat s Smc1 Smc2 a, a bylo prokázáno experimentálně komunikovat s Spc24, další součást vřetena pólu těla. Byly také pozorovány interakce mezi lidským homologem Tid3, Hec1 a lidskými homology Smc1 a Smc2 . Interakce Tid3 s podjednotky z obou cohesin a condensin makromolekul, místa vedle Trf4 a Scc1, jako protein nedílně podílejí oba mechanismy. To je také navrhl, že Hec1 mohou být zapojeny v chromatinu shromáždění v centromerou a nařízení kinetochorům . Spc24, jednoho interakčního partnera Tid3, také spolupracuje s Prp11, droždí sestřih faktor, který je spojen s cohesin načítání faktorů prostřednictvím jeho interakce s Scc2 (Obrázek 3).

společné upstream DNA element

upstream oblastí genů kódujících 17 proteinů v cohesin sítě (viz Obrázek 3) byly hledány sdílené motivy pomocí AlignACE. Byly identifikovány tři konsensuální motivy, které byly společné pro podmnožiny 17 genů. Bylo zjištěno, že pouze jeden motiv je relativně specifický, nicméně odpovídající upstream sekvencím pouze 29 genů v SGD(viz materiály a metody). Tento motiv má konsensuální sekvenci a6acgcgth2rxaax a zahrnuje prvek MluI cell-cycle box (MCB) (konsensuální sekvence ACGCGT). Rozšířená shoda motiv nalézt v současné práci byl přítomen v upstream oblasti genů kódujících Scc1, Scc3, Smc3, Pds1, Eco1 a Spc24. Tento motiv byl umístěn mezi 123-299 páry bází (bp) před geny kódujícími těchto šest proteinů. Hledání SGD odhalilo 23 dalších genů obsahujících tento motiv proti proudu. Osm z těchto dalších genů kódovaných hypotetických proteinů neznámé funkce. Nicméně, tyto další geny zahrnuty také ty, kódování chaperony (JEM1 a PDI1n), transkripční faktor komponenty (TFA1, RFA2, RNA polymeráza II, SPT20 a PRT1) a YC součástí proteazom. Při vyhledávání byla rozšířena na 2 000 bp upstream od 5′ untranslated regionech droždí genom, gen kódující Trf4 bylo také zjištěno, že obsahují tento konsensus motiv (1,560 bp upstream).

Sdílené motivy v rámci kohezní interakce sítě

Teiresias, vzor objev algoritmu , byl použit k hledání společných motivů mezi dvěma nebo více sekvencí v 17 proteiny soudržnosti sítě. Nejvyšší počet proteinů sdílejících společný motiv byl tři, a to tři proteiny SMC, které mají vysokou sekvenční identitu a sdílejí známé Prositové motivy (Tabulka 3). Zajímavější byly 24 vzorové shody nalezené mezi páry proteinů v síti. Řada proteinů sdílí více než jeden motiv sekvence se stejným proteinem. Všechny sdílené motivy byly buď specifické pro dva proteiny v soudržné síti, nebo v případě tří motivů, sdílených jednou další proteinovou sekvencí.

Tabulka 3 PROSITE sekvenční motivy se nacházejí pomocí ProfileScan na proteiny podílející se v sesterských chromatid soudržnosti mechanismus

Jeden motiv sdílí dvě sekvence v síti a jeden další sekvence, je DXXPENIXLXKN motiv sdílené sekvence Scc2, Chk1 a třetí S. cerevisiae protein PKH1 (droždí ORF YDR490C) (Obrázek 4). Oba Chk1 a PKH1 jsou serin/threonin (ST) protein kinázy, a motiv sdílejí s Scc2 zahrnuje část PROSITE ST kinázy podpis motiv (XXDKXXN(3), kde X označuje jakékoliv zbytky, (3) indikuje, že předchozí reziduí se opakuje třikrát, a D je aktivní místo reziduí). Sekvence Scc2 neodpovídá přesně motivu podpisu ST kinázy. Ze 13 reziduí v motivu ST kinázy má Scc2 čtyři neshody, ale důležité je, že kyselina asparagová v aktivním místě je zachována.

Obrázek 4
figure4

Sekvence zarovnání konzervovaným motivem v Scc2, Chk1 a Pkh1, který zahrnuje PROSITE serin/threonin (S/T) protein kinázy motivem. V zarovnání jsou konzervované zbytky motivu identifikované pomocí Teiresií červené a další konzervované polohy jsou zelené. Zbytky, které se shodují s motivem s / t kinázy, jsou načrtnuty krabicí. Číslo před každým motivem udává polohu prvního zbytku v celé sekvenci. Motiv PROSITE s / t kinázy je zobrazen pod zarovnáním. Alternativní rezidua jsou uvedena v hranatých závorkách; X označuje jakýkoli zbytek; kyselina asparagová v aktivním místě je modře.

druhý motiv sdílené třetí bílkovin, které nejsou zahrnuty v soudržnosti sítě byl SXXSXLKKKXLXT; to je nalezené v Scc1, Scc2 a droždí ORF YHR011W, domnělý seryl-tRNA syntetázy (Obrázek 5a). Tento motiv však nebyl součástí motivu tRNA ligázy YHR011W ani žádného jiného známého motivu v této sekvenci. Třetí motiv sdílený proteinem mimo soudržnou síť byl NDXNXDDXDN, sdílený Scc1, Smc1 a Atpázou typu P Z Plasmodium yoelii (obrázek 5b). Scc4 je jedním z kohezinových zatěžovacích faktorů, pro které nebyl nalezen žádný známý homolog. Bylo však zjištěno, že tento protein sdílí motiv sekvence 10 reziduí (GKXVALTNAK)se Smc3 (obrázek 5c).

Obrázek 5
figure5

Sekvence zarovnání pro tři motivy sdílené bílkovin v soudržnosti sítě. a) motiv sdílený Scc2 a Trf4 v síti a domnělá seryl-tRNA syntetáza (YHH1) z kvasinek. b) motiv sdílený Scc1, Smc1 a Atpázou typu P Z Plasmodium yoelii. c) motiv sdílený koeficientem zatížení kohezinu Scc4 a SMC3. V každém zarovnání jsou konzervované zbytky motivu identifikované pomocí Teiresií červené a další konzervované polohy jsou zelené. Číslo před každým motivem udává polohu prvního zbytku v celé sekvenci.

Je securin Pds1 je anafáze inhibitor, který obsahuje zničení box motiv (RXXXLXXXXN) , který se zaměřuje na tento protein pro zničení APC ubiquitin ligázy. Našli jsme tři ničení box motivy v Smc3, jeden v závěsu region (na pozici 682, RTRLESLKN) a dva v druhé coiled-coil domény (jeden na pozici 744 (RTSLNTKKN) a jeden na pozici 920 (RLLLKKLDN)). Také jsme našli motiv KEN-box (další rozpoznávací signál APC) v SMC2 na pozici 304 (KENGLLN), v první doméně stočené cívky.



+