complexul de coezină: homologii de secvență, rețele de interacțiune și motive comune

omologi ai proteinelor de coezină

proteine SMC

o căutare PSI-blastică a omologilor de secvență ai SMC1 și SMC3 din Saccharomyces cerevisiae a dezvăluit omologi din multe specii de eucariote, Archaea și Eubacteria raportate anterior (tabelul 1). Aceste căutări omologice au oferit baza pentru un arbore filogenetic și pentru analiza noilor omologi de secvență.

Tabelul 1 proteinele implicate în coeziunea cromatidelor surori în S. cerevisiae și omologii lor de secvență

arborele filogenetic SMC creat din alinierea omologilor SMC3 (Figura 2) dezvăluie cinci familii: Smc1-Smc4 din eucariote și o a cincea familie ancestrală care include SMC-urile din eubacteria și archaea. Această familie ancestrală include, de asemenea, o serie de proteine eucariote din S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster și oameni. Fiecare dintre aceste eucariote are proteine SMC din toate cele cinci familii. Proteinele eucariote din familia ancestrală includ Rad18 din S. pombe și Rhc18, rad18 omolog în S. cerevisiae. Rad18 în S. pombe este implicat în repararea ADN-ului deteriorat de radiațiile UV . Secvențele de la C. elegans, Drosophila și human care se grupează cu Rad18 în cadrul familiei ancestrale sunt probabil omologi Rad18. De asemenea, grupat în cadrul acestui grup este Spr18, o proteină SMC propusă a fi partenerul homodimeric al rad18 în S. pombe . În plus, MukB din Escherichia coli se află și în această familie ancestrală. MukB este cunoscut a fi esențial pentru împărțirea cromozomilor la această specie . Gruparea omologilor Rad18 cu proteinele ancestrale SMC nu este observată în arborele filogenetic construit de Cobbe și Heck .

Figura 2
figura2

arborele evolutiv pentru proteinele SMC, creat folosind PHYLIP . Fiecare dintre cele cinci familii SMC este evidențiată și etichetată. Numele proteinelor eucariote prezente în familia ancestrală sunt subliniate. Valorile Bootstrap din 100 de încercări bootstrap sunt afișate pe ramurile primare ale arborelui. Apă, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus unic negru; BACSU, un fel de bacillus subtil; CAEEL, Caenorhabditis elegant; CAUCR, Caulobacter crescentus; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, pufferfish Japonez; METJA, Methanococcus jannaschii; MUS,mouse; MYCGE, Mycoplasma genital; MYCHR, Mycoplasma HYORHINIS; mycpn, Mycoplasma pneumonia; Pyrab, Pyrococcus Abyssii; pyrho, Pyrococcus horikoshii; SCHP, schizosaccharomyces pombe; SYNECHOCYSTIS sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; drojdie, Saccharomyces cerevisiae.

o secvență neobișnuită omolog de SMC3 la șoarece (SMCD) a fost deja raportată sub formă de bamacan, un proteoglican sulfat de condroitină . Se știe că această proteină are 100% identitate de secvență la SMCD . Aici identificăm un alt omolog nou, Mmip1, care împărtășește, de asemenea, o identitate de secvență extrem de mare cu mouse-ul SMCD. Mmip1 (Mad interacting protein 1) a fost identificat dintr-un ecran cu două hibrizi de drojdie pentru proteinele care leagă Mxi, un factor de transcripție Helix-loop-helix (bHLH) de bază . Mmip1 este o proteină de bază cu fermoar helix-loop-helix (bHLH-ZIP) care se dimerizează puternic cu Mad1, Mxi, Mad3 și Mad4, dar nu cu Max sau C-Myc . O aliniere Clustal X a Mmip1 cu SMCD relevă faptul că Mmip1 nu are primul domeniu globular și primul domeniu cu bobină comună proteinelor SMC. În aliniere există 40% identitate de secvență între Mmip1 și SMCD pe întreaga lungime a SMCD (1.217 aminoacizi). Cu toate acestea, pe lungimea proteinei Mmip1 (485 aminoacizi), proteina împărtășește 99% identitate de secvență cu SMCD. Aceste identități de secvență procentuală ridicată se reflectă și în secvențele ADN care codifică aceste proteine. ADNc care codifică proteina Mmip1 este 100% identică cu codificarea ADNc SMCD pe cele 2.612 perechi de baze ale secvenței Mmip1.

s-a sugerat anterior că eubacteriile conțin o singură proteină SMC ancestrală . Căutarea PSI-blastică a omologilor SMC în lucrarea actuală a identificat două proteine legate de SMC la două specii de eubacterii, B. subtilis și Aquifex aeolicus. La ambele specii, o secvență a fost identificată anterior ca omolog SMC, în timp ce funcția celei de-a doua este necunoscută. Cele două secvențe din B. subtilis împărtășesc 95% identitate de secvență, în timp ce cele două secvențe din A. aeolicus împărtășesc 20% identitate de secvență. Toți cei patru omologi conțin un motiv Walker a și B, iar cei doi omologi din B. subtilis conțin cele cinci domenii caracteristice proteinelor SMC (figura 1a). A. proteina aeolicus cunoscută a fi un omolog SMC (Numărul de aderare TrEMBL O60878) conține, de asemenea, cele cinci domenii, inclusiv cele două domenii cu bobină înfășurată separate printr-o regiune de balamale de 180-200 reziduuri. Cu toate acestea, al doilea omolog din A. aeolicus (Numărul de aderare TrEMBL O67124) are cele două domenii de bobină înfășurate (prezise folosind bobine), dar regiunea balamalei care le separă constă doar din aproximativ 10-20 de reziduuri. În modelul actual al dimerilor SMC Regiunea balamalei permite plierea structurii într-un complex aproximativ simetric (figura 1b). Pentru aceasta A. aeolicus homolog, cu toate acestea, regiunea foarte scurtă a balamalelor ar restricționa gama de pliere. La această specie, s-ar putea forma două structuri SMC homodimerice, una din SMC cu cinci domenii și una din omologul SMC cu patru domenii lipsit de domeniul balamalei. Cu toate acestea, prezența a doi potențiali omologi SMC în B. subtilis ar putea însemna că modelul heterodimeric al interacțiunilor SMC propus pentru eucariote (de exemplu,) ar putea fi extins și la unele procariote. Prezența a doi omologi SMC în unele eubacterii nu este prezentată în arborele filogenetic SMC construit de Cobbe și Heck .

proteine SCC

proteinele SCC sunt prezente numai în eucariote și nu sunt la fel de bine caracterizate ca proteinele SMC. Scc1 (identificat și ca MCD1) este asociat fizic cu protomerul SMC1 din complex . Omologii din S. pombe , Xenopus laevis, oameni și Drosophila sunt identificați ca proteine Rad21 (Tabelul 1), implicate în repararea pauzelor ADN dublu catenare induse de radiațiile ionizante. Scc3 (identificat anterior ca IRR1 ) conține o secvență de localizare nucleară (a se vedea mai târziu) și au fost identificați un număr de omologi (Tabelul 1). Omologii Scc3 din Drosophila, șoarece, om și Arabidopsis sunt o familie de proteine stromalin care împărtășesc între 20-25% identitatea secvenței (Tabelul 1). În Drosophila, șoarece și om există două proteine stromalin (dSA, dSA2; SA1, SA2; și STAG1, STAG2, respectiv), care sunt situate în nucleu, dar funcția lor este necunoscută. În plus, STAG3 a fost identificat la om și se propune să fie implicat în împerecherea cromozomilor în timpul meiozei.

Scc2 și Scc4 sunt factorii de încărcare a coezinei identificați recent . Omologi la Scc2 au fost identificate în S. pombe (Mis4) și Drosophila (Nipped-B), coprinus cinereus (Rad9 și human (IDN3-B; Numărul de acces TrEMBL Q9Y6Y3) (Tabelul 1). Mis4 în S. pombe este necesar pentru separarea cromatidă egală în anafază și are o funcție distinctă de coezină . Produsul genei Rad9 din C. cinereus este esențial pentru finalizarea normală a meiozei. Produsul genei Nipped-B este propus să funcționeze arhitectural între amplificatori de transcripție și promotori pentru a facilita interacțiunile potențiator-promotor . Funcția genei IDN3-B la om este necunoscută, în afară de faptul că este exprimată preferențial în carcinoamele hepatocelulare (HCC) . S-a propus ca aceste molecule SCC să reprezinte o familie de ‘adherine’ care împărtășesc un mare domeniu central de bază al omologiei secvenței .

Scc4 a fost identificat ca un produs al cadrului de citire deschis (ORF) YER147C și cuprinde o secvență de 624 aminoacizi care include un motiv de legare a AMP. Cu toate acestea, în afară de interacțiunea cu Scc2 și implicarea în stabilirea coeziunii sora-cromatidă, se știe puțin despre această proteină. Scc4 nu are omologi de secvență identificabili nici în secvența completă, nici în bazele de date EST și, prin urmare, ar putea fi produsul unei gene orfane.

rețea de interacțiune de coeziune

o rețea de interacțiune de coeziune a fost creată prin colectarea informațiilor din două baze de date proteomice și literatura de specialitate (Figura 3). În Figura 3, Se trasează linii între proteine pentru a indica interacțiuni cunoscute sau potențiale. Datele din care sunt derivate interacțiunile sunt indicate într-o cheie detaliată care diferențiază între cele două baze de date proteomice (și între diferitele surse de date din fiecare bază de date) și literatura de specialitate. Patru proteine (Esp1, Trf4, Prp11 și Tid3) interacționează direct cu proteinele SMC sau SCC din S. cerevisiae. Interacțiunea dintre Esp1 și Scc1 este cunoscută în prezent la nivel funcțional , iar importanța acesteia a fost deja discutată. Această interacțiune este dependentă de timp și nu a fost identificată în ecranul yeast two-hybrid, iar aceste informații nu sunt înregistrate în prezent în YPD.

Figura 3
figura3

rețeaua de interacțiune de coeziune. Liniile care leagă proteinele indică interacțiuni cunoscute sau potențiale derivate din două baze de date proteomice și literatura de specialitate. Coezina și factorii de încărcare sunt în galben; proteine suplimentare implicate în coeziune sau care interacționează cu coezina sau factorii de încărcare sunt în albastru; toate celelalte proteine din rețea sunt în alb. Proteinele conturate cu cutii fac parte din complexele macromoleculare. Prp11 face parte dintr-un complex din calea spliceozomală, iar Apc2 face parte din complexul de promovare a anafazei (APC). Tid3p și Spc24 fac parte din corpul axului. Liniile negre solide indică proteine care formează interacțiuni dimerice. Rețeaua de coeziune de 17 proteine include toate cele etichetate, cu excepția Apc2, Tid4, Tid1 și Rad51.

Trf4 este o proteină implicată atât în condensarea cromozomilor mitotici, cât și în coeziunea sora-cromatidă . În X. laevis Trf4 interacționează cu Smc1 și Smc2, iar în S. cerevisiae trp4 interacționează cu Smc1 și Trf5 , un alt membru al familiei TRF. Omologii Trf4 au fost identificați în S. pombe, C. elegans, Drosophila, human și Arabidopsis (Tabelul 2). Trf4 a fost foarte recent identificat ca o ADN polimerază cu proprietăți asemănătoare cu a-polimerazei și este acum desemnată ADN polimerază a-X-a (a patra clasă de ADN polimeraze nucleare) . Omologii de la distanță ai S. cerevisiae Trf4 includ proteina i de moarte celulară indusă de cofeină (Cid1) din S. pombe (13.4% identitate de secvență) și enzima polinucleotid adeniltransferază dintr-un număr de organisme, inclusiv S. pombe și oameni (10,2% și, respectiv, 9,7% identitate de secvență). Cid1 prezintă un interes deosebit, deoarece se credea că joacă un rol în calea punctului de control S-M din S. pombe . Ca omolog al Trf4, Cid1 ar putea fi legătura dintre coeziunea soră-cromatidă și această cale de control.

Tabelul 2 trei proteine care interacționează cu coezina din S. cerevisiae și omologii lor de secvență

Prp11 este un factor de îmbinare a drojdiei implicat în stadiile incipiente ale căii de asamblare spliceozomală . Prp11 este o proteină de aminoacizi 266 care include un domeniu de deget de zinc comun proteinelor care leagă ARN . Acest factor de îmbinare formează un complex cu alți doi, Prp9 și Prp21, care împreună cu Prp5 sunt necesare pentru legarea U2 snRNP la pre-ARNm . Există omologi ai acestui factor de îmbinare în S. pombe, C. elegans, Drosophila, Arabidopsis, șoarece și om (Tabelul 2) și toate includ motivul de legare a ARN-ului. La șoarece și la om, omologul este SAP62 (proteina asociată spliceozomului), o proteină spliceozomală care se leagă de pre-ARNm în complexul prespliceozomal .

Tid3 (NCD80) este o proteină corporală a polului axului care are omologi într-un număr de eucariote (Tabelul 2). Se estimează că Tid3 interacționează cu Smc1 și Smc2 și s-a demonstrat experimental că interacționează cu Spc24, o altă componentă a corpului polului axului. De asemenea, au fost observate interacțiuni între omologul uman al omologilor Tid3, Hec1 și smc1 și Smc2 . Interacțiunile Tid3 cu subunități atât din macromolecule de coezină, cât și din condensină, îl plasează alături de Trf4 și Scc1, ca proteină implicată integral în ambele mecanisme. De asemenea, se propune ca Hec1 să poată fi implicat în asamblarea cromatinei în centromer și reglarea kinetocorului . Spc24, un partener de interacțiune al Tid3, interacționează, de asemenea, cu Prp11, factorul de îmbinare a drojdiei care este legat de factorii de încărcare a coezinei prin interacțiunea sa cu Scc2 (Figura 3).

un element ADN comun în amonte

regiunile din amonte ale genelor care codifică 17 proteine în rețeaua de coezină (Figura 3) au fost căutate motive comune folosind AlignACE. Au fost identificate trei motive consensuale care erau comune subseturilor celor 17 gene. Cu toate acestea, s-a constatat că un singur motiv este relativ specific, potrivindu-se secvențelor din amonte de doar 29 de gene din SGD (a se vedea materialele și metodele). Acest motiv are secvența de consens A6ACGCGTH2RXAAX și include elementul MluI cell-cycle box (MCB) (secvența de consens ACGCGT) . Motivul consensului extins găsit în lucrarea actuală a fost prezent în regiunile din amonte ale genelor care codifică Scc1, Scc3, Smc3, Pds1, Eco1 și Spc24. Acest motiv a fost localizat între 123-299 perechi de baze (bp) în amonte de genele care codifică aceste șase proteine. O căutare a SGD a dezvăluit 23 de gene suplimentare care conțin acest motiv în amonte. Opt dintre aceste gene suplimentare au codificat proteine ipotetice cu funcție necunoscută. Cu toate acestea, aceste gene suplimentare au inclus și acele chaperone care codifică (JEM1 și PDI1n), componentele factorului de transcripție (TFA1, RFA2, ARN polimeraza II, SPT20 și PRT1) și o componentă YC a proteazomului. Când căutarea a fost extinsă la 2.000 bp în amonte de regiunile netraduse 5′ ale genomului drojdiei, s-a constatat, de asemenea, că gena care codifică Trf4 conține acest motiv consens (1.560 bp în amonte).

motive comune în cadrul rețelei de interacțiune de coeziune

Teiresias, un algoritm de descoperire a modelelor , a fost utilizat pentru a căuta motive comune între două sau mai multe secvențe din cele 17 proteine ale rețelei de coeziune. Cel mai mare număr de proteine care au un motiv comun a fost de trei, iar acestea au fost cele trei proteine SMC, care au o identitate de secvență ridicată și împărtășesc motive Prosite cunoscute (Tabelul 3). Mai interesante au fost 24 de potriviri de model găsite între perechi de proteine din rețea. Un număr de proteine împărtășesc mai mult de un motiv de secvență cu aceeași proteină. Toate motivele comune erau fie specifice celor două proteine din rețeaua de coeziune, fie în cazul a trei motive, împărtășite de o altă secvență proteică.

Tabelul 3 motive de secvență PROSITE localizate folosind ProfileScan în proteine implicate în mecanismul de coeziune a cromatidelor surori

un motiv împărtășit de două secvențe din rețea și o secvență suplimentară este motivul DXXPENIXLXKN împărtășit de secvențele Scc2, Chk1 și o a treia proteină S. cerevisiae PKH1 (drojdie ORF YDR490C) (Figura 4). Atât Chk1, cât și PKH1 sunt serină/treonină (ST) protein kinaze, iar motivul pe care îl împărtășesc cu Scc2 include o parte din Prosit St kinază motiv de semnătură (XXDKXXN(3), Unde X indică orice reziduu, (3) indică faptul că reziduul anterior se repetă de trei ori, iar D este reziduul situsului activ). Secvența Scc2 nu se potrivește exact cu motivul semnăturii St kinazei. Din cele 13 reziduuri din motivul St kinazei, Scc2 are patru nepotriviri, dar, important, acidul aspartic cu situs activ este conservat.

Figura 4
figura4

alinierea secvenței motivului conservat în Scc2, Chk1 și Pkh1, care include Prosit serină/treonină (s/T) protein kinază motiv. În aliniere, reziduurile conservate ale motivului identificate folosind Teiresias sunt în roșu, iar pozițiile suplimentare conservate sunt în verde. Reziduurile care coincid cu motivul kinazei S/T sunt conturate cu o cutie. Numărul dinaintea fiecărui motiv indică poziția primului reziduu în secvența completă. Motivul kinazei PROSITE S / T este prezentat sub aliniere. Reziduurile alternative sunt prezentate în paranteze pătrate; X denotă orice reziduu; acidul aspartic cu situs activ este în albastru.

un al doilea motiv împărtășit de o a treia proteină neinclusă în rețeaua de coeziune a fost SXXSXLKKKXLXT; acest lucru se găsește în Scc1, Scc2 și drojdie ORF YHR011W, o sintază Seril-Arnt presupusă (figura 5a). Cu toate acestea, acest motiv nu făcea parte din Arnt ligază motiv de YHR011W, sau din orice alt motiv cunoscut din această secvență. Un al treilea motiv împărtășit de o proteină din afara rețelei de coeziune a fost NDXNXDDXDN, împărtășit de Scc1, Smc1 și o ATPază de tip P din Plasmodium yoelii (figura 5b). Scc4 este unul dintre factorii de încărcare a coezinei pentru care nu a fost găsit niciun omolog cunoscut. Cu toate acestea, s-a constatat că această proteină împărtășește un motiv de secvență de 10 reziduuri (GKXVALTNAK) cu Smc3 (figura 5c).

Figura 5
figura5

aliniamente de secvență pentru trei motive împărtășite de proteine în rețeaua de coeziune. (a) un motiv comun de Scc2 și Trf4 în rețea și o sintetază Seril-Arnt presupusă (YHH1) din drojdie. (b) un motiv comun de Scc1, Smc1 și o ATPază de tip P din Plasmodium yoelii. (c) un motiv împărtășit de factorul de încărcare a coezinei Scc4 și SMC3. În fiecare aliniere, reziduurile conservate ale motivului identificate folosind Teiresias sunt în roșu, iar pozițiile suplimentare conservate sunt în verde. Numărul dinaintea fiecărui motiv indică poziția primului reziduu în secvența completă.

securin Pds1 este un inhibitor al anafazei care conține un motiv al cutiei de distrugere (RXXXLXXXXN) , care vizează această proteină pentru distrugerea de către APC ubiquitin ligază. Am găsit trei motive cutie de distrugere în Smc3, unul în regiunea balama (la poziția 682, RTRLESLKN) și două în al doilea domeniu spiralat-bobina (unul la poziția 744 (RTSLNTKKN) și unul la poziția 920 (RLLLKKLDN)). De asemenea, am găsit un motiv KEN-box (un semnal suplimentar de recunoaștere APC ) în SMC2 la poziția 304 (KENGLLN), în primul domeniu cu bobină înfășurată.



+