La coesina complesso: omologie di sequenza, reti di interazione e condiviso motivi

Omologhi di coesina proteine

SMC proteine

UN PSI-BLAST di ricerca per la sequenza omologhi di SMC1 e SMC3 da Saccharomyces cerevisiae rivelato omologhi da molte specie di eucarioti, archaea ed eubatteri come precedentemente riportato (Tabella 1). Queste ricerche omologiche hanno fornito la base per un albero filogenetico e per l’analisi di nuovi omologhi di sequenza.

Tabella 1 Proteine coinvolte nella coesione cromatidica sorella in S. cerevisiae e loro omologhi di sequenza

L’albero filogenetico SMC creato dall’allineamento degli omologhi SMC3 (Figura 2) rivela cinque famiglie: Smc1-Smc4 da eucarioti e una quinta famiglia ‘ancestrale’ che include gli SMC da eubacteria e archaea. Questa famiglia ancestrale comprende anche un certo numero di proteine eucariotiche di S. cerevisiae, Schizosaccharomyces pombe, Caenorhabditis elegans, Drosophila melanogaster e umani. Ognuno di questi eucarioti ha proteine SMC da tutte e cinque le famiglie. Le proteine eucariotiche all’interno della famiglia ancestrale includono il Rad18 di S. pombe e Rhc18, l’omologo Rad18 di S. cerevisiae. Rad18 in S. pombe è coinvolto nella riparazione del DNA danneggiato dalle radiazioni UV . Le sequenze di C. elegans, Drosophila e human che si raggruppano con Rad18 all’interno della famiglia ancestrale sono probabilmente omologhi Rad18. Anche cluster all’interno di questo gruppo è Spr18, una proteina SMC proposta per essere il partner omodimerico di rad18 in S. pombe . Inoltre, MukB di Escherichia coli si trova anche all’interno di questa famiglia ancestrale. MukB è noto per essere essenziale per il partizionamento cromosomico in questa specie . Il clustering degli omologhi Rad18 con le proteine ancestrali SMC non è osservato nell’albero filogenetico costruito da Cobbe e Heck .

Figura 2
figura2

Albero evolutivo per proteine SMC, creato utilizzando PHYLIP . Ciascuna delle cinque famiglie SMC è evidenziata ed etichettata. I nomi delle proteine eucariotiche presenti nella famiglia ancestrale sono sottolineati. I valori di Bootstrap da 100 prove di bootstrap sono mostrati sui rami primari dell’albero. ACQUA, Aquifex aeolicus; ARATH, Arabidopsis thaliana; ARCFU, Archaeoglobus fulgidus; ASPN, aspergillus unico nero; BACSU, tipo di bacillo sottile; CAEEL, Caenorhabditis elegante; CAUCR, Caulobacter ha; DROS, Drosophila; ECOLI, Escherichia coli; JAPPU, il pesce palla Giapponese; METJA, Methanococcus jannaschii; MUS,mouse; MYCGE, Micoplasmi genitali; MYCHR, Mycoplasma hyorhinis; MYCPN, Mycoplasma polmonite; PYRAB, Pyrococcus abyssii; PYRHO, Pyrococcus horikoshii; SCHP, Schizosaccharomyces pombe; SYNSP, Synechocystis sp.; THEMA, Thermotoga maritima; TREPA, Treponema pallidum; XENLA, XENO, Xenopus laevis; LIEVITO, Saccharomyces cerevisiae.

Una sequenza insolita omologo di SMC3 nel topo (SMCD) è già stata riportata sotto forma di bamacan, un proteoglicano solfato di condroitina . Questa proteina è nota per avere l’identità di sequenza di 100% a SMCD . Qui identifichiamo un altro nuovo omologo, Mmip1, che condivide anche un’identità di sequenza estremamente elevata con il mouse SMCD. Mmip1 (Mad interacting protein 1) è stato identificato da uno schermo a due ibridi di lievito per proteine che legano Mxi, un fattore di trascrizione di base helix-loop-helix (bHLH). Mmip1 è una proteina di base helix-loop-helix zipper (bHLH-ZIP) che dimerizza fortemente con Mad1, Mxi, Mad3 e Mad4, ma non con Max o c-Myc . Un allineamento Clustale X di Mmip1 con SMCD rivela che Mmip1 manca del primo dominio globulare e del primo dominio a spirale comune alle proteine SMC. Nell’allineamento c’è un’identità di sequenza del 40% tra Mmip1 e SMCD su tutta la lunghezza dell’SMCD (1.217 amminoacidi). Sulla lunghezza della proteina Mmip1 (485 aminoacidi), tuttavia, la proteina condivide l’identità della sequenza 99% con SMCD. Queste identità di sequenza ad alta percentuale si riflettono anche nelle sequenze di DNA che codificano queste proteine. Il cDNA che codifica la proteina Mmip1 è identico al 100% al cDNA che codifica SMCD sulle 2.612 coppie di basi della sequenza Mmip1.

È stato precedentemente suggerito che gli eubatteri contengano una singola proteina SMC ancestrale . La ricerca PSI-BLAST per gli omologhi SMC nel lavoro corrente ha identificato due proteine correlate a SMC in due specie di eubatteri, B. subtilis e Aquifex aeolicus. In entrambe le specie una sequenza è stata precedentemente identificata come omologo SMC, mentre la funzione della seconda è sconosciuta. Le due sequenze di B. subtilis condividono il 95% di identità di sequenza, mentre le due sequenze di A. aeolicus condividono il 20% di identità di sequenza. Tutti e quattro gli omologhi contengono un motivo Walker A e B e i due omologhi di B. subtilis contengono i cinque domini caratteristici delle proteine SMC (Figura 1a). La A. la proteina aeolicus nota per essere un omologo SMC (TrEMBL accession number O60878) contiene anche i cinque domini, inclusi i due domini a spirale separati da una regione di cerniera di 180-200 residui. Tuttavia, il secondo omologo in A. aeolicus (numero di adesione TrEMBL O67124) ha i due domini a spirale (previsti usando Bobine ) ma la regione della cerniera che li separa consiste solo di circa 10-20 residui. Nel modello attuale di dimeri SMC la regione della cerniera consente la piegatura della struttura in un complesso approssimativamente simmetrico (Figura 1b). Per questo A. aeolicus homolog, tuttavia, la regione cerniera molto breve limiterebbe la gamma di piegatura. In questa specie, si potrebbero formare due strutture SMC omodimeriche, una dall’omologo SMC a cinque domini e una dall’omologo SMC a quattro domini privo del dominio cerniera. La presenza di due potenziali omologhi SMC in B. subtilis, tuttavia, potrebbe significare che il modello eterodimerico delle interazioni SMC proposto per gli eucarioti (ad esempio ) potrebbe anche essere esteso ad alcuni procarioti. La presenza di due omologhi SMC in alcuni eubatteri non è mostrata nell’albero filogenetico SMC costruito da Cobbe e Heck .

Proteine SCC

Le proteine SCC sono presenti solo negli eucarioti e non sono ben caratterizzate come le proteine SMC. Scc1 (identificato anche come MCD1) è fisicamente associato al protomero SMC1 nel complesso . Gli omologhi di S. pombe, Xenopus laevis, umani e Drosophila sono identificati come proteine Rad21 (Tabella 1), coinvolte nella riparazione delle rotture a doppio filamento del DNA indotte dalle radiazioni ionizzanti. Scc3 (precedentemente identificato come IRR1 ) contiene una sequenza di localizzazione nucleare (vedere più avanti) e un certo numero di omologhi sono stati identificati (Tabella 1). Gli omologhi Scc3 in Drosophila, mouse, human e Arabidopsis sono una famiglia di proteine di stromalina che condividono tra il 20-25% di identità di sequenza (Tabella 1). In Drosophila, topo e umano ci sono due proteine di stromalina (dSA, dSA2; SA1, SA2; e STAG1, STAG2, rispettivamente), che si trovano nel nucleo, ma la loro funzione è sconosciuta. Inoltre, STAG3 è stato identificato negli esseri umani e si propone di essere coinvolto nell’accoppiamento cromosomico durante la meiosi.

Scc2 e Scc4 sono i fattori di carico cohesin recentemente identificati . Omologhi a Scc2 sono stati identificati in S. pombe (Mis4) e Drosophila (Nipped-B), Coprinus cinereus (Rad9 e human (IDN3-B; Numero di adesione TrEMBL Q9Y6Y3) (Tabella 1). Mis4 in S. pombe è richiesto per la separazione cromatidica uguale in anafase ed ha una funzione distinta da cohesin . Il prodotto del gene Rad9 in C. cinereus è essenziale per il normale completamento della meiosi. Il prodotto del gene Nipped-B è proposto per funzionare architettonicamente fra i promotori ed i promotori della trascrizione per facilitare le interazioni del enhancer-promotore . La funzione del gene IDN3-B nell’uomo è sconosciuta, a parte il fatto che è espressa preferenzialmente nei carcinomi epatocellulari (HCC) . È stato proposto che queste molecole SCC rappresentino una famiglia di “aderenti” che condividono un ampio dominio centrale dell’omologia delle sequenze .

Scc4 è stato identificato come un prodotto di open reading frame (ORF) YER147C , e comprende una sequenza di 624 aminoacidi che include un motivo di legame AMP. Tuttavia, a parte l’interazione con Scc2 e il coinvolgimento nella creazione della coesione sorella-cromatide, si sa poco di questa proteina. Scc4 non ha omologhi di sequenza identificabili nei database full-sequence o EST, e quindi potrebbe essere il prodotto di un gene orfano.

Rete di interazione di coesione

Una rete di interazione di coesione è stata creata raccogliendo informazioni da due database proteome e dalla letteratura (Figura 3). Nella Figura 3, le linee sono tracciate tra le proteine per indicare interazioni note o potenziali. I dati da cui derivano le interazioni sono indicati in una chiave dettagliata che differenzia tra i due database proteomici (e tra le diverse fonti di dati all’interno di ciascun database) e la letteratura. Quattro proteine (Esp1, Trf4, Prp11 e Tid3) interagiscono direttamente con le proteine SMC o SCC in S. cerevisiae. L’interazione di Esp1 e Scc1 è attualmente nota a livello funzionale e la sua importanza è già stata discussa. Questa interazione dipende dal tempo e non è stata identificata nella schermata lievito due ibridi, e questa informazione non è attualmente registrata nel YPD.

Figura 3
figura3

La rete di interazione coesione. Le linee che collegano le proteine indicano interazioni note o potenziali derivate da due database proteomici e dalla letteratura. La coesina e i fattori di carico sono in giallo; altre proteine coinvolte nella coesione o che interagiscono con la coesina o i fattori di carico sono in blu; tutte le altre proteine nella rete sono in bianco. Le proteine delineate con scatole fanno parte di complessi macromolecolari. Prp11 fa parte di un complesso nella via spliceosomiale e Apc2 fa parte del complesso di promozione delle anafasi (APC). Tid3p e Spc24 sono entrambi parte del corpo mandrino-palo. Le linee nere solide indicano proteine che formano interazioni dimeriche. La rete di coesione di 17 proteine include tutti quelli etichettati, esclusi Apc2, Tid4, Tid1 e Rad51.

Trf4 è una proteina coinvolta sia nella condensazione mitotica dei cromosomi che nella coesione sorella-cromatidica . In X. laevis Trf4 interagisce con Smc1 e Smc2, e in S. cerevisiae Trp4 interagisce con Smc1 e Trf5, un altro membro della famiglia TRF. Gli omologhi Trf4 sono stati identificati in S. pombe, C. elegans, Drosophila, human e Arabidopsis (Tabella 2). Trf4 è stata recentemente identificata come una DNA polimerasi con proprietà simili alla β-polimerasi ed è ora designata DNA polimerasi κ (la quarta classe di DNA polimerasi nucleari) . Gli omologhi remoti di S. cerevisiae Trf4 includono la proteina di morte cellulare indotta dalla caffeina I (Cid1) in S. pombe (13.4% identità di sequenza) e l’enzima polinucleotide adeniltransferasi da un certo numero di organismi tra cui S. pombe e gli esseri umani (10,2% e 9,7% identità di sequenza rispettivamente). Cid1 è di particolare interesse in quanto ha pensato di svolgere un ruolo nel percorso di checkpoint S-M a S. pombe . Come omologo di Trf4, Cid1 potrebbe essere il collegamento tra la coesione sorella-cromatide e questo percorso di checkpoint.

Tabella 2 Tre proteine interagenti con la coesina da S. cerevisiae e loro omologhi di sequenza

Prp11 è un fattore di splicing del lievito in questione nelle fasi iniziali della via dell’assemblea di spliceosomal . Prp11 è una proteina amminoacidica 266 che include un dominio del zinco-dito comune alle proteine RNA-leganti . Questo fattore di splicing forma un complesso con altri due, Prp9 e Prp21, che insieme a Prp5 sono necessari per il legame di U2 snRNP al pre-mRNA . Ci sono omologhi di questo fattore di splicing in S. pombe, C. elegans, Drosophila, Arabidopsis, mouse e human (Tabella 2) e tutti includono il motivo di legame dell’RNA. Nel topo e nell’uomo, l’omologo è SAP62 (proteina associata allo spliceosoma), una proteina spliceosomiale che si lega al pre-mRNA nel complesso prespliceosomiale .

Tid3 (NCD80) è una proteina del corpo del polo del mandrino che ha omologhi in un certo numero di eucarioti (Tabella 2). Si prevede che Tid3 interagisca con Smc1 e Smc2 ed è stato dimostrato sperimentalmente di interagire con Spc24, un altro componente del corpo del polo del mandrino. Sono state osservate anche interazioni tra l’omologo umano di Tid3, Hec1 e gli omologhi umani Smc1 e Smc2 . Le interazioni di Tid3 con le subunità delle macromolecole di coesina e condensina, la collocano a fianco di Trf4 e Scc1, come proteina integralmente coinvolta in entrambi i meccanismi. Si propone inoltre che Hec1 possa essere coinvolto nell’assemblaggio della cromatina nel centromero e nella regolazione del cinetocoro . Spc24, uno dei partner di interazione di Tid3, interagisce anche con Prp11, il fattore di splicing del lievito che è collegato ai fattori di carico della coesina attraverso la sua interazione con Scc2 (Figura 3).

Un elemento di DNA a monte comune

Le regioni a monte dei geni che codificano 17 proteine nella rete di coesina (Figura 3) sono state ricercate per motivi condivisi usando l’AlignACE. Sono stati identificati tre motivi di consenso che erano comuni ai sottoinsiemi dei 17 geni. Solo un motivo è stato trovato per essere relativamente specifico, tuttavia, corrispondenti sequenze a monte di soli 29 geni nel SGD (vedere i materiali e metodi). Questo motivo ha la sequenza di consenso A6ACGCGTH2RXAAX e include l’elemento MCB (MluI cell-cycle Box) (sequenza di consenso ACGCGT). Il motivo di consenso esteso trovato nel lavoro corrente era presente nelle regioni a monte dei geni che codificano Scc1, Scc3, Smc3, Pds1, Eco1 e Spc24. Questo motivo si trovava tra 123-299 coppie di basi (bp) a monte dei geni che codificano queste sei proteine. Una ricerca del SGD ha rivelato 23 geni aggiuntivi contenenti questo motivo a monte. Otto di questi geni aggiuntivi codificavano proteine ipotetiche di funzione sconosciuta. Tuttavia, questi geni aggiuntivi includevano anche quelli che codificano chaperoni (JEM1 e PDI1n), componenti del fattore di trascrizione (TFA1, RFA2, RNA polimerasi II, SPT20 e PRT1) e un componente YC del proteasoma. Quando la ricerca è stata estesa a 2.000 bp a monte delle 5 ‘ regioni non tradotte del genoma del lievito, il gene che codifica Trf4 è stato anche trovato per contenere questo motivo di consenso (1.560 bp a monte).

Motivi condivisi all’interno della rete di interazione di coesione

Teiresias, un algoritmo di scoperta di pattern , è stato utilizzato per cercare motivi comuni tra due o più sequenze nelle 17 proteine della rete di coesione. Il più alto numero di proteine che condividono un motivo comune era tre, e queste erano le tre proteine SMC, che hanno un’alta identità di sequenza e condividono motivi Prositi noti (Tabella 3). Più interessanti sono state le corrispondenze di pattern 24 trovate tra coppie di proteine nella rete. Un certo numero di proteine condividono più di un motivo di sequenza con la stessa proteina. Tutti i motivi condivisi erano specifici per le due proteine nella rete di coesione o, nel caso di tre motivi, condivisi da un’altra sequenza proteica.

Tabella 3 PROSITE motivi di sequenza utilizzando ProfileScan in proteine coinvolte nella sorella cromatidi di coesione meccanismo

Un motivo condiviso da due sequenze in rete e un ulteriore sequenza, è DXXPENIXLXKN motivo condivisa da sequenze di Scc2, Chk1 e un terzo di S. cerevisiae proteina PKH1 di lievito di birra (ORF YDR490C) (Figura 4). Sia Chk1 che PKH1 sono proteine chinasi serina / treonina (ST) e il motivo che condividono con Scc2 include parte del motivo della firma della chinasi PROSITE ST (XXDKXXN(3), dove X indica qualsiasi residuo, (3) indica che il residuo precedente viene ripetuto tre volte e D è il residuo del sito attivo). La sequenza di Scc2 non corrisponde esattamente al motivo della firma della ST chinasi. Dei residui 13 nel motivo della ST chinasi, Scc2 ha quattro disallineamenti ma, soprattutto, l’acido aspartico del sito attivo è conservato.

Figura 4
figura4

Allineamento della sequenza del motivo conservato in Scc2, Chk1 e Pkh1, che include il motivo protein chinasi PROSITE serina/treonina (S/T). Nell’allineamento i residui conservati del motivo identificato usando Teiresias sono in rosso e le posizioni conservate supplementari sono in verde. I residui che coincidono con il motivo della chinasi S/T sono delineati con una scatola. Il numero prima di ogni motivo indica la posizione del primo residuo all’interno della sequenza completa. Il motivo PROSITE S / T chinasi è mostrato sotto l’allineamento. I residui alternativi sono indicati tra parentesi quadre; X indica qualsiasi residuo; l’acido aspartico sito attivo è in blu.

Un secondo motivo condiviso da una terza proteina non inclusa nella rete di coesione era SXXSXLKKKXLXT; questo si trova in Scc1, Scc2 e lievito ORF YHR011W, una presunta seril-tRNA sintetasi (Figura 5a). Tuttavia, questo motivo non faceva parte del motivo tRNA ligase di YHR011W, o di qualsiasi altro motivo noto all’interno di questa sequenza. Un terzo motivo condiviso da una proteina al di fuori della rete di coesione era NDXNXDDXDN, condiviso da Scc1, Smc1 e da un’ATPasi di tipo P del Plasmodium yoelii (Figura 5b). Scc4 è uno dei fattori di carico cohesin per i quali non è stato trovato un omologo noto. Questa proteina è stata, tuttavia, trovata per condividere un motivo di sequenza di 10 residui (GKXVALTNAK) con Smc3 (Figura 5c).

Figura 5
figura5

Allineamenti di sequenza per tre motivi condivisi dalle proteine nella rete di coesione. (a) Un motivo condiviso da Scc2 e Trf4 nella rete e un putativo seril-tRNA sintetasi (YHH1) dal lievito. (b) Un motivo condiviso da Scc1, Smc1 e un ATPasi di tipo P da Plasmodium yoelii. (c) Un motivo condiviso dal cohesin loading factor Scc4 e SMC3. In ogni allineamento i residui conservati del motivo identificato utilizzando Teiresias sono in rosso e ulteriori posizioni conservate sono in verde. Il numero prima di ogni motivo indica la posizione del primo residuo all’interno della sequenza completa.

La securina Pds1 è un inibitore dell’anafasi che contiene un motivo della scatola di distruzione (RXXXLXXXXN) , che mira a questa proteina per la distruzione dalla ligasi dell’ubiquitina APC. Abbiamo trovato tre motivi della scatola di distruzione in Smc3, uno nella regione della cerniera (in posizione 682, RTRLESLKN) e due nel secondo dominio della bobina a spirale (uno in posizione 744 (RTSLNTKKN) e uno in posizione 920 (RLLLKKLDN)). Abbiamo anche trovato un motivo KEN-box (un segnale di riconoscimento APC aggiuntivo ) in SMC2 in posizione 304 (KENGLLN), nel primo dominio della bobina a spirale.



+