Genomics Session
Lezione 6
microRNA
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
MicroRNAs (miRNAs): piccoli RNA non codificanti coinvolti nella
regulazione di molti (forse tutti) i processi cellulari;
●
Sono note molti stati patologici correlati con alterazioni delle funzioni di
miRNA specifici;
●
●
Grande potenziale in applicazioni biotecnologiche;
Difficili da caratterizzare sperimentalmente: non ci sono ancora tecniche
high-throughput;
●
Approcci computazionali possono coadiuvare ed integrare gli approcci
sperimentali;
●
●
Lezione 6
Gli algoritmi attualmente disponibili non sono molto accurati.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
RNA che regolano la traduzione
Lezione 6
L'espressione genica a livello post-trascrizionale è regolata da molti
fattori, ed è spesso mediata da RNA regolatori;
Gli RNA regolatori si legano al RNA messaggero, impedendone la
traduzione (in vari modi);
Gli RNA regulatori interagiscono con i loro mRNA target via
complementarità di basi;
Gli RNA regulatori sono solitamente di piccole dimensioni, e
caratterizzati da una struttura secondaria e terziaria molto specifica.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Che cos'è un miRNA?
microRNAs (miRNAs): piccole (lunghezza di 21-23 nt) molecole endogene
di RNA a singolo filamento;
regolano l'espressione genica a livello post-trascrizionale legandosi a
specifiche sequenze nelle regioni al 3'UTR del mRNA, e promuovendone
la degradazione oppure sequestrandolo in specifici compartimenti subcellulari;
sono trascritti da specifici geni, ma non tradotti in proteina;
si trovano nel genoma di piante e animali (e anche in virus);
Lezione 6
2/3 di tutti i geni umani codificanti si pensa siano regolati da miRNA; ogni
miRNA regola in media 300 targets.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Funzioni dei miRNA
I miRNAs giocano un ruolo centrale nel controllare I seguenti processi:
➔ Sviluppo
➔ Differenziamento
➔ Apoptosi
Varie malattie sono causate da alterazioni dell'espressione di miRNA
(perdita completa, sotto- o sovra-espressione), o in alterazioni della loro
specificità:
➔ Cancro
➔ Malattie neuro-degenerative
➔ Patologie cardiache
Altro???
Lezione 2
6
Genomica
GenomicaComputazionale,
Computazionale,Laurea
LaureaMagistrale
MagistraleA.A.
A.A.2010/2011
2010/2011
miRNA
1. Trascrizione
→ miRNA pimario (primiRNA)
2. Processamento
→ miRNA precursore (premiRNA)
3. Esporto: Exportin-5
4. Taglio (Dicer)
→ miRNA duplex
5. Separazione dell'elica
6. Caricamento nel RISC
→ miRNA maturo
7. Selezione del target
8. taglio del mRNA/
repressione della
traduzione
9. degradazione del mRNA
He & Hannon, Nat Rev. Genet. 2004
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Il destino del mRNA bersaglio
Filipowicz et al., Nat Rev. Genet. 2008
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Classi di siti target di miRNA
Brennecke et al., PLOS Biology 2005
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Geni per microRNA
Mendell, Cell Cycle 2005
Griffiths-Jones et al., Nucleic Acids Res. 2008
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
miRBase è la banca dati “ufficiale” per i miRNA
http://microrna.sanger.ac.uk/
Lezione 6
Immagazzina sequenze di miRNA maturi e loro precursori, e strutture
dei loro stem-loop. Inoltre fornisce informazione sui loro target
(principalmente ottenute mediante predittori) e referenze bibliografiche;
> 5000 sequenze di miRNA in 58 specie;
> 500000 predizioni di target di miRNA in 24 specie.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Il database è organizzato in specie:
http://microrna.sanger.ac.uk
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
....pre-miRNA stem-loop…
Per ogni miRNA l'utente può ottenere:
....miRNA maturo...
....e predizione dei target.
http://microrna.sanger.ac.uk
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
TarBase:database di target identificati sperimentalmente
http://microrna.gr/tarbase
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
TarBase:database di target identificati sperimentalmente
Identificazione dei target
Evidenza diretta: reporter gene
assay, mutagenesi sito-specifica
➔
Evidenza indiretta: Microarrays, dati
di proteomica (SILAC)
➔
http://microrna.gr/tarbase
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
miRNA
Metodi computazionali applicati allo studio dei miRNA:
Lezione 6
Predizione di miRNA mature e precursori nel genoma:
➔ Prestazioni relativamente buone, supportate da una quantità
sufficiente di dati sperimentali
Predizione di geni bersaglio di miRNA:
➔ Prestazioni scarse, pochi esempi verificati sperimentalmente
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di geni per miRNA
Possono essere identificati grazie alle caratteristice strutturali dei premiRNA, cioè la capacità di formare delle forcine
Si possono identificare circa 11 milioni di tratti di sequenza che possono
ripiegarsi in forcine nel genoma umano:
●
Bisona ridurre i falsi positivi (conservazione, segnali associati alla
maturazione, espressione della forma matura, etc.)
Lindow & Gorodkin, DNA Cell. Biol. 2007
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di geni per miRNA
Lindow & Gorodkin, DNA Cell. Biol. 2007
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
La caratterizzazione funzionale di un miRNA dipende fortemente da quali
geni target esso controlla.
Nelle piante
I miRNA sono quasi perfettamente complementari ai loro mRNA targets
➔ La predizione bioinformatica è semplice (ad es. con semplici ricerche con
BLAST)
Negli animali
Le coppie miRNA-target non sono perfettamente complementari
➔ La predizione si basa sulla complementarità parziale fra miRNA e target e
sulla conservazione evolutiva del sito target in gruppi di organismi
sufficientemente vicini (ad es. nei vertebrati).
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Come trovare i target dei microRNA?
I siti di legame dei microRNA si trovano nelle 3’ UTRs dei mRNA target, e sono
complementari a:
➔ Nelle piante, tutta la lunghezza delmiRNA maturo è coinvolta;
➔ Negli animali, la complementarità è di solito limitata ad un breve tratto al
5' del miRNA maturo (il seed)
➔
➔
Il seed è molto corto (~7-8 nt)
Se si prendono in considerazione anche coppie G-U, mismatch, gaps
(bulges), algoritmi di allineamento di sequenze standard troverebbero un
enorme numero di falsi match.
Come rimuovere questi falsi positivi?
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Bartel, Cell 2009
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Algoritmi per predizione di target di miRNA
Regole comuni:
➔
➔
➔
➔
Lezione 6
Complementarità: ad es. l'estremità 5’del
complementari al target dell'estremità al 3’;
miRNAs
ha
più
basi
Calcolo dell'energia libera: l'interazione miRNA:mRNA è forte;
Considerazioni evoluzionistiche: i siti di legame nei target sono conservati
nei genomi di specie vicine;
Legame cooperativo: molti miRNAs possono regolare lo stesso gene, e lo
stesso miRNA può legarsi a più siti nella stessa 3'UTR.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“miRanda” - Enright et al., Genome Biology 2003
Usa un sistema di
punteggi che pesa
maggiormente
complementarità al 5'
del miRNA;
Considera
conservazione
evoluzionaria;
Utilizza un modello
energetico semplice per
l'ibrido miRNA-target;
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“TargetScan” - Lewis et al., Cell 2003
Dato un miRNA conservato in
allineamenti multipli di genomi di
specie diverse e un set di sequenze
di 3'UTR ortologhe:
1. Cerca regioni di complementarità
perfetta fra il segmento seed del
miRNA (7 nt) e l'UTR;
2. Verifica che i siti di legame nelle
UTR siano conservati;
3. Estende il match e ne calcola
l'energia;
4. Valuta la significatività del match
confrontandolo con la
distribuzione di match in
sequenze random che "mimano"
veri miRNA.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“Profile based target search” - Stark et al., PLOS Biol. 2003
1.Costruisce un profilo per ogni famiglia di microRNA family (usando
HMMer) per i primi 8 residui, considerando appaiamenti G:U;
2.Cerca in regioni conservate di 3’ UTRs (in genomi di Drosophila) con
questi profili;
3.Estende I match trovati a tutta la lunghezza del miRNA + 5nt;
4.Calcola l'energia con Mfold e ne valuta lo z-score.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“PicTar” - Krek et al., Nat. Genet. 2005
Dato un miRNA conservato in
allineamenti multipli di genomi di specie
diverse e un set di sequenze di 3'UTR
ortologhe:
1. Usa il seed di 7 nt per trovare tutti I
match perfetti e imperfetti nelle
UTR ;
2. Predice l'energia
dell'ibrido;
libera
ottimale
3. Calcola la probabilità che la
sequenza del target sia un sito di
legame;
4. Valuta favorevolmente la presenza di
più siti di legame sulla stessa UTR.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
“Pita” - Kertesz et al., Nat. Genet. 2007
Dato un miRNA conservato in allineamenti multipli di genomi di specie
diverse e un set di sequenze di 3'UTR ortologhe:
1. Usa un seed di 6-8 nt cercando complementarità perfetta nelle UTR;
2. Calcola la differenza fra il guadagno energetico fornito dal legame
miRNA:mRNA e l'energia persa nel rendere il sito accessibile;
3. Integra i punteggi di siti di legame multipli, se ci sono.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Quale metodo è il migliore?
Dataset did benchmark: 84 interazioni di mammifero in TarBase
Sethupathy et al., Nat. Methods 2006
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Quale metodo è il migliore?
Sethupathy et al., Nat. Methods 2006
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Predizione di target di miRNA
Quale metodo è il migliore?
PicTar e TargetScan forniscono il miglior compromesso fra sensibilità e tasso di
falsi positivi;
Circa un terzo delle interazioni nel benchmark non sono conservate;
La maggior parte dei metodi over-predice: enrome numero di falsi positivi;
I vari metodi sono raramente in accordo;
C'è bisogno di più dati: il numero di interazioni note miRNA-target è ancora troppo
piccolo;
Bisogna capire meglio come avviene l'interazione:
➔ Qual'è il ruolo del complesso RISC nel riconoscimento?
➔ Come avviene la cooperatività fra diversi siti di legame di miRNA?
➔ C'è interazione con altri siti regolativi nelle 3'UTR?
➔ Come usare dati di espressione trascrittomica e/o proteomica?
Sethupathy et al., Nat. Methods 2006
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Genomics Session
Lezione 6
Identificazione di
elementi regolatori
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Segnali nel genoma
Segnale:
Una sottosequenza (sottostringa), con un pattern particolare, nel DNA
o RNA, che riveste un ruolo biologico. Generalmente, è riconosciuto
da una proteina o da un'altra molecola e si ritrova in varie locazioni
nel genoma.
Esempi:
- Sequenze riconosciute da endonucleasi di restrizione (es. GAATTC
per EcoRI);
- Sequenze nei promotori;
- Sequenze segnale dei geni;
- Elementi dell'origine di replicazione e terminatori.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Segnali nel genoma
Il segnale può essere rappresentato da particolari sequenze di
nucleotidi, ma queste sono solo approssimazioni di ciò che è
effettivamente riconosciuto dall'interattore.
Ad esempio, una proteina riconoscerà particolari gruppi chimici del
DNA in una particolare conformazione nello spazio. Il riconoscimento è
sempre dettato da leggi fisiche.
Alcune di queste interazioni sono transienti, altre possono essere più
durature. L'interazione non è quasi mai covalente.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Come le proteine riconoscono il DNA:
Le proteine riconoscono DNA o RNA per
mezzo di legami idrogeno ed interazioni
elettrostatiche principalmente con la
catena proncipale dll'acido nucleico.
Il riconoscimento specifico dei siti di
interazione avviene mediante legami con
i bordi degli anelli della base che
sporgono nel solco maggiore o minore
della doppia elica.
Ci possono essere anche interazioni
idrofobiche mediate da catene laterali
che si intercalano fra due coppie di basi.
[Sun et al., 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Come le proteine riconoscono il DNA:
I siti di interazione possono avere strutture
semplici o complesse.
Ci può essere simmetria interna (ad es.,
ripetizioni invertite di motivi, sequenze
palindromiche).
Questo è dovuto al fatto che le proteine
leganti DNA sono spesso oligomeri (dimeri, o
tetrameri).
Se l'oligomero è ad esempio un dimero con
struttura “testa-a-testa“, la posizione relativa
die due siti di legame del dimero si rifletterà
sulla sequenza riconsciuta nel genoma.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
Gal4: attivatore di geni relativi al metabolismo del galattosio
L'unità biologica funzionale è un omodimero
5'-NNNTCGGNNNACTNTNNNCCGANNN-3'
3'-NNNAGCCNNNTGANANNNGGCTNNN-5'
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Segnali nel genoma
- Segnali nel DNA possono essere identificati con tecniche sperimentali;
- Analisi genetica classica
- Sfruttando le modificazioni delle proprietà del DNA duplex quando
legato all'interattore;
- gel-shift assay
- Sfruttando la “protezione“ che l'interattore offre al sito
- chromatin immunoprecipitation
- Chip-Seq
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Chromatin immunoprecipitation (ChIP)
Immunoprecipitazione (IP): tecnica per
isolare un antigene (es. una proteina)
mediante il legame di un anticorpo che ci si
leghi specificamente.
Chromatin immunoprecipitation (ChIP):
tecnica per identificare dove una data
proteina si lega su una sequenza genomica
in vivo.
Procedura:
1. Si induce la formazione di legami covalenti
fra proteine e DNA (usando formaldeide o
DTBP);
2. Si lisano le cellule e si frammenta il DNA;
3. Con un anticorpo specifico per la proteina
di interesse, si isolano i frammenti di DNA
legati alla proteina stessa.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Chromatin immunoprecipitation (ChIP)
4. Il legame fra DNA e agente di cross-linking
è rotto (ad es. usando alte temperature) e il
DNA purificato;
5. La sequenza di frammenti di DNA è
determinata;
6. I frammenti sono mappati sul genoma;
7. Si può una stima quantitativa di quante
sequenze sono trovate per ogni sito.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Interazione DNA-proteine
●
Proteine leganti il DNA controllano le funzioni del genoma;
●
Gli istoni determinano la struttura della cromatina;
●
Attivatori e repressori determinano l'espressione genica;
●
●
●
Lezione 6
Sapere dove queste proteine si legano aiuta a comprendere come
funziona il genoma;
Si possono selezionare (e identificare) segmenti di DNA che
interagiscono specificamente con proteine quali:
●
Fattori di trascrizione
●
Istoni
●
RNA Polimerasi (per investigare la trascrizione del DNA)
●
DNA Polimerasi (per investigare la replicazione del DNA)
●
Enzimi di riparo del DNA
Si possono anche studiare modificazioni del DNA (ad esempio la
metilazione delle C).
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
Lo studio ed identificazione di segnali nel DNA è spesso
applicato per l'analisi dell'espressione genica.
●
Cosa attiva o disattiva un gene?
●
Quando un gene è attivato o disattivato?
●
Dove (in quali cellule, tessuti, organi) un gene è attivo?
●
Lezione 6
Quanto è attivo un gene (quante copie del suo prodotto
sono sintetizzate)?
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
Restrizione spaziale e temporale dell’espressione genica:
Geni housekeeping
Geni con espressione ristretta nello spazio
• Espressione in piu’ organi/tessuti diversi
Stesso ruolo in piu’ tessuti
Il gene codifica per diverse isoforme (promotori alternativi e/o
splicing alternativo tessuto
specifico)
• Espressione specifica per tessuto, linea o tipo cellulare
• Espressione solo in singole cellule
• Distribuzione intracellulare o extracellulare
•
Geni con espressione ristretta nel tempo
Stadio di sviluppo
Stadio di differenziamento
Momento del ciclo cellulare
Espressione inducibile da parte di fattori ambientali o extracellulari
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Controllo dell'espressione genica
L'espressione di un gene è regolata a vari livelli, con meccanismi
diversi;
La maggior parte di questi controlli è mediata da motivi di
sequenza, sul DNA, RNA o sulla proteina.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
●
●
●
●
Lezione 6
La trascrizione di ogni gene è controllata da una regione
regolatoria intorno al sito di inizio della trascrizione (transcription
start site, TSS);
Regioni che esercitano influenza sulla trascrizione possono però
essere anche molto lontane dal TSS;
La regolazione è dovuta a due tipi di componenti:
●
Sequenze (corte) di DNA regolatorio;
●
Proteine che vi si legano specificamente;
La combinazione di diversi componenti determina l'effetto
complessivo di regolazione;
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
ELEMENTI DEL PROMOTORE DELLA POL II
●
●
●
ELEMENTI COMUNI DEL PROMOTORE (CORE)
● TATA box
● Iniziatore
● Downstream promoter element
SITI DI LEGAME DI FATTORI DI TRASCRIZIONE
● CAAT box
● GC box
● Sp-1 sites
● GAGA boxes
SITI ENHANCER
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
PROMOTORE CORE
→
PROM. PROSSIMALE
→
PROMOTORE DISTALE
→
regione sufficiente a deteminare
il TSS esatto
200-300 bp upstream al TSS,
responsabile, almeno in parte,
della modulazione
dell’espressione
100 bp – 2 Mb
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
[source: Stefania Bortoluzzi 2003]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Regolazione della trascrizione
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Motivi di sequenza
●
Segnali regolatori della trascrizione:
●
Riconosciuti da proteine (fattori di trascrizione, TF);
●
Sequenze corte (5-25 bp);
●
A corta o lunga distanza dal TSS, fino a 1000 bp (o più);
●
Lezione 6
Sequenza, distanza dal TSS, e orientamento di un
motivo riconosciuto dall stesso TF sono variabili.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
TRANSFAC: http://www.gene-regulation.com/pub/databases.html#transfac
TRANSFAC matrix entry: TATA box
Campi:
Accession
ID
Descrizione
TF associati a questa entry
Matrice pesata
Numero di siti usati
Altre info
Referenze
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Banche dati di TF e motivi di sequenza
Banche dati specie-specifiche:
SCPD (yeast) http://rulai.cshl.edu/SCPD/
DPInteract (e. coli) http://arep.med.harvard.edu/dpinteract/
Drosophila DNase I Footprint Database (v2.0) http://www.flyreg.org/
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Motivi di sequenza
Come si rappresenta un motivo
●
●
●
●
●
Lezione 6
Sequenza consenso: stringa con la sequenza più frequente
posizione per posizione (+/- wildcards);
Espressione regolare;
Profilo;
Modello statistico;
Logo.
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Matrici pesate
Scanning a sequence against a PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (sum of column scores)
Relative score
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Max_score = 15.2 (sum of highest column scores)
A
C
G
T
[-0.2284
-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
Min_score = -11.0 (sum of lowest column scores)
Abs_score - Min_score
⋅ 100 %
Max_score - Min_score
13.4 - (-11.0)
=
⋅ 100% = 93%
15.2 − (− 11.0)
Rel_score =
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Logo della sequenza
●
●
●
●
●
L'altezza relativa di ogni lettera riflette la sua abbondanza nell'allineamento
multiplo; l'altezza della pila di lettere è una basata su una misura della
conservazione basata sull'entropia;
Entropia(i) = -SUM { p(base, i)* ln[p(base, i)] }
Conservazione(i) = 2- Entropia(i)
Si esprime in bits di informazione
Posizione molto conservata -> bassa entropia -> pila alta
Posizione poco conservata -> alta entropia -> pila bassa
[Wasserman, Nature Rev. 2004]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione di motivi di sequenza
Scanning a sequence against a PWM
Sp1
ACCCTCCCCAGGGGCGGGGGGCGGTGGCCAGGACGGTAGCTCC
A
C
G
T
[-0.2284 0.4368
[-0.2284 -0.2284
[ 1.2348 1.2348
[ 0.4368 -0.2284
-1.5
-1.5
2.1222
-1.5
-1.5
-1.5
-1.5 1.5128
2.1222 0.4368
-1.5 -0.2284
0.4368
-1.5
-1.5 -0.2284
1.2348 1.5128
0.4368 0.4368
-1.5 -0.2284
-1.5 -0.2284
1.7457 1.7457
0.4368
-1.5
0.4368
-1.5
-1.5
1.7457
]
]
]
]
Abs_score = 13.4 (sum of column scores)
Problema: enorme numero di predizioni positive
Quante sono false predizioni?
Livello basale di trascrizione e binding dei TF
Come ridurre il numero di false predizioni?
Analizzare il contesto in cui il sito si viene a trovare (isole CpG)
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione di motivi di sequenza
Se la specificità di un TF è nota, si tratta di analizzare sequenze
genomiche con il modello di specificità.
Se la specificità del TF non è nota, o se si vogliono identificare
nuovi motivi di interazione, il problema diventa più difficile
Alcuni fattori possono facilitare la loro identificazione:
- over-rappresentati in prossimità di TSS;
- conservazione evolutiva;
- caratteristiche strutturali.
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Identificazione di motivi di sequenza
Motivi over-rappresentati in prossimità di TSS
daf-19 Binding Sites in C. elegans
-150
GTTGTCATGGTGAC
GTTTCCATGGAAAC
GCTACCATGGCAAC
GTTACCATAGTAAC
GTTTCCATGGTAAC
-1
che-2
daf-19
osm-1
osm-6
F02D8.3
[source: Peter Swoboda]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Analisi del promotore di geni co-regolati
●
●
●
Geni espressi in maniera simile e coordinata possono essere
identificati sperimentalmente (microarrays, RT-PCR, etc.);
Supponiamo di avere a disposizione la regione del promotore di n
geni G1, G2, … Gn;
Problema: trovare siti di legame di TF senza necessariamente
conoscerne la specificità. Due approcci:
●
Ricerca esaustiva di parole;
●
Lezione 6
Modelli probabilistici;
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Consensus, Wconsensus (Hertz & Stormo, 1999)
Si cerca il motivo che conduce alla
matrice pesata con più altro
contenuto di informazione
1. Si parte da un dataset di
promotori G1, G2, … Gn
2. Si seleziona un k-mero da un
promotore Gi
3. Si costruisce una matrice dal kmero
4. Per ogni altra sequenza Gj, si
usa ogni k-mero per aggiornare la
matrice
5. Si sceglie la matrice a maggiore
contenuto di informazione
6. Si riparte dal punto 4 fino ad
esaurimento delle sequenze
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
Algoritmo di EM: Expectation-Maximization
Un algoritmo EM è un metodo per trovare la stima della massima verosimiglianza
dei parametri di un modello statistico. EM funziona iterativamente, alternando una
fase E (Expectation), in cui la verosmiglianza è calcolata stanti i parametri correnti,
e una fase M (Maximization) dove nuovi parametri sono calcolati cercando di
massimizzare la funzione usata in E.
Funziona iterativamente:
1. Generazione di un modello del motivo di sequenza
a. Inizia con un motivo (k-mero) da una posizione casuale o specificata
b. Costruisce una matrice incorporando frequenze stimate di
background
2. Identifica esempi del motivo usando il modello
a. Per ogni k-mero nel set di geni, calcola la probabilità dato il modello
b. Seleziona i k-meri a più alta probabilità
3. Revisione del modello
a. Costruisce una nuova matrice, basata sulle frequenze pesate di tutti i
k-meri pescati nel dataset
4. Continua fino a convergenza
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
1. Si parte da una serie di k-meri e si calcola la matrice pesata
[source: Benos 2007]
Lezione 4
6
GenomicaComputazionale,
Computazionale,Laurea
LaureaMagistrale
MagistraleA.A.
A.A.2010/2011
2009/2010
Genomica
MEME (Bailey & Elkan, 1995)
2. Si identificano nuovi k-meri (blu) e si ri-calcola la matrice pesata
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
3. Usando la nuova matrice pesata, alcuni dei k-meri di partenza (verdi) saranno
non più sufficientemente simili
4. Si continua finchè non si aggiungono/scartano più k-meri e i punteggi
rimangono simili
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
5. Una volta trovato un motivo, si cancella dalle sequenze del dataset e si
ricomincia
6. Si finisce una volta che i motivi trovati scendono sotto una soglia di punteggio,
e si ripete per tutti i valori di k
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
http://meme.sdsc.edu/meme/website/meme.html
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
MEME (Bailey & Elkan, 1995)
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Gibbs samplers
Altra strategia per esplorare ampi spazi conformazionali
1. Dati una serie di promotori G1, G2, … Gn, seleziona un k-mero
s1,s2, ... ,sn da ciascuno di essi
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Gibbs samplers
2. Scarta un k-mero si a caso dall'insieme s1,s2, ... ,sn
3. Calcola una matrice pesata dai rimanenti n-1
4. Usa la matrice per analizzare un altro k-mero si' dalla sequenza i da
cui era stato pescato si
5. Se lo score di si' è migliore di quello di si, prendi si', altrimenti prendi si'
con probabilità score(si')/score(si), e ricomincia
[source: Benos 2007]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su conservazione evolutiva
Approccio: usare la conservazione fra specie per migliorare la predizione di
segnali
Si basa su alcune ipotesi:
1. La funzione e la specificità di legame dei TF è ben conservata in specie
diverse sufficientemente vicine;
2. Siti funzionali nel DNA (non codificanti) sono sottoposti a una diversa
pressione selettiva rispetto alle sequenze che li circondano;
3. Geni ortologhi di specie diverse hanno espressione simile, e
necessariamente sono controllati da un simile set di TF
I metodi più usati appartengono alla classe dei metodi per phylogenetic
footprinting
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su conservazione evolutiva
Omologhi: sequenze che hanno origine comune, posono avere o no una funzione simile;
Ortologhi: omologhi prodotti da speciazione. Sono geni derivati da un ancestore comune la cui
divergenza deriva dalla divergenza delle due specie in cui si trovano. Tendono ad avere funzioni simili;
Paraloghi: omologhi prodotti da duplicazione genica. Sono geni derivati da un ancestore comune che si
è duplicato. Le due copie accumulano mutazioni e non sono soggette alla stessa pressione evolutiva.
Tendono ad avere funzioni diverse (poco o anche molto).
[Baxevanis and Ouellette, 2001]
Lezione 6
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011
Metodi basati su alberi filogenetici
●
Dati:
●
●
●
●
●
Una lunghezza stipulata del motivo k
Il punteggio massimo consentito di parsimonia d
Problema
●
Lezione 6
n sequenze ortologhe S1, S2, S3, …, Sn
un albero filogenetico T che mette in relazione
queste sequenze
Trovare il set di k-meri con score di parsimonia <= d
in T
Genomica Computazionale, Laurea Magistrale A.A. 2010/2011