Teoria Decisionale Bayesiana
1
Cosimo.Distante@imm.cnr.it
Introduzione
• Consideriamo l’esempio del salmone/spigola
– Stato della natura, probabilità a priori
• Lo stato della natura è una variabile aleatoria
• La scelta del salmone e del branzino è equiprobabile
– P(ω1) = P(ω2) (probabilità a priori uniforme)
– P(ω1) + P( ω2) = 1 (esclusività e esaustività)
2
Cosimo.Distante@imm.cnr.it
• Regola di decisione con la sola informazione a
priori
– Decidi ω1 se P(ω1) > P(ω2) altrimenti decidi ω2
• Uso della classe – informazione condizionale
• P(x | ω1) e P(x | ω2) descrivono le differenze in
luminosità tra le popolazioni di branzini e salmoni.
3
Cosimo.Distante@imm.cnr.it
4
Cosimo.Distante@imm.cnr.it
• Posteriori, verosimiglianza, evidenza
–
P(ω j | x) =
P(x | ω j ) ⋅ P (ω j )
P(x)
– Dove nel caso a due classi
2
P ( x) = ∑ P ( x | ω j ) P(ω j )
j =1
Verosimiglianza ⋅ Prob. Priori
– Prob. Posteriori =
Evidenza
5
Cosimo.Distante@imm.cnr.it
6
Cosimo.Distante@imm.cnr.it
• Decisione date le probabilità a posteriori
x è un’osservazione per cui:
se P(ω1 | x) > P(ω2 | x)
se P(ω1 | x) < P(ω2 | x)
il vero stato naturale = ω1
il vero stato naturale = ω2
Pertanto:
ogni qualvolta osserviamo un particolare x, la
probabilità di commettere errore è data da:
P(errore | x) = P(ω1 | x) se decidiamo ω2
P(errore | x) = P(ω2 | x) se decidiamo ω1
7
Cosimo.Distante@imm.cnr.it
• Minimizzare la probabilità di errore
• Decidi ω1 se P(ω1 | x) > P(ω2 | x);
altrimenti decidi ω2
Pertanto:
P(errore | x) = min [P(ω1 | x), P(ω2 | x)]
(Decisione di Bayes)
8
Cosimo.Distante@imm.cnr.it
Teoria Decisionale Bayesiana –
Features Continue
• Generalizziamo le idee precedenti
– Uso di più di una feature (attributo)
– Uso più di due classi da riconoscere
– Non solo decido lo stato della natura ma
permetto anche la scelta di eventuali azioni
– Introdurre una loss-function (funzione di
errore/perdita) che risulta più generale della
probabilità di errore
9
Cosimo.Distante@imm.cnr.it
• Scegliere azioni piuttosto che principalmente
classificare ci permettere di introdurre la
possibilità di rigettare
• Rifiutare di prendere una decisione quando si è
certi di essere in casi molto dubbi!
• La funzione errore ci permette di calcolare quanto
ci costa intraprendere ciascuna singola azione
10
Cosimo.Distante@imm.cnr.it
Siano {ω1, ω2,…, ωc} l’insieme di c stati della
natura (o “categorie/classi”)
Siano {α1, α2,…, αa} l’insieme delle possibili
azioni
Sia λ(αi | ωj) la perdita/errore inferito
nell’intraprendere l’azione αi quando lo stato
della natura è ωj
11
Cosimo.Distante@imm.cnr.it
Rischio totale
R = Somma di tutti R(αi | x) per i = 1,…,a
Rischio Condizionato
Minimizzare R
Minimizzare R(αi | x) per i = 1,…, a
c
R(α i | x) = ∑ λ (α i | ω j ) P(ω j | x)
j =1
per i = 1,…,a
12
Cosimo.Distante@imm.cnr.it
Una regola di decisione generale è la funzione α(x)
Che ci dice quale azione intraprendere per ogni
possibile osservazione
Per ogni osservazione α(x) assume uno dei valori
α1, α2,…, αa
R = ∫ R(α i | x) p (x)dx
13
Cosimo.Distante@imm.cnr.it
Seleziona l’azione αi per cui R(αi | x) è minimo
R è minimo, ed R in questo caso è chiamato
Rischio di Bayes = migliori performance che
possono essere raggiunte!
14
Cosimo.Distante@imm.cnr.it
• Classificazione a due classi
α1 : decidi ω1
α2 : decidi ω2
λij = λ(αi | ωj)
Perdita ottenuta nel decidere ωi quando il vero stato della
natura ωj
Rischio Condizionato:
R(α1 | x) = λ11P(ω1 | x) + λ12P(ω2 | x)
R(α2 | x) = λ21P(ω1 | x) + λ22P(ω2 | x)
15
Cosimo.Distante@imm.cnr.it
La nostra regola è la seguente:
se R(α1 | x) < R(α2 | x)
azione α1: “decidi ω1” è intrapresa
Questo risulta nella seguente regola:
decidi ω1 se:
(λ21- λ11) P(x | ω1) P(ω1) >
(λ12- λ22) P(x | ω2) P(ω2)
altrimenti decidi ω2
16
Cosimo.Distante@imm.cnr.it
Rapporto di verosimiglianza:
La precedente regola “decidi ω1” è equivalente alla seguente
regola (con il vincolo che λ21>λ11):
P ( x | ω1 ) λ12 − λ22 P(ω2 )
se
>
.
P ( x | ω2 ) λ21 − λ11 P(ω1 )
Allora intraprendi l’azione α1 (decidi ω1)
altrimenti intraprendi α2 (decidi ω2)
17
Cosimo.Distante@imm.cnr.it
Proprietà di decisione ottimale
“Se il rapporto di verosimiglianza eccede una
certa soglia indipendente dal pattern di input
x, noi possiamo intraprendere azioni ottimali”
18
Cosimo.Distante@imm.cnr.it
Esercizio
Seleziona la decisione ottimale in cui:
Ω = {ω1, ω2}
P(x | ω1)
P(x | ω2)
P(ω1) = 2/3
P(ω2) = 1/3
N(2, 0.5) (distribuzione Normale)
N(1.5, 0.2)
⎡1 2⎤
λ=⎢
⎥
⎣3 4 ⎦
19
Cosimo.Distante@imm.cnr.it
• Minimum-Error-Rate Classification
• Classificatori, Funzioni Discriminanti e
Superfici Decisionali
• La Densità Normale
20
Cosimo.Distante@imm.cnr.it
Minimum-Error-Rate Classification
• Nei problemi di classificazione, le azioni sono
decisioni circa le classi di appartenenza
Se l’azione αi è eseguita ed il vero stato della natura è ωj
allora:
la decisione è corretta se i = j ma in errore se i ≠ j
• Trova una regola di decisione che minimizza la
probabilità di errore che è denominato error rate
21
Cosimo.Distante@imm.cnr.it
• Introduzione della funzione penalità/errore zero-uno:
⎧0 i = j
λ (α i | ω j ) = ⎨
⎩1 i ≠ j
i, j = 1,..., c
Perciò il rischio condizionato è:
c
R(α i | x) = ∑ λ (α i | ω j ) P(ω j | x)
j =1
= ∑ P(ω j | x) = 1 − P(ωi | x)
j ≠i
“Il rischio corrispondente a questa funzione errore è la
probabilità media di errore”
22
Cosimo.Distante@imm.cnr.it
• Minimizzare il rischio significa massimizzare
P(ωi | x)
(poiché R(αi | x) = 1 – P(ωi | x))
• Per il minimo error rate
– Decidi ωi se P (ωi | x) > P(ωj | x) ∀j ≠ i
23
Cosimo.Distante@imm.cnr.it
• Regioni di decisione e funzione errore zero-uno:
λ12 − λ22 P(ω2 )
P( x | ω1 )
= θ λ allora decidi ω1 se :
> θλ
Sia
.
λ21 − λ11 P(ω1 )
P( x | ω2 )
• Se λ è la funzione errore zero-uno che significa:
⎛ 0 1⎞
⎟⎟
λ = ⎜⎜
⎝1 0 ⎠
allora θ λ = 1 ⋅
P(ω2 )
= θa
P(ω1 )
⎛0 2 ⎞
2 P(ω2 )
⎟⎟ allora θ λ =
se λ = ⎜⎜
= θb
P(ω1 )
⎝1 0 ⎠
La soglia aumenta se noi classifichiamo pattern di ω2 come ω1
24
Cosimo.Distante@imm.cnr.it
25
Cosimo.Distante@imm.cnr.it
Classificatori, Funzioni
Discriminanti e Superfici di
Decisione
• Il caso multi-categoria
– Insiemi di funzioni discriminanti gi(x), i = 1,…, c
– Il classificatore assegna un vettore di feature x alla
classe ωi
se è valida la seguente relazione:
gi(x) > gj(x) ∀j ≠ i
26
Cosimo.Distante@imm.cnr.it
27
Cosimo.Distante@imm.cnr.it
• Sia gi(x) = - R(αi | x)
(massimo discriminante corrisponde al minimo rischio!)
• Per il minimo errore, otteniamo
gi(x) = P(ωi | x)
(massima discriminazione corrisponde alla massima
probabilità a posteriori!)
gi(x) ≡ P(x | ωi) P(ωi)
gi(x) = ln P(x | ωi) + ln P(ωi)
(ln: logaritmo naturale!)
28
Cosimo.Distante@imm.cnr.it
• Spazio delle feature diviso in c regioni di decisione
se gi(x) > gj(x) ∀j ≠ i allora x è in Ri
(Ri significa assegna x a ωi)
• Il caso a due categorie
– Un classificatore è una “dicotomizzatore”
dicotomizzatore che ha due
funzioni discriminanti g1 e g2
Sia g(x) ≡ g1(x) – g2(x)
Decidi ω1 se g(x) > 0 ; Altrimenti decidi ω2
29
Cosimo.Distante@imm.cnr.it
Quindi il classificatore a due classi può essere visto
come una macchina che calcola una singola funzione
discriminante g(x), che classifica x in base al segno
algebrico del risultato
– Il calcolo di g(x)
g( x ) = P ( ω 1 | x ) − P ( ω 2 | x )
P( x | ω1 )
P( ω1 )
= ln
+ ln
P( x | ω 2 )
P( ω 2 )
30
Cosimo.Distante@imm.cnr.it
31
Cosimo.Distante@imm.cnr.it
La Densità Normale
• La struttura di un classificatore di Bayes è
determinata da
9p(x|ωi)
9P(ωi)
Di tutte le funzioni densità di probabilità investigate quella che ha
ricevuto maggior interesse è la Gaussiana
La densità multivariata è un modello appropriato per
casi reali in cui:
– x è un vettore di feature a valori continui per una data classe ωi
– x è generalmente è una versione corrotta del vettore prototipo μi
32
Cosimo.Distante@imm.cnr.it
La Densità Normale
• Densità Univariata
–
–
–
–
Densità analiticalmente trattabile
Densità continua
Parecchi processi sono asintoticamente Gaussiani
Caratteri scritti a mano, segnali vocali sono prototipi corrotti da processi
random (teorema centrale del limite).
limite Ossia l’effetto aggregato della somma
di un numero di piccoli ed indipendenti disturbi conduce alla distribuzione
Gaussiana
P( x ) =
2
⎡
1
1⎛ x−μ⎞ ⎤
exp ⎢ − ⎜
⎟ ⎥,
2π σ
⎢⎣ 2 ⎝ σ ⎠ ⎥⎦
Dove:
μ = media (o valore atteso) di x
σ2 = deviazione quadratica attesa o varianza
33
Cosimo.Distante@imm.cnr.it
34
Cosimo.Distante@imm.cnr.it
• Vi è una stretta relazione tra la distribuzione
normale e l’entropia
H ( p ( x)) = − ∫ p ( x) log p ( x)dx
• Tra tutte le funzioni densità continue, quella
Gaussiana N(μ ,σ2) ha la massima entropia
H = 0.5 + log 2 ( 2π σ ) bits
35
Cosimo.Distante@imm.cnr.it
• Densità Multivariata
– Densità Normale Multivariata in d dimensioni è:
P( x ) =
1
( 2π )
d/2
Σ
1/ 2
⎡ 1
⎤
t
−1
exp ⎢ − ( x − μ ) Σ ( x − μ )⎥
⎣ 2
⎦
dove:
x = (x1, x2, …, xd)t (t trasposto)
μ = (μ1, μ2, …, μd)t media
Σ = d*d matrice di covarianza
|Σ| e Σ-1 sono determinante e inversa rispettivamente
36
Cosimo.Distante@imm.cnr.it
Combinazioni lineari di variabili aleatorie congiunte normalmente
distribuite, indipendenti o meno, sono normalmente distribuite
Se p(x)~N(μ ,∑),
A(d×k) matrice
y=Atx vettore k-dimensionale,
allora p(y)~N(Atμ,At∑A)
Aw = ΦΛ−1/ 2
autovettori
Nel caso speciale in cui k=1, A è un vettore di
lunghezza unitaria a allora
y=atx
è uno scalare che rappresenta la proiezione di x
su una linea nella direzione di a
at∑a rappresenta la varianza della proiezione di
x su a
In generale la conoscenza della matrice di
varianza ci permette di calcolare la
dispersione dei dati in qualsiasi
direzione, oppure in qualsiasi
sottospazio
37
Cosimo.Distante@imm.cnr.it
autovalori
La densità normale multivariata è interamente specificata da d+d(d+1)/2 parametri
ossia gli elementi del vettore media μ e gli elementi indipendenti della matrice ∑
Campioni ottenuti da una stessa popolazione di oggetti normalmente distribuiti,
tendono a formare una nebulosa (cluster) individuata da μ e ∑ (centro e
dispersione)
La quantità
r 2 = ( x − μ )t Σ −1 ( x − μ )
definisce la distanza quadrata di Mahalobis
38
Cosimo.Distante@imm.cnr.it
Funzioni Discriminanti per la densità Normale
Teoria di Decisione Bayesiana– Features Discrete
39
Cosimo.Distante@imm.cnr.it
Funzioni Discriminanti per la
distribuzione Normale
• Abbiamo visto che il minimo errore di
classificazione può essere ottenuto dalla funzione
discriminante
gi(x) = ln P(x | ωi) + ln P(ωi)
• Caso Normale Multivariato
1
d
1
−1
g i ( x) = − ( x − μi )t ∑i ( x − μi ) − ln 2π − ln Σ i + ln P(ωi )
2
2
2
40
Cosimo.Distante@imm.cnr.it
• Caso Σi = σ2·I
(I matrice Identità)
g i ( x) = wit x + wi 0 (funzione lineare discriminante)
dove :
μi
1 t
wi = 2 ; wi 0 = − 2 μi μi + ln P(ωi )
σ
2σ
(ωi 0 è chiamata la soglia per la i - esima categoria!)
41
Cosimo.Distante@imm.cnr.it
– Un classificatore che usa funzioni lineari discriminanti
è chiamato “una macchina lineare”
lineare
– Le superfici di decisione per una macchina lineare
sono pezzi di iperpiani definiti da :
gi(x) = gj(x)
che per il nostro particolare caso si può riscrivere come:
w t (x − x 0 ) = 0 dove w = μ i − μ j
42
Cosimo.Distante@imm.cnr.it
43
Cosimo.Distante@imm.cnr.it
– L’iperpiano che separa Ri e Rj
σ2
1
x0 = ( μ i + μ j ) −
2
μi − μ j
2
P( ω i )
ln
( μi − μ j )
P( ω j )
sempre ortogonale alla linea congiungente le
medie!
1
se P(ωi ) = P (ω j ) allora x0 = ( μi + μ j )
2
44
Cosimo.Distante@imm.cnr.it
45
Cosimo.Distante@imm.cnr.it
46
Cosimo.Distante@imm.cnr.it
• Caso Σi = Σ (la covarianza di tutte le classi
sono identiche ma altrimenti arbitrarie!)
L’iperpiano che separa Ri e Rj
w = Σ −1 (μ i − μ j )
[
]
Rj
ln P ( ω i ) / P ( ω j )
1
x0 = ( μ i + μ j ) −
.( μ i − μ j )
t
−1
2
( μ i separa
− μ j ) Σ ( μand
i −μj ) è
(l’iperpiano
che
Ri
generalmente non ortogonale alla linea
congiungente le medie!)
47
Cosimo.Distante@imm.cnr.it
48
Cosimo.Distante@imm.cnr.it
49
Cosimo.Distante@imm.cnr.it
• Caso Σi = arbitratio
– Le matrici di covarianza sono differenti per ciascuna
categoria
g i ( x ) = x tWi x + wit x + wi 0
dove :
1 −1
Wi = − Σi
2
w i = Σ i−1 μ i
w i0
1 t −1
1
= − μ i Σ i μ i − ln Σ i + ln P (ω i )
2
2
(Iperquadriche che sono: iperpiani, coppie di iperpiani,
ipersfere, iper-ellissoidi, iper-paraboloidi, iper-iperparaboloidi)
50
Cosimo.Distante@imm.cnr.it
51
Cosimo.Distante@imm.cnr.it
52
Cosimo.Distante@imm.cnr.it
Esempio
Assumiamo:
Quindi impostando
g1(x) = g2(x)
Otteniamo l’intorno decisionale
Nota che il vertice dell’iperbola passa per (3 , 1.83) e non per il punto medio (3 , 2).
Perchè?
53
Cosimo.Distante@imm.cnr.it
Probabilità di Errore e Integrali
Possiamo ottenere maggiori dettagli se analizziamo la sorgente di
errori che si possono commettere in un classificatore di Bayes
Consideriamo il caso a due categorie, quindi due possibili errori:
R2
X in R1
X in
ma il vero stato della natura è ω1
ma il vero stato della natura è ω2
54
Cosimo.Distante@imm.cnr.it
Probabilità di Errore e Integrali
55
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
Usata in psicologia sperimentale e rilevazione radar
Supponiamo di voler rilevare un singolo impulso molto debole (per
esempio radar)
Il nostro rilevatore osserva in qualche istante
un segnale interno di tensione x,
media dei valori μ2 quando il segnale esterno è presente
media dei valori μ1 quando il segnale esterno NON è presente
P(x|ωi)~N(μi ,σ2)
56
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
P(x|ωi)~N(μi ,σ2)
57
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
Consideriamo che non conosciamo
x* e neppure le medie e varianze delle distribuzioni
Vogliamo trovare un parametro per capire se
l’impulso è presente o meno nel rilevatore in una
forma indipendente da x*.
Una tale misura è denominata con discriminability
Essa descrive la proprietà invariante del segnale
interno causato dal rumore e dalla forza del segnale
ma non dalla strategia della decisione (x*)
58
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
Definiamo il potere discriminante come segue
Un valore grande di d’ sarebbe desiderabile
Pur non conoscendo x*, μ1, μ2 e σ conosciamo la
decisione del sistema e lo stato della natura (quando
è presente un impulso o meno)
59
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
60
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
Se abbiamo un gran numero di osservazioni e
conosciamo x* possiamo calcolare queste probabilità
sperimentalmente. Le prime due particolarmente
Possiamo rappresentare con un grafico 2D le prob.
di falsi allarmi e corretta decisione (hit).
Se invece variamo x* (ovvero d’), anche le due prob.
varieranno
61
Cosimo.Distante@imm.cnr.it
Receiver Operating Characteristic (ROC – Curve)
62
Cosimo.Distante@imm.cnr.it
Bayes Decision Theory – Discrete
Features
• Le componenti di x sono binarie o a valori interi, x
può assumere solo uno degli m valori discreti
v1, v2, …, vm
• Caso di feature binarie indipendenti per un problema
a 2 categorie
Sia x= [x1, x2, …, xd ]t in cui ciascuna xi può essere 0
oppure 1, con probabilità:
pi = P(xi = 1 | ω1)
qi = P(xi = 1 | ω2)
63
Cosimo.Distante@imm.cnr.it
Bayes Decision Theory – Discrete
Features
d
P( x | ω1 ) = ∏ pixi (1 − pi )1− xi
i =1
d
P ( x | ω2 ) = ∏ qixi (1 − qi )1− xi
Rapporto di verosimiglianza
i =1
⎛p ⎞
P( x | ω1 )
= ∏ ⎜⎜ i ⎟⎟
P( x | ω2 ) i =1 ⎝ qi ⎠
d
g ( x) =
xi
⎛ 1 − pi ⎞
⎜⎜
⎟⎟
⎝ 1 − qi ⎠
1− xi
P( x | ω1 )
P(ω1 )
+ ln
P( x | ω2 )
P(ω2 )
⎡
p
1 − pi ⎤
P (ω1 )
+
ln
= ∑ ⎢ xi ln i + (1 − xi ) ln
⎥
qi
1 − qi ⎦
P(ω2 )
i =1 ⎣
d
64
Cosimo.Distante@imm.cnr.it
• La funzione discriminante in questo caso è:
d
g ( x) = ∑ wi xi + w0
i =1
dove :
pi (1 − qi )
wi = ln
qi (1 − pi )
i = 1,..., d
e:
1 − pi
P(ω1 )
+ ln
w0 = ∑ ln
1 − qi
P (ω2 )
i =1
d
decidi ω1 se g(x) > 0 e ω2 se g(x) ≤ 0
65
Cosimo.Distante@imm.cnr.it
Esempio
Problema a 2 classi con 3 features binarie.
Costruiamo l’intorno decisionale di Bayes nel caso P(ω1)=P(ω2)=0.5 e
pi=0.8 e qi=0.5 per i=1,2,3
3
Dalle equazioni precedenti calcoliamo g ( x) = ∑ wi xi + w0
wi = ln
i =1
pi (1 − qi )
0.8(0.8 − 0.5)
= ln
= 1.3863
0.5(1 − 0.8)
qi (1 − pi )
3
w0 = ∑ ln
i =1
3
1 − pi
P(ω1 )
+ ln
1 − qi
P(ω2 )
= ∑ ln
i =1
1 − 0.8
0.5
+ ln
= 1.2
1 − 0.5
0.5
66
Cosimo.Distante@imm.cnr.it