Text Processing
WordNet
Basi di Dati Multimediali - Giugno 2005
Marco Ernandes: ernandes@dii.unisi.it
Fonti di riferimento:
“Introduction to WordNet: an on-line lexical database” – George A. Miller
“WordNet: a lexical database” – Marco Degemmis
Cos’è WordNet
E’ nato a Princeton (1985) dal gruppo di
linguistica e psicolinguistica.
WordNet è un vero e proprio DataBase
Relazionale Lessicale.
E’ un ontologia linguistica che rappresenta in
modo esplicito la conoscenza linguistica umana.
La conoscenza linguistica formalizzata:
è di senso comune
è domain-independent
2
A cosa serve
Nella comunità di Text Processing WordNet si
usa per aggiungere semantica.
“Semantizzare” un testo vuol dire collegarlo in
modo appropriato con il resto della base di
conoscenza posseduta: la lingua è un reticolo di
collegamenti!
Esempi di utilizzo:
Riadattamento delle tecniche di indicizzazione
Word-sense disambiguation (es: scotch whiskey o
nastro adesivo? interpretare cercare di capire o
3
recitare ?)
La filosofia di WordNet
Il concetto di parola viene definito come associazione tra
due elementi:
Word-form (forma-parola): stringa di caratteri (lettere) che
definiscono l’espressione “fisica” di una parola
Word-meaning (significato-parola): concetto lessicale espresso
dalla parola (ogni parola veicola, anche in modo sottinteso, un
senso).
Le associazioni tra forme e significati possono essere
descritti nella matrice lessicale.
Le word-form mappate su più word-meaning sono
definite: polysemous.
Word-form diverse associate alla stessa word-meaning
sono definite: synonym.
4
WordNet: i synset
Una word-meaning viene rappresentata
dall’insieme di tutte le word-form che possono
essere usate per esprimerla.
Questo insieme di word-form si chiama: synset.
(E’ lo strumento che permette di rappresentare
una word-meaning)
Le word-form sono mappate tra loro grazie ai
synset (e ad altri “puntatori”).
Le word-meaning sono mappate tra loro grazie a
5
relazioni tra synset.
Categorie lessicali e relazioni
Ci sono 4 categorie lessicali (giustificate dalla
psicolinguistica): nomi, verbi, aggettivi, avverbi
I nomi sono legati da 2 tipologie di relazioni:
Relazioni lessicali: si instaurano tra word-forms (sia tra
forme contenute nello stesso synset sia esterne).
• synomymy vs. antonymy (per l’inglese ci sono anche le
relazioni morfologiche)
Relazioni semantiche: si instaurano tra word-meaning.
• hyponymy vs. hyperonymy
• meronymy vs. holonymy
Alcuni aggettivi possono essere in relazione
synonimy vs. antonymy
I verbi possiedono la relazione di entailment.
6
Relazioni Lessicali
Synonymy: due word-form sono sinonime se
sostituendo l’una con l’altra non si cambia il
valore di verità di una frase.
Le word-form sinonime appaiono nello stesso synset
Antonymy “!”: due word-form sono antonime se il
loro significato è opposto.
A opposto di B non implica che A = not(B) !!!
es: alto e basso.
Per l’antonimia esiste un vero puntatore da una
word_form a un’altra. Non vale tra synset!
7
Relazioni semantiche 1
Hyponymy “~”: relazione “is a” (sottoinsieme).
Un synset A è hyponym di un synset B se A “è del tipo di” B.
Es: associazione hypo organizzazione,
carpa hypo pesce, abete hypo albero.
La relazione deve valere per ogni forma all’interno dei
synset (CHE SUCCEDE ALTRIMENTI?)
Hyperonymy “@”: relazione inversa
dell’hyponymy (famiglia di appartenenza)
Un synset A è hyponym di un synset B se B “è del tipo di” A.
Es: felino hyper gatto, laureato hyper ingegnere
8
Relazioni semantiche 2
Meronymy “%”: relazione “part of” (componente
di).
Un synset A è meronym di un synset B se A “è un
componente di” B.
Es: volante mero auto, argento mero specchio.
Attenzione: i meronym non sono tutti “part of”! (es: argento e
specchio)
Holonymy “#”: relazione inversa di meronymy
Un synset A è holonym di un synset B se B “è componente
di” A.
Es: aeroplano holo carlinga, computer holo CPU
9
Relazioni semantiche 3
La relazione di “part-of” non rappresenta tutte le
possibili meronimie!
Tipi di meronimia:
componente-oggetto: ramo / albero, motore / auto, ala / aereo
membro-insieme:
albero / foresta, pecora / gregge
parte-massa:
fetta / torta
materia-oggetto:
sabbia / specchio
caratteristica-attività: pagamento / acquisto
posto-zona:
provincia / regione / nazione / continente
fase-processo:
adolescenza / crescita
10
Relazioni semantiche 4
WordNet costituisce una foresta di alberi tramite la
relazione di iperonimia e iponimia.
Ci sono 25 radici: organismi, sostanza, etc…
queste radici stabiliscono 25 diversi campi semantici strutturati ad
albero.
vale il principio di ereditarietà
I nomi non sono collegati ad altre categorie lessicali (es:
nomi-verbi, nessuna relazione inter-category):
NO: relazioni di attributo (es: canarino giallo)
NO: relazioni di funzionalità (es: canarino volare)
Sì: relazioni di componente (es: canarino ala).
11
Esempio MultiWordNet
{oggetto}
~
@
{artefatto}
~
{computer, data_processor, electronic_computer,
@
Information_processing_system}
{strumentazione}
~
@
{apparecchio, arnese, congegno, dispositivo}
~
@
| = corresponds_to
{macchina}
~
@
{elaboratore, computer, cervello_elettronico, calcolatore}
%
%
#
#
{monitor, schermo, video}
12
{cpu, unità centrale di elaborazione}
Gli aggettivi
Gli aggettivi attribuiscono una proprietà ad un nome.
Aggettivi descrittivi: associano un
valore ad un certo attributo del
nome. ES: “sedia grande”
stabilisce il valore dell’attributo
dimensione(sedia) = grande.
Possiedono la relazione di
sinonimia/antonimia (diretta e
indiretta).
Aggettivi relazionali: derivano da un nome.
Es: “igienico”, “dentale”, “familiare”, etc…
Possiedono un puntatore al nome dal quale derivano.
Non possiedono antonimi!
13
I verbi
I verbi sono il nucleo semantico di una frase: stabiliscono una relazione tra i diversi elementi della frase.
Il verbo A “entails” il verbo B, se lo svolgimento del
primo implica lo svolgimento del secondo.
ES: russare entails dormire / parlare entails comunicare
Le relazioni tra verbi sono di 2 tipologie:
Entailment “*”
• Troponymy
• Co-extensiveness
• Proper-Inclusion
• Backward-Presupposition
Cause “>”
14
Verbi: le relazioni
L’entailment troponymy è simile all’hyponymy nei
nomi:
Il verbo A è troponimo del verbo B se l’attività indicata da A è
“del tipo” dell’attività di B.
La troponymy si verifica tra verbi legati da:
“co-extensiveness”, cioè avvengono in modo assolutamente
sincrono.
• Es: scivolare / muoversi – correre / muoversi – zoppicare /
camminare / riposarsi – dormire
• La relazione inversa è l’hyperonym
proper-inclusion: il verbo A è incluso nel verbo B se A avviene
mentre avviene B (ma non è detto il contrario)
• Es: russare / dormire – virare / navigare
15
Verbi: le relazioni
Backward-presupposition:
Il verbo A presuppone il verbo B se il verificarsi
(temporalmente anteriore) di B è necessario affinchè si
verifichi di A.
Es: vincere / partecipare – colpire / mirare
Cause “>”:
il verbo A è in relazione di causa con il verbo B se il verificarsi
di A (verbo causative) produce come conseguenza B (verbo
resultative).
Es: lasciare_in_eredità / possedere – bere / dissetarsi
Cause è trattato come una relazione a parte (non è un
entailment).
16
Un po’ di numeri
Inglese:
# synsets
# word forms
# relazioni
# verbi, nomi, aggettivi, avverbi
17
Un po’ di numeri
Statistiche sui nomi (nel 2004)
Inglese:
# synsets = ca. 102.000
# word forms = ca. 125.000
# relazioni = ca. 125.000
Italiano:
# synsets: ca. 34000 (collegati all’inglese)
# word forms: ca. 41000
18